python 爬取马蜂窝景点翻页文字评论的实现

2019年11月30日作者：MobChaos原文

使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html)。

首先，我们复制一段评论，查看网页源代码，按Ctrl+F查找，发现没有找到评论，说明评论内容不在http://www.mafengwo.cn/poi/5426285.html页面。

回到页面，划到评论列表，右键检查，选择Network，然后点击后一页翻页，观察Network里的变化，我们要爬的文件就在下面的某个文件里（主要找XHR和JS两个模块）。选择Preview可以更好的让我们寻找我们想要的文件，然后选择Headers找到我们要爬的url。

经过分析我们找到要爬取的url是http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18102698237405245767_1579401525334¶ms=%7B%22poi_id%22%3A%225426285%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_ts=1579402072160&sn=20e98d65a0&=1579402072161
然而点进去是这样的

这个时候对比一下这两个页面的Request Headers，发现原页面多了个Refer参数

原页面

然后看一下请求get请求需要的参数Query String Parameters，其中poi_id是景点id，page是评论页面（翻页只用改变page的值就行）。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持来客网。