首先登录美团网,随便搜索一个关键字,如"肯德基",查看网络请求。按下F12调试,点击Network,进行翻页操作,已抓取多包数据。对包进行分析,搜索关键词定位所需内容,发现返回json格式数据包。对响应结果与请求方式重点分析接口,复制响应数据,用json在线工具解析。分析得知有用信息包含在searchResult内,一...
python-爬取美团店铺信息-请求参数简单逆向
通过此文章你可简单了解网站参数逆向过程,初步体验爬虫的乐趣。
爬取对象:web端
获取数据形式:API接口,返回json数据
绕过身份验证方式:登录信息缓存
首先登录美团网,随便搜索一个关键字,如"肯德基",查看网络请求。
按下F12调试,点击Network,进行翻页操作,已抓取多包数据。
对包进行分析,搜索关键词定位所需内容,发现返回json格式数据包。
对响应结果与请求方式重点分析接口,复制响应数据,用json在线工具解析。
分析得知有用信息包含在searchResult内,一个object对应一个商店信息,提取店名、分类、经纬度、人均消费等。
分析请求方式,识别用户身份的id、分页数量limit、搜索关键字q、会话缓存token,允许直接请求接口,无需登录。
研究payload数据发现,每换一页,offset数值增加32,表示请求的页面序号。
搜索其他关键字,如"麦当劳",参数规律与预期相符,推测红色方框位置参数为城市编号。
通过点击切换城市,得到所有城市信息页面,快速定位接口,发现openCityList字典存储各城市信息。
解析得知佛山对应id为92,即为城市编号。
接口逆向过程至此结束,利用Python编写代码验证可行,已成功打印10页数据。
完成整个流程,掌握API请求方法与参数解析,为后续爬虫项目打下基础。2024-11-21