如果网页内容是由javascript生成的,应该怎么实现爬虫

对于提到的两种方法,抓包分析获取请求的参数和驱动浏览器内核执行 js 代码,两种方法各有优点,选择适合你的方式就好。抓包分析,这个方法的优点是抓取的速度快,取得数据结构比较好,处理起来简单,很多是 json 格式的数据,但是抓包分析需要大量的时间,这里的时间是指需要模拟需要获取数据的之前的一个或者...
如果网页内容是由javascript生成的,应该怎么实现爬虫
对于提到的两种方法,抓包分析获取请求的参数和驱动浏览器内核执行 js 代码,两种方法各有优点,选择适合你的方式就好。
抓包分析,这个方法的优点是抓取的速度快,取得数据结构比较好,处理起来简单,很多是 json 格式的数据,但是抓包分析需要大量的时间,这里的时间是指需要模拟需要获取数据的之前的一个或者几个请求,涉及到 headers 里的很多参数,有时候还设计到数据加密,这个过程你可能需要读 js 源码,才能解决问题。所以这个方式适合那些请求参数较少,数据结构比较好的网站。
2. 驱动浏览器内核,这个方法的优点是编程实现比较简单,只要学会了驱动浏览器的 api 就可以在很少的改动下用于很多不同网站的抓取。但是缺点也很明显,慢,占用的资源比较多,不如抓包分析获取数据灵活。
我以前抓取的好多网站都是用抓包分析的方式,还分析了好多网站的登录的机制,用 Python 重写 js 的请求,做模拟登录,对于抓包分析有些偏执,但是我现在的观点是:用最少的时间成本来解决问题,这里的时间成本是指编程时间和抓取的时间之和。当然你如果是学习的话,我建议两种方式都学。
2017-11-02
mengvlog 阅读 265 次 更新于 2025-09-09 09:30:37 我来答关注问题0
  •  文暄生活科普 怎么开启JavaScr

    谷歌浏览器: 点击右上角的扳手->“选项”->“高级选项”->“内容设置”->调整“JavaScript”设置为“运行所有网站运行JavaScript”。 世界之窗浏览器: 进入“工具”->“选项”->“页面设置”,取消“不执行Java小程序”选项。 Avant浏览器: 在菜单栏选择“工具”,取消“禁止运行Java...

  •  初出茅庐pp 浏览网业的时候 总会自己弹出另外一些网业,那位兄弟告诉我怎么办哦。

    其实,许多时候这种弹出窗口都是利用在网页里添加Javascript来实现的,我们只要IE禁止执行Javascritp也就可以达到效果了。具体的步骤是:打开IE浏览器的“工具”菜单,选择“Internet选项”,在弹出的对话框中选择“高级”选项卡,取消其中的“启用Java JIT编译器”的选择,然后重新启动计算机就可以了。当然这...

  •  知心答疑小仙女 如何创建自己的网页?

    要注册网站域名,购买或者租用到网站的空间。上传内容,上传图文和视频等内容就可以创建自己的网站了。现在市场上很多各式各样的网站搭建工具,网站制作平台,任意找一个自己用起来易上手的工具即可。网站搭建工具中一般都有模板提供,可以按照行业、风格、类型来选择自己中意的模板。选好后就可以套用,网站...

  •  浮清韵 如何制作一个网页页面

    1.首先启动Dreamweaver,确保你已经用站点管理器建立好了一个网站(根目录)。 为了制作方便,请您事先打开资源管理器,把要使用的图片收集到网站目录images文件夹内。2 2.然后在创建新项目下面点击HTML,下面常用到的有javascrpt,和CSS样式。3.进入页面编辑设计视图状态。在一般情况下,编辑器默认左对齐...

  •  zzncszj 如何做网站和网页

    如果是如何制作网页简单的方法,那第二种是为简单的,如果是复杂的话,那传统的网站建设是难的。选用自助建站平台,有的自助建站平台是提供免费空间和网站域名的,选用这种建站平台可以简化网页制作的步骤,使得过程更为简单。如果建站平台没有提供域名和空间的,那需要自己去购买网站域名和网站空间,一般搜索...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部