如果网页内容是由javascript生成的,应该怎么实现爬虫

对于提到的两种方法,抓包分析获取请求的参数和驱动浏览器内核执行 js 代码,两种方法各有优点,选择适合你的方式就好。抓包分析,这个方法的优点是抓取的速度快,取得数据结构比较好,处理起来简单,很多是 json 格式的数据,但是抓包分析需要大量的时间,这里的时间是指需要模拟需要获取数据的之前的一个或者...
如果网页内容是由javascript生成的,应该怎么实现爬虫
对于提到的两种方法,抓包分析获取请求的参数和驱动浏览器内核执行 js 代码,两种方法各有优点,选择适合你的方式就好。
抓包分析,这个方法的优点是抓取的速度快,取得数据结构比较好,处理起来简单,很多是 json 格式的数据,但是抓包分析需要大量的时间,这里的时间是指需要模拟需要获取数据的之前的一个或者几个请求,涉及到 headers 里的很多参数,有时候还设计到数据加密,这个过程你可能需要读 js 源码,才能解决问题。所以这个方式适合那些请求参数较少,数据结构比较好的网站。
2. 驱动浏览器内核,这个方法的优点是编程实现比较简单,只要学会了驱动浏览器的 api 就可以在很少的改动下用于很多不同网站的抓取。但是缺点也很明显,慢,占用的资源比较多,不如抓包分析获取数据灵活。
我以前抓取的好多网站都是用抓包分析的方式,还分析了好多网站的登录的机制,用 Python 重写 js 的请求,做模拟登录,对于抓包分析有些偏执,但是我现在的观点是:用最少的时间成本来解决问题,这里的时间成本是指编程时间和抓取的时间之和。当然你如果是学习的话,我建议两种方式都学。
2017-11-02
mengvlog 阅读 6 次 更新于 2025-07-20 15:19:30 我来答关注问题0
  •  文暄生活科普 怎么开启JavaScr

    谷歌浏览器: 点击右上角的扳手->“选项”->“高级选项”->“内容设置”->调整“JavaScript”设置为“运行所有网站运行JavaScript”。 世界之窗浏览器: 进入“工具”->“选项”->“页面设置”,取消“不执行Java小程序”选项。 Avant浏览器: 在菜单栏选择“工具”,取消“禁止运行Java...

  •  myyunfeng 有些网页不能另存该怎么搞

    首先我要说到前面,有的是用了框架来显示的,你一定要找到显示内容的真实页面。1、 看能查看源代码不,能的话简单,找到真实页面, 存源代码。然后把文件改成 *.htm 就可以了。2、 如果不能看源代码,先到internet选项把javascrpt禁用。然后重复第一步,解决。3、所有的限制都是有针对性地,我再...

  •  初出茅庐pp 浏览网业的时候 总会自己弹出另外一些网业,那位兄弟告诉我怎么办哦。

    其实,许多时候这种弹出窗口都是利用在网页里添加Javascript来实现的,我们只要IE禁止执行Javascritp也就可以达到效果了。具体的步骤是:打开IE浏览器的“工具”菜单,选择“Internet选项”,在弹出的对话框中选择“高级”选项卡,取消其中的“启用Java JIT编译器”的选择,然后重新启动计算机就可以了。当然这...

  •  三农王姐 如何避免蜘蛛陷阱

    因为蜘蛛无法提交注册,更无法输入用户名和密码登录查看内容。对于蜘蛛来说,用户直接点击查看到的内容也是蜘蛛所能看到的内容。如果你的网站有这种情况,请取消这一功能,但网站如果有VIP用户或部分资源,是可以这样设置的。

  •  知心答疑小仙女 如何创建网页

    要注册网站域名,购买或者租用到网站的空间。上传内容,上传图文和视频等内容就可以创建自己的网站了。现在市场上很多各式各样的网站搭建工具,网站制作平台,任意找一个自己用起来易上手的工具即可。网站搭建工具中一般都有模板提供,可以按照行业、风格、类型来选择自己中意的模板。选好后就可以套用,网站...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部