java爬虫怎么抓取js动态生成的内容

我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。1、有些页面元素被隐藏起来了->换selector解决 2、有些数据保存在js/json对象中->截取对应的串,分析解决 3、通过api接口调用->伪造请求获得数据 还有一个终极方法 4、使用...
java爬虫怎么抓取js动态生成的内容
如果评论是通过AJAX显示的,那么抓取有一定难度。你的爬虫需要能够解释JS,并解惑JS的内容。但如果你只针对少数的网站进行抓取,则可以针对这些网站开发专用的蜘蛛。人工分析其JS,从中找到其获取评论的AJAX接口,然后抓之。这样简单。还可以用爬虫操作一个浏览器,通过浏览器的接口获取其运行完成后的显示的内容2017-07-20
我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。
1、有些页面元素被隐藏起来了->换selector解决
2、有些数据保存在js/json对象中->截取对应的串,分析解决
3、通过api接口调用->伪造请求获得数据
还有一个终极方法
4、使用phantomjs或者casperjs这种headless浏览器2018-08-02
用nodejs+puppeteer,解析dom结构获取,或者直接观察返回数据的接口,看能不能直接调用2021-07-28
mengvlog 阅读 347 次 更新于 2025-09-08 09:02:43 我来答关注问题0
  •  文暄生活科普 如何在神箭手上快速开发爬虫——第二课 如何爬取JS动态生成的数据【豌豆荚游戏排行榜】

    在JS动态网页中,下一页链接通常通过HTTP请求获取。我们可以通过神箭手的addUrl函数将这类URL手动添加到待爬队列中,实现模拟发送请求并返回数据。在回调函数中实现具体的处理逻辑。接下来,我们需要从内容页中提取所需数据,如游戏名称、下载量和图标。通常使用xpath来实现数据抽取。完成数据提取后,运行爬虫...

  •  文暄生活科普 一篇了解爬虫技术方方面面

    从一个或若干初始网页的URL开始。获得初始网页上的URL,并放入待抓取队列。在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列。重复上述过程,直到满足系统的一定停止条件。2. 聚焦爬虫 工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接。保留有用的链接并将其放入等待抓取的URL...

  •  誉祥祥知识 爬虫入门必学——常见的几种网站类型

    核心特点:JavaScript是网页动态功能的核心,常嵌入HTML中,使得页面内容可以动态加载和更新。抓取策略:需要使用能够解析JavaScript的爬虫工具,如ForeSpider,以有效采集包含动态内容的JS页面。POST/GET请求页面:核心特点:POST和GET是HTTP协议中用于数据提交的方式,分别用于提交表单数据和请求页面数据。抓取策略...

  •  文暄生活科普 微信公众号爬虫技术分享

    列表页第一页为html,可注入js,但之后翻页时数据包的格式为json,需要修改返回头才能注入js。文章页面有安全机制,外部注入的js不生效,也需要修改返回头。2. deal_data.py 本模块用于数据清洗入库。包括解析公众号信息、文章列表、文章详情、文章动态信息(阅读、点赞、评论量)以及评论信息。解析函数:...

  • 2. 驱动浏览器内核,这个方法的优点是编程实现比较简单,只要学会了驱动浏览器的 api 就可以在很少的改动下用于很多不同网站的抓取。但是缺点也很明显,慢,占用的资源比较多,不如抓包分析获取数据灵活。我以前抓取的好多网站都是用抓包分析的方式,还分析了好多网站的登录的机制,用 Python 重写 js 的...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部