java 用程序抓取页面登陆问题

1、这是典型的需要模拟浏览器登陆后进行网络数据爬取的爬虫。2、从楼主的表述中,对这种爬虫还不深。需要多了解不同种类的网络爬虫。大致可分为两类,一类是全网的爬虫,像百度、谷歌就是这种,往往只抓取公共开放的信息。二类是垂直型爬虫,如微博、团购、电子商务类网站的专业信息,这种往往是需要用户...
java 用程序抓取页面登陆问题
1、这是典型的需要模拟浏览器登陆后进行网络数据爬取的爬虫。
2、从楼主的表述中,对这种爬虫还不深。需要多了解不同种类的网络爬虫。
大致可分为两类,一类是全网的爬虫,像百度、谷歌就是这种,往往只抓取公共开放的信息。
二类是垂直型爬虫,如微博、团购、电子商务类网站的专业信息,这种往往是需要用户登陆后才能看到 更多的内容。
3、登陆后抓取数据,其实关键在获取登陆的cookie数据,再将cookie放入每次请求的http参数的cookie中,就可以每次如登陆后看到的数据一样抓取数据了。
4、建议楼主先看下关于模拟登陆相关知识点,再考虑如何实现。
希望能有所帮助。2013-10-27
用httpserlet里的保存数据的几个对象就行了,session,page,application,cookie2013-10-27
mengvlog 阅读 7 次 更新于 2025-07-19 12:44:34 我来答关注问题0
檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部