用java写爬虫程序,有个网站获取不到链接,求指导

//读取网页上的内容方法---2010.01.25 public String getOneHtml(String htmlurl) throws IOException { URL url;String temp;final StringBuffer sb = new StringBuffer();try { url = new URL(htmlurl);// 读取网页全部内容 final BufferedReader in = new BufferedReader(new InputStreamReader...
用java写爬虫程序,有个网站获取不到链接,求指导
//读取网页上的内容方法---------------------2010.01.25 public String getOneHtml(String htmlurl) throws IOException {
URL url;
String temp;
final StringBuffer sb = new StringBuffer();
try {
url = new URL(htmlurl);
// 读取网页全部内容
final BufferedReader in = new BufferedReader(new InputStreamReader(
url.openStream(),"GBK"));
while ((temp = in.readLine()) != null) {
sb.append(temp);
}
in.close();
} catch (final MalformedURLException me) {
System.out.println("你输入的URL格式有问题!请仔细输入");
me.getMessage();

} catch (final IOException e) {
e.printStackTrace();

}
return sb.toString();
}上面这个方法是根据你传入的url爬取整个网页的内容,然后你写个正则表达式去匹配这个字符串的内容。2015-07-21
第一个是用js做的跳转
点击链接以后设置他下面一个表单属性的值
<input type="hidden" name="documentId" value="" />
然后提交了这个表单 搞到值了以后直接你设置 documentId=xxx 往表单action里面发数据就搞到链接了2015-07-21
可能是正则表达式写错了,你用工具测试一下。2021-07-30
把网站地址链接加入2015-07-21
mengvlog 阅读 8 次 更新于 2025-07-19 04:29:21 我来答关注问题0
  • //读取网页上的内容方法---2010.01.25 public String getOneHtml(String htmlurl) throws IOException { URL url;String temp;final StringBuffer sb = new StringBuffer();try { url = new URL(htmlurl);// 读取网页全部内容 final BufferedReader in = new BufferedReader(new InputStreamReader...

  • (1)程序package组织 (2)模拟登录(爬虫主要技术点1)要爬去需要登录的网站数据,模拟登录是必要可少的一步,而且往往是难点。知乎爬虫的模拟登录可以做一个很好的案例。要实现一个网站的模拟登录,需要两大步骤是:(1)对登录的请求过程进行分析,找到登录的关键请求和步骤,分析工具可以有IE自带(快...

  •  阿暄生活 如何使用Java语言实现一个网页爬虫

    使用Java语言实现一个网页爬虫,首先需要选择合适的爬虫框架,比如Heritrix或WebSPHINX。这些框架提供了丰富的功能和良好的扩展性,可以满足不同需求。实现网页爬虫时,需要遵循robots.txt文件的规则,尊重网站的爬虫政策。同时,还需要处理好线程同步和异常处理,确保爬虫的稳定运行。在实际应用中,Web爬虫不仅可...

  • 爬虫的核心步骤包括:1)初始化浏览器并打开百度搜索页面;2)模拟用户输入搜索关键词并点击搜索;3)使用代码解析页面,获取每个搜索结果的详细信息;4)重复此过程,处理多个关键词和额外的逻辑,如随机等待、数据保存等。通过这样的通用方法,我们实现了高效的数据抓取。总结来说,爬虫的核心就是模仿人类...

  • 1、www:我们的互联网,一个巨大的、复杂的体系;2、搜集器:这个我们站长们就都熟悉了,我们对它的俗称也就是蜘蛛,爬虫,而他的工作任务就是访问页面,抓取页面,并下载页面;3、控制器:蜘蛛下载下来的传给控制器,功能就是调度,比如公交集团的调度室,来控制发车时间,目的地,主要来控制蜘蛛的抓取...

檬味博客在线解答立即免费咨询

Java相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部