如何使用Java语言实现一个网页爬虫

try { // 生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn url = new URL("http://www.jb51.net/article/97787.htm");// 打开URL urlConnection = (HttpURLConnection) url.openConnection();// 获取服务器响应代码 responsecode = urlConnection.getResponseCode();Stri...
如何使用Java语言实现一个网页爬虫
我给你代码
public class DEmo {
public static void match(String s1) {
Pattern p = Pattern.compile("<a(.*)>.*</a>");
Matcher m = p.matcher(s1);
while (m.find()) {
System.out.println(m.group(1));
}
}

public static void main(String args[]) {
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
String line;
try {
// 生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
url = new URL("http://www.jb51.net/article/97787.htm");
// 打开URL
urlConnection = (HttpURLConnection) url.openConnection();
// 获取服务器响应代码
responsecode = urlConnection.getResponseCode();
String temp = "";
if (responsecode == 200) {
// 得到输入流,即获得了网页的内容
reader = new BufferedReader(new InputStreamReader(
urlConnection.getInputStream(), "GBK"));
while ((line = reader.readLine()) != null) {
temp = temp + line;
}
System.out.println(temp);
match(temp);

} else {
System.out.println("获取不到网页的源码,服务器响应代码为:" + responsecode);
}
} catch (Exception e) {
System.out.println("获取不到网页的源码,出现异常:" + e);
}

}
}2016-12-02
mengvlog 阅读 31 次 更新于 2025-09-08 07:14:33 我来答关注问题0
  •  阿暄生活 如何用java语言开发一个网站

    首先搭建开发环境,选择Java+Tomcat+MySQL。下载JDK、Tomcat和MySQL软件,安装后进行配置。网上有许多教程可供参考。环境配置完成后,选择一个高效的开发工具,如NetBeans,它由Sun公司开发,功能强大且易于使用。用户可以从官网下载并安装。准备工作完成后,接下来规划网站的结构。这一步需要考虑网站的布局、...

  •  小风爱教育 如何用java开发一个网站?

    首先需要购买一个服务器,用其放置网站代码,然后购买域名,域名解析到服务器,然后配置网站站点,然后进行网站开发即可。Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言...

  •  育知同创教育 如何用java语言开发一个网站

    首先把开发环境搭配好,本章采用的是java+tomcat +mysql。所以先要去网上下载JDK,tomcat 和mysql 软件 下载安装后配置,具体配置网上教程很多了,也不难,可上网搜索 2 环境搭配好后,接下来就是按照一个能帮助你快速开发的IDE工具。笔者这里使用的netbeans。 这款有SUN 公司自己开发的IDE ,功能很强大...

  •  阿暄生活 如何使用Java语言实现一个网页爬虫

    使用Java语言实现一个网页爬虫,首先需要选择合适的爬虫框架,比如Heritrix或WebSPHINX。这些框架提供了丰富的功能和良好的扩展性,可以满足不同需求。实现网页爬虫时,需要遵循robots.txt文件的规则,尊重网站的爬虫政策。同时,还需要处理好线程同步和异常处理,确保爬虫的稳定运行。在实际应用中,Web爬虫不仅可...

  •  猪八戒网 开发一个javaweb项目流程(用java开发web)

    目前,国内外信息化建设已经进入基于Web应用为核心的阶段,Java作为应用于网络的最好语言,前景无限看好。然而,就算用Java建造一个不是很烦琐的web应用,也不是件轻松的事情。概括一下,实施Java的WEB项目需要掌握的技术如下:? lJava语言 l面向对象分析设计思想 l设计模式和框架结构 lXML语言 l网页脚本语言 l数据库 l...

檬味博客在线解答立即免费咨询

Java相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部