Ex-CrawlerEx-Crawler是一个网页爬虫,采用Java开发,分为守护进程、GUI客户端和Web搜索引擎三部分,支持数据库存储网页信息。CrawlerCrawler是一个简单的Web爬虫,专注于网站结构抓取,易于使用,适用于那些希望简化代码编写,专注于爬取逻辑的场景。EncogEncog是一个包含神经网络和机器人开发功能的Java类库,...
玩大数据一定用得到的19款Java开源Web爬虫
网络爬虫,作为自动抓取网络信息的程序,有着广泛的应用。以下,我将介绍19款Java开源Web爬虫,它们各有特色,满足不同需求的网络爬取任务。
HeritrixHeritrix是一个强大的Java网络爬虫,它以高扩展性为特点,允许用户自定义抓取逻辑。它能提供全面、精确的站点内容复制,包括非文本内容。Heritrix使用多线程方式抓取,每个任务由Teo线程处理,支持从URL获取、预处理、提取、抽取、写入等详细流程。
WebSPHINXWebSPHINX是一个Java爬虫开发环境,由爬虫工作平台和WebSPHINX类包组成。它提供可视化显示页面集合、下载页面、按规则抽取文本字符串、开发自定义爬虫等功能。通过WebSPHINX,开发者可以更直观地进行Web页面的爬取与处理。
WebLechWebLech是一款功能强大的Web站点下载与镜像工具,采用多线程操作。适合初学者入门参考,支持按功能需求下载网站,尽可能模仿标准Web浏览器行为。此外,它提供开源、免费、纯Java实现、多线程下载、链接信息维护等优势。
AraleArale是为个人使用设计的Web站点下载工具,能够下载整个网站或指定资源。它还具备将动态页面映射为静态页面的功能。Arale适用于那些需要简单、便捷的Web页面抓取任务。
JSpiderJSpider是一个完全可配置的Web Spider引擎,可用于网站错误检查、链接检查、网站结构分析、下载网站、编写自定义功能等。它基于Java实现,提供高度可配置性,适用于需要复杂数据抓取和分析的场景。
spindlespindle是构建在Lucene工具包上的Web索引/搜索工具,包括HTTP spider和搜索类。它提供了一组JSP标签库,使基于JSP的站点无需编写Java类就能增加搜索功能。
ArachnidArachnid是一个Java Web spider框架,包含HTML解析器,通过子类实现简单的web spider,可在每个页面解析后添加自定义代码。它包含示例应用程序,用于演示框架的使用。
LARMLARM为Jakarta Lucene搜索引擎框架提供了一个纯Java搜索解决方案,包含文件、数据库表索引和web站点爬虫功能。
JoBoJoBo是一个简单Web Spider工具,能够自动填充表单(如登录)和使用cookies处理session。它提供灵活的下载规则,适用于需要自动处理网站登录或cookie的场景。
snoics-reptilesnoics-reptile是一个用于网站镜像抓取的Java工具,支持使用配置文件定义入口URL,抓取网站所有资源,保持原有结构不变。它适用于完整网站的镜像抓取任务。
Web-HarvestWeb-Harvest是一个Java开源Web数据抽取工具,用于收集和提取指定页面的数据。它支持XSLT、XQuery、正则表达式等技术,适用于基于HTML/XML内容的页面。
ItSucksItSucks是一个Java Web爬虫开源项目,提供灵活定制、下载规则定义和控制台/Swing GUI操作界面。它的功能特性可根据需求调整。
Smart and Simple Web CrawlerSmart and Simple Web Crawler是一个集成Lucene支持的Web爬虫框架,提供两种遍历模式:最大迭代和最大深度。它支持过滤器和监听器,可用于复杂数据抓取任务。
Crawler4jCrawler4j是Java实现的开源网络爬虫,提供简单易用的接口,可快速创建多线程网络爬虫。
Ex-CrawlerEx-Crawler是一个网页爬虫,采用Java开发,分为守护进程、GUI客户端和Web搜索引擎三部分,支持数据库存储网页信息。
CrawlerCrawler是一个简单的Web爬虫,专注于网站结构抓取,易于使用,适用于那些希望简化代码编写,专注于爬取逻辑的场景。
EncogEncog是一个包含神经网络和机器人开发功能的Java类库,支持单独或联合使用神经网络和HTTP机器人编程,还提供高级功能如多线程爬虫、HTML解析和表单处理。
CrawljaxCrawljax是一个开源Java工具,专门用于自动抓取和测试基于Ajax的Web应用程序,能够通过触发事件和填充数据进行抓取。
以上Java开源Web爬虫,根据不同的需求和应用场景,提供了一系列工具和框架,覆盖了从简单数据抓取到复杂Web应用自动化测试的广泛需求。2024-11-16