- RBSE 是第一个发布的爬虫。它有两个基础程序。第一个程序“spider”,抓
的ASCII 浏览器,负责从网络上下载页面。
- WebCrawler 是第一个公开可用的,用来建立全文索引的一个子程序,它使用
一个根据选定文本和查询相似程度爬行的实时爬虫。
- World Wide Web Worm 是一个用来为文件建立包括标题和URL 简单索引的爬
- CobWeb 使用了一个中央“调度者”和一系列的“分布式的搜集者”的爬虫框
配给搜集者。调度者使用深度优先策略,并且使用平衡礼貌策略来避免服务器超
载。爬虫是使用Perl 语言编写的。
- Mercator 是一个分布式的,模块化的使用Java 语言编写的网络爬虫。它的模
网页(例如使用HTTP),处理模块负责怎样处理页面。标准处理模块仅仅包括了解
析页面和抽取URL,其他处理模块可以用来检索文本页面,或者搜集网络数据。
- WebFountain 是一个与Mercator 类似的分布式的模块化的爬虫,但是使用C++
页面后,页面的变化率可以推测出来。这时,一个非线性的方法必须用于求解方
程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬虫,
然后用统一策略检索,就是所有页面都使用相同的频率访问。
- PolyBot 是一个使用C++和Python 语言编写的分布式网络爬虫。它由一个爬虫
添加到硬盘的一个队列里面,然后使用批处理的模式处理这些URL。
- WebRACE 是一个使用Java 实现的,拥有检索模块和缓存模块的爬虫,它是
爬虫的行为有点像一个聪明的代理服务器。系统还监视订阅网页的请求,当网页
发生改变的时候,它必须使爬虫下载更新这个页面并且通知订阅者。WebRACE
最大的特色是,当大多数爬虫都从一组URL 开始的时候,WebRACE 可以连续地
接收初始抓取的URL 地址。
- Ubicrawer 是一个使用Java 语言编写的分布式爬虫。它没有中央程序,但有一
重复的页面,除非爬虫崩溃了(然后,另外一个代理就会接替崩溃的代理重新开始
抓取)。爬虫设计为高伸缩性。
- FAST Crawler 是一个分布式的爬虫,在Fast Search & Transfer 中使用。节点
实现了增量式抓取,优先抓更新活跃的网页。
- Labrador 是一个工作在开源项目Terrier Search Engine 上的非开源的爬虫。
- TeezirCrawler 是一个非开源的可伸缩的网页抓取器,在Teezir 上使用。该程
HTML 文档。爬虫既支持主题检索也支持非主题检索。
- Spinn3r 是一个通过博客构建Tailrank.com 反馈信息的爬虫。Spinn3r 是基于
- HotCrawler 是一个使用C 和PHP 语言编写的爬虫。
- ViREL Microformats Crawler 搜索公众信息作为嵌入网页的一小部分。
- DataparkSearch 是一个在GNU GPL 许可下发布的爬虫搜索引擎。
- GNU Wget 是一个在GPL 许可下,使用C 语言编写的命令行式的爬虫。它主
- Ht://Dig 在它和索引引擎中包括了一个网页爬虫。
- HTTrack 用网络爬虫创建网络站点镜像,以便离线观看。它使用C 语言编写,
- ICDL Crawler 是一个用C++语言编写、跨平台的网络爬虫。它仅仅使用空闲
- JSpider 是一个在GPL 许可下发行的、高度可配置的、可定制的网络爬虫引擎。
- Larbin 是由Sebastien Ailleret 开发的C++语言实现的爬虫。
- Webtools4larbin 是由Andreas Beder 开发的。
- Methabot 是一个使用C 语言编写的高速优化的,使用命令行方式运行的,在
检索的目标可以是本地文件系统,HTTP 或者FTP。
- Nutch 是一个使用Java 编写,在Apache 许可下发行的爬虫。它可以用来连接
- Pavuk 是一个在GPL 许可下发行的,使用命令行的Web 站点镜像工具,可以
性,如以正则表达式为基础的文件过滤规则和文件创建规则。
- WebVac 是斯坦福WebBase 项目使用的一个爬虫。
- WebSPHINX 是一个由Java 类库构成的,基于文本的搜索引擎。它使用多线
和抽取下载的数据。
- WIRE-网络信息检索环境是一个使用C++语言编写、在GPL 许可下发行的爬
以,它主要用于网络特征的描述。
- LWP:RobotUA 是一个在Perl 5 许可下发行的,可以优异地完成并行任务的
- Web Crawler 是一个用C#语言编写的开放源代码的网络检索器。
- Sherlock Holmes 用于收集和检索本地和网络上的文本类数据(文本文件,网
用;它同时也在Onet.pl 中使用。
- YaCy 是一个基于P2P 网络的免费的分布式搜索引擎。
- Ruya 是一个在宽度优先方面表现优秀,基于等级抓取的开放源代码的网络爬
Python 语言编写。
- Universal Information Crawler 是快速发展的网络爬虫,用于检索、存储和分析
- Agent Kernel 是一个当爬虫抓取时,用来进行安排、并发和存储的Java 框架。
- Arachnod.net 是一个使用C#语言编写,需要SQL Server 2005 支持的,在GPL
子邮件地址、文件、超链接、图片和网页在内的各种数据。