Heritrix
文章平均质量分 96
InfoStation信息站
关注微博,http://weibo.com/informationstation
展开
-
利用 Heritrix 构建特定站点爬虫
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应转载 2013-05-12 16:20:29 · 501 阅读 · 0 评论 -
利用Lucene与Nutch构建简单的全文搜索引擎
本次实现分为两个部分,第一个部分是利用Lucene构建一个全文的搜索引擎,另外一部分则是利用Nutch实现同样的功能。由于Lucene并不是一个可以直接运行的程序,且不具备爬虫和文档处理的功能,因此在这一部分利用到了Heritrix和HTMLParser这两个工具分别实现爬虫与HTML文档解析的功能。而使用Nutch的时候只需要一些简单的配置和安装就可以直接运行。最后还对这两者进行了一个简单的对比,说明其各自的特点和适应的范围。原创 2013-07-14 10:37:04 · 2124 阅读 · 0 评论