![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch
文章平均质量分 79
yhcelebrite
这个作者很懒,什么都没留下…
展开
-
nutch1.6安装与在myeclipse上部署
nutch现可分为三个版本: 1.2 资料相对多一些,apache发布的有搜索模块,nutch-1.2.war,主要是早期做的是搜索引擎。 1.6、2.1后两个版本主要放在网络爬虫上面,没有war包,相对以前版本也没有crawl-urlfilter.txt文件,所以搜到以前的资料配置这个文件不要纠结了,新版本只需要配置regex-urlfilter.txt代替原来配置crawl-urlfilt原创 2013-04-30 16:48:21 · 2148 阅读 · 2 评论 -
Nutch抓取数据内容的详解
之前以sina和csdn的blog为seed进行抓取,都出现Stopping at depth=1 - no more URLs to fetch. 所以最终以http://www.tianya.cn/blog/为例进行数据抓取,然后对抓取的数据内容进行解析: 命令:$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10(存放s原创 2013-04-30 21:19:45 · 3041 阅读 · 0 评论 -
Solr3.6.2与nutch1.6的整合
之前已经配置好nutch1.6的相关信息,这时候到官网上下载solr3.6. nutch以前版本有war可以直接进行界面化的搜索,1.5之后没有了,用solr进行处理来进行查询。 解压之后: 1. 把apache-nutch-1.6/conf/schema.xml文件拷贝到apache-solr-3.6.2\example\solr\conf目录下覆盖掉原来的schema.xm原创 2013-04-30 22:03:43 · 1456 阅读 · 2 评论