nutch-1.2部署搜索

最新推荐文章于 2024-07-16 10:28:31 发布

zengbin164

最新推荐文章于 2024-07-16 10:28:31 发布

阅读量1k

点赞数

分类专栏： java 搜索引擎文章标签：数据库 lucene tomcat url apache tree

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengbin164/article/details/6063209

版权

java 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

nutch爬虫是基于lucene搜索的，是apache的一个开源项目，由于我个人计划完善一个开源的爬虫

并实施部署上线，就今天下载并研究了下

下面是配置相关的步骤

环境:tomcat7 64位8C8G的linux服务器

PS:为了防止中文搜索乱码

修改tomcat的配置文件

vi /usr/alibaba/tomcat7/conf/server.xml

找到http协议的connector并增加URIEncoding="UTF-8" useBodyEncodingForURI="true"

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

nutch安装省略

1. 新增dmoz目录并将相关公网的url放入urls文件下面

http://www.163.com/

http://www.sina.com/

http://www.sohu.com/

http://www.qq.com/

http://www.tom.com/

http://china.alibaba.com/

2. “注射”网址到crawldb数据库

sh bin/nutch inject crawl/crawldb dmoz

3. 编辑conf/nutch-site.xml文件，增加代理的属性

vi /usr/alibaba/tomcat7/webapps/nutch/WEB-INF/classes/nutch-site.xml

插入

<configuration>

<property>

<name>searcher.dir</name>

<value>/home/bing/nutch/crawl</value>

</property>

</configuration>

4. 从数据库crawldb中创建抓取列表

sh bin/nutch generate crawl/crawldb crawl/segments

tree crawl/segments

s1=`ls -d crawl/segments/2* | tail -1`

echo $s1

5. 运行 fetcher，获取这些 URL 信息

sh bin/nutch fetch $s1

6. 更新数据库，把获取到的页面信息存入数据库中

sh bin/nutch updatedb crawl/crawldb $s1

7. 选择分值排在前10的URL(一个很小的子集)来进行第二次和第三次抓取

sh bin/nutch generate crawl/crawldb crawl/segments -topN 10

8. 第二次抓取

s2=`ls -d crawl/segments/2* | tail -1`

echo $s2

sh bin/nutch fetch $s2

sh bin/nutch updatedb crawl/crawldb $s2

9. sh bin/nutch generate crawl/crawldb crawl/segments -topN 10

10. 第三次抓取

s3=`ls -d crawl/segments/2* | tail -1`

echo $s3

sh bin/nutch fetch $s3

sh bin/nutch updatedb crawl/crawldb $s3

11. 根据sengments的内容更新linkdb数据库

sh bin/nutch invertlinks crawl/linkdb crawl/segments/*

12. 建立索引

sh bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

indexes:用于存放索引

crawldb，linkdb，segments：索引数据库源

在命令环境下面测试搜索

test="alibaba";sh bin/nutch org.apache.nutch.searcher.NutchBean $test

效果如下：

浏览器预览： http://10.249.198.161:8080/nutch/search.jsp?query=门户网站&hitsPerPage=10&lang=zh

效果如下：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch-1.2部署搜索

nutch爬虫是基于lucene搜索的如果想抓取整个公网，配置如下环境:tomcat7 64位8C8G的linux服务器为了防止中文搜索乱码修改tomcat的配置文件vi /usr/alibaba/tomcat7/conf/server.xml 找到http协议的connector并增加URIEncoding="UTF-8" useBodyEncodingForURI="true" connectionTimeout="20000" redirectP
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。