Nutch相关框架视频教程2

第二讲

土豆在线视频地址 (52分钟)
【视频下载地址】

 

1、  git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。

2、  nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。

3、  定制开发nutch的入门方法是研读build.xml文件。

4、  命令:

apt-get install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入http://blog.tianya.cn

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

删除报错的文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &

 

【推荐书籍】 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值