nutch1.9--nutch安装记录

最新推荐文章于 2016-07-27 22:15:00 发布

独恋幽兰

最新推荐文章于 2016-07-27 22:15:00 发布

阅读量710

点赞数

分类专栏： nutch 文章标签： nutch 网络爬虫-爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzq1992126/article/details/49508969

版权

nutch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

nutch 安装记录

1.安装windows下的linux模拟环境Cygwin

2.下载nutch并解压

3.在Cygwin中进入nutch解压缩目录，使用命令cd /cygdrive/e/nutch1.1 （cygdrive是cygwin进入盘符的命令）

4.运行bin/nutch查看是否可以成功运行

5.在nutch目录下建立urls/seeds.txt文件，存放种子url

6.在conf/regex-urlfilter.txt配置过滤url
+ 表示按照此规则抓取页面
- 表示按照此规则去除页面

7.相关配置在nutch-site.xml中，nutch-site.xml的节点会覆盖nutch-default.xml中的节点

8.需要的配置节点名：

fetcher.maxNum.threads 配置最大线程数

fetcher.queue.depth.multiplier 深度乘数队列的深度是线程的数目乘以该参数的值

http.proxy.host 配置代理服务器 host port username password

parser.skip.truncated 配置是否分段返回

parser.character.encoding.default 配置字符集编码

9.启动爬取 ./bin/crawl ./urls/seed.txt ./TestCrawl 5
命令种子文件夹存放目录遍历轮数

10.抓取结束后会生成三个文件夹 crawldb linkdb segments

crawldb linkdb 保存当前抓取的链接和待抓取的链接。

segments存放抓取的结果，按日期定义文件夹

–注意：新的抓取需要使用新的文件夹，否则crawldb linkdb会影响抓取

11.注意，发布版需要用hadoop1.2.1的jar包替换掉hadoop1.2.0的jar包，否则无法抓取

12.统计命令

bin/nutch readseg -list -dir TestCrawl/segments/ 数据统计

bin/nutch readdb TestCrawl3/crawldb/ -dump crawldb3 查看抓取的url

bin/nutch readseg -dump TestCrawl6/segments/20150819140107 segdb6 导出抓取的文件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch1.9--nutch安装记录

nutch 安装记录1.安装windows下的linux模拟环境Cygwin2.下载nutch并解压3.在Cygwin中进入nutch解压缩目录，使用命令cd /cygdrive/e/nutch1.1 （cygdrive是cygwin进入盘符的命令）4.运行bin/nutch查看是否可以成功运行5.在nutch目录下建立urls/seeds.txt文件，存放种子url6.在conf/regex-ur
复制链接

扫一扫

专栏目录

独恋幽兰 CSDN认证博客专家 CSDN认证企业博客

码龄16年

40: 原创

20万+: 周排名

226万+: 总排名

13万+: 访问

: 等级

1622: 积分

9: 粉丝

31: 获赞

17: 评论

74: 收藏

私信

关注

热门文章

分类专栏

piwik 2篇
java基础知识 8篇
java多线程 9篇
数据结构 2篇
Web开发 16篇
nutch 2篇
jQuery 3篇
开发随笔 1篇

最新评论

Jsoup引发的异常java异常
喜欢玩游戏的大尾巴狼: 流量党。
java引用传递和值传递的详细探讨
stophin: 嗯，好像看到一点区别了，C++里面引用传递是，如果参数被分配给了另一个对象，比如(string&)str = string("test ok");是会改变参数，造成结果为test ok and gbc。而JAVA里面“引用”是相当于复制了一个地址来保存这个引用，函数结束后str = "test ok";并不会应用到参数上，也就是入参str为"good"，而参数(新地址)str为"test ok"。
java引用传递和值传递的详细探讨
stophin: 嗯，好像看到一点区别了，C++里面引用传递是，如果参数被分配给了另一个对象，比如(string&)str = string("test ok");是会改变参数，造成结果为test ok and gbc。而JAVA里面“引用”是相当于复制了一个地址来保存这个引用，函数结束后str = "test ok";并不会应用到参数上，也就是入参str为"good"，而参数(新地址)str为"test ok"。
java引用传递和值传递的详细探讨
ytfrdfiw: 不错，谢谢分享。
jQuery--toggle（乒乓键）
吴士龙: 感谢分享

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。