Nutch
完美缺陷
书到用时方恨少事非经过不知难
展开
-
国内首套免费的《Nutch相关框架视频教程》(1-12)
http://yangshangchuan.iteye.com/blog/1837935 Nutch是一个Java开源项目,拥有近十年的历史,从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大数据和云计算的代名词。 本人拥有多年Nutch相关转载 2013-04-05 16:04:51 · 1564 阅读 · 0 评论 -
Nutch中MapReduce的分析
http://www.chinacloud.cn/show.aspx?id=62&cid=12 Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Genera转载 2014-09-21 23:01:08 · 479 阅读 · 0 评论