![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch学习
yangzhoustu
这个作者很懒,什么都没留下…
展开
-
剖析NUTCH爬虫
1. 简介 开源项目NUTCH搜索引擎大致包括三个部分: (1) 爬虫:寻找并抓取网页 (2) 网页库:存储已知URL和已抓取网页的数据库 (3) 索引器:解析网页并按照主题字典建立索引 2. NUTCH命令脚本 NUTCH使用多个"bin/nutch"命令脚本进行操作,其中每个脚本命令与一个java类相对应 对于整个网络网页的抓取,你需要利用下面的命令逐步进行: $ bin/nutc...2010-03-23 17:07:59 · 120 阅读 · 0 评论 -
nutch安装,使用,二次开发入门(转)
关键字: cygwin nutch 安装 1.1 Nutch安装 参考资料:http://www.blogjava.net/dev2dev/archive/2006/02/01/29415.aspx Nutch在Windows中安装之细解 由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境。 1)安装cygwin ...2010-03-23 17:10:36 · 178 阅读 · 0 评论 -
Nutch中写crawlDB的过程
在爬取网一个页面之后,会解析出一些,这些键值对基本上分为三类:(1) 刚爬取的页面的url,及其对应的CrawlDatum对象,这时其CrawlDatum对象保存的一般页面分析后的一些信息,如爬取时间,分值等;(2) 从刚爬取的页面中解析出来的outlinks, 及其对应的CrawlDatum对象, 这时其CrawlDatum对象保存的一般都是一些初始化的信息,其状态一般也为unfetch...2010-03-23 20:40:30 · 104 阅读 · 0 评论 -
Nutch中Injector的过程
Injector过程主要分成两个过程,而且这两个过程是两个独立的Map/Reduce任务,前一个任务只有Map,后一个任务是一个完整的Map/Reduce过程。在详细介绍之前,先看inject()的主调用代码:代码1:public void inject(Path crawlDb, Path urlDir) throws IOException { if (LOG.isI...2010-03-23 20:43:53 · 203 阅读 · 0 评论 -
开源搜索引擎Nutch初体验
Nutch的源码,它的作者和Lucene是一个人,但除了使用基于Lucene的索引和检索模块外,它还包括了crawler、crawl frontier、反向链接数据库、Web检索前端等其它组件。它至少有两大亮点决定了它是目前最好的开源搜索引擎实现,一个是基于Lucene的高效索引和检索功能,另一个是基于Apache的另一开源项目Hadoop实现的类似于Google的分布式文件系统,特别是它大量使用...2010-03-23 21:26:44 · 127 阅读 · 0 评论 -
nutch工程源码导入Eclipse过程
测试环境Nutch release 0.9Eclipse 3.3 - aka EuropaJava 1.6开始之前Setting up Nutch to run into Eclipse can be tricky, and most of the time you are much faster if you edit Nutch in Eclipse but r...2010-03-24 13:27:59 · 118 阅读 · 0 评论 -
Nutch1.0导入eclipse错误解决
Nutch1.0导入eclipse工程后,一般的工程都会有两个错误,nutch的official 1.0 release版本中,这两个问题因为licensing issues没有修复。接下来的就是最关键的部分了。修改---- src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下 RTFParseFactory.java添加--...2010-03-25 16:05:03 · 132 阅读 · 0 评论 -
Nutch1.0在eclipse中运行问题之解决
今天按照前面几篇文章所述之操作解决了程序中的报错,但是在调试运行过程中会出现如果错误.本问题主要针对windows操作系统.[b]问题一:[/b]现贴出:2010-03-25 21:42:33,937 WARN fs.FileSystem (FileSystem.java:(1440)) - uri=file:///javax.security.auth.login.LoginE...2010-03-25 21:51:28 · 129 阅读 · 0 评论