Nutch中需要重写的部分

 IntroductionNutch  作为一个开源的搜索引擎,为降低整个搜索引擎市场的门槛做出了巨大的贡献。然而,由于其代码是多个人合作完成,并且其主要目标是全网搜索,将nutch直接拿来作企业级搜索或者垂直搜索还是存在很多问题的。仅仅修改配置文件并不能解决这些问题,因此需要对nutch的代码进行修改或者重写。 
Details下面是我觉得对于我们的项目而言,nutch中需要进行修改和重写的部分: 
  1. 整个Crawl的流程,旧的URL和新的URL必须分开处理,另外在同一个Crawl过程之内,无论在第几层,都不应该重复去抓前面的层次抓过的网页。目前的nutch没有这个控制,只能利用FetchSchedule来控制抓的网页和旧网页必须超过一个指定时间。 
  2. CrawlDb.update 这部分的代码及其混乱,它的逻辑我只能搞清一个大概,还有小部分没明白。 
  3. Fetcher:这个部分没有必要对最终的抓取数据进行排序。另外整个代码也需要重构,分解成单独的类,减少一个文件的代码总数。另外,Fetcher中对每个host的连接数和delay控制虽然算法正确,但我更倾向于让httpclient的connection manager来管理这个功能。 
  4. lib-http, protocol-http:这个部分nutch现在是手工解析socket通讯的文本来处理http协议,经常会出错。应该修改为使用现成的http库。 
  5. index 包的 NutchDocument 以及一系列的依赖类 NutchAnalyer等等,这一部分对分词的处理有问题,它没有用lucene中的分词器,而是自己用javacc写了个分词器。就算我们不用中文分词,也应该改写这一部分,完全采用lucene的分词器就可以了。 
  6. enerator 最后生成的fetch list的顺序;目前的实现是利用url的hash code来排序,这种算法并不能得到按照host足够分散的fetch list。最好的办法是统计每个host的url的数目,记为N_i,而总URL数目记为M,则第i个host的第j个URL的位置应该是 N_i  M,按照这个排序可以保证得到的URL list是按照host分散开的。这样可以避免同时对一个host有多个连接。 
  7. NutchBean这个类以及search包下的很多类都需要改写。因为这些类的实现完全没有考虑文件的共享加锁解锁问题。假如nutch正在建立索引,则客户端调用NutchBean会导致文件共享冲突。当然,也许Nutch认为用户的查询和建立索引的过程永远不会同时发生。这个问题的解决方法应该像你上次说的那样,维护一个内部指针,所有的索引文件按照日期编号,每次需要进行检索的时候,先检查当前打开的索引文件的编号是不是最新的,如果不是则打开新的。 
  8. 编码识别问题。Nutch的网页快照总是乱码。它的编码识别模块有问题,调用的是icu4j的编码识别,但似乎识别率不高。我现在改为手工parse html, xml,并采用firefox的识别引擎来识别,效果要好得多。 
  9. Nutch无法对每个站点的最大连接数,连接延时,URL过滤,代理服务器,抓取深度,抓取网页总数等参数作单独设置,只能用全局设置。但这样会有些问题,比如网站A的访问量很大,所以链接数应小一些,延时应长一些,但其他网站连接数可以设大一些,延时可以设短一些。这样才能即兼顾整体速度,又兼顾网络通讯的正确性。 
暂时就想到这些,但也许还有别的问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值