Nutch中需要重写的部分_nutz fetch list-CSDN博客

IntroductionNutch 作为一个开源的搜索引擎，为降低整个搜索引擎市场的门槛做出了巨大的贡献。然而，由于其代码是多个人合作完成，并且其主要目标是全网搜索，将nutch直接拿来作企业级搜索或者垂直搜索还是存在很多问题的。仅仅修改配置文件并不能解决这些问题，因此需要对nutch的代码进行修改或者重写。
Details下面是我觉得对于我们的项目而言，nutch中需要进行修改和重写的部分：

整个Crawl的流程，旧的URL和新的URL必须分开处理，另外在同一个Crawl过程之内，无论在第几层，都不应该重复去抓前面的层次抓过的网页。目前的nutch没有这个控制，只能利用FetchSchedule来控制抓的网页和旧网页必须超过一个指定时间。
CrawlDb.update 这部分的代码及其混乱，它的逻辑我只能搞清一个大概，还有小部分没明白。
Fetcher：这个部分没有必要对最终的抓取数据进行排序。另外整个代码也需要重构，分解成单独的类，减少一个文件的代码总数。另外，Fetcher中对每个host的连接数和delay控制虽然算法正确，但我更倾向于让httpclient的connection manager来管理这个功能。
lib-http, protocol-http：这个部分nutch现在是手工解析socket通讯的文本来处理http协议，经常会出错。应该修改为使用现成的http库。
index 包的 NutchDocument 以及一系列的依赖类 NutchAnalyer等等，这一部分对分词的处理有问题，它没有用lucene中的分词器，而是自己用javacc写了个分词器。就算我们不用中文分词，也应该改写这一部分，完全采用lucene的分词器就可以了。
enerator 最后生成的fetch list的顺序；目前的实现是利用url的hash code来排序，这种算法并不能得到按照host足够分散的fetch list。最好的办法是统计每个host的url的数目，记为N_i，而总URL数目记为M，则第i个host的第j个URL的位置应该是 N_i j / M，按照这个排序可以保证得到的URL list是按照host分散开的。这样可以避免同时对一个host有多个连接。
NutchBean这个类以及search包下的很多类都需要改写。因为这些类的实现完全没有考虑文件的共享加锁解锁问题。假如nutch正在建立索引，则客户端调用NutchBean会导致文件共享冲突。当然，也许Nutch认为用户的查询和建立索引的过程永远不会同时发生。这个问题的解决方法应该像你上次说的那样，维护一个内部指针，所有的索引文件按照日期编号，每次需要进行检索的时候，先检查当前打开的索引文件的编号是不是最新的，如果不是则打开新的。
编码识别问题。Nutch的网页快照总是乱码。它的编码识别模块有问题，调用的是icu4j的编码识别，但似乎识别率不高。我现在改为手工parse html, xml，并采用firefox的识别引擎来识别，效果要好得多。
Nutch无法对每个站点的最大连接数，连接延时，URL过滤，代理服务器，抓取深度，抓取网页总数等参数作单独设置，只能用全局设置。但这样会有些问题，比如网站A的访问量很大，所以链接数应小一些，延时应长一些，但其他网站连接数可以设大一些，延时可以设短一些。这样才能即兼顾整体速度，又兼顾网络通讯的正确性。