Nutch
一、总体流程介绍
Nutch
2、循环:
3、从已抓取的segments中分析出link地图
4、索引segment文本及inlink锚文本
Nutch
二、相关的数据结构和目录结构分析
爬虫Crawler:
Crawler的工作流程包括了整个nutch的所有步骤--injector,generator,fetcher,parseSegment,updateCrawleDB,Invertlinks,
Crawler涉及的数据文件和格式和含义,和以上的各个步骤相关的文件分别被存放在物理设备上的以下几个文件夹里,crawldb,segments,indexes,linkdb,index五个文件夹里。
那么各个步骤和流程是怎么,各个文件夹里又是放着什么呢?
观察Crawler类可以知道它的流程
./nutchcrawl
Crawl
一、crawldb下载的url,以及下载日期,用来进行页面更新
二、segements
1、crawl_generate:待下载url
2、crawl_fetch:每个下载url的状态
3、content:每个下载页面的内容
4、parse_text:包含每个解析过的url文本内容
5、parse_data:每个url解析出的外部链接和元数据
6、crawl_parse:用来更新crawl的外部链接库
三、linkdb
四、indexes:存放每次下载的独立索引目录
五、index:符合lucene格式的索引目录,是indexes里所有index合并后的完整索引
数据结构:
Crawl
●
<URL,CrawlDatum>
●CrawlDatum:
<status,date,
●
{db_unfetched,db_fetched,
fetch_success,fetch_fail,
三、主要类和方法分析
- org
.apache.nutch.crawl.Injector :
1,注入url.txt
2,url标准化
3,拦截url,进行正则校验(regex-urlfilter.txt)
4,对符URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响urlhost的搜索排序,和采集优先级!
5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相应状态存储到里边(STATUS_DB_UNFETCHED(状态意思为没有采集过))
Injector
Usage:
首先是建立起始url集,每个url都经过URLNormalizers、filter和scoreFilter三个过程并标记状态。首先经过normalizerplugin,把url进行标准化,比如basic
同时,在这个步骤里,会在文件系统里生成如下文件crawlDB/current/part-00000
这个文件夹里还有.data.crc
●
In:
Map(line)
Reduce()
Output:
●
Input:
Map()
Reduce:
Out:
- org
.apache.nutch.crawl.Generator :
1,过滤不及格url(使用url过滤插件)
2,检测URL是否在有效更新时间里
3,获取URLmetaData,metaData记录了url上次更新时间
4,对url进行打分
5,将url载入相应任务组(以host为分组)
6,计算urlhash值
7,收集url,直至到达
Generator
Usage:
在这个步骤里,Generator一共做了四件事情,
1、给前面injector完成的输出结果里按分值选出前topN个url,作为一个fetch的子集。
2、根据第一步的结果检查是否已经选取出一些url,CrawlDatum的实体集。
3、再次转化,此次要以url的host来分组,并以url的hash来排序。
4、根据以上的步骤的结果来更新crawldb(injector产生)。
●
In:
Map()
Partition
Reduce:
compare()
output
●
Map()
Out:
- org
.apache.nutch.crawl.Fetcher :
1,从segment中读取,将它放入相应的队列中,队列以queueId为分类,而queueId是由协议://ip
2,检查机器人协议是否允许该url被爬行(robots.txt)–>
3,检查url是否在有效的更新时间里–>
4,针对不同协议采用不同的协议采用不同机器人,可以是http、ftp、file,这地方已经将内容保存下来(Content)。–>
5,成功取回Content后,在次对HTTP状态进行识别(如200、404)。–>case
6,内容成功保存,进入ProtocolStatus.SUCCESS区域,在这区域里,系统对输出内容进行构造。–>
7,在内容构造过程中,调取内容解析器插件(parseUtil),如mp3/html/pdf/word/zip/jsp/swf……。–>
8,现在研究html解析,所以只简略说明HtmlParser,HtmlParser中,会解析出text,title,outlinks,
text:过滤所有HTML元素;title:网页标题;outlinks:url下的所有链接;metadata:这东西分别做那么几件事情首先检测url头部的meta
Fetcher
Usage:
这个步骤里,Fetcher所做的事情主要就是抓取了,同时也完成一些其它的工作。首先,这是一个多线程的步骤,默认以10个线程去抓取。根据抓取回来后的结果状态来进行不同的标记,存储,再处理等等行为。输入是上一步骤Generator产生的segment文件夹,这个步骤里,考虑到先前已经按照ip或host来patition了,所以在此就不再把input文件进行分割了。程序继承了SequenceFileInputFormat重写了inputFormat来达到这点。这个类的各种形为都是插件来具体完成的,它只是一个骨架一样为各种插件提供一个平台。它先根据url来取出具体的protocol,得到protocolOutput,进而得到状态status及内容content。然后,根据抓取的状态status来继续再处理。再处理时,首先会将这次抓取的内容content、状态status及它的状态标记进行存储。这个存储的过程中,还会记下抓取的时间,再把segment存过metadata,同时在分析parsing前经过scoreFilter,再用parseUtil(一系列的parse插件)进行分析,分析后再经过一次score插件的处理。经过这一系列处理后,最后进行输出(url,fetcherOutput)。
之前讲到根据抓取回来的各种状态,进行再处理,这些状态一共包括12种,比如当抓取成功时,会像上刚讲的那样先存储结果,再判断是否是链接跳转,跳转的次数等等处理。
●
In:
Map(url,CrawlDatum)
多线程的,
调用已有的协议protocol插件
FetcherOutput:
Reduce
Out:
- org
.apache.nutch.parse.ParseSegment :
1,这个类逻辑就相对简单很多,它对我们也是很有价值的,它只做一件事情,就是对爬行下来的Content(原始HTML)进行解析,具体解析通过插件来实现。比如我们要做的数据分析、数据统计都可以在这进行实现。
2,执行完成后,输出三个Map对解析内容、包含所有链接的分析后的结果、outlinks
ParseSegment
Usage:
对抓取后上一步骤存储在segment里的content进行分析parse。同样,这个步骤的具体工作也是由插件来完成的。
MapReduce:
In:
Map(url,
调用分析插件parser
Reduce
Parse:
Out:
- org
.apache.nutch.crawl.CrawlDb :
主要根据crawld_fatch输出更新crawldb。
1,map对crawld_fatch、crawldb地址进行标准化(nomalizer)和拦截操作(filte);
2,reduce在对两crawld_fatch和crawldb进行合并更新。
CrawlDb
Usage:
MapReduce:合并抓取的和分析后的输出到crawldb里
In:
Map()
Reduce()
Out:
- org
.apache.nutch.crawl.LinkDb :
这个类的作用是管理新转化进来的链接映射,并列出每个url的外部链接(incominglinks)。
1,先是对每一个url取出它的outLinks,作map操作把这个url作为每个outLinks的incominglink,
2,在reduce里把根据每个key来把一个url的所有incominglink都加到inlinks里。
3,这样就把每个url的外部链接统计出来了,注意,系统对只对外部链接进行统计,什么叫外部链接呢,就是只对不同host进行统计,记住javaeye.com和biaowen.javaeye.com是两个不同的host哦。–>
4,然后一步是对这些新加进来的链接进行合并。
●
In:
Map(srcUrl,
为每个链出链接收集一个入链。
Inlinks:
Reduce()加上外部入链数量
Out:
- org
.apache.nutch.crawl.Indexer :
这个类的任务是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。这里的输入就比较多了,有segments下的fetch_dir,parseData和parseText,还有crawldb下的current_dir和linkdb下的current_dir。
Indexer
1,在这个类里,map将所有输入都装载到一个容器里边,
2,在到reduce进行分类处理,
3,实现拦截–>
4,打分–>
5,当然要把这些数据体组合成一个lucene的document让它索引了。
6,在reduce里组装好后收集时是,最后在输出的OutputFormat类里进行真正的索引。
doc里有如下几个field
content(正文)
site(所属主地址)
title(标题)
host(host)
segement(属于哪个segement)
digest(MD5码,去重时候用到)
tstamp(暂时不知道什么东西)
url(当前URL地址)
●
In:
<url,
<url,
<url,
<url,
Map()
Reduce()
调用index插件
Out:
- org
.apache.nutch.crawl.DeleteDuplicates :
这个类的作用就是这它的名字所写的意思--去重。
前面索引后(当然不是一次时的情况)会有重复,所以要去重。为什么呢,在一次索引时是不重复的,可是多次抓取后就会有重复了。就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准,一种是以内容的md5值为标准。
- org
.apache.nutch.indexer.IndexMerger :
这个类就相对简单了,目的将多个indexes合并为一个index,直接调用lucene方法实现!把所有的小索引合并成一个索引。在这一步没有用到map-reduce。
在这九大步骤中generator,fetcher,parseSegment,crawlDbTool会根据抓取的层数循环运行,当抓取的层数大于1时会运行linkInvert,index,dedup,和merge。
四、
五、
这里