Heritrix源码分析(一) 包介绍

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。

本文对Heritrix中的包进行了介绍

参考看

http://guoyunsky.iteye.com/blog/613249



序号包名                                  说明
1  org.apache.commons.httpclient    封装了apache的httpclient用于Fetch网页内容
2org.apache.commons.httpclient.cookie封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie
3org.apache.commons.pool.impl封装了apache的httpclient用于Fetch网页内容,还待研究
4org.archive.crawlerHeritrix程序运行的入口包,如Heritrix运行可以直接抓取
5org.archive.crawler.adminHeritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler管理JOB,以及日志统计等
6org.archive.crawler.admin.ui服务于UI管理界面,如Job参数的设置
7org.archive.crawler.datamodelHeritrix的数据模型包,如在Heritrix中代表一个URL的CandidateURI
8org.archive.crawler.datamodel.credential管理Heritrix数据模型中的凭证,如抓取某些网站需要用户名和密码
9org.archive.crawler.deciderulesHeritrix的规则包,如决定哪些URL可以抓取可以调度
10org.archive.crawler.deciderules.recrawl还待研究,应该是决定哪些URL需要重新抓取
11org.archive.crawler.event事件管理,如Heritrix的暂停、重启、停止等
12org.archive.crawler.extractorHeritrix的造血器,通过它抽取新的URL再次进行抓取
13org.archive.crawler.fetcherHeritrix的获取包,如获取HTTP、DNS、FTP数据
14org.archive.crawler.filterHeritrix的过滤器,如配合Rule过滤一些不要的URL
15org.archive.crawler.frameworkHeritrix的框架包,存放一些核心类,一般是父类,如Heritrix控制类CrawlController;调度器类Frontier
16org.archive.crawler.framework.exceptionsHeritrix框架异常包,通常这里的异常抛出会导致Heritrix的停止
17org.archive.crawler.frontierHeritrix的调度器,决定抓取哪个URL
18org.archive.crawler.ioHeritrix的IO格式包,感觉取名不合理,这里只是定义一些格式,如统计数据的格式,错误日志的格式
19org.archive.crawler.postprocessor辅助处理器包,感觉取名也不合理,这里只是对处理URL前后进行一些处理,如URL重定向
20org.archive.crawler.prefetchHeritrix的预处理器包,如确定一个URL是否已经解析了DNS
21org.archive.crawler.processor还没接触到,待研究
22org.archive.crawler.processor.recrawl还没接触到,待研究
23org.archive.crawler.scopeHeritrix抓取范围管理,如种子
24org.archive.crawler.selftest管理Heritrix的Web工程self.war
25org.archive.crawler.settings管理Heritrix配置文件order.xml中的各项配置
26org.archive.crawler.settings.refinements管理Heritrix自己对数据格式的标准,如时间格式
27org.archive.crawler.url还没怎么接触到,待研究
28org.archive.crawler.url.canonicalizeHeritrix的URL规范化,用于规范每一个URL
29org.archive.crawler.utilHeritrix用于抓取的工具包,如BDB操作工具,IO操作工具
30org.archive.crawler.writerHeritrix的下载包,用于将抓取的URL内容写入硬盘
31org.archive.extractor还没接触到,待研究
32org.archive.httpclientHeritrix为结合httpclient量身打造的包,让自身更好的获取网页内容
33org.archive.ioHeritrix的IO包,自己封装的一些IO操作类
34org.archive.io.arc针对arc格式的IO操作包
35org.archive.io.warc针对warc格式的IO操作包
36org.archive.netHeritrix扩展了java.net的包,主要扩展java.net.URI类
37org.archive.net.md5Heritrix对URL MD5加密包,所用不多,待研究
38org.archive.net.rsync还没接触到,待研究
39org.archive.net.s3还没接触到,待研究
40org.archive.queue还没接触到,待研究
41org.archive.uidHeritrix ID管理,主要针对URI
42org.archive.util整个Heritrix的工具类
43org.archive.util.anvl还没接触到,待研究
44org.archive.util.bdbjeHeritrix对BDB的封装
45org.archive.util.fingerprint还没接触到,待研究
46org.archive.util.iteratorHeritrix自身封装的迭代器
47org.archive.util.ms还没接触到,待研究
48st.ata.util扩展的其他包,待研究            


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值