Heritrix的介绍与使用

强大的网络爬虫框架--Heritrix:基于多线程的高效率的网络爬虫框架。


第一部分:介绍Heritrix的基本使用(首先需要从Heritrix的官网上下载相应的项目)


1.导入jar包 需要注意在项目根目录下添加lib文件夹,然后将相关联的jar包添加进去
2.拷贝源代码 src-java con/org/st运行Heritrix所必需的核心代码,拷贝到项目MyHeritrix目录下
    src\resources\org\archive\util util-tids-alpha-domain.txt顶级域名列表拷贝到MyHeritrix\src\org\archive\util中
    src-conf文件夹 运行Heritrix运行所需的配置文件,拷贝到MyHeritrix根目录下
    src-webapps文件夹  提供servlet引擎的,包含了Heritrix的Web UI文件,拷贝到MyHeritrix根目录下
如果想使用帮助,可以将heritrix-1.14.4.zip/docs中的articles文件夹拷贝到MyHeritrix\webapps\admin\docs(需新建docs文件夹)下。
3.修改配置文件(heritrix.properties)
heritrix.cmdline.admin = admin:admin设置用户名/密码
heritrix.version = 1.14.4设置版本参数
4.运行配置文件(配置运行的工程)
5启动MyHeritrix服务 启动入口程序:MyHeritrix.java
6.进入登录界面 http://localhost:8080
7.进入Heritrix控制台
创建抓取任务 job(http://www.bjfu.edu.cn/为入口)(Queue/ExtractLink/FileDownloader)
Modules 设置处理模块
设置Settings
启动任务 (Start-启动任务)


第二部分:拓展自己的网页抓取逻辑
1.介绍Heritrix架构和URL处力链
2拓展FrontierScheduler 重写schedule()
3.在modules文件夹中的Processor.options中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”
4.在WebUI中选择拓展的org.archive.crawler.postprocessor.FrontierSchedulerForBjfu选项
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值