Heritrix3.x蜘蛛配置&使用

1、下载heritrix3.0heritrix3.1,解压。运行cmd,进入到bin目录下(如笔者的目录:

cd D:\heritrix-3.1.0\bin)。运行命令:

heritrix -a admin:admin ,这里冒号前面admin是用户名,后面是密码,这样将会在另一个新建的窗口中运行heritrix程序。

在浏览器地址栏输入https://localhost:8443,注意这里是https,端口号为8443,进入webUI控制页面。


2、在"Create new job directory with recommended starting configuration"标签下的文本框里输入新任务的名字。然后点击create按钮。(注意在heritrix3.0中,Job Directories只承认有.cxml的文件的工作目录,在你想要放置job的目录下,新建文件夹,并将conf\jobs\profile-defaults下的,profile-crawler-beans.cxml拷贝过去,可修改名称为crawler-beans.cxml,输入路径,然后点add添加进去)


3、点击Job Directories列表下新建任务的名字,将会进入新工作的配置页面。


在页面的顶端,有一个名叫craw-beans.cxml的配置文件,旁边有一股edit的链接。

4、点击"edit",配置内容将会出现,配置内容是可以被编辑的。


为使抓取工作进行,你至少需要修改几个属性。

a. 首先要给metadata.operatorContactUrl 属性赋值,例如:http://www.archive.org

其在idsimpleOverridesbean内。内容如下:

metadata.operatorContactUrl=ENTER_AN_URL_WITH_YOUR_CONTACT_INFO_HERE_FOR_WEBMASTERS_AFFECTED_BY_YOUR_CRAWL,表示控制爬虫的url,将其值改为

metadata.operatorContactUrl=http://www.archive.org

b. longerOverrides bean<prop>下,输入爬行开始的URL如http://www.giftour.com


替换为要爬行的URL。如下:


5、点save changes,回到工作页面。点buildJob Log会显示INFO Job instantiated


6、点击launch按钮,将会暂停,点击unpause,爬行工作就开始了。


以下就是你抓到的数据。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值