1.关于安装:
目前的版本号为1.12.1,官网地址为 http://crawler.archive.org/ 。常规安装,即解压到相关目录(不存在setup.exe安装模式 ),之后新建系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。
2.安装的后续工作:
将 %HERITRIX_HOME%/heritrix-1.12.1.jar 解压到临时目录(随便找一个地方),拷贝其中的profiles目录到 %HERITRIX_HOME%/conf/目录下,用来解决Heritrix 关于的Profile默认配置的一个Bug。
3.配置管理帐户:
(1) 拷贝 %HERITRIX_HOME%/conf/jmxremote.password.template 到 %HERITRIX_HOME%/下,并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分:
monitorRole @pku1001213210@->monitorRole admin
controlRole @pku1001213210@ -> controlRole admin
controlRole @pku1001213210@ -> controlRole admin
(
注意:@与@之间的本来是“PASSWORD”,也就是需要设置的密码,我自己设置的是pku1001213210,各人视情况,后面admin是用户名 )
修改完毕之后,保存该文件。并且需要将该文件的属性改为“只读”。
(2) 进入c:/heritrix/conf 打开文件heritrix.properties ,修改其中的2项key-value 值为:
heritrix.cmdline.admin = admin:pku1001213210 ( 用户名:密码)
heritrix.cmdline.port = 8080
(heritrix 服务器默认端口号8080, 保证该端口不被占用就不用改了)
4.运行heritrix
打开cmd ,切换目录到C:/Program Files/heritrix/heritrix-1.12.1/bin
然后敲入命令:heritrix --admin=admin:pku1001213210(注意:heritrix后面有空格)
之后便可以访问 http://127.0.0.1:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。
该管理端提供了Heritrix默认提供的所有配置功能,并且可以创建一个Job并且执行该Job抓取网站。