Heritrix安装、配置

1.关于安装:
 
      目前的版本号为1.12.1,官网地址为 http://crawler.archive.org/ 。常规安装,即解压到相关目录(不存在setup.exe安装模式 ),之后新建系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。
  
2.安装的后续工作:
 
      将 %HERITRIX_HOME%/heritrix-1.12.1.jar 解压到临时目录(随便找一个地方),拷贝其中的profiles目录到 %HERITRIX_HOME%/conf/目录下,用来解决Heritrix 关于的Profile默认配置的一个Bug。
 
3.配置管理帐户:
 
   (1)   拷贝 %HERITRIX_HOME%/conf/jmxremote.password.template 到 %HERITRIX_HOME%/下,并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分:
monitorRole  @pku1001213210@->monitorRole  admin
controlRole  @pku1001213210@ -> controlRole  admin
( 注意:@与@之间的本来是“PASSWORD”,也就是需要设置的密码,我自己设置的是pku1001213210,各人视情况,后面admin是用户名 )
      修改完毕之后,保存该文件。并且需要将该文件的属性改为“只读”。

(2) 进入c:/heritrix/conf 打开文件heritrix.properties ,修改其中的2项key-value 值为:

          heritrix.cmdline.admin = admin:pku1001213210 ( 用户名:密码)

          heritrix.cmdline.port = 8080

           (heritrix 服务器默认端口号8080, 保证该端口不被占用就不用改了)

 

4.运行heritrix

 

打开cmd ,切换目录到C:/Program Files/heritrix/heritrix-1.12.1/bin

          然后敲入命令:heritrix --admin=admin:pku1001213210(注意:heritrix后面有空格)

之后便可以访问 http://127.0.0.1:8080  使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。

      该管理端提供了Heritrix默认提供的所有配置功能,并且可以创建一个Job并且执行该Job抓取网站。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值