heritrix3 后台运行job

在实际项目开发中,用heritrix3抓取网页,不可能启动Heritrix类,进入web界面,创建job,launch等操作。在实际开发中,我们要通过程序去实现一个job的创建,运行。

1.根据自己的需求配置好crawler-beans.cxml。

2.通常的job launch后,进入暂停状态,要进入运行状态,需要把属性name=”pauseAtStart” 值改为”false”.

<!-- CRAWLCONTROLLER: Control interface, unifying context -->
 <bean id="crawlController" 
   class="org.archive.crawler.framework.CrawlController">
  <!-- <property name="maxToeThreads" value="25" /> -->
  <!-- <property name="pauseAtStart" value="true" /> -->
  <!-- <property name="runWhileEmpty" value="false" /> -->
  <property name="pauseAtStart" value="false"/>
  <!-- <property name="recorderInBufferBytes" value="524288" /> -->
  <!-- <property name="recorderOutBufferBytes" value="16384" /> -->
  <!-- <property name="scratchDir" value="scratch" /> -->

 </bean>


3.Java示例代码如下:

File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");
        CrawlJob cj = new CrawlJob(cxml);
        cj.validateConfiguration();
        cj.launch();


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值