在实际项目开发中,用heritrix3抓取网页,不可能启动Heritrix类,进入web界面,创建job,launch等操作。在实际开发中,我们要通过程序去实现一个job的创建,运行。
1.根据自己的需求配置好crawler-beans.cxml。
2.通常的job launch后,进入暂停状态,要进入运行状态,需要把属性name=”pauseAtStart” 值改为”false”.
<!-- CRAWLCONTROLLER: Control interface, unifying context --><bean id="crawlController"
class="org.archive.crawler.framework.CrawlController">
<!-- <property name="maxToeThreads" value="25" /> -->
<!-- <property name="pauseAtStart" value="true" /> -->
<!-- <property name="runWhileEmpty" value="false" /> -->
<property name="pauseAtStart" value="false"/>
<!-- <property name="recorderInBufferBytes" value="524288" /> -->
<!-- <property name="recorderOutBufferBytes" value="16384" /> -->
<!-- <property name="scratchDir" value="scratch" /> -->
</bean>
3.Java示例代码如下:
File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");
CrawlJob cj = new CrawlJob(cxml);
cj.validateConfiguration();
cj.launch();