Heritrix只爬取html、htm等特定页面

本文介绍了如何使用Heritrix爬虫在PostProcessor链中修改FrontierScheduler.java,通过判断文件后缀名,只爬取html、htm、shtml、xshtml等页面,避免了在Extractor链中的过度处理。
摘要由CSDN通过智能技术生成

       Heritrix有5条链,网上有说在Extractor链里做处理,该链是抽取链,可以负责解析html页面的内容,然后进一步筛选。但是我目前只想通过判断后缀名筛选出html、htm、shtml、xshtml等文件。因此这样在Extractor里做处理就有点牛刀小用的意思,因此我在PostProcessor链里做处理。详细介绍如下:

       FronitierScheduler是一种PostProcessor,它的作用是将Extractor中分析得到链接加入到Froniter中,以供下一步处理(写文件处理等等)。

       具体方法:

       1.找到org.archive.crawler.postprocessor包下的FrontierScheduler.java文件

       2.找到FrontierScheduler类的protected void schedule(CandidateURI caUri)方法

       3.我的改写如下:

<span style="font-size:14px;">     protected void schedule(CandidateURI caUri) {
        //将caUri转为String格式
        String url = caUri.toStrin
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值