Heritrix提高抓取效率的若干尝试

本文介绍了如何通过调整Heritrix爬虫的配置以提高抓取效率。首先,通过实现ELFHashQueueAssignmentPolicy,利用多线程并行抓取同一域名下的网页,显著提升抓取速度。其次,通过调整DecideRules和正则表达式,确保只抓取HTML等特定类型的文件,避免无关文件的下载。最后,讨论了取消对robots.txt的遵循以节省抓取时间,但未提供性能对比数据。整体优化后,Heritrix的抓取效率大幅提升。
摘要由CSDN通过智能技术生成

一.利用ELFHash策略多线程抓取网页

   这些天看了其它小组的博客,发现大家用Heritrix抓取所花的时间都比较长,基本都要花上数天的时间才能抓完,名副其实的爬虫…之所以这么慢,一个重要的原因是heritrix在抓取时一般只运行了一个线程。在网上查找原因,得知这是因为在默认的情况下,Heritrix使用HostnameQueueAssignmentPolicy来产生key值,而这个策略是用hostname作为key值的,因此一个域名下的所有链接都会被放到同一个线程中去。如果对Heritrix分配URI时的策略进行改进,利用ELFhash算法把url尽量平均分部到各个队列中去,就能够用较多的线程同时抓取一个域名下的网页,速度将得到大大的提高。

   具体的做法如下:

   1.在org.archive.crawler.frontier下新建一个ELFHashQueueAssignmentPolicy类,这个类要注意继承自QueueAssignmentPolicy。

   2.在该类下编写代码如下:

package org.archive.crawler.frontier;

import org.apache.jasper.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {
private static final Logger logger = Logger
.getLogger(ELFHashQueueAssignmentPolicy.class.getName());

public String getClassKey(CrawlController controller,

CandidateURI cauri) {

String uri = cauri.getUURI().toString();

long hash = ELFHash(uri);

String a = Long.toString(hash % 100);

return a;

}

public long ELFHash(String str) {

long hash = 0;

long x = 0;

for (int i = 0; i < str.length(); i++) {

hash = (hash << 4) + str.charAt(i);

if ((x = hash & 0xF0000000L) != 0) {

hash ^= (x >> 24);

hash &= ~x;

}

}

return (hash & 0x7FFFFFFF);

}
}

    3. 修改/Heritrix/src/org/archive/crawler/frontier/AbstractFrontier.java 类的AbstractFrontier方法:

   关键代码段是:

   Stringqueue Str = System.getProperty(AbstractFrontier.class.getName()+
                 
"."+ ATTR_QUEUE_ASSIGNMENT_POLICY,
               

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值