heritrix
文章平均质量分 79
Devin__Yang
简历请投yangding@youzan.com 有赞零售招高级java 职位详情:https://www.zhipin.com/job_detail/1412453118.html?ka=job-10
展开
-
Heritrix多线程爬取与jsp分页jar包冲突
jasper-compiler.jar&jasper-runtime.jar与jsp分页的jar包邮冲突,导致分页无法正常显示。原创 2014-12-15 12:30:23 · 694 阅读 · 0 评论 -
Heritrix只爬取html、htm等特定页面
Heritrix有5条链,网上有说在Extractor链里做处理,该链是抽取链,可以负责解析html页面的内容,然后进一步筛选。但是我目前只想通过判断后缀名筛选出html、htm、shtml、xshtml等文件。因此这样在Extractor里做处理就有点牛刀小用的意思,因此我在PostProcessor链里做处理。详细介绍如下: FronitierScheduler是一种PostP原创 2015-05-16 08:39:56 · 2283 阅读 · 1 评论 -
Heritrix的order.xml详细介绍
order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取.当然整个order.xml里我也没有全部掌握,只知道大部分配置的作用,希望大家指点改正以及补充,谢谢!转载 2014-11-26 19:24:50 · 746 阅读 · 0 评论 -
如何在后台运行Heritrix
import java.io.File; import javax.management.InvalidAttributeValueException; import org.archive.crawler.event.CrawlStatusListener; import org.archive.crawler.framework.CrawlContro原创 2014-11-22 13:46:49 · 731 阅读 · 0 评论 -
Heritrix增量抓取的三种方式
前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的任何东西,也会继续抓取A没有抓过的URL。做到这个有两种方法,一种是针对Web启动的,还有一种是针对我上次写的不通过Web启动的方式(启动方式见博客:He转载 2014-11-22 11:08:17 · 1028 阅读 · 0 评论 -
后台运行Heritrix常见错误
虽然什么事情都没有干但是在eclipse的控制台中打印出了日志,并且也没报错 但是web不能访问代码是:http://guoyunsky.iteye.com/blog/642550改了一丁点东西--------------------------------------------------------------------------------------------------转载 2014-11-22 10:10:16 · 720 阅读 · 0 评论 -
Heritrix在Eclipse下的配置方法
1、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 可以在crawler.archive.org/downloads.html下载2、在Eclipse下新建Java项目,取名Heritrix;3、复制SRC包下面src/java文件夹下org、com、st三个文件夹到src目录下(即D:\ecl转载 2014-11-21 13:20:39 · 723 阅读 · 0 评论 -
Heritrix提高抓取效率的若干尝试
Heritrix提高抓取效率的若干尝试 (2010-10-21 13:09:16)转载▼标签:heritrixwbia 前段忙于其他的功课,精力没有放在这边,这星期把重心移回到Heritrix上,做了几个提高Heritrix抓取效率的尝试,所得的结果还比较满意。在此将所做的工作总结下。一.利用ELFHash策略多线程原创 2014-11-14 20:47:51 · 1964 阅读 · 0 评论