Heritrix只爬取html、htm等特定页面

最新推荐文章于 2021-02-12 19:55:44 发布

Devin__Yang

最新推荐文章于 2021-02-12 19:55:44 发布

阅读量2.2k

点赞数

分类专栏： heritrix 网络爬虫文章标签： Heritrix

本文链接：https://blog.csdn.net/yangding_/article/details/45765671

版权

本文介绍了如何使用Heritrix爬虫在PostProcessor链中修改FrontierScheduler.java，通过判断文件后缀名，只爬取html、htm、shtml、xshtml等页面，避免了在Extractor链中的过度处理。

摘要由CSDN通过智能技术生成

Heritrix有5条链，网上有说在Extractor链里做处理，该链是抽取链，可以负责解析html页面的内容，然后进一步筛选。但是我目前只想通过判断后缀名筛选出html、htm、shtml、xshtml等文件。因此这样在Extractor里做处理就有点牛刀小用的意思，因此我在PostProcessor链里做处理。详细介绍如下：

FronitierScheduler是一种PostProcessor，它的作用是将Extractor中分析得到链接加入到Froniter中，以供下一步处理（写文件处理等等）。

具体方法：

1.找到org.archive.crawler.postprocessor包下的FrontierScheduler.java文件

2.找到FrontierScheduler类的protected void schedule(CandidateURI caUri)方法

3.我的改写如下：

<span style="font-size:14px;">     protected void schedule(CandidateURI caUri) {
        //将caUri转为String格式
        String url = caUri.toStrin

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Devin__Yang

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Heritrix爬虫方案

minmax329的博客

02-25

727

进入运行参数设置页面后，有很多可以设定的参数，对于需要了解详情的设置，请点击设置框左边的“？使用Heritrix来抓取网页必然会存在一些不需要的数据或者URL，需要用正则表达式来过滤到你不想要的东西,抓取和过滤的原理是一样的,就是具有共性的头和尾,把中间部分抓出来，正则表达式在抓取中应用比较多,也可以称之为一种规则,你抓取内容要按照一定的规则来抓取,无用的你还得按照一定的规则过滤。等的前面的内容，而只是简单指向本网站下的某个网页，那么在加入到URI中的时候，要记得加上头使得它是一个完整的网页的URL。

利用 Heritrix 构建特定站点爬虫

04-24

### 利用Heritrix构建特定站点爬虫 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具，由互联网档案馆(Internet Archive)开发维护，主要用于互联网资源的采集与归档。它支持高度定制化的数据抓取策略，并...

1 条评论您还未登录，请先登录后发表或查看评论

扩展Heritrix3指定链接爬取

08-01

在网上找了许多关于Heritrix的资源，但是关于新版本heritrix3的资源很少，最近由于项目需要，认真读了heritrix的源码，扩展了Heritrix3指定链接提取，内容详细，可以在实际中使用。

heritrix3.x--SURT / 限定heritrix的爬行域

xunianchong的专栏

06-17

1303

在heritrix3.x的CXML文件中经常出现surt这个属性，这个属性到底是什么呢，因为是一个缩写，而且比较小众，从字面上看不出意思，还是来看下官方的完整解释吧： Sort-friendly URI Reordering Transform. Converts URIs of the form: scheme://userinfo@domain.tld:port/path?query#fra

Heritrix学习笔记

mxdxm8899的专栏

12-27

195

Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行，最后以抓取北京林业大学网站为例，介绍如何对其进行扩展，实现只抓取特定网站的页面。本文由浅入深，详细介绍了 Heritrix 在 Eclipse 中的...

Heritrix3 控制爬取链接

cleverbegin的专栏

07-24

1131

package org.wisdom.heritrix.plugins.frontier; /* * This file is part of the Heritrix web crawler (crawler.archive.org). * * Licensed to the Internet Archive (IA) by one or more individual * co

【转】网站爬虫解决方案一暨Heritrix抓取

strawbingo的专栏

07-12

2421

转自：http://www.folo.cn/user1/12768/archives/2009/66586.html 网站爬虫解决方案2007年11月09日星期五 16:24 作者:行健 liu_xingjian 网站爬虫解决方案一暨Heritrix抓取 整个步骤包括配置Heritrix处理链、抓取网页、解析和提取内容、建立索引和搜索。 一、Heritrix配置

Windows下Eclipse中配置Heritrix：构建特定网站爬虫

文章适用于初级读者，详细讲解了Heritrix在Eclipse环境中的配置和运行，并通过实例展示了如何扩展Heritrix，以只抓取北京林业大学网站的页面。" Heritrix是一个强大的开源网络爬虫，用Java编写，以其良好的可扩展性...

Heritrix中的SURT和SurtPrefixedDecideRule

FWing的专栏

01-23

1968

在Heritrix中，如果我们需要抓取指定host的网页，需要用到SurtPrefixedDecideRule这个规则。这里根据Heritrix的文档，解释一下SURT。 SURT全称是Sort-friendly URI Reordering Transform。目的是将一个URL转换成更方便的格式进行处理。 .... SURT类可以将下面这种形式的URL：sc

heritrix中的surt

mxdxm8899的专栏

09-08

471

在Heritrix中，如果我们需要抓取指定host的网页，需要用到SurtPrefixedDecideRule这个规则。 这里根据Heritrix的文档，解释一下SURT。 SURT全称是Sort-friendly URI Reordering Transform。 目的是将一个URL转换成更方便的格式进行处理。 .... SURT类可以将下面这种形式的URL： scheme://userinfo@domain.tld:port/pat

Heritrix 抓取高级篇

Queenie4bee的专栏

01-21

817

使用Heritrix进行抓取网页，有半天阅读我之前博客的话，很容易就能够顺利的进行抓取任务，但在抓取过程中可能会遇到： 1 想抓取特定格式/特定要求的网页这个要根据具体的网站，才能采取具体的措施。这主要是根据网站编写的时候，它的出度的具体格式。如果是类似这样的可以直接指向某个具体的URL，那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内容，而只是

heritrix3.1.0增量爬取

lzj0327的专栏

08-26

830

感谢这三篇文章 https://webarchive.jira.com/wiki/display/Heritrix/Duplication+Reduction+Processors 这个是官网的文章 http://blog.sina.com.cn/s/blog_5f54f0be0101hdep.html http://blog.csdn.net/historyasamirror/a

Heritrix抓取

zhanghui1597889zh的专栏

07-19

1222

1.Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。 Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感

heritrix 3.1.1限制爬取范围

softwarehe的专栏

04-26

1861

参考这篇文章 http://www.verydemo.com/demo_c427_i9456.html 虽然说的不知道是哪个版本的，但看很适合3.1.1版本主要配置如下： --> --> --> --> --> # example.com #

heritrix java_基于Java的Heritrix爬取网页

weixin_30456153的博客

02-12

393

任务：重写一些定制扩展类来实现“网易手机频道”网页的抓取任务。(转载请注明出处)准备环境：eclipse Mars.2 Release (4.5.2)抓取工具：Heritrix1.14.4前提条件：已经在eclipse中搭建好了Heritrix环境Tomcat PluginV 插件的安装：PS：安装TomcatPlugin真是太坑了，一定要注意版本的问题,目前最新版本为3.3.1(好像很长时间都没...

java爬虫：Heritrix教程

Queenie4bee的专栏

01-07

4466

Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧. 1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/.下载后的截

heritrix 基本介绍

nhy520

08-01

876

Heritrix使用小结 1. Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。 Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月...

heritrix3抓取的数据直接写入到mysql中

white__cat的专栏

07-09

3347

在heritrix3抓取的过程中，我们需要把抓取过来的网页，经过分析，然后写入到数据库中。实现的方法为：继承Processor类重写innerProcess(CrawlURI curi)方法。实例如下： package com.hq.override; import java.io.IOException; import org.archive.io.Recordin

Eclipse下配置heritrix

fei07的专栏

04-06

602

本文由浅入深，详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展，介绍如何实现只抓取特定网站的页面。通过本文，读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行，能够从零开始构建特定站点的专有爬虫，从而为网站增加全文检索服务。背景随着网站内容的增加，为其添加搜索功能是一个常见的需求，搜索引擎也已成为互联网最重要的应用之一。你