网络爬虫Heritrix的运行

最新推荐文章于 2024-09-15 22:39:06 发布

王景远

最新推荐文章于 2024-09-15 22:39:06 发布

阅读量1.6k

点赞数

文章标签：网络爬虫 eclipse 搜索引擎 jobs 虚拟机浏览器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whhitgen/article/details/5778023

版权

到http://sourceforge.net/上下载heritrix-1.14.4.zip和heritrix-1.14.0-src.zip；

Heritrix是个网络爬虫骨架，网络搜索引擎不可缺少的咪咪，嘿嘿，这个稍加修改或不修改就很好用；

Heritrix有两种运行方式，可以通过命令行运行，也可以通过工程运行，在此介绍在Eclipse里运行；

解压下载的两个文件，并解压heritrix-1.14.1里面的heritrix-1.14.4.jar；

这个爬虫其实就是一个工程，来让它借壳上市，Eclipse新建一个工程，命名heritrix，选项里选择源文件与生成的可执行文件分开；

将heritrix-1.14.1文件夹里webapps复制粘贴到heritrix下；

再将解压的heritrix-1.14.4.jar文件夹里的所有文件复制粘贴到src下;

由于文件夹org和st是.class类型的执行文件，不能做源文件，于是删之，将heritrix-1.14.0-src/heritrix-1.14.0/src/java里的org，st源文件粘过来就基本ok了；

现在的src中的文件heritrix.properties用记事本打开，修改其中的heritrix.cmdline.admin = gen:1234即用户名和密码，用冒号隔开；

这样有可能还报错，说是rt.jar没有权限用，这个文件在jre里，我是复制出来，随便粘个地方，用buildpath添加进来；buildpath还要把lib里的所有jar文件添加进来，将heritrix-1.14.4中的heritrix-1.14.4.jar也添加进来；

在执行前，最好设置Run Configurations，Argument是选项卡里的VMarguments添加-Xmx512M，增加虚拟机的堆；这样就可以执行了；

执行成功。

在浏览器输入http://localhost:8080可以看到操作界面，建立一个Jobs，进行简单设置，记得将Writer类型设为MirrorWriter,这样抓取的页面以镜像形式存储，下面这样

再用适当的方法，对这些抓取的文档建立索引，就能用来搜索了，嘎嘎，抓住的过程中很消耗内存，眼看着文件夹的内容越来越多，占用空间1G，2G，3G……，运行就ok了，代码有时间慢慢看，没时间不看，拿来主义。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。