网络爬虫Heritrix的运行

到http://sourceforge.net/上下载heritrix-1.14.4.zip和heritrix-1.14.0-src.zip;

Heritrix是个网络爬虫骨架,网络搜索引擎不可缺少的咪咪,嘿嘿,这个稍加修改或不修改就很好用;

Heritrix有两种运行方式,可以通过命令行运行,也可以通过工程运行,在此介绍在Eclipse里运行;

解压下载的两个文件,并解压heritrix-1.14.1里面的heritrix-1.14.4.jar;

这个爬虫其实就是一个工程,来让它借壳上市,Eclipse新建一个工程,命名heritrix,选项里选择源文件与生成的可执行文件分开;

将heritrix-1.14.1文件夹里webapps复制粘贴到heritrix下;

再将解压的heritrix-1.14.4.jar文件夹里的所有文件复制粘贴到src下;

由于文件夹org和st是.class类型的执行文件,不能做源文件,于是删之,将heritrix-1.14.0-src/heritrix-1.14.0/src/java里的org,st源文件粘过来就基本ok了;

现在的src中的文件heritrix.properties用记事本打开,修改其中的heritrix.cmdline.admin = gen:1234即用户名和密码,用冒号隔开;

这样有可能还报错,说是rt.jar没有权限用,这个文件在jre里,我是复制出来,随便粘个地方,用buildpath添加进来;buildpath还要把lib里的所有jar文件添加进来,将heritrix-1.14.4中的heritrix-1.14.4.jar也添加进来;

在执行前,最好设置Run Configurations,Argument是选项卡里的VMarguments添加-Xmx512M,增加虚拟机的堆;这样就可以执行了;




执行成功。

在浏览器输入http://localhost:8080可以看到操作界面,建立一个Jobs,进行简单设置,记得将Writer类型设为MirrorWriter,这样抓取的页面以镜像形式存储,下面这样




再用适当的方法,对这些抓取的文档建立索引,就能用来搜索了,嘎嘎,抓住的过程中很消耗内存,眼看着文件夹的内容越来越多,占用空间1G,2G,3G……,运行就ok了,代码有时间慢慢看,没时间不看,拿来主义。

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值