到http://sourceforge.net/上下载heritrix-1.14.4.zip和heritrix-1.14.0-src.zip;
Heritrix是个网络爬虫骨架,网络搜索引擎不可缺少的咪咪,嘿嘿,这个稍加修改或不修改就很好用;
Heritrix有两种运行方式,可以通过命令行运行,也可以通过工程运行,在此介绍在Eclipse里运行;
解压下载的两个文件,并解压heritrix-1.14.1里面的heritrix-1.14.4.jar;
这个爬虫其实就是一个工程,来让它借壳上市,Eclipse新建一个工程,命名heritrix,选项里选择源文件与生成的可执行文件分开;
将heritrix-1.14.1文件夹里webapps复制粘贴到heritrix下;
再将解压的heritrix-1.14.4.jar文件夹里的所有文件复制粘贴到src下;
由于文件夹org和st是.class类型的执行文件,不能做源文件,于是删之,将heritrix-1.14.0-src/heritrix-1.14.0/src/java里的org,st源文件粘过来就基本ok了;
现在的src中的文件heritrix.properties用记事本打开,修改其中的heritrix.cmdline.admin = gen:1234即用户名和密码,用冒号隔开;
这样有可能还报错,说是rt.jar没有权限用,这个文件在jre里,我是复制出来,随便粘个地方,用buildpath添加进来;buildpath还要把lib里的所有jar文件添加进来,将heritrix-1.14.4中的heritrix-1.14.4.jar也添加进来;
在执行前,最好设置Run Configurations,Argument是选项卡里的VMarguments添加-Xmx512M,增加虚拟机的堆;这样就可以执行了;
执行成功。
在浏览器输入http://localhost:8080可以看到操作界面,建立一个Jobs,进行简单设置,记得将Writer类型设为MirrorWriter,这样抓取的页面以镜像形式存储,下面这样
再用适当的方法,对这些抓取的文档建立索引,就能用来搜索了,嘎嘎,抓住的过程中很消耗内存,眼看着文件夹的内容越来越多,占用空间1G,2G,3G……,运行就ok了,代码有时间慢慢看,没时间不看,拿来主义。