Heritrix3.0教程使用入门(一) 下载安装与运行

最新推荐文章于 2016-12-25 11:56:37 发布

xfwang515

最新推荐文章于 2016-12-25 11:56:37 发布

阅读量233

点赞数

分类专栏： heritrix 文章标签： heritrix

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xfwang515/article/details/84148972

版权

heritrix 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.html

Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.

1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/ .下载后的截图为

这里大家可以看下README.TXT文件.这里面有对Heritrix基本的介绍.

2.下面开始使用Heritrix3.0.0

进入CMD(开始->运行),进入Heritrix3.0.0所在目录,我这里是D:/heritrix/heritrix3.0.0 /bin,这里大家截图也可以看到.输入以下命令:heritrix -a admin:admin,这里会跳出一个cmd,截图如下:

就表示你已经启动Heririx成功,然后在浏览器里输入,https://localhost:8443(注意,是https,不是http). 由于Heritrix3.0.0已通过https登录,用户名跟密码就是以上输入的admin:admin.所以不同于早期版本,我这里用的是火狐浏览器,界面可能如下

ie等可能不一样.然后点击我已充分了解可能的风险,点添加例外,再输入用户名跟密码,也就是刚才的admin,admin后,便可以进入Heritrix3.0.0 web界面了.大概如下:

出现以上界面,就表示你可以使用Heritrix去抓取数据了,但这里还需配置Job,也就是抓取任务.

这里先大概介绍下界面:

Memory 表示内存使用情况
Jobs Directory :表示抓取job目录,默认是Heritrix_home/jobs
rescan按钮表示扫描jobs目录,目录有改动,也就是抓取任务有增加或者删除,这里则都会显示
create按钮表示创建一个Job
add按钮表示添加一个已经存在的job,这里是输入这个job所在的路径

好了,这里基本上可以下载并使用Heririx了.下一篇则介绍如何配置CrawlJob,也就是抓取任务去抓取数据.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Heritrix3.0教程使用入门(一) 下载安装与运行

本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http:...
复制链接

扫一扫

专栏目录

xfwang515 CSDN认证博客专家 CSDN认证企业博客

码龄17年

3: 原创

97万+: 周排名

100万+: 总排名

1665: 访问

: 等级

36: 积分

0: 粉丝

0: 获赞

4: 评论

2: 收藏

私信

关注

热门文章

分类专栏

heritrix 2篇

最新评论

cookie与session的关联
xfwang515: 回复 liujianglong：这个还真不清楚。。。
cookie与session的关联
liujianglong: 呵呵，谢谢关注，你知道怎么修改linux的ip吗？还有主机名?
cookie与session的关联
xfwang515: 回复 liujianglong：呵呵，个人的一些小小的总结。。
cookie与session的关联
liujianglong: 你的讲解很经典，我已经收藏了！我也是一个勤快、热情的小伙子。我想补充一些内容：如果用户登录，我们会在程序中将一些值放入session中，如 request.getSession().setAttribute("username","xxxx"), (写在Servlet中--多见) 。下次就可根据这个值是否为空来断断用户是否已登录。 jsp中的session验证用户登录： <% Object obj=session.getAttribute("xxxx"); if(obj!=null){//判断是否已经登录 response.sendRedirect(main.jsp); } %> 假如已经登录，那么从session 中取到的obj一定是非空的，那么就可以跳转到主页面了(当然可以是其他页面，跳转到主页面居多). 个人意见，仅供参考，谢绝拍砖~~呵呵~~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。