- 博客(3)
- 收藏
- 关注
原创 Heritrix3.0教程 使用入门(一) 下载安装与运行
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.html Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧. 1.下载,下载地址:http:...
2012-02-06 00:38:35 250
原创 Heritrix3.0教程 使用入门(二) 开始抓取
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html 上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行. 首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过...
2012-02-06 00:36:46 218
原创 cookie与session的关联
<br />前提:cookie没有被禁用。<br /> 当用浏览器登录到某网站服务器时,先找对应的cookie文件,当首次访问是当然没有cookie文件,所以在请求头部中没有cookie的内容,即在请求头部中没有类似Cookie: JSESSIONID=XXXXXXXXXXXXXXX的内容,这时当请求到达服务器后,服务器看请求头中没有JSESSIONID值,于是生成一个session对象,并由某种算法产生一个值赋给这个session的id,并将sessionid,和session对象放入HashM
2010-07-02 12:33:00 1260 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人