网络信息体系结构
wukjong_1988
这个作者很懒,什么都没留下…
展开
-
Eclipse 配置 Heritrix 1.14.4
在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如[url]http://extjs2.iteye.com/blog/699751[/url] 不过这里对配置有一些进一步的说明。 Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/a...原创 2010-10-05 15:37:34 · 155 阅读 · 0 评论 -
HTML Parser 使用 例子
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。 最近用Heritrix下载了大...2010-11-22 11:36:48 · 122 阅读 · 0 评论 -
IK Analyzer Demo
IK Analyzer 分词器的使用Demo,也是看了我一个朋友的博客,自己理解了下,就放在这里了,代码稍微改了改,希望能对IK Analyzer感兴趣的朋友有帮助。 [code="java"] package com.eric.lucene; import java.io.IOException; import java.io.StringReader; import org....原创 2010-11-17 20:39:35 · 157 阅读 · 0 评论 -
Heritrix 抓取 高级篇
使用Heritrix进行抓取网页,有半天阅读我之前博客的话,很容易就能够顺利的进行抓取任务,但在抓取过程中可能会遇到: [b]1 想抓取特定格式/特定要求 的网页[/b] 这个要根据具体的网站,才能采取具体的措施。这主要是根据网站编写的时候,它的出度的具体格式。如果是类似这样的可以直接指向某个具体的URL,那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内...原创 2010-11-16 10:32:38 · 171 阅读 · 0 评论 -
前三章的练习题
下面是前三章的习题 [align=center] [img]http://dl.iteye.com/upload/attachment/344032/2ae4c4fb-f4b1-39f9-9862-807c1e0c7407.jpg[/img] [/align]原创 2010-11-06 10:19:17 · 147 阅读 · 0 评论 -
网络信息体系结构 内容
[b]1.背景知识要求[/b] 线性代数,概率论和数理统计 程序设计( Java 或C/C++ ) [b]Web Crawler 的结构[/b](见博客[url]http://hanyuanbo.iteye.com/admin/blogs/779350[/url]) [b]2.基本的,也是最简单的抓取网站的爬虫的算法:[/b] [align=center] [i...原创 2010-11-01 16:47:51 · 294 阅读 · 0 评论 -
heritrix多线程抓取--好使
最近作业中有个需要用Heritrix抓包的任务,不过抓起来,我真的崩溃了。用我的电脑抓了奖金20个小时,抓了50M。都哭了。不过发现那个active threads项最多只有一个,很多时候都是0。偶表示压力很大。。 怎么搞的?? 听朋友说,加上网上搜资料,终于搞定,原来Heritrix采用HostnameQueueAssignmentPolicy来进行对URL处理。url队列以hostname为...原创 2010-10-19 10:08:55 · 115 阅读 · 0 评论 -
Heritrix使用入门
通过第一篇的Eclipse配置成功Heritrix之后,便可以通过运行 org.archive.crawler.Heritrix.java来启动工程以便进行抓取内容。不过最常用的方法是通过WebUI来进行一系列的配置。 [b]1. 运行Heritrix并通过浏览器访问http://localhost:8080来进行登录[/b](admin/admin)。登陆界面如下: [align...原创 2010-10-08 14:43:20 · 124 阅读 · 0 评论 -
apache-solr 使用
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果; Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可...2010-11-22 11:39:38 · 84 阅读 · 0 评论