搜索引擎
zhz_2V
java
展开
-
Nutch搜索引擎分析
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。 Nutch是开转载 2007-06-07 20:26:00 · 1071 阅读 · 0 评论 -
网络蜘蛛的秘密
经常去雅虎、搜狐等网站搜索信息的读者一定有这样的疑问:如此庞大的网页信息,到底是如何被这些网站所收集到的呢?难道都是人工登记并整理的吗?当然不是。这些搜索引擎能够快速地找到如此之多的信息,和网络蜘蛛的应用是分不开的。 网络蜘蛛可以算得上是为Internet而开发的最有用处的工具之一。时至今日,要想从以千万计的各不相同的站点中获取信息,舍网络蜘蛛之外,焉有他哉? 一个典型的网络蜘蛛(转载 2007-06-07 20:50:00 · 1079 阅读 · 0 评论 -
从Larbin看互联网爬虫设计
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。要设计一个爬虫,首先需要考虑的效率。对于网络转载 2007-06-07 20:16:00 · 893 阅读 · 0 评论 -
搜索引擎中网络爬虫的设计分析
多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析功能5】 网转载 2007-06-07 20:31:00 · 925 阅读 · 0 评论