Nutch搜索引擎
yongping8204
这个作者很懒,什么都没留下…
展开
-
http协议基础,学习搜索引擎必备知识
HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写,它用于传送WWW方式的数据,关于HTTP协议的详细内容请参考RFC2616。HTTP协议采用了请求/响应模型。 客户端向服务器发送一个请求,请求头包含请求的方法、URI、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,相应的内容包括消息协议转载 2006-11-23 19:30:00 · 1460 阅读 · 1 评论 -
分布式搜索引擎技术展望
对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. 那么分布式搜索引擎的最主要的核心问题是哪些呢? 1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取转载 2006-11-23 19:32:00 · 1346 阅读 · 0 评论 -
Nutch研究之-Nutch基于Windows平台安装篇
近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前,当然是需要先对其进行安装了。用搜索引擎查找了一下相关内容,发现大部分关于Nutch如何安装的文章都是基于Linux转载 2006-11-23 19:48:00 · 1408 阅读 · 1 评论 -
搜索引擎当前主流正文提取的思路
网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的...提取出来,然后去除其中的链接信息。 还有一种简单的方法:对网页中的所有 ...,计算其中所含内容中的中文标点符号,并结合内容中所包含的链转载 2009-10-20 23:19:00 · 1556 阅读 · 0 评论 -
网页正文抽取中的网页编码字符集自动识别最佳方案
易尔译科技(http://www.12fanyi.cn)团队过去在做正文抽取的时候经常会碰到因为网页字符集编码不同,抽取了很多乱码,现将一些文章收集整理一下,供新手参考,高手就别见笑了。 第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet 》,我摘转载 2009-10-20 23:24:00 · 3144 阅读 · 1 评论 -
C#版正文抽取所需正则全集
在正文抽取(正文提取)里一般会用到的正则,易尔译科技收集了一下,是C#版本的正文抽取正则表达式。欢迎大家补充。#region 相关正则表达式 /// /// 去掉所有html标签 /// private static readonly Regex FilterAll = new Regex( @"(/[([^=]*)(=[^/]]*)?/][/s/S]*?/[//1/])|(?(?=转载 2009-10-20 23:21:00 · 1474 阅读 · 0 评论