![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 86
wujiaze05
这个作者很懒,什么都没留下…
展开
-
在windows中如何安装Nutch
本来有机会接一个搜索引擎项目的,但最终因价格问题双方谈崩。为此,我感到深深的遗憾,失去了一个极好的实践机会。但我不想因此放弃对搜索引擎的学习和实践,在网上听到很多人推荐Nutch。所以我打算学习一下Nutch,要学习Nutch,还是先从安装和使用Nutch开始吧。以下是我在xp sp2环境下安装Nutch的过程记录。 安装Nutch需要的环境 jdk1.4.x or jdk原创 2006-07-24 14:33:00 · 1552 阅读 · 0 评论 -
中文搜索引擎技术研究:中文分词
什么是中文分词? 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生转载 2006-07-26 10:34:00 · 999 阅读 · 0 评论 -
学习Nutch
总体架构 总体上,Nutch可以分为2个部分:抓取程序(crawler)和搜索程序(searcher)。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则利用反向索引检索回答用户的查找关键词来产生查找结果。两者之间的接口是索引,两者都使用索引中的字段。实际上搜索程序和抓取程序可以分别位于不同的机器上,这样可以提升性能。Crawler涉及的数据结构 抓取程序是被原创 2006-07-25 10:03:00 · 1149 阅读 · 0 评论