搜索引擎
相随心声
性格豪爽,为人诚挚,乐于助人,有上进心。
展开
-
信息检索-布尔检索
看了《信息检索导论》的第一节,明白了信息检索(Information Retrieval)的含义即信息获取、返回。其实这个很好理解,它的意思从钱包抽出一张信用卡是为了看到卡号以便输入,这一个过程就可以看作是一个信息检索的过程。 数据检索可以按照数据的规模进行区分,比如可以将信息检索按照数据的规模划分为3个主要级别。第一个级别是以Web搜索(Web search)为代表的大规模级别,此时需要处理存储在数百万台计算机上的数十亿篇文档。第二个级别是小规模,可以看成是与第一个级别相对的另一极端情况,这种规模的原创 2011-03-02 23:56:00 · 1321 阅读 · 0 评论 -
lucene介绍
<br />lucene是一个高性能、可伸缩性的信息检索(IR)库。它可以为你的应用程序添加索引和搜索能力。lucene是java实用的成熟、免费的开源项目,是著名的Apache Jakarta大家庭的一员,并且基于在Apache软件许可[ASE,License].注意:我们使用术语IR来描述像lucene这样的搜索工具。人们常常将IR库归诸于搜索引擎.但是一定不要将IR库与Web搜索引擎混为一谈。<br />lucene使你可以索引并能使得可以转换成文本格式的任何数据能够被搜索。lucene并不关心数据的原创 2011-03-10 22:14:00 · 672 阅读 · 0 评论 -
第一章:布尔检索模型
布尔检索模型接受布尔表达式查询,即通过AND、OR及NOT等逻辑操作符捋词项连接起来的查询.grepping的定义。假如你想知道《沙士比亚全集》中包含Brutus和Caesar但不包含Calpurnia.一种办法就是从头到尾阅读这本全集,对每部剧本都要留心包含Brutus和Caesar但不包含Calpurnia。这种线性扫描就是一种最简单的计算机文档检索方式。这个过程就叫作grepping.它来至于Unix下的一个文本扫描命令grep.在文本内进行grepping扫描速度很快,在使用现在的计算机的情况下会更原创 2011-03-11 15:15:00 · 3730 阅读 · 0 评论