搜索引擎
文章平均质量分 75
zhuyi412546724
这个作者很懒,什么都没留下…
展开
-
全文索引------新手入门(二)
全文索引大体分为两个过程:索引的创建和搜索索引索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。索引里面究竟存些什么呢?首先我们来看为什么顺序扫描的速度慢:其实是我们想要搜索的信息和非结构化数据中所存储的信息不一致造成的。非结构化数据中所存储的信息是每个文件包包含哪些字符串,也即几只文件,欲求字符串相对容易,也即是文件到字符串的映射。而我们想搜索的信息是哪些文件包含此字符串,也即已知字符串,欲求文件,也即从字符串到原创 2011-03-08 14:42:00 · 406 阅读 · 0 评论 -
全文检索----新手入门(一)
在学习全文检索之前,我们要了解一下全文检索的基本原理在了解全文检索的基本原理之前,要从生活的数据说起生活中的数据分为:结构化数据和非结构化数据结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等非结构化数据:不定长或无固定格式的数据,如word,邮件等半结构化数据:如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取纯文本按非结构化数据来处理。按照数据得分类,搜索也分为两种:对结构化数据得搜索:如对数据库的搜索,用SQL语句,如利用windows搜索对文件名,类型,修改时间进行搜索等。对原创 2011-03-07 17:02:00 · 472 阅读 · 0 评论 -
全文索引---新手入门(三)
<br />如何创建索引<br /> <br />全文检索的索引创建过程一般有以下几步:<br /> <br />第一步:一些药索引的原文档(Document)。<br /> <br />为了方便说明索引创建过程,这里特意用两个文件为例<br /> <br />文件一:Students should be allowed to go out with their friends,but not allowed to drink beer.<br /> <br />文件二:My friend Jerry we原创 2011-03-08 17:59:00 · 376 阅读 · 0 评论 -
全文检索----新手入门(四)
搜索主要分为以下几步第一步:用户输入查询语句查询语句同我们普通的语言一样,也是有一定语法的。不同的查询语句有不同的语法,如SQL语句就有一定的语法。查询语句的语法根据全文检索系统的实现而不同。最基本的有比如:And,Or,Not等。举个例子,用户输入语句:lucene and learned not hadoop说明用户想找一个包含lucene 和learned 然而不包括 hadoop的文档第二步:对查询语句进行词法分析,语法分析,及语言处理。由于查询有语法,因而也要进行词法分析,语法分析,及语言处原创 2011-03-08 20:04:00 · 419 阅读 · 0 评论 -
全文索引----Lucene的总体架构
<br />Lucene总的来说是:<br /> <br />1.一个高效的,可扩展的,全文检索库<br /> <br />2.全部用Java实现,无须配置。<br /> <br />3.仅支持纯文本文件的索引(Indexing)和搜索(Search)。<br /> <br />引用一个图<br /> <br /><br /> <br />说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点<br /> <br />更细一点看Lucene的各组件<br /> <br /><br />原创 2011-03-09 11:54:00 · 529 阅读 · 0 评论 -
全文索引----中文进阶(一)
<br />Lucene的索引文件格式<br /> <br />Lucene的索引里面存了些什么,如果存放的,也即Lucene的索引文件格式是读懂Lucene源代码的一把钥匙。<br /> <br />当我们真正进入到Lucene源代码之中的时候,我们会发现:<br /> <br />Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。<br /> <br />Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。<br /原创 2011-03-12 10:22:00 · 465 阅读 · 0 评论