信息检索
persistenceExplorer
这个作者很懒,什么都没留下…
展开
-
信息检索开山
(1)信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料的过程。(2)信息检索已经代替传统的数据库式搜索成为信息访问的主要形式.(3)信息检索也包括对半结构化数据类型(如网页,因含有标签)的处理。(4)用户对文档的浏览、过滤或对返回的文档的进一步处理也属于信息检索的范畴,如聚类。(5)信息检索按规模分为三类:Web搜索(如googl原创 2014-03-12 10:35:28 · 856 阅读 · 0 评论 -
倒排索引之布尔查询模型
布尔检索模型:接受布尔表达式查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来的查询,在该模型下,每篇文档只被看成是一系列词的集合。查询模式一:term1 AND term2,此模式较为简单,只需要在词典中分别查询term1 和 term2 词项,然后取两个倒排记录表的交集,标准的合并算法需要O(x+y),x,y分别是两个倒排记录表的倒排记录数目。查询优化:指如何通过组织查原创 2014-03-12 15:22:53 · 2792 阅读 · 0 评论 -
文档索引模型
1.词项-文档关联矩阵:取值为0,1。0表示文档中不含有词项,1表示文档中含有词项。缺点是在矩阵中还有大量的0项,浪费存储空间。2.倒排索引:由词项字典(由被索引词项组成)和与词项关联的倒排记录表(由倒排记录组成,每个倒排记录中包含文档ID,词项在文档中的出现位置等信息)组成,倒排记录表一般按照文档ID号排序。3.倒排索引建立过程:(1)收集需建立索引的文档,(2)文档词条化,(3)词条预原创 2014-03-12 14:36:51 · 1029 阅读 · 0 评论 -
词项词典及倒排记录表
词项字典获取相关操作:文档单元选择、字符序列生成、词条化、去除停用词、词项归一化、词干还原和词形归并。词项词典获取:1. 文档单元选择:存在索引粒度的问题,这里存在一个正确率和召回率的权衡问题,如果索引粒度太小,那么由于词项散布在多个细粒度文档中,我们就很可能错过那些重要的段落,也就是说此时正确率高二召回率低;反之,如果索引粒度太大,我们就很可能找到很多不相关的匹配结果,及正确率低而召回率原创 2014-03-16 10:36:17 · 2013 阅读 · 0 评论