信息检索导论学习笔记（3）——词典及容错式检索

低调小一

于 2013-06-25 21:48:27 发布

阅读量3.4k

点赞数 1

分类专栏：信息检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzy_1988/article/details/9083055

版权

信息检索专栏收录该内容

5 篇文章

订阅专栏

词典搜索的数据结构

如上图，倒排索引记录表构建好了。对于查询请求“Brutus”，我们首要任务是确定查询词项“Brutus”是否在词典的词项词汇表中，如果在，则返回该词项对应的倒排记录表的指针。词汇表的查找操作往往采用一种称为词典（dictionary）的经典数据结构，并且主要有两大类解决方法：哈希表方式和搜索树方式

哈希表方式

每个词项通过哈希函数映射成一个整数，映射函数的目标空间需要足够大，以减少哈希结果冲突的可能性。查询时，对于每个查询项分别进行哈希操作，并解决存在的冲突，最后返回每个查询词项对于的倒排记录表的指针

优点：在哈希表的定位速度快于树中的定位速度

缺点：（1）没办法处理词项的微小变形（2）不支持前缀搜索（3）如果词汇表不断增大，需要定期对所有词项重新哈希

搜索树方式（二叉树以及B树）

优点：支持前缀查询

缺点：搜索速度略低于哈希表方式：O(logM),其中M是词汇表大小，即所有词项的数目。O（logM）仅仅对平衡树成立

通配符查询

B树结构词典通配符查询处理

对mon*的查询操作，通过遍历B树
对*mon的查询操作，通过遍历反向B树

轮排索引

基本思想：

在字符集中引入一个新的符号$，用于标识词项结束
将每个通配查询旋转，使*出现在末尾
将每个旋转后的结果放在词典(B树)中。即对词典中的词项词汇表再进行一层索引

拼写校正

用途：

纠正待索引文档。在IR领域，我们主要对OCR处理后的文档进行拼写校正处理。（OCR=optical character recognition，光学字符识别）。IR领域的做法是：不改变文档
纠正用户查询

方法：

编辑距离
k-garm重合度方法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。