信息检索的基本方法(1)

背景

计算机信息检索的是指是“匹配运算”,所以信息检索主要是通过检索词的组配技术和检索表达式的构成规则来实现的。其中,检索词主要包括主题词、关键词、名称、分类号、专利号等。

基本方法

信息检索的基本方法是运用各种逻辑运算符号、位置逻辑算符、截词符及其它限制符号等来组配检索词,确定它们之间的关系,准确表达检索课题的内容。本文主要介绍布尔逻辑算符、邻近检索、截词检索和短语或词组检索。

布尔逻辑检索

1.逻辑“与”
运算符为“AND”或“*”。用于交叉概念或限定关系的组配,减小检索范围,提高查准率。
例:鼠标 and 无线鼠标。搜索结果取交集,即无线鼠标。
在这里插入图片描述
2. 逻辑“或”
运算符为“OR”或“+”。用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集,扩大检索范围,防止漏检,有利于提高查全率。
例:鼠标 OR 无线鼠标。搜索结果取并集,即包括有线鼠标与无线鼠标。
在这里插入图片描述
3.逻辑“非”
运算符为“NOT”或“-”。它是一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念,可以缩小检索范围,增强检索的准确性,但是容易排除有用文献信息,从而导致漏检。
例:鼠标 NOT 无线鼠标。搜索结果应该是不包括无线鼠标的。(但实际操作过程中,不知道为啥这个运算符的作用与理论有偏差,后面看看是啥原因)

邻近检索

1.WITH(W)
表示改算符两侧的检索词中间不得有其他任何的字或词,而且检索词顺序不能颠倒,但允许有空格或标点符号。也可用()表示。
例:China () Literature
在这里插入图片描述
2.nWith(nW)
表示算符两侧的检索词之间最多可以插入n个词,但检索词顺序不能颠倒。
例:knowledge (1w) economic
在这里插入图片描述
3.NEAR(N)
表示在此算符两侧的检索词必须相连,不得插入其它词,但词序可以颠倒。
例:chemistry(N)physics
在这里插入图片描述

4.nNEAR(nN)
表示在此算符两侧的检索词之间最多可以插入n个词,且词序可以颠倒。
例:chemistry(2N)physics
在这里插入图片描述

截词检索

  1. 有限截断
    限定截去有限个字符。
    例:product?
    在这里插入图片描述

  2. 右截断
    用?截去某个词的词尾。
    例:employ?
    在这里插入图片描述

  3. 中间截断
    用?截去某个词的中间部分
    例:fib?? glass
    在这里插入图片描述

  4. 左截断
    用?截去某个词的前部。
    ?ology
    在这里插入图片描述

短语或词组检索

短语或词组检索常用运算符为双引号“”。当用户需要检索与输入形式完全相同的短语或词组时,加入双引号,就会实现精确匹配,通常在搜索专门的机构名称、人名、地名、专业术语等。
在这里插入图片描述

总结

这些基本方法通过使用一些逻辑词组配检索词可以提高我们检索的精度,但是有些方法在实际情况下可能有些行不通,因此,还有更加精确的检索方式等着我们去探索。

  • 3
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python信息检索是指使用Python编程语言实现信息检索相关的算法和技术。《信息检索导论》是一本经典的信息检索教材,其中介绍了许多信息检索基本概念、算法和技术。通过使用Python语言实现这些算法和技术,可以更好地理解和应用信息检索的相关知识。 下面是《信息检索导论》部分实验的简要介绍: - 实验一:倒排记录表的合并算法实现 倒排记录表是信息检索中常用的数据结构,用于存储单词和文档之间的关系。实验一要求实现倒排记录表的合并算法,将多个倒排记录表合并成一个。 - 实验二:两个字符串编辑距离的计算方法实现 字符串编辑距离是衡量两个字符串相似度的一种方法。实验二要求实现两种字符串编辑距离的计算方法:莱文斯坦距离和最长公共子序列距离。 - 实验三:可变字节码的编码和解码算法实现 可变字节码是一种压缩算法,可以将文本数据压缩成更小的字节码。实验三要求实现可变字节码的编码和解码算法。 - 实验四:向量相似度的算法实现 向量相似度是信息检索中常用的相似度计算方法,用于衡量两个向量之间的相似程度。实验四要求实现余弦相似度和欧几里得距离两种向量相似度的计算方法。 - 实验五:利用SIMNOMERGE余弦相似度计算文档得分的算法实现 SIMNOMERGE是一种基于余弦相似度的文档得分计算方法。实验五要求实现SIMNOMERGE算法,计算文档之间的相似度和得分。 - 实验六:NB算法的训练及分类过程实现 朴素贝叶斯算法是一种常用的文本分类算法。实验六要求实现朴素贝叶斯算法的训练和分类过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值