智能信息处理复习1——布尔查询

信息检索概述

 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
 信息检索系统还可以通过它们的运行规模来区分,还能区分三个突出的规模。

  1. 网络搜索
     例如百度搜索等
  2. 个人信息检索
     例如电子邮件通常不仅提供搜索,而且还提供文本分类:它们至少提供垃圾邮件(垃圾邮件)过滤器,并且通常还提供手动或自动方式对邮件进行分类
  3. 企业,机构或特定领域搜索
     例如提供诸如公司内部文件,专利数据库或有关软件工程的研究文章之类的集合。
     这些文档通常将存储在集中式文件系统上,一台或几台专用机器将提供对馆藏的搜索。

结构VS非结构化数据

1.结构化数据即指“表”中的数据

EmployeeManagerSalary
SmithJones50000
MikeSmith60000
LvySmith5000

2.非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。

  • 通常指自由文本
  • 允许关键词加上操作符号的查询以及更复杂的概念性查询。
  • 经典的检索模型一般都针对自由文本进行处理
    3.半结构化数据
     例子:比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。
     半结构化数据的特征:
     半结构化数据中结构模式附着或相融与数据本身,数据自身就描述了其相应结构模式。具体来说,半结构化数据具有下述特征:
  • (1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)
  • (2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。
  • (3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态得结构模式。

 常规的数据模型例如E-R模型、关系模型和对象模型恰恰与上述特点相反,因此可以成为结构化数据模型。而相对于结构化数据,半结构化数据的构成更为复杂和不确定,从而也具有更高的灵活性,能够适应更为广泛的应用需求。

倒排索引

关联矩阵

 关联矩阵的每一列都是 0/1向量,每个0/1都对应一个词项。
 关联矩阵的每一行(对应一个词项)也可以看成一个0/1向量,每个0/1代表该词项在相应文档中的出现与否。

信息检索的基本假设

 文档集: 由固定数目的文档组成
 目标: 返回与用户需求相关的文档并辅助用户来完成某项任务
 相关性:主观的概念;反映对象的匹配程度;不同应用相关性不同。

检索效果的评价

 正确率(Precision) : 返回结果文档中正确的比例 。如返回80篇文档,其中20篇相关,正确率1/4
 召回率(Recall) : 全部相关文档中被返回相关文档的比例。如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5

倒排索引

倒排索引:给定一个词项,看看这个词项出现在哪些文档中。
对每个词项t, 记录所有包含t的文档列表。

  • 每篇文档用一个唯一的 docID来表示,通常是正整数,如1,2,3…
    通常采用变长表方式
  • 磁盘上,顺序存储方式比较好,便于快速读取
  • 内存中,采用链表或者可变长数组方式

索引构建过程

  1. 词条序列:构建<词条,docID>二元组
  2. 排序:按词项排序,然后每个词项按docID排序.(索引构建的核心步骤)
  3. 词典 & 倒排记录表:某个词项在单篇文档中的多次出现会被合并;拆分成词典和倒排记录表两部分;每个词项出现的文档数目(doc. frequency, DF)会被加入
    在这里插入图片描述

布尔查询的处理

查询优化

 按照表从小到大(即doc. frequency(df) 从小到大)的顺序进行处理.

布尔检索的优点

构建简单,或许是构建IR系统的一种最简单方式

布尔检索的缺点

  • 布尔查询构建复杂,不适合普通用户。构建不当,检索结果过多或者过少
  • 没有充分利用词项的频率信息
    1 vs. 0 次出现
    2 vs. 1次出现
    3 vs. 2次出现, …
    通常出现的越多越好,需要利用词项在文档中的词项频率(term frequency, tf)信息
  • 不能对检索结果进行排序
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值