14.信息检索和问答系统

本文概述了信息检索的关键概念,包括点对点检索的两种模型、倒排索引在快速检索中的应用,以及隐含语义标引模型(LSI和PLSI)在解决查询与文档语义关联问题上的作用。此外,还介绍了问答系统的构成,特别是提问处理、检索和答案抽取模块。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

14.1 信息检索概要

信息检系研究的目的是寻找从文档资料中获取可用信息的模型和算法。信息检索的传统问题是需要用户输人一个表述需求信息的查询字段,系统回复一个包含所需要信息的文档列表,这一类问题称为点对点的检索问题。

对于点对点模式的搜索问题,目前主要有两种模型,一种是精确匹配模型,即检索系统返回与用户要求精确匹配的检索结果。如布尔查询系统,主要应用于基于内部文本库的商业(或企业)信息系统中;另一种为文档相关匹配模型,即系统按用户要求与查询文栏之间的相关度返回查询结果,主要应用于基于互联网等开放数据库的检索系统,即网络搜索。前一种模型尽管仍在商业信息系统中广泛应用,但后一种模型往往具有更广泛的用户群,因此,近年来的研究一般都集中在后一种模型上

14.1.3 倒排索引

目前大多数信息检索系统都通过对主要数据建立倒排索引(inverted index)的方式实现快速检索。倒排索引是一种数据结构:列出每个单词所在的所有文档和它们在每篇文档中出现的频度。用户按关键词查询时,系统只需要在索引中找到该单词,就可以找到对应的文档。一个优化的倒排索引,一般还要包括单词在出现文档中的位置,即单词在出现文档中距离文档起始位置的偏移量。含有单词位置信息的倒排索引为搜索短语提供了可能。

14.2 隐含语义标引模型

如何实现用户查询词与相关文档的准确匹配是困扰信息检索技术的一个关键问题作为用户来讲,一般都希望基于概念和内容查询相关文档,而单个的词往往很难提供文档概念主题或语义的可靠证据,一方面,对于一个给定的概念往往有很多不同的表达方式因此,利用用户查询中的文字项可能无法匹配相关的文档(查询用户和文档作者可能使用不同的文字表达同样的概念);另一方面,大多数词都具有多个含义,根据查询用户给出的文字项匹配出来的文档可能根本不是用户感兴趣的文档。因此,如何建立查询文字与文档之间的语义概念关联,一直是信息检索中关键问题之一。为了解决这一问题Deerwester etal.(1990)提出了隐含语义标引模型(LSI),随后这一模型得到了广泛应用,并被不断改进。其中,统计隐含语义标引模型和弱指导的统计隐含语义标引模型是基于隐含语义标引模型提出的两个典型模型,本节简要介绍这些模型。

LSI的基本思想是:首先从全部的文档集中生成一个“词项-文档”关联矩阵,该矩阵的每个分量为整数值,代表某个词项出现在某个特定文档中的次数。然后,将该矩阵进行奇异值分解(singular-value decomposition,SVD)[Forsythe et al.,1977],保留主要的关联模式,剔除较小的、不重要的奇异值。奇异向量和奇异值矩阵用于将文档向量和查询向量映射到一个子空间,在该子空间内,来自“词项-文档”矩阵的语义关系被保留。最后,可以通过标准化的内积运算来计算向量之间夹角的余弦值以衡量其相似度,将候选文档按其与查询的相似度大小降序排列。

14.2.2 概率隐含模型

在一般的信息检索方法中,词往往被作为孤立的带有特定语义的实体处理,每个词被处理成一维,所有的词构成了一个高维的语义空间,每个文档在这个语义空间中被映射为一个点,这种方法有两个明显的缺点:@语义空间的维数很高;@每个词作为一维处理的方法割裂了词与词之间的关系。为此,PLSI采用如下处理思路:将词和文档同等对待,构造一个维数不高的语义空间,每个词和每个文档都被映射为这个语义空间中的一个点。这样处理既解决了维数过高的问题,也可以把词与词之间的关系体现出来,语义上越相关的词在这个语义空间中几何上也越接近。PLSI模型采用期望最大化(EM)迭代算法实现这种映射过程。

14.4 问答系统

14.4.2 系统构成

在目前情况下,一个自动问答系统通常由提问处理模块、检索模块和答案抽取模块三部分组成,其系统构成可用图 14-3 表示。图中,提问处理模块主要负责对用户的提问进行处理,包括:生成查询关键词(提问关键词扩展关键词等)确定提问答案类型(人称地点、时间、数字等)以及提问的句法、语义分析,等等。

点、时间、数字等)以及提问的句法、语义分析,等等。

image-20230903103559284

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值