问答系统与信息检索
文章平均质量分 94
分享关于问答系统和信息检索领域的最新论文与技术
简简单单的貔貅
这个作者很懒,什么都没留下…
展开
-
信息检索(41):Unifier: A Unified Retriever for Large-Scale Retrieval
大规模检索是指根据查询从庞大的集合中调用相关文档。它依赖于表示学习将文档和查询嵌入到公共语义编码空间中。根据编码空间,最近基于预训练语言模型 (PLM) 的检索方法可以粗略地分为密集向量或基于词典的范式。这两个范式分别揭示了 PLM 在不同粒度(即全局序列级压缩和局部词级上下文)中的表示能力。受它们互补的全局局部语境化和不同的表示视图的启发,我们提出了一种新的学习框架 Unifier,它将密集向量和基于词典的检索统一在一个具有双重表示能力的模型中。在段落检索基准上的实验验证了它在两个范式中的有效性。原创 2024-06-05 11:45:33 · 913 阅读 · 0 评论 -
信息检索(37):Query-as-context Pre-training for Dense Passage Retrieval
最近,已经开发出通过使用上下文监督预训练来提高密集段落检索性能的方法。这些方法只是认为同一文档中的两个段落是相关的,而不考虑弱相关对的潜在负面影响。因此,本文提出了查询即上下文预训练,这是一种简单而有效的预训练技术来缓解这个问题。查询即上下文预训练假设从段落派生的查询更有可能与该段落相关,并形成段落-查询对。然后将这些段落-查询对用于对比或生成上下文监督的预训练。预训练模型在大规模段落检索基准和域外零样本基准上进行评估。原创 2024-05-12 11:04:19 · 573 阅读 · 0 评论 -
信息检索(36):ConTextual Masked Auto-Encoder for Dense Passage Retrieval
self-supervised masked AE 建模 text 内部 token 的语义context-supervised masked AE 建模 text 之间的语义密集段落检索旨在基于查询和段落的密集表示(即向量)从大型语料库中检索查询的相关段落。最近的研究探索了改进预训练语言模型以提高密集检索性能。本文提出了 CoT-MAE(ConTextual Masked Auto-Encoder),这是一种简单而有效的用于密集段落检索的生成预训练方法。原创 2024-05-12 00:02:03 · 584 阅读 · 0 评论 -
信息检索(35):LEXMAE: LEXICON-BOTTLENECKED PRETRAINING FOR LARGE-SCALE RETRIEVAL
词典瓶颈 + masked + autoencoderencoder 和 decoder 之间加一个词汇瓶颈模块,其中构建了连续的词袋瓶颈,以无监督的方式学习词典重要性分布感知重要性 / importance-aware的词汇表示在大规模检索中,词典加权范式(学习词汇空间中的加权稀疏表示)已显示出高质量和低延迟的有希望的结果。原创 2024-05-11 16:48:06 · 897 阅读 · 0 评论 -
信息检索(34):Wikiformer: Pre-training with Structured Information of Wikipedia for Ad-Hoc Retrieval
随着深度学习和自然语言处理技术的发展,预训练语言模型已被广泛用于解决信息检索(IR)问题。受益于预训练和微调范例,这些模型实现了最先进的性能。在之前的工作中,维基百科中的纯文本已广泛用于预训练阶段。然而,维基百科中丰富的结构化信息,如标题、摘要、层次标题(多级标题)结构、文章之间的关系、参考文献、超链接结构以及写作组织等尚未得到充分挖掘。在本文中,我们根据维基百科的结构化知识设计了四个针对 IR 任务的预训练目标。原创 2024-05-10 23:20:49 · 901 阅读 · 0 评论 -
信息检索(33):SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval
法律文档特点:1)具有逻辑结构、长文本(现在模型难理解长距离)2)对于关键要素敏感,即使细微差别也会影响相关性判断(现在模型不能处理)本文:1)关注结构、关注要素2)多个预训练目标,利用非对称 encoder-decoder3)模型区分能力强,无标注也能区分不同案件法律案件检索旨在为查询案件找到相关案件,在智能法律系统中发挥着核心作用。尽管预训练在临时检索任务中取得了成功,但有效的法律案例检索预训练策略仍有待探索。与一般文档相比,法律案例文档通常是具有内在逻辑结构的长文本序列。原创 2024-05-10 20:19:27 · 601 阅读 · 0 评论 -
信息检索(31):On the Calibration and Uncertainty with Polya-Gamma Augmentation for ´ Dialog Retrieval Mod
深度神经检索模型已经充分证明了它们的力量,但估计其预测的可靠性仍然具有挑战性。大多数对话响应检索模型都会针对响应与给定问题的相关程度输出单个分数。然而,深度神经网络的糟糕校准导致单个分数存在各种不确定性,使得不可靠的预测总是会误导用户决策。为了研究这些问题,我们提出了一种用于对话响应检索模型的有效校准和不确定性估计框架 PG-DRR,该框架将高斯过程层添加到确定性深度神经网络中,并通过 Polya-Gamma ’ 增强恢复共轭性以实现易于处理的后验推理。原创 2024-04-28 16:38:43 · 449 阅读 · 0 评论 -
信息检索(30):BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models
数据集:18个基线:10个(词汇、稀疏、密集、后期交互、重排序)效果:1)后期交互和重排序,以高计算成本实现高性能( zero-shot 设置 )2)密集和稀疏计算效率高,但效果差(泛化能力改进空间大)现有的神经信息检索(IR)模型经常在同质和狭窄的环境中进行研究,这极大地限制了对其分布外(OOD)泛化能力的了解。为了解决这个问题,并方便研究人员广泛评估其模型的有效性,我们引入了 Benchmarking-IR (BEIR),这是一种用于信息检索的强大且异构的评估基准。原创 2024-04-19 15:24:20 · 1103 阅读 · 0 评论 -
信息检索(29):APPROXIMATE NEAREST NEIGHBOR NEGATIVE CONTRASTIVE LEARNING FOR DENSE TEXT RETRIEVAL
在学习的密集表示空间中进行文本检索具有许多有趣的优点。然而,密集检索(DR)的性能通常不如基于单词的稀疏检索。在本文中,我们首先从理论上证明密集检索的瓶颈是小批量训练中采样的无信息负样本的主导,这会产生梯度范数递减、梯度方差大和收敛速度慢。然后,我们提出近似最近邻否定对比学习(ANCE),它从整个语料库中全局选择硬训练否定。我们的实验证明了 ANCE 在网络搜索、问答和商业搜索引擎中的有效性,表明 ANCE 点积检索几乎与基于 BERT 的级联 IR 管道的准确性相匹配。原创 2024-04-01 10:32:37 · 750 阅读 · 0 评论 -
信息检索(21--26):文章速读摘要版
为了更好地支持网络搜索和开放域问答等信息检索任务,人们越来越努力开发面向检索的语言模型,例如 RetroMAE(Xiao 等人,2022b)和许多其他模型(Gao 和 Callan,2021;Wang)等人,2021a)。大多数现有工作都专注于提高 [CLS] 令牌的上下文嵌入的语义表示能力。然而,最近的研究表明,除了[CLS]之外的普通标记可能会提供额外的信息,这有助于产生更好的表示效果(Lin et al, 2022)。原创 2024-03-20 00:17:25 · 636 阅读 · 0 评论 -
信息检索(十五--二十):文章速读摘要版
鉴于其在知识密集型自然语言处理任务上的有效性,密集检索模型变得越来越流行。具体来说,开放域问答的实际架构使用两个同构编码器,它们从相同的预训练模型初始化,但针对问题和段落分别进行参数化。这种双编码器架构的参数效率低下,因为编码器之间没有参数共享。此外,最近的研究表明,DPR 在各种环境下的表现都不如 BM25。因此,我们提出了一种新的架构,即任务感知专业化 dEnse 检索 (TASER),它通过在单个编码器中交错共享和专用块来实现参数共享。原创 2024-03-19 19:43:00 · 1081 阅读 · 0 评论 -
信息检索(十四):Simple Entity-Centric Questions Challenge Dense Retrievers
DPR 对于非常见实体效果差讨论问题:1)数据增强无法解决2)robust 段落编码器帮助解决问题适应由于密集检索模型的成功,开放域问答最近迅速流行,该模型已经超越了仅使用少量监督训练示例的稀疏模型。然而,在本文中,我们证明当前的密集模型还不是检索的圣杯。我们首先构建 EntityQuestions,这是一组基于维基数据事实的简单、实体丰富的问题(例如,“Arve Furset 出生在哪里?”),并观察到密集检索器的性能远远低于稀疏方法。原创 2024-03-18 21:33:19 · 784 阅读 · 1 评论 -
信息检索(十三):On Complementarity Objectives for Hybrid Retrieval
密集检索在各种信息检索任务中都显示出了可喜的结果,而与稀疏检索的优势相结合的混合检索也得到了积极的研究。混合检索的一个关键挑战是使稀疏和稠密互补。现有模型侧重于密集模型,以捕获稀疏模型中忽略的“剩余”特征。我们的主要区别是展示剩余互补性概念是如何受到限制的,并提出一个新的目标,表示为 RoC(互补性比率),它捕获了更全面的互补性概念。我们提出了一种旨在提高 RoC 的两级正交性,然后表明我们模型的改进 RoC 反过来又提高了混合检索的性能。原创 2024-03-18 19:34:14 · 922 阅读 · 0 评论 -
信息检索(十二):What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary
双编码器现在是密集检索的主导架构。然而,我们对它们如何表示文本以及为什么这会带来良好的性能知之甚少。在这项工作中,我们通过词汇分布阐明了这个问题。我们建议通过将双编码器产生的向量表示投影到模型的词汇空间中来解释它们。我们表明,所得的投影包含丰富的语义信息,并在它们和稀疏检索之间建立联系。我们发现这种观点可以为密集检索器的一些失败案例提供解释。例如,我们观察到模型无法处理尾部实体与令牌分布忘记这些实体的一些令牌的趋势相关。原创 2024-03-17 20:13:08 · 909 阅读 · 0 评论 -
信息检索(十一):Nonparametric Decoding for Generative Retrieval
生成检索模型仅依赖于其模型参数中编码的信息,无需外部记忆,其信息容量是有限且固定的。为了克服这个限制,我们提出了非参数解码(Np Decoding),它可以应用于现有的生成检索模型。Np 解码使用非参数上下文化词汇嵌入(外部存储器)而不是普通词汇嵌入作为解码器词汇嵌入。通过利用上下文词汇嵌入,生成检索模型能够利用参数和非参数空间。对文档检索任务中 9 个数据集(8 个单跳和 1 个多跳)的评估表明,将 Np 解码应用于生成检索模型可以显着提高性能。原创 2024-03-13 20:38:04 · 879 阅读 · 0 评论 -
信息检索(十):SamToNe: Improving Contrastive Loss for Dual Encoder Retrieval Models with Same Tower Negati
双编码器已用于检索任务和表示学习,取得了良好的效果。训练双编码器的标准方法是使用批内负样本的对比损失。在这项工作中,我们提出了一种改进的对比学习目标,通过将来自相同编码器塔的查询或文档添加到负样本中,我们将其命名为“相同塔的负样本的对比损失”(SamToNe)。通过评估 MS MARCO 和 MultiReQA 的问答检索基准以及异构零样本信息检索基准(BEIR),我们证明 SamToNe 可以有效提高对称和非对称双编码器的检索质量。原创 2024-03-12 20:34:46 · 647 阅读 · 0 评论 -
信息检索(九):TOME: A Two-stage Approach for Model-based Retrieval
近年来,基于模型的检索已经成为文本检索的一种新范式,它抛弃了传统检索模型中的索引,而是使用模型参数来记忆候选语料库。该设计采用序列到序列范例来生成文档标识符,从而能够完整捕获查询和文档之间的相关性,并简化经典的索引检索重新排序管道。尽管具有吸引人的品质,但基于模型的检索仍然存在几个主要挑战,包括预训练和微调之间的差异,以及训练和推理之间的差异。为了应对上述挑战,我们提出了一种名为 TOME 的新型两阶段基于模型的检索方法,该方法做出了两项主要技术贡献,包括1)利用标记化 URL 作为标识符和。原创 2024-03-12 10:35:42 · 958 阅读 · 0 评论 -
信息检索(八):BERM: Training the Balanced and Extractable Representation for Matching to Improve Generaliz
当在域内标记数据集上进行训练时,密集检索在第一阶段检索过程中显示出了前景。然而,先前的研究发现,密集检索由于其对领域不变和可解释特征(即两个文本之间的信号匹配,这是信息检索的本质)的建模较弱,很难推广到未见过的领域。在本文中,我们提出了一种通过捕获匹配信号(称为 BERM)来提高密集检索泛化能力的新方法。完全细粒度的表达和面向查询的显着性是匹配信号的两个属性。因此,在BERM中,单个段落被分割成多个单元,并提出两个单元级的表示要求作为训练中的约束以获得有效的匹配信号。原创 2024-03-11 15:35:41 · 667 阅读 · 0 评论 -
信息检索(七):Transformer Memory as a Differentiable Search Index
在本文中,我们证明可以使用单个 Transformer 来完成信息检索,其中有关语料库的所有信息都编码在模型的参数中。为此,我们引入了可微搜索索引(DSI),这是一种新的范例,它学习文本到文本的模型,将字符串查询直接映射到相关的文档 id;换句话说,DSI 模型仅使用其参数直接回答查询,从而极大地简化了整个检索过程。我们研究文档及其标识符的表示方式的变化、训练程序的变化以及模型和语料库大小之间的相互作用。实验表明,如果选择适当的设计,DSI 的性能显着优于双编码器模型等强基线。原创 2024-03-02 21:26:44 · 941 阅读 · 0 评论 -
信息检索(六):Autoregressive Search Engines: Generating Substrings as Document Identifiers
知识密集型语言任务要求 NLP 系统在给定语料库中提供正确答案并检索支持证据。自回归语言模型正在成为生成答案的事实上的标准,更新、更强大的系统以惊人的速度出现。在本文中,我们认为所有这些(以及未来)的进展都可以直接应用于检索问题,而对模型架构的干预最少。之前的工作探索了将搜索空间划分为层次结构并通过自回归生成唯一标识符来检索文档的方法。使用段落中的所有 ngram 作为其可能的标识符。这种设置允许我们使用自回归模型来生成和评分独特的 ngram,然后通过高效的数据结构将其映射到完整的段落。原创 2024-02-28 16:29:20 · 921 阅读 · 0 评论 -
信息检索(五):Query Expansion Using Contextual Clue Sampling with Language Models
查询扩展是减少信息检索中查询和文档之间词汇不匹配的有效方法。最近的一项研究使用语言模型来生成与查询相关的上下文以进行扩展。多样性和相关性。增加多样性的明显方法是从语言模型中采样多个上下文。然而,这是以相关性为代价的,因为众所周知,模型倾向于产生不正确或不相关的上下文。为了平衡这两个考虑因素,我们提出了有效的过滤策略和基于上下文的生成概率的检索文档融合的组合。原创 2024-02-28 14:33:14 · 759 阅读 · 0 评论 -
信息检索(四):Generation-Augmented Retrieval for Open-Domain Question Answering
我们提出生成增强检索(GAR)来回答开放域问题,它通过启发式发现的相关上下文的文本生成来增强查询,而无需外部资源作为监督。我们证明,生成的上下文极大地丰富了查询的语义,并且具有稀疏表示的 GAR (BM25) 实现了与 DPR 等最先进的密集检索方法相当或更好的性能(Karpukhin 等人,2020)。我们表明,为查询生成不同的上下文是有益的,因为融合它们的结果始终会产生更好的检索准确性。此外,由于稀疏表示和稠密表示通常是互补的,GAR 可以轻松地与 DPR 结合以实现更好的性能。原创 2024-02-28 00:10:33 · 712 阅读 · 0 评论 -
信息检索(三):Expand, Rerank, and Retrieve: Query Reranking for Open-Domain Question Answering
我们提出了 EAR,一种用于改进段落检索的查询扩展(query Expansion)和重新排序(Reranking)方法,并应用于开放域问答。1)EAR 首先应用查询扩展模型来生成不同的查询集2)然后使用查询重新排序器来选择可以带来更好检索结果的查询。由于贪婪解码通常不会选择最佳查询扩展,因此 EAR 训练其重新排序器,以在向给定检索器发出扩展查询时预测gold段落的排序顺序。通过更好地连接查询扩展模型和检索器,EAR 显着增强了传统的稀疏检索方法 BM25。原创 2024-02-25 15:53:36 · 1020 阅读 · 0 评论 -
信息检索(二):Dense Passage Retrieval for Open-Domain Question Answering
1)开放域问答依赖于有效的段落检索来选择候选上下文,其中传统的稀疏向量空间模型(例如 TF-IDF 或 BM25)是事实上的方法2)在这项工作中,我们证明检索实际上可以仅使用密集表示来实现,其中嵌入是通过简单的双编码器框架从少量问题和段落中学习的3)当在广泛的开放域 QA 数据集上进行评估时,我们的密集检索器在前 20 个段落检索准确度方面绝对优于强大的 LuceneBM25 系统 9%-19%,并帮助我们的端到端 QA 系统建立多个开放域 QA 基准的最新技术。原创 2024-02-24 15:48:37 · 1170 阅读 · 0 评论 -
信息检索(一):A book about NLP
a)对于entity的编码,取wiki-title与该title页面的前128个token作为description,一起输入bert,得到的cls即为该entity的编码。稀疏检索(tf-idf、bm25)的问题:如果query和doc不存在词汇重叠,不能检索到。d)算法结构:分为下面3)和4)的两块,监督训练(需要带有标注的数据集:标注entity boundaries和linked)tf-idf中向量表示:doc向量的长度还是单词表的长度,每个单词对应位置的值就是它的 tf-idf 的值。原创 2024-01-25 01:04:55 · 883 阅读 · 0 评论