自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 信息检索(114):Pre-train a Discriminative Text Encoder for Dense Retrieval via Contrastive Span Predictio

密集检索在许多信息检索 (IR) 相关任务中都显示出了良好的效果,其基础是学习高质量的文本表征以实现有效搜索。最近的一些研究表明,基于自编码器的语言模型能够使用弱解码器提高密集检索性能。然而,我们认为 1) 解码所有输入文本是没有区分性的,2) 即使是弱解码器也会对编码器产生旁路效应。因此,在本文中,我们引入了一种新颖的对比跨度预测任务来单独预训练编码器,但仍保留自编码器的瓶颈能力。关键思想是使用分组对比损失迫使编码器生成接近其自身随机跨度而远离其他跨度的文本表征。

2024-07-22 17:41:43 573

原创 信息检索(28):PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval

最近,密集段落检索已成为各种自然语言处理任务中查找相关信息的主流方法。许多研究致力于改进广泛采用的双编码器架构。然而,大多数先前的研究在学习双编码器检索器时仅考虑以查询为中心的相似关系。为了捕获更全面的相似关系,我们提出了一种新方法,该方法利用以查询为中心和以段落为中心的相似关系(称为 PAIR)进行密集段落检索。为了实现我们的方法,我们做出了三大技术贡献:引入两种相似关系的形式化公式、通过知识蒸馏生成高质量的伪标记数据,以及设计一个包含以段落为中心的相似关系约束的有效两阶段训练程序。

2024-07-22 15:14:51 894

原创 信息检索(40):Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

最近的研究表明,使用微调语言模型 (LM) 进行密集检索是有效的。然而,密集检索器很难训练,通常需要经过大量设计的微调管道才能充分发挥其潜力。在本文中,我们确定并解决了密集检索器的两个潜在问题:i) 易受训练数据噪声影响;ii) 需要大批量来稳健地学习嵌入空间。我们使用最近提出的 Condenser 预训练架构,该架构通过 LM 预训练学习将信息压缩到密集向量中。在此基础上,我们提出了 coCondenser,它添加了无监督的语料库级对比损失来预热段落嵌入空间。

2024-07-21 22:07:45 754

原创 信息检索(39):Condenser: a Pre-training Architecture for Dense Retrieval

预训练的 Transformer 语言模型 (LM) 已成为首选的文本表示编码器。先前的研究对深度 LM 进行了微调,以将文本序列(例如句子和段落)编码为单个密集向量表示,以实现高效的文本比较和检索。但是,密集编码器需要大量数据和复杂的技术才能有效训练,并且在数据量较少的情况下会受到影响。本文发现一个关键原因是标准 LM 的内部注意力结构尚未准备好用于密集编码器,密集编码器需要将文本信息聚合到密集表示中。

2024-07-20 16:52:57 1281

原创 信息检索(113):RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder

尽管预训练在许多重要的 NLP 任务中取得了进展,但仍需探索用于密集检索的有效预训练策略。在本文中,我们提出了 RetroMAE,一种基于掩码自动编码器 (MAE) 的面向检索的新型预训练范式。RetroMAE 有三个关键设计。1)一种新颖的 MAE 工作流程,其中输入句子被不同的掩码污染用于编码器和解码器。句子嵌入由编码器的掩码输入生成;然后,通过掩码语言建模,基于句子嵌入和解码器的掩码输入恢复原始句子。

2024-07-20 14:27:45 828

原创 信息检索(112):Token-level Adaptive Training for Neural Machine Translation

自然语言中存在 token 不平衡现象,因为不同的 token 出现的频率不同,这导致神经机器翻译 (NMT) 中 token 的学习难度不同。普通 NMT 模型通常对具有不同频率的目标 token 采用简单的等权重目标,与黄金 token 分布相比,它倾向于生成更多的高频 token 和更少的低频 token。然而,低频 token 可能携带关键的语义信息,一旦被忽略,将影响翻译质量。

2024-07-15 22:27:49 954

原创 信息检索(111):Token-Level Self-Evolution Training for Sequence-to-Sequence Learning

自适应训练方法广泛应用于序列到序列模型,通常根据先验(例如词频)重新衡量不同目标标记的损失。然而,它们中的大多数都没有考虑不同训练步骤中学习难度的变化,而过分强调学习困难的独热标签,使得学习具有确定性和次优性。为此,我们提出了标记级自进化训练 (SE),这是一种简单有效的动态训练方法,可以充分明智地利用数据中的知识。SE 专注于动态学习每个前向传递中未充分探索的标记,并通过引入一种新颖的标记特定标签平滑方法来自适应地规范训练。

2024-07-15 15:14:17 707

原创 信息检索(58):Learning to Reweight Terms with Distributed Representations

目标术语权重作为回归问题向量表示学习 & term权重预测 相结合预测 term 召回率作为 term 权重术语权重是 IR 研究中的一个基本问题,目前已提出了多种权重模型。适当的术语权重可以极大地提高检索准确率,这实质上涉及两种类型的查询理解:解释查询和判断术语对查询的相对贡献。这两个步骤通常是分开处理的,因此提出了复杂但不太有效的加权策略。在本文中,我们提出在一个统一的框架中解决查询解释和术语权重问题,该框架建立在神经网络语言建模最新进展中的词语分布式表示之上。

2024-06-29 16:45:46 941

原创 信息检索(57):MINIMIZING FLOPS TO LEARN EFFICIENT SPARSE REPRESENTATIONS

1)学习高维稀疏表示2)FLOP 集成到损失函数作为正则化项3)相比 l1 损失更好倒排索引浮点运算的数量 // 非零值的均匀分布深度表示学习已成为视觉搜索、推荐和识别领域最广泛采用的方法之一。然而,从大型数据库中检索此类表示在计算上具有挑战性。基于学习紧凑表示的近似方法已被广泛用于解决此问题,例如局部敏感哈希、乘积量化和 PCA。在这项工作中,与学习紧凑表示相反,我们提出学习高维和稀疏表示,这些表示具有与密集嵌入相似的表示容量,同时由于稀疏矩阵乘法运算比密集乘法快得多而更高效。

2024-06-29 14:04:13 598

原创 信息检索(56):From Neural Re-Ranking to Neural Ranking: Learning a Sparse Representation for Inverted Ind

1)密集表示可以修剪为稀疏,用在检索第一阶段2)伪相关反馈的有效性(pseudo-relevance feedback )两个重点:1)稀疏性目标(是指非零元素的个数:稀疏性高,非零元素数量少,非零元素代表特征更重要)稀疏性的重要意义:稀疏的特征更有价值,更能代表任务的本质需求。可以通过a)正则化方法:最小化 l1 范数(通过l1范数,限制元素为0)b)激活函数(将元素置为0)来学习2)检索目标:hinge损失,通过对比正例和负例相似度训练,类似于对比损失。

2024-06-28 16:33:20 731

原创 信息检索(55):SparTerm: Learning Term-based Sparse Representation for Fast Text Retrieval

1)在完整词汇表学习稀疏表示a)映射函数:词频和Bow表示 --》预测每个 term 的重要性分布b)门控器:控制每个 term 的激活2)与 DeepCT 和 Doc2query 的区别他们两个主要是利用中间模型辅助学习稀疏表示本文直接学习稀疏表示基于词的稀疏表示在工业应用中占据了第一阶段文本检索的主导地位,因为它在效率、可解释性和精确词匹配方面具有优势。

2024-06-28 10:41:56 946

原创 信息检索(54):On the Effect of Low-Frequency Terms on Neural-IR Models

低频词是信息检索模型面临的一个反复出现的挑战,尤其是神经 IR 框架难以充分捕捉不常出现的单词。虽然这些术语通常会从神经模型中删除(主要是为了满足效率要求),但它们传统上在 IR 模型的性能中发挥着重要作用。在本文中,我们分析了低频术语对神经 IR 模型的性能和鲁棒性的影响。我们对三个最近的神经 IR 模型进行了受控实验,这些模型是在大规模段落检索集合上训练的。我们评估了具有不同词汇量大小的神经 IR 模型的各自词嵌入,并考虑了对可用 GPU 内存的不同程度的限制。

2024-06-24 21:01:32 688

原创 信息检索(53):Document Expansion by Query Prediction

提高搜索引擎检索效率的一种方法是使用与文档内容相关或具有代表性的术语来扩展文档。从问答系统的角度来看,这可能包括文档可能回答的问题。根据这一观察,我们提出了一种简单的方法,该方法可以预测将针对给定文档发出哪些查询,然后使用原始序列到序列模型将这些预测扩展,该模型使用由查询和相关文档对组成的数据集进行训练。通过将我们的方法与高效的重新排序组件相结合,我们在两个检索任务中实现了最先进的水平。在延迟关键机制下,单独的检索结果(不进行重新排序)接近计算成本更高的神经重新排序器的有效性,但速度要快得多。

2024-06-24 11:11:12 802

原创 信息检索(52):From doc2query to docTTTTTquery

Nogueira 等人 [7] 使用简单的序列到序列转换器 [9] 进行文档扩展。我们用 T5 [8] 替换转换器,并观察到效率大幅提升。doc2query [7] 是一种文档扩展形式,其理念是训练一个模型,当给定一个输入文档时,该模型会生成该文档可能回答的问题。然后,这些预测的问题会附加到原始文档中,然后像以前一样对原始文档进行索引。本研究中的设置遵循 doc2query,但使用 T5 [8] 作为扩展模型。

2024-06-24 10:05:28 326

原创 信息检索(50):Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval

1)将密集上下文表示 --》上下文感知的 term 权重2)权重用途a)passage:倒排索引存储 term 权重用来检索b)query:加权的 bow词频是识别查询或文档中术语重要性的常用方法。但它是一种微弱的信号,尤其是当频率分布平坦时,例如在长查询或文本为句子/段落长度的短文档中。本文提出了一种深度语境化术语权重框架,该框架学习将 BERT 的语境化文本表示映射到句子和段落的上下文感知术语权重。当应用于段落时,DeepCT-Index 会生成可存储在普通倒排索引中以供段落检索的术语权重。

2024-06-23 20:48:35 920

原创 信息检索(42):SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval

对于Splade进行修改:1)修改池化机制2)引入蒸馏模型在神经信息检索 (IR) 中,正在进行的研究旨在改进排名管道中的第一个检索器。学习密集嵌入以使用有效的近似最近邻方法进行检索已被证明效果很好。与此同时,人们对学习文档和查询的稀疏表示的兴趣日益浓厚,这些表示可以继承词袋模型的理想属性,例如术语的精确匹配和倒排索引的效率。最近推出的 SPLADE 模型提供了高度稀疏的表示和与最先进的密集和稀疏方法相比具有竞争力的结果。

2024-06-22 15:26:29 522

原创 信息检索(43):SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking

稀疏的优点:1)术语精确匹配2)倒排索引效率两部分:1、显式稀疏正则化:explicit sparsity regularization2、术语权重的对数饱和效应:explicit sparsity regularization在神经信息检索中,正在进行的研究旨在改进排名管道中的第一个检索器。学习密集嵌入以使用有效的近似最近邻方法进行检索已被证明效果很好。同时,人们对学习文档和查询的稀疏表示的兴趣日益浓厚,这些表示可以继承词袋模型的理想属性,例如术语的精确匹配和倒排索引的效率。

2024-06-22 00:32:37 641

原创 信息检索(49):Learning Passage Impacts for Inverted Indexes

1)语言模型 + 倒排索引2)改进影响分数建模和词汇不匹配问题3)为每个文档 token 生成单值表示,估计其重要性神经信息检索系统通常使用级联管道,其中第一阶段模型检索候选文档集,然后一个或多个后续阶段使用 BERT 等语境语言模型对该集合重新排序。在本文中,我们提出了 DeepImpact,这是一种新的文档术语加权方案,适用于使用标准倒排索引进行有效检索。与现有方法相比,DeepImpact 改进了影响分数建模并解决了词汇不匹配问题。

2024-06-21 17:05:28 997

原创 信息检索(41):Unifier: A Unified Retriever for Large-Scale Retrieval

大规模检索是指根据查询从庞大的集合中调用相关文档。它依赖于表示学习将文档和查询嵌入到公共语义编码空间中。根据编码空间,最近基于预训练语言模型 (PLM) 的检索方法可以粗略地分为密集向量或基于词典的范式。这两个范式分别揭示了 PLM 在不同粒度(即全局序列级压缩和局部词级上下文)中的表示能力。受它们互补的全局局部语境化和不同的表示视图的启发,我们提出了一种新的学习框架 Unifier,它将密集向量和基于词典的检索统一在一个具有双重表示能力的模型中。在段落检索基准上的实验验证了它在两个范式中的有效性。

2024-06-05 11:45:33 934

原创 信息检索(37):Query-as-context Pre-training for Dense Passage Retrieval

最近,已经开发出通过使用上下文监督预训练来提高密集段落检索性能的方法。这些方法只是认为同一文档中的两个段落是相关的,而不考虑弱相关对的潜在负面影响。因此,本文提出了查询即上下文预训练,这是一种简单而有效的预训练技术来缓解这个问题。查询即上下文预训练假设从段落派生的查询更有可能与该段落相关,并形成段落-查询对。然后将这些段落-查询对用于对比或生成上下文监督的预训练。预训练模型在大规模段落检索基准和域外零样本基准上进行评估。

2024-05-12 11:04:19 604

原创 信息检索(36):ConTextual Masked Auto-Encoder for Dense Passage Retrieval

self-supervised masked AE 建模 text 内部 token 的语义context-supervised masked AE 建模 text 之间的语义密集段落检索旨在基于查询和段落的密集表示(即向量)从大型语料库中检索查询的相关段落。最近的研究探索了改进预训练语言模型以提高密集检索性能。本文提出了 CoT-MAE(ConTextual Masked Auto-Encoder),这是一种简单而有效的用于密集段落检索的生成预训练方法。

2024-05-12 00:02:03 623

原创 信息检索(35):LEXMAE: LEXICON-BOTTLENECKED PRETRAINING FOR LARGE-SCALE RETRIEVAL

词典瓶颈 + masked + autoencoderencoder 和 decoder 之间加一个词汇瓶颈模块,其中构建了连续的词袋瓶颈,以无监督的方式学习词典重要性分布感知重要性 / importance-aware的词汇表示在大规模检索中,词典加权范式(学习词汇空间中的加权稀疏表示)已显示出高质量和低延迟的有希望的结果。

2024-05-11 16:48:06 935

原创 信息检索(34):Wikiformer: Pre-training with Structured Information of Wikipedia for Ad-Hoc Retrieval

随着深度学习和自然语言处理技术的发展,预训练语言模型已被广泛用于解决信息检索(IR)问题。受益于预训练和微调范例,这些模型实现了最先进的性能。在之前的工作中,维基百科中的纯文本已广泛用于预训练阶段。然而,维基百科中丰富的结构化信息,如标题、摘要、层次标题(多级标题)结构、文章之间的关系、参考文献、超链接结构以及写作组织等尚未得到充分挖掘。在本文中,我们根据维基百科的结构化知识设计了四个针对 IR 任务的预训练目标。

2024-05-10 23:20:49 927

原创 信息检索(33):SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval

法律文档特点:1)具有逻辑结构、长文本(现在模型难理解长距离)2)对于关键要素敏感,即使细微差别也会影响相关性判断(现在模型不能处理)本文:1)关注结构、关注要素2)多个预训练目标,利用非对称 encoder-decoder3)模型区分能力强,无标注也能区分不同案件法律案件检索旨在为查询案件找到相关案件,在智能法律系统中发挥着核心作用。尽管预训练在临时检索任务中取得了成功,但有效的法律案例检索预训练策略仍有待探索。与一般文档相比,法律案例文档通常是具有内在逻辑结构的长文本序列。

2024-05-10 20:19:27 680

原创 信息检索(31):On the Calibration and Uncertainty with Polya-Gamma Augmentation for ´ Dialog Retrieval Mod

深度神经检索模型已经充分证明了它们的力量,但估计其预测的可靠性仍然具有挑战性。大多数对话响应检索模型都会针对响应与给定问题的相关程度输出单个分数。然而,深度神经网络的糟糕校准导致单个分数存在各种不确定性,使得不可靠的预测总是会误导用户决策。为了研究这些问题,我们提出了一种用于对话响应检索模型的有效校准和不确定性估计框架 PG-DRR,该框架将高斯过程层添加到确定性深度神经网络中,并通过 Polya-Gamma ’ 增强恢复共轭性以实现易于处理的后验推理。

2024-04-28 16:38:43 469

原创 信息检索(30):BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

数据集:18个基线:10个(词汇、稀疏、密集、后期交互、重排序)效果:1)后期交互和重排序,以高计算成本实现高性能( zero-shot 设置 )2)密集和稀疏计算效率高,但效果差(泛化能力改进空间大)现有的神经信息检索(IR)模型经常在同质和狭窄的环境中进行研究,这极大地限制了对其分布外(OOD)泛化能力的了解。为了解决这个问题,并方便研究人员广泛评估其模型的有效性,我们引入了 Benchmarking-IR (BEIR),这是一种用于信息检索的强大且异构的评估基准。

2024-04-19 15:24:20 1250

原创 知识积累(六):Dokcer 容器和镜像概念问题

在你的例子中,假设你有一个运行着 neo4j 的容器,并且 neo4j 服务在容器内部的 7474 端口上运行。容器 A 到容器 B 的通信:当容器 A 尝试连接到 172.50.0.2 的时候,Docker 会将这个请求转发到与容器 B 关联的网络中,并且将请求路由到容器 B。镜像是容器的构建块,它提供了一个独立、可移植和一致的运行环境。容器 B 上的 Neo4j 服务响应:当容器 A 发送请求到容器 B 上的 Neo4j 服务时,容器 B 中运行的 Neo4j 服务会处理请求,并且返回相应的响应。

2024-04-14 11:19:35 962

原创 信息检索(29):APPROXIMATE NEAREST NEIGHBOR NEGATIVE CONTRASTIVE LEARNING FOR DENSE TEXT RETRIEVAL

在学习的密集表示空间中进行文本检索具有许多有趣的优点。然而,密集检索(DR)的性能通常不如基于单词的稀疏检索。在本文中,我们首先从理论上证明密集检索的瓶颈是小批量训练中采样的无信息负样本的主导,这会产生梯度范数递减、梯度方差大和收敛速度慢。然后,我们提出近似最近邻否定对比学习(ANCE),它从整个语料库中全局选择硬训练否定。我们的实验证明了 ANCE 在网络搜索、问答和商业搜索引擎中的有效性,表明 ANCE 点积检索几乎与基于 BERT 的级联 IR 管道的准确性相匹配。

2024-04-01 10:32:37 816

原创 信息检索(21--26):文章速读摘要版

为了更好地支持网络搜索和开放域问答等信息检索任务,人们越来越努力开发面向检索的语言模型,例如 RetroMAE(Xiao 等人,2022b)和许多其他模型(Gao 和 Callan,2021;Wang)等人,2021a)。大多数现有工作都专注于提高 [CLS] 令牌的上下文嵌入的语义表示能力。然而,最近的研究表明,除了[CLS]之外的普通标记可能会提供额外的信息,这有助于产生更好的表示效果(Lin et al, 2022)。

2024-03-20 00:17:25 674

原创 信息检索(十五--二十):文章速读摘要版

鉴于其在知识密集型自然语言处理任务上的有效性,密集检索模型变得越来越流行。具体来说,开放域问答的实际架构使用两个同构编码器,它们从相同的预训练模型初始化,但针对问题和段落分别进行参数化。这种双编码器架构的参数效率低下,因为编码器之间没有参数共享。此外,最近的研究表明,DPR 在各种环境下的表现都不如 BM25。因此,我们提出了一种新的架构,即任务感知专业化 dEnse 检索 (TASER),它通过在单个编码器中交错共享和专用块来实现参数共享。

2024-03-19 19:43:00 1148

原创 信息检索(十四):Simple Entity-Centric Questions Challenge Dense Retrievers

DPR 对于非常见实体效果差讨论问题:1)数据增强无法解决2)robust 段落编码器帮助解决问题适应由于密集检索模型的成功,开放域问答最近迅速流行,该模型已经超越了仅使用少量监督训练示例的稀疏模型。然而,在本文中,我们证明当前的密集模型还不是检索的圣杯。我们首先构建 EntityQuestions,这是一组基于维基数据事实的简单、实体丰富的问题​​(例如,“Arve Furset 出生在哪里?”),并观察到密集检索器的性能远远低于稀疏方法。

2024-03-18 21:33:19 837 1

原创 信息检索(十三):On Complementarity Objectives for Hybrid Retrieval

密集检索在各种信息检索任务中都显示出了可喜的结果,而与稀疏检索的优势相结合的混合检索也得到了积极的研究。混合检索的一个关键挑战是使稀疏和稠密互补。现有模型侧重于密集模型,以捕获稀疏模型中忽略的“剩余”特征。我们的主要区别是展示剩余互补性概念是如何受到限制的,并提出一个新的目标,表示为 RoC(互补性比率),它捕获了更全面的互补性概念。我们提出了一种旨在提高 RoC 的两级正交性,然后表明我们模型的改进 RoC 反过来又提高了混合检索的性能。

2024-03-18 19:34:14 962

原创 知识积累(五):Transformer 家族的学习笔记

a)我们想要 word 带有一些它在句子中的位置信息b)我们想要模型区分对待离得近的单词,和离得远的单词(因为离得近可能语义上更接近等等原因)c)希望模型能够学到位置编码带来的 pattern。

2024-03-17 23:32:11 798

原创 信息检索(十二):What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary

双编码器现在是密集检索的主导架构。然而,我们对它们如何表示文本以及为什么这会带来良好的性能知之甚少。在这项工作中,我们通过词汇分布阐明了这个问题。我们建议通过将双编码器产生的向量表示投影到模型的词汇空间中来解释它们。我们表明,所得的投影包含丰富的语义信息,并在它们和稀疏检索之间建立联系。我们发现这种观点可以为密集检索器的一些失败案例提供解释。例如,我们观察到模型无法处理尾部实体与令牌分布忘记这些实体的一些令牌的趋势相关。

2024-03-17 20:13:08 926

原创 信息检索(十一):Nonparametric Decoding for Generative Retrieval

生成检索模型仅依赖于其模型参数中编码的信息,无需外部记忆,其信息容量是有限且固定的。为了克服这个限制,我们提出了非参数解码(Np Decoding),它可以应用于现有的生成检索模型。Np 解码使用非参数上下文化词汇嵌入(外部存储器)而不是普通词汇嵌入作为解码器词汇嵌入。通过利用上下文词汇嵌入,生成检索模型能够利用参数和非参数空间。对文档检索任务中 9 个数据集(8 个单跳和 1 个多跳)的评估表明,将 Np 解码应用于生成检索模型可以显着提高性能。

2024-03-13 20:38:04 903

原创 信息检索(十):SamToNe: Improving Contrastive Loss for Dual Encoder Retrieval Models with Same Tower Negati

双编码器已用于检索任务和表示学习,取得了良好的效果。训练双编码器的标准方法是使用批内负样本的对比损失。在这项工作中,我们提出了一种改进的对比学习目标,通过将来自相同编码器塔的查询或文档添加到负样本中,我们将其命名为“相同塔的负样本的对比损失”(SamToNe)。通过评估 MS MARCO 和 MultiReQA 的问答检索基准以及异构零样本信息检索基准(BEIR),我们证明 SamToNe 可以有效提高对称和非对称双编码器的检索质量。

2024-03-12 20:34:46 678

原创 信息检索(九):TOME: A Two-stage Approach for Model-based Retrieval

近年来,基于模型的检索已经成为文本检索的一种新范式,它抛弃了传统检索模型中的索引,而是使用模型参数来记忆候选语料库。该设计采用序列到序列范例来生成文档标识符,从而能够完整捕获查询和文档之间的相关性,并简化经典的索引检索重新排序管道。尽管具有吸引人的品质,但基于模型的检索仍然存在几个主要挑战,包括预训练和微调之间的差异,以及训练和推理之间的差异。为了应对上述挑战,我们提出了一种名为 TOME 的新型两阶段基于模型的检索方法,该方法做出了两项主要技术贡献,包括1)利用标记化 URL 作为标识符和。

2024-03-12 10:35:42 1003

原创 知识积累(四):无

换句话说,word embedding 将每个单词表示为一个向量,这个向量在空间中的位置和其他单词的位置反映了它们之间的语义关系。因此,word embedding 可以被认为是“显式地表达每个单元的语义”,因为通过这种表示,我们可以直观地看到每个单词的语义特征,而不需要其他的显式规则或指导。在这个框架中,输入嵌入层负责将原始文本中的 token 映射为向量表示,Transformer 编码器负责对这些向量进行编码以捕捉语义信息,而特定任务的输出层则根据具体的任务类型对模型进行定制化的调整。

2024-03-11 16:30:38 1031

原创 信息检索(八):BERM: Training the Balanced and Extractable Representation for Matching to Improve Generaliz

当在域内标记数据集上进行训练时,密集检索在第一阶段检索过程中显示出了前景。然而,先前的研究发现,密集检索由于其对领域不变和可解释特征(即两个文本之间的信号匹配,这是信息检索的本质)的建模较弱,很难推广到未见过的领域。在本文中,我们提出了一种通过捕获匹配信号(称为 BERM)来提高密集检索泛化能力的新方法。完全细粒度的表达和面向查询的显着性是匹配信号的两个属性。因此,在BERM中,单个段落被分割成多个单元,并提出两个单元级的表示要求作为训练中的约束以获得有效的匹配信号。

2024-03-11 15:35:41 703

原创 信息检索(七):Transformer Memory as a Differentiable Search Index

在本文中,我们证明可以使用单个 Transformer 来完成信息检索,其中有关语料库的所有信息都编码在模型的参数中。为此,我们引入了可微搜索索引(DSI),这是一种新的范例,它学习文本到文本的模型,将字符串查询直接映射到相关的文档 id;换句话说,DSI 模型仅使用其参数直接回答查询,从而极大地简化了整个检索过程。我们研究文档及其标识符的表示方式的变化、训练程序的变化以及模型和语料库大小之间的相互作用。实验表明,如果选择适当的设计,DSI 的性能显着优于双编码器模型等强基线。

2024-03-02 21:26:44 1193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除