信息检索（21--26）：文章速读摘要版_对cls做改进密集检测-CSDN博客

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/136853330

原文链接：
21. https://aclanthology.org/2023.acl-long.148/
22. https://aclanthology.org/2023.acl-long.125/
23. https://aclanthology.org/2023.acl-short.95/
24. https://aclanthology.org/2023.findings-acl.332/
25. https://aclanthology.org/2023.acl-long.99/
26. https://aclanthology.org/2023.acl-long.663/

21

提高 encoder 的表示能力
利用两个解码器：
1）提高 cls 的整体表示质量
2）提高每个 embedding 的个体能力

摘要

为了更好地支持网络搜索和开放域问答等信息检索任务，人们越来越努力开发面向检索的语言模型，例如 RetroMAE（Xiao 等人，2022b）和许多其他模型（Gao 和 Callan，2021；Wang）等人，2021a）。
大多数现有工作都专注于提高 [CLS] 令牌的上下文嵌入的语义表示能力。
然而，最近的研究表明，除了[CLS]之外的普通标记可能会提供额外的信息，这有助于产生更好的表示效果（Lin et al, 2022）。因此，有必要扩展当前的方法，使所有上下文化嵌入都可以针对检索任务进行联合预训练。
在这项工作中，我们提出了一种新颖的预训练方法，称为 Duplex Masked Auto-Encoder，又名 DupMAE。它旨在提高语义表示的质量，可以利用预训练模型的所有上下文嵌入。它利用了两个互补的自动编码任务：一个使用 [CLS] 嵌入重建输入句子；另一个用普通标记的嵌入来预测输入句子的词袋特征。这两个任务共同进行以训练统一编码器，其中整个上下文嵌入以紧凑的方式聚合以产生最终的语义表示。
DupMAE 很简单，但在经验上具有竞争力：它大大提高了预训练模型的表示能力和可转移性，可以在流行的基准（例如 MS MARCO 和 BEIR）上实现卓越的检索性能。我们的代码发布于：https://github.com/staoxiao/RetroMAE。

1 引言

神经检索对于许多现实场景很重要，例如网络搜索、问答和会话系统（Huang et al, 2013; Karpukhin et al, 2020; Komeili et al, 2021; Izacard et al, 2022; Zhu et al ，2021；Dong 等人，2022）。
近年来，预训练的语言模型，例如 BERT (Devlin et al, 2019)、RoBERTa (Liu et al, 2019)、T5 (Raffel et al, 2019) 被广泛采用作为检索器的骨干网络。通用的预训练语言模型并不直接适用于检索任务。因此，它需要复杂的微调策略，例如复杂的负采样（Xiong等人，2020；Qu等人，2020）、知识蒸馏（Hofstatter等人，2021；Lu等人，2022）以及联合检索器和排名器的优化（Ren 等人，2021；Zhang 等人，2021）。
为了减少这项工作并提高检索质量，人们对开发面向检索的语言模型越来越感兴趣。一种常见的做法是利用自我对比学习（Chang et al, 2020；Guu et al, 2020），其中学习语言模型以区分嵌入空间中启发式获取的正样本和负样本。后来，人们发现自动编码更有效（Wang et al, 2021a; Lu et al, 2021），其中学习语言模型以根据生成的嵌入重建输入。最近的工作（Xiao等人，2022b；Wang等人，2022）通过引入复杂的编码和解码机制进一步扩展了自动编码方法，这在各种基准上带来了检索质量的显着提高。
现有的面向检索的预训练模型主要依靠特殊标记[CLS]的上下文嵌入来表示输入的语义（Gao and Callan，2021；Lu et al，2021；Xiao et al，2022b）；王等人，2022）。
然而，最近的研究发现其他普通标记可能提供额外的信息并有助于生成更好的语义表示（Lin et al, 2022）。这样的说法与之前的研究一致（Luan et al, 2021; Santhanam et al, 2021），因为多向量或标记粒度表示可能比基于单个向量的表示具有更高的判别力。因此，有必要扩展之前的工作，以便可以针对[CLS]和普通令牌联合预训练表示能力。

为此，我们提出了一种新颖的自动编码框架，称为 Duplex Masked Auto-Encoder，又名 DupMAE（图 1）。它采用两个协同工作的差异化解码器，旨在

提高每个嵌入的单独容量，以及
提高从所有嵌入导出的联合表示的质量。

• 工作流程。 DupMAE 包含一个统一的编码器，它为 [CLS] 和普通标记生成上下文嵌入。生成的嵌入用于两个解码任务。一方面，[CLS] 嵌入与屏蔽输入相结合，用于从一层转换器恢复输入句子。另一方面，普通标记的嵌入通过线性投影单元（LPU）转换到词汇空间（V），即 |V |dim 向量。
转换结果通过最大池化聚合成 |V |-dim 向量，其中预测输入的词袋特征。
• 优点。上述工作流程因其简单性而突出：一个用于恢复输入的单层转换器，以及一个用于保留 BoW 特征的线性投影单元。因此，考虑到所有解码操作都以低成本进行，预训练是具有成本效益的。更重要的是，预训练任务对嵌入质量提出了很高的要求：由于解码器极其简化，它迫使编码器充分提取输入信息，从而可以进行高保真重建。最后，差异化任务可以帮助嵌入学习补充信息：[CLS]嵌入更关注语义信息；而直接保留 BoW 特征的 OT 嵌入可能会包含更多词汇信息。
• 代表性。来自 [CLS] 和普通标记的上下文嵌入以简单的方式聚合以生成输入的表示。 [CLS] 嵌入通过线性投影减少到较低的维度。普通标记的嵌入在转换到词汇空间并通过最大池聚合后，通过选择 topN 元素进行稀疏化。两个结果连接为一个向量。通过线性投影和稀疏化的正确配置，它可以保留与传统方法相同的内存占用和内积计算成本
我们提出的方法很简单，但在经验上具有竞争力。我们在常见的预训练语料库上执行 DupMAE，其中生成了基于 BERT 的尺度编码器。我们的预训练模型在各种下游任务中实现了卓越的性能。
对于 MS MARCO 的监督评估，它在段落检索中达到了 42.6 的 MRR@10，在文档检索中达到了 45.1 的 MRR@100。
对于 BEIR 的零样本评估，它在所有 18 个数据集上实现了 NDCG@10 的平均 49.1。它甚至明显优于具有更复杂的微调方法或更大的模型尺寸的强基线。因此，验证了DupMAE可以显着提高预训练模型的表示能力和可移植性。

22

通用任务的表现好的模型不一定在检索时表现好
因为 Bert 的 NSP 任务的训练，使得 CLS 在表示段落时更好（最好的期待：应该编码段落中的所有基本信息）

摘要

在本文中，我们提出了 SIMLM（语言模型预训练的相似度匹配），这是一种简单而有效的密集段落检索预训练方法。它采用简单的瓶颈架构，通过自监督预训练学习将通道信息压缩为密集向量。我们使用受 ELECTRA (Clark et al, 2020) 启发的替代语言建模目标来提高样本效率并减少预训练和微调之间输入分布的不匹配。 SIMLM 仅需要访问未标记的语料库，并且在没有标记数据或查询的情况下具有更广泛的适用性。我们对几个大规模的段落检索数据集进行了实验，并显示在各种设置下相对于强基线有显着的改进。
值得注意的是，SIMLM 甚至优于 ColBERTv2（Santhanam 等人，2021）等多向量方法，后者会产生更多的存储成本。我们的代码和模型检查点位于 https://github.com/microsoft/unilm/tree/master/simlm。

1 引言

段落检索是临时信息检索、开放域问答（Karpukhin 等人，2020）、检索增强生成（Lewis 等人，2020）和事实验证（Thorne 等人，2018）等应用程序的重要组成部分。 BM25 等稀疏检索方法几十年来一直是主流方法，如今仍然发挥着至关重要的作用。随着大规模预训练语言模型（PLM）的出现（Devlin 等人，2019），神经密集检索方法越来越受到关注（Yates 等人，2021）。密集检索方法将查询和段落映射到低维向量空间，其中查询和段落之间的相关性通过它们各自向量之间的点积或余弦相似度来测量。
与其他 NLP 任务一样，密集检索极大地受益于强大的通用预训练语言模型。然而，通用预训练并不能解决所有问题。如表 1 所示，经过 GLUE（Wang 等人，2019）等基准测试验证的改进预训练技术不会为检索任务带来一致的性能增益。 Lu 等人 (2021) 也做出了类似的观察。我们假设，为了执行稳健的检索，用于计算匹配分数的 [CLS] 向量应该编码段落中的所有基本信息。 BERT 中的下一句预测（NSP）任务引入了一些 [CLS] token 的监督信号，而 RoBERTa（Liu 等人，2019）和 ELECTRA 没有这样的序列级任务。
在这里插入图片描述

在本文中，我们提出 SimLM 用替换的语言建模目标来预训练表示bottleneck。 SimLM 由一个深层编码器和一个与表示瓶颈（即我们实现中的 [CLS] 向量）连接的浅层解码器组成。给定一个随机屏蔽的文本段，我们首先使用生成器对屏蔽位置的替换标记进行采样，然后使用深层编码器和浅层解码器来预测所有位置的原始标记。由于解码器的建模能力有限，因此它必须依赖表示瓶颈才能在预训练任务上表现良好。因此，编码器将学习将重要的语义信息压缩到瓶颈中，这将有助于训练基于双编码器的 1 密集检索器。我们的预训练目标适用于纯文本，不需要任何生成的 GPL 伪查询（Wang 等人，2022）。
与现有的预训练方法（例如 Condenser（Gao 和 Callan，2021）或 coCondenser（Gao 和 Callan，2022））相比，我们的方法有几个优点。首先，它在编码器和解码器之间没有任何额外的跳过连接，从而减少了旁路效应并简化了架构设计。其次，与 ELECTRA 预训练类似，我们替换的语言建模目标可以在所有位置反向传播梯度，并且在预训练期间的输入中没有 [MASK] 标记。这样的设计提高了样本效率并减少了预训练和微调之间的输入分布不匹配
为了验证我们方法的有效性，我们在几个大规模网络搜索和开放域 QA 数据集上进行了实验：MSMARCO 段落排名（Campos 等人，2016）、TREC Deep Learning Track 数据集和 Natural Questions (NQ) 数据集（Kwiatkowski 等人，2019）。结果显示，与仅使用 BM25 硬底片的其他竞争方法相比，取得了显着的成果。当与挖掘的硬底片和基于交叉编码器的重排序蒸馏相结合时，我们可以实现新的最先进的性能。

23

摘要

密集检索是信息检索应用程序的基本构建块。现实环境中密集检索的主要挑战之一是处理包含拼写错误单词的查询。处理拼写错误查询的一种流行方法是最小化拼写错误查询与其原始查询之间的表示差异。与仅关注拼写错误查询和原始查询之间的对齐的现有方法不同，我们的方法还提高了每个拼写错误查询与其周围查询之间的对比度。为了评估我们提出的方法的有效性，我们使用两个基准数据集和两个基本编码器将其与现有竞争对手进行比较。
在所有拼写错误查询的情况下，我们的方法都优于竞争对手。我们的代码和模型可在上获取。

1 引言

密集检索是许多信息检索应用程序的基本组成部分，例如开放域问答和即席检索。目标是根据候选段落与给定查询的相似性对大量候选段落进行评分和排名。密集检索的性能依赖于表示学习。一种流行的方法是微调预训练的语言模型以创建嵌入空间，使每个查询更接近其相应的段落（Zhan 等人，2020；Khattab 和 Zaharia，2020；Xiong 等人，2021；Qu 等人，2021）；Ren 等人，2021a,b)。
密集检索的主要挑战之一是处理拼写错误的查询，这会导致拼写错误的查询的表示比其相应的段落更接近不相关的段落。多项研究表明，搜索查询中的拼写错误会严重降低检索性能（Zhuang 和 Zuccon，2021 年；Penha 等人，2022 年），特别是当实体提及等信息术语拼写错误时（Sidiropoulos 和 Kanoulas，2022 年）。
为了创建能够处理拼写错误查询的检索模型，研究人员提出了不同的训练方法，将拼写错误查询的表示与其原始查询的表示对齐。 Zhuang 和 Zuccon (2021, 2022) 设计了增强方法来生成拼写错误的查询，并提出了训练方法、拼写错误感知训练和自学 (ST)，以鼓励拼写错误查询的输出与其非拼写错误查询的输出之间的一致性。或者，Sidiropoulos 和 Kanoulas (2022) 应用对比损失来强制拼写错误查询的表示更接近其相应的非拼写错误查询。尽管这些方法可以提高拼写错误查询的检索模型的性能，但拼写错误查询的性能仍然会大幅下降。
在本文中，我们提出了一种训练方法来改进密集检索，以基于以下所需属性处理拼写错误的查询：
• 对齐：该方法应该能够将查询与其相应的段落对齐。
• 稳健性：该方法应该能够将拼写错误的查询与其原始查询对齐。
• 对比：该方法应该能够区分引用不同段落的查询和对应于不同查询的段落。

与仅满足对齐和鲁棒性属性的处理拼写错误查询的现有方法相比，我们的方法还旨在满足对比度属性。增加不同查询之间的距离应该有助于区分拼写错误的查询和其他不同的查询。我们为我们的训练方法设计了以下组成部分：
（i）双重自学（DST）融合了双重学习（Xia等人，2017；Li等人，2021）和自学（Zhuang和Zuccon，2022）的思想以双向方式训练鲁棒密集检索：段落检索和查询检索。
(ii) 查询增强为每个查询生成大量拼写错误变体，以提供我们的训练目标。

进行实验研究以评估所提出的方法与现有方法相比的效率。我们基于两种不同的预训练语言模型进行实验。我们使用两个段落检索基准数据集进行评估，一个标准数据集和一个用于拼写错误鲁棒性评估的专用数据集。
对于每个数据集，我们测量拼写错误和非拼写错误查询的性能，其中拼写错误的查询既是生成的查询也是现实世界的查询。实验结果表明，所提出的方法优于现有的最佳方法，可以增强针对拼写错误的密集检索的鲁棒性，而不会牺牲非拼写错误查询的性能。
我们总结我们的贡献如下： • 我们提出了一种新颖的训练方法，通过结合三个所需的属性：对齐、鲁棒性和对比度，来增强密集检索对拼写错误的鲁棒性。
• 我们引入对偶自教学（DST），它采用对偶学习和自教学的思想来学习鲁棒的表示。此外，我们提出查询增强以在不同拼写错误场景下生成特定查询的多个视图。
• 我们根据来自两个段落检索数据集的拼写错误和非拼写错误查询来评估我们的方法。结果表明，我们的方法在拼写错误查询方面明显优于以前最先进的方法。

24

摘要

神经排序器在事实上的“检索和重新排序”流程中发挥着不可或缺的作用，但由于对比学习期间的负面挖掘较弱，其训练仍然滞后。与通过自对抗（即分布内）负挖掘增强的检索器相比，排名器的重型结构遭受查询文档组合爆炸的影响，因此它只能求助于快速但分布外检索器采样的负样本。因此，中等负样本组成了无效的对比学习样本，成为学习鲁棒排序器的主要障碍。为了缓解这个问题，我们提出了一种多对抗性训练策略，利用多个检索器作为生成器来挑战排序器，其中 i）来自联合分布的不同硬负例很容易欺骗排序器以获得更有效的对抗性学习，ii）涉及广泛的输出分布标签噪声根据每个噪声分布呈现排名器，从而导致更具挑战性和鲁棒性的对比学习。为了评估我们强大的排序器（称为 R 2ANKER），我们在段落检索基准的各种设置下进行了实验，包括 BM25 重新排序、完整排序、检索器蒸馏等。实证结果验证了新的最先进技术我们模型的有效性。

25

先利用生成模型根据 query 生成一段文本，然后将这段文本与真实文章做相似度比较

摘要

虽然密集检索已被证明在跨任务和语言方面是有效且高效的，但在没有相关标签可用时，仍然很难创建有效的完全零样本密集检索系统。在本文中，我们认识到零样本学习和编码相关性的困难。相反，我们建议以假设文档嵌入（HyDE）为中心。给定一个查询，HyDE 第一个零样本提示指令跟踪语言模型（例如 InstructGPT）生成假设文档。该文档捕获了相关模式，但它是“假的”，并且可能包含幻觉。然后，无监督对比学习编码器（例如 Contriever）将文档编码为嵌入向量。该向量标识语料库嵌入空间中的邻域，根据向量相似性从中检索相似的真实文档。第二步将生成的文档基于实际的语料库，编码器的密集瓶颈会过滤掉幻觉。我们的实验表明，HyDE 显着优于最先进的无监督密集检索器 Contriever，并且在各种任务（例如网络搜索、QA、事实验证）和非英语语言（例如 sw、ko）中表现出与微调检索器相当的强大性能, ja, bn).1

1 引言

密集检索（Lee et al, 2019；Karpukhin et al, 2020）是一种使用语义嵌入相似性来检索文档的方法，已被证明在网络搜索、问答和事实验证等任务中是成功的。多种方法，如负挖掘（Xiong et al, 2021; Qu et al, 2021）、蒸馏（Qu et al, 2021; Lin et al, 2021b; Hofstätter et al, 2021）、检索特定预训练（Izacard et al, 2021） al, 2021；Gao and Callan, 2021；Lu et al, 2021；Gao and Callan, 2022；Liu and Shao, 2022）和缩放（Ni et al, 2022）已被提出来提高监督密集检索模型的有效性。

然而，零样本密集检索仍然很困难。最近的许多工作都考虑了替代的迁移学习设置，其中密集检索器在高资源数据集上进行训练，然后根据来自不同领域的查询进行评估。
MS MARCO (Bajaj et al, 2016) 是最常用的数据集，具有大量手动判断的查询-文档对。然而，正如 Izacard 等人（2021）所说，在实践中，不能总是假设存在如此大的数据集。此外，MS MARCO限制商业用途，无法应用于各种现实世界的搜索场景。

在本文中，我们的目标是构建有效的完全零样本密集检索系统，该系统不需要相关性监督，开箱即用并可泛化新兴搜索任务。由于无法进行监督，我们首先检查自监督表示学习方法。现代深度学习支持两种不同的方法。在 token 层面，在大型语料库上预训练的生成式大语言模型（LLM）表现出了强大的自然语言理解（NLU）和生成（NLG）能力（Brown 等人，2020；Chen 等人，2021；Rae 等人， 2021；Hoffmann 等人，2022；Thoppilan 等人，2022；Chowdhery 等人，2022）。在文档级别，使用对比目标进行预训练的文本（块）编码器学习将文档相似性编码为内积（Izacard 等人，2021；Gao 和 Callan，2022）。

26

多向量检索改进单向量检索“不常见实体健壮性差”（单词不匹配问题/同义不同单词问题等）和“域外泛化差”的问题
多向量检索的问题：1）索引大小大；2）检索延迟高

摘要

多向量检索方法结合了稀疏（例如 BM25）和密集（例如 BM25）的优点。
DPR）检索器并在各种检索任务中实现最先进的性能。然而，与单向量方法相比，这些方法的速度要慢几个数量级，并且需要更多的空间来存储索引。在本文中，我们从令牌路由的角度统一了不同的多向量检索模型，并提出通过动态词汇路由的条件令牌交互，即 CITADEL，以实现高效且有效的多向量检索。 CITADEL 学习将每个标记向量路由到预测的词汇“键”，以便查询标记向量仅与路由到同一键的文档标记向量交互。这种设计在保持高精度的同时显着降低了计算成本。值得注意的是，CITADEL 在域内 (MS MARCO) 和域外 (BEIR) 评估方面均实现了与之前最先进的 ColBERT-v2 相同或稍好的性能，同时速度提高了近 40 倍。

1 引言

信息检索的目标（Manning et al, 2008）是根据给定的查询从大量数据集中找到一组相关文档。传统的词袋系统（Robertson and Zaragoza，2009；Lin et al，2021a）根据每个文档中出现的查询词计算排名分数，该系统已广泛应用于网络搜索等许多应用中（Nguyen et al，2016）；Noy 等人，2019）和开放域问答（Chen 等人，2017；Lee 等人，2019）。最近，基于预训练语言模型（Devlin 等人，2019；Liu 等人，2019）的密集检索（Karpukhin 等人，2020）已被证明非常有效。它通过将查询和文档编码为低维嵌入并使用它们的点积作为相似度得分来规避词袋系统中的术语不匹配问题（图 2a）。然而，密集检索对于实体较多的问题（Sciavolino 等人，2021）和域外数据集（Thakur 等人，2021）的鲁棒性较差，因此需要更好的解决方案（Formal 等人，2021b；Gao 和 Callan， 2022）。

相比之下，通过考虑令牌级交互，多向量检索在域内和域外评估方面都显示出强大的性能。其中，ColBERT（Khattab 和 Zaharia，2020）可以说是最著名的方法，迄今为止在多个数据集上都是最先进的。然而，其更广泛的应用受到其大索引大小和高检索延迟的阻碍。这个问题是由于 ColBERT 的 token 交互中的冗余造成的，其中许多 token 可能根本对句子语义没有贡献。为了改善这一点，COIL（Gao et al, 2021a）对 ColBERT 施加了精确匹配约束以进行条件令牌交互，其中只有具有相同令牌 id 的令牌嵌入才能相互交互。虽然减少了延迟，但单词不匹配问题再次出现，模型可能无法匹配使用不同单词表达相同含义的查询和段落。

在本文中，我们首先给出了基于令牌路由的现有多向量检索方法的统一视图（第 2 节），为我们揭示当前模型的局限性提供了一个新的视角。
在令牌路由视图下，ColBERT 可以被视为全对所有路由，其中每个查询令牌与所有通道令牌进行详尽的交互（图 2b）。另一方面，COIL 可以被视为使用精确匹配约束的静态词法路由，因为每个查询标记仅与具有与查询标记相同标记 id 的段落标记交互（图 2c）。

相比之下，我们提出了一种使用动态词汇路由的新颖条件标记交互方法，称为 CITADEL，如图 2d 所示。我们不依赖静态启发式方法（例如精确匹配），而是训练模型来动态调节令牌交互，以便每个查询令牌仅与段落中最相关的令牌交互。这是通过使用词汇路由器来实现的，该词汇路由器与模型的其余部分进行端到端训练，将每个上下文化标记嵌入路由到词汇表中一组激活的词汇“键”。这样，每个查询令牌嵌入仅与具有相同激活密钥的通道令牌嵌入交互，该激活密钥在计算过程中动态确定。正如我们将在第 5.1 节中看到的，与全对所有路由相比，这种基于学习的路由不会损失任何准确性，同时使用比 COIL（第 3.4 节）更少的令牌交互，从而产生高效且高效的检索器。

MS MARCO 通道（Nguyen 等人，2016）和 TREC DL 的实验表明，CITADEL 达到了与 ColBERTv2 相同水平的准确度。我们在 BEIR 上进一步测试 CITADEL（Thakur 等人，2021），CITADEL 仍然设法跟上 ColBERT-v2（Santhanam 等人，2022b）的最新技术水平。至于延迟，CITADEL 使用 A100 GPU 在 MS MARCO 通道上的平均延迟为 3.21 毫秒/查询，比 ColBERT-v2 快了近 40 倍。通过进一步结合乘积量化，CITADEL 的索引在 MS MARCO 通道上仅占用 13.3 GB，并将延迟降低至 0.9 ms/查询，如图 1 所示。

补充知识

1 ELECTRA 模型的 replaced language modeling objective？

在ELECTRA中，模型会被输入一句文本，但不是随机地掩盖一些词语，而是随机地替换一些词语为模型生成的词语。然后，模型的任务是区分哪些词语是原始文本中的真实词语，哪些是被模型生成的替换词语。这种方法的好处是，相比于MLM，它能够更有效地利用训练数据，因为模型在预测时看到了更多真实的输入。

因此，ELECTRA的"replaced language modeling objective"指的是通过检测模型生成的替换词语来进行语言建模的目标。

2 双向学习（Dual Learning）

双向学习（Dual Learning）是一种机器学习方法，旨在通过两个相互补充的模型之间的相互学习来改善性能。这种方法通常用于序列生成任务，例如翻译或语音识别。在双向学习中，有两个模型：一个主模型和一个辅助模型。

主模型负责执行任务，例如将一种语言翻译成另一种语言。辅助模型则负责生成反向的输出，即将目标语言翻译回原始语言。然后，两个模型相互交换生成的输出，并利用相互之间的差异来改进性能。这种双向学习的思想可以帮助模型更好地理解任务，并提高其性能和鲁棒性。

3 自学习（Self Teaching）

自学习（Self-teaching）是指一个系统或者模型能够通过自我学习和自我调整来改进自身的性能，而无需外部指导或监督。这种方法通常在机器学习和人工智能领域中使用，其中系统通过与环境互动或通过观察数据来自我学习。

自学习的一个例子是自监督学习（self-supervised learning），其中模型通过观察未标记的数据来学习任务，而无需显式的标签。另一个例子是增强学习（reinforcement learning），其中代理通过与环境互动来学习最优的行为策略，从而最大化累积奖励。

自学习的优点在于它能够让系统在不断的实践和经验中逐渐提高性能，而不需要人工干预。然而，自学习也面临着挑战，例如如何设计有效的学习目标和奖励函数，以及如何处理数据的噪声和不确定性等问题。

4 自监督表示学习方法

现代深度学习中有两种方法：
1）在 token 层面，在大型语料库上预训练的生成型大语言模型（LLM）表现出了强大的自然语言理解（NLU）和生成（NLG）能力
Ps：大生成模型经过大训练
2）在文档级别，使用对比目标预先训练的，文本（块）编码器，将文档相似性编码为内积（是一个自监督的，）

5 自监督和无监督学习

参考资料

【1】【2】【3】来源：gpt
【4】
https://blog.csdn.net/Roaddd/article/details/129542649#:~:text=%E5%AF%B9%E6%AF%94%E5%AD%A6%E4%B9%A0%E4%B9%8B%E6%89%80%E4%BB%A5%E8%A2%AB%E8%AE%A4%E4%B8%BA%E6%98%AF%E4%B8%80%E7%A7%8D%E6%97%A0%E7%9B%91%E7%9D%A3%E7%9A%84%E8%AE%AD%E7%BB%83%E6%96%B9%E5%BC%8F%EF%BC%8C%E6%98%AF%E5%9B%A0%E4%B8%BA%E4%BA%BA%E4%BB%AC%E5%8F%AF%E4%BB%A5%E4%BD%BF%E7%94%A8%E4%BB%A3%E7%90%86%E4%BB%BB%E5%8A%A1%EF%BC%88pretext,task%EF%BC%89%E6%9D%A5%E5%AE%9A%E4%B9%89%E8%B0%81%E4%B8%8E%E8%B0%81%E7%9B%B8%E4%BC%BC%EF%BC%8C%E8%B0%81%E4%B8%8E%E8%B0%81%E4%B8%8D%E7%9B%B8%E4%BC%BC%EF%BC%8C%E4%BB%A3%E7%90%86%E4%BB%BB%E5%8A%A1%E9%80%9A%E5%B8%B8%E6%98%AF%E4%BA%BA%E4%B8%BA%E8%AE%BE%E5%AE%9A%E7%9A%84%E4%B8%80%E4%BA%9B%E8%A7%84%E5%88%99%EF%BC%8C%E8%BF%99%E4%BA%9B%E8%A7%84%E5%88%99%E5%AE%9A%E4%B9%89%E4%BA%86%E5%93%AA%E5%BC%A0%E5%9B%BE%E4%B8%8E%E5%93%AA%E5%BC%A0%E5%9B%BE%E7%9B%B8%E4%BC%BC%EF%BC%8C%E5%93%AA%E5%BC%A0%E5%9B%BE%E4%B8%8E%E5%93%AA%E5%BC%A0%E5%9B%BE%E4%B8%8D%E7%9B%B8%E4%BC%BC%EF%BC%8C%E4%BB%8E%E8%80%8C%E6%8F%90%E4%BE%9B%E4%BA%86%E4%B8%80%E4%B8%AA%E7%9B%91%E7%9D%A3%E4%BF%A1%E5%8F%B7%E5%8E%BB%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B%EF%BC%8C%E8%BF%99%E5%B0%B1%E6%98%AF%E6%89%80%E8%B0%93%E7%9A%84%E8%87%AA%E7%9B%91%E7%9D%A3%E3%80%82

【5】https://www.zhihu.com/question/329202439（第三个回答）