分享 8 篇NLP论文，有研究惊奇发现：大语言模型除了学习语言还学到了... ...

最新推荐文章于 2025-03-11 20:19:50 发布

AINLPer

最新推荐文章于 2025-03-11 20:19:50 发布

阅读量1.7k

点赞数

文章标签：自然语言处理语言模型学习

本文链接：https://blog.csdn.net/yinizhilianlove/article/details/130019567

版权

来源: AINLPer公众号（每日干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2023-4-07

引言

今天继续给大家分享8篇关于自然语言处理（NLP）的论文，其中主要包括：大预言模型的研究、动态环境下的语言回应、数据增强（使用10％的真实数据训练结果胜过100%的数据）、幽默话术的识别（幽默往往和缺陷相关）、模型幻觉抑制、自动化文章评分、稀疏奖励下的强化学习等。
论文获取方法：
1、直接获取，关注 AINLPer，后台回复：20230307
2、授之以渔：

1、大语言模型除了语言还学到了什么？

大型语言模型在自然语言处理中扮演重要角色。这些模型使用大量文本进行训练，并能够从训练中获取丰富的语言知识。在本文中，作者考虑预训练文本是否也为这些模型提供了非语言推理的有用“归纳偏差”。他们通过在一组包括量化计算、识别正则表达式和对字符串进行推理的19个多样化的非语言任务上对模型进行训练来测试这一点。

作者发现，预训练模型明显优于可比较的未预训练神经模型。即使在使用更少参数的未预训练模型进行训练以考虑模型正则化效应的实验中，这一点仍然成立。

他们进一步探索了文本领域对LLM的影响，通过使用来自不同领域和来源的文本对模型进行预训练。实验惊人地揭示了即使在多语言文本、计算机代码甚至是生成的合成语言文本上进行预训练，预训练的积极效果仍然存在。这表明预训练与语言模型的归纳学习能力之间存在尚未探索的深层联系。

2、动态环境预测

最近的一些研究表明，在学习如何在新环境中完成某些任务时，提供语言描述可能会有所帮助。然而，在语言描述很复杂的环境中，学习如何将语言与环境中正在发生的事情匹配可能会很困难。其主要是因为面临的事情之前很少学习到，并且强化奖励通常情况下也是有延迟性。

在本文中，作者提出了一种名为“语言动态蒸馏”（Language Dynamics Distillation，LDD）的方法来解决这个问题。使用LDD，他们首先训练一个模型，根据包括语言描述在内的演示来预测环境动态。然后，他们使用强化学习（RL）对这些具有语言感知的预训练表示进行微调。这使得模型不仅可以学习如何最大化预期奖励，还可以学习如何保留有关语言与环境动态相关的知识。

在五个任务的基准测试（NetHack、ALFWorld、RTFM、Messenger和Touchdown）中评估了LDD，其中这些任务具有不同的语言描述，对于推广到未见过的环境而言具有不同的挑战。在所有这些任务中，LDD表现优于tabula-rasa RL、VAE预训练和其他方法。

3、大规模文本嵌入基准MTEB

人们评估文本嵌入目前是存在问题的。主要原因是：人们仅测试一个任务的少量数据。这使得很难知道文本嵌入是否适用于其他任务，例如聚类或重新排序。为解决这个问题，作者创建了大规模文本嵌入基准（MTEB）。

MTEB涵盖了8个嵌入任务，涉及56个数据集和112种语言。通过对33个模型在MTEB上进行基准测试，他们能够建立到目前为止最全面的文本嵌入基准。他们发现，没有特定的文本嵌入方法在所有任务中占主导地位。这表明该领域尚未在通用文本嵌入方法上达成共识并将其扩大到足以在所有嵌入任务上提供最先进结果的规模。

4、数据增强

当可用的数据不多时，对话理解可能会很困难。您需要大量标注数据才能实现良好的性能。

在这篇论文中，作者们提出了一种使用大型预训练语言模型并迭代应用弱监督过滤器以提高数据质量的方法。他们在DailyDialog数据集中的情感和行为分类任务以及Facebook多语言任务导向对话数据集中的意图分类任务中测试了他们的方法。

结果表明，fine-tune在他们的数据增强混合少量真实数据上的模型在两个数据集上都优于现有的最先进模型。事实上，对于DailyDialog特别是，仅使用10％的真实数据，他们仍能胜过使用100％数据的当前最先进模型。

5、识别幽默和冒犯

幽默是主观的；一个人觉得好笑的东西，可能不会让另一个人觉得好笑。这个概念最早由古希腊哲学家指出，他们观察到人们在看喜剧时笑，是一种嘲笑或贬低他人的方式。幽默的优越性理论认为，笑声是一种表现对他人优越感的方式，可以通过嘲笑他们缺陷或者缺点来达到这个目的。

然而，这个理论也表明，一些幽默识别数据集可能包含冒犯某些人群的内容。这是不可取的，因为基于机器学习的自然语言处理系统（例如虚拟助手）不应该以冒犯性内容回应用户请求。因此，在计算幽默时识别、减轻和减少冒犯内容是至关重要的。

在这篇论文中，作者发现在有大量注释可用时，提示（prompting）的表现与微调（fine-tuning）的表现相当。然而，在低资源幽默识别时，即有较少的注释可用时，提示可以实现更好的性能。作者还通过应用影响函数到提示中来研究幽默与冒犯之间的关系。他们发现模型可依赖于冒犯性内容来确定幽默。

6、模型幻觉抑制

虽然抽象摘要模型生成的语言质量有所改善，但这些模型仍然倾向于产生幻觉并输出未得到源文档支持的内容。一些方法已经尝试解决这个问题，但成效有限。

在本文中，作者确定了一个简单的标准，可以显著增加模型在生成过程中分配更多概率给幻觉内容的可能性：高模型不确定性。这一发现为幻觉提供了一个潜在的解释：当模型对继续生成的内容不确定时，它们会默认偏向于高边际概率的文本，即训练集中高频发生的内容。

作者提出了一种解码策略，当模型表现出不确定性时，转而优化源标记和目标标记的逐点互信息。在 XSum 数据集上的实验表明，这种方法减少了幻觉标记的概率，同时保持了顶级解码策略的Rouge和BertS得分。

7、自动化文章评分

自动化文章评分一直是自然语言处理（NLP）社区长期关注的焦点，因为它在教育和商业领域都有潜在的应用。最近，大规模预训练模型和数据增强的进展在这个领域取得了重大进展，但仍然存在许多挑战。

本研究展示了Transformer模型和数据增强在各种主题的自动化文章评分中的有效性。研究结果表明，Transformer模型是自动化文章评分的一种有前途的方法，并为进一步研究提供了建议。

8、稀疏奖励下的强化学习

当奖励稀疏时，强化学习agent特别难以训练。一种常见的解决方法是使用内在奖励来鼓励agent探索其环境。然而，最近的内在探索方法通常使用基于状态的novelty measures来奖励低层次的探索，并且可能不适用于需要更抽象技能的领域。

相反，我们探索语言作为强调环境中相关抽象的通用媒介。与以前的工作不同，我们通过直接扩展竞争性内在探索基线AMIGo和NovelD来评估语言是否可以改进现有的探索方法。这些基于语言的变体在来自MiniGrid和MiniHack环境套件的13项具有挑战性的任务中，比其非语言形式的表现提高了47-85%。