2024年6月7日Arxiv大语言模型相关论文

最新推荐文章于 2024-07-26 13:24:37 发布

数智笔记

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量879

点赞数 17

分类专栏：论文速递文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/wjjc1017/article/details/139535577

版权

论文速递专栏收录该内容

108 篇文章 10 订阅

订阅专栏

cs.CL: PaCE: 大语言模型的简约概念工程

原标题: PaCE: Parsimonious Concept Engineering for Large Language Models

作者: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Darshan Thaker, Aditya Chattopadhyay, Chris Callison-Burch, René Vidal

机构: 宾夕法尼亚大学

摘要: 大语言模型（LLMs）被用于各种各样的任务。虽然它们能够生成类似人类的回复，但它们也可能产生不良输出，包括潜在有害信息、种族主义或性别歧视语言以及幻觉。对齐方法旨在通过微调、提示工程和表示工程等技术来减少这种不良输出。然而，现有方法面临几个挑战：一些方法需要昂贵的微调来完成每个对齐任务；一些方法不能充分去除不良概念，导致对齐失败；一些方法会去除良性概念，降低LLMs的语言能力。为了解决这些问题，我们提出了“简约概念工程”（PaCE），这是一个新颖的激活工程框架用于对齐。首先，为了充分建模概念，我们在激活空间中构建了一个大规模概念词典，其中每个原子对应一个语义概念。然后，在任何对齐任务中，我们指导一个概念分区器高效地将概念注释为良性或不良性。最后，在推理时，我们通过稀疏编码沿着概念词典分解LLM的激活，以准确表示激活为良性和不良性组件的线性组合。通过从激活中去除后者，我们重新调整LLMs的行为以实现对齐目标。我们在响应去毒化、忠实性增强和情感修订等任务上进行实验，并展示PaCE在保持语言能力的同时实现了最先进的对齐性能。

论文链接: https://arxiv.org/pdf/2406.04331

cs.CL: 哪些语言易于语言建模？从学习概率正则语言的角度来看

原标题: What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages

作者: Nadav Borenstein, Anej Svete, Robin Chan, Josef Valvoda, Franz Nowak, Isabelle Augenstein, Eleanor Chodroff, Ryan Cotterell

机构: 哥本哈根大学 ETH苏黎世大学苏黎世大学

摘要: 大语言模型能学到什么？根据定义，语言模型（LM）是字符串的分布。因此，解决上述问题的直观方法是将其形式化为关于字符串分布类的可学习性问题。尽管先前的工作侧重于评估理论限制，相比之下，我们致力于理解经验上的可学习性。与先前的经验性工作不同，我们评估神经LM在它们的本土领域-学习概率语言-而不是作为形式语言的分类器。具体来说，我们研究了通过RNN和Transformer LM学习正则LM（RLMs）的可学习性。我们通过实证测试RLMs的可学习性，作为RLM的各种复杂参数和神经LM的隐藏状态大小的函数。我们发现RLM等级（对应于其条件分布的logits所张成的线性空间的大小）和采样字符串的预期长度是RNN和Transformer的可学习性的强有力和显著的预测因子。其他几个预测因子也达到了显著性，但在RNN和Transformer之间有不同的模式。

论文链接: https://arxiv.org/pdf/2406.04289

cs.CL: ABEX: 通过扩展抽象描述进行低资源NLU数据增强

原标题: ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions

作者: Sreyan Ghosh, Utkarsh Tyagi, Sonal Kumar, C. K. Evuru, S Ramaneswaran, S Sakshi, Dinesh Manocha

机构: 马里兰大学公园分校美国

摘要: 我们提出了ABEX，这是一种针对低资源自然语言理解（NLU）任务的新颖有效的生成式数据增强方法。ABEX基于ABstract-and-EXpand，这是一种用于生成输入文档多样形式的新范式–我们首先将文档转换为简洁的摘要描述，然后基于扩展所得的抽象生成新文档。为了学习扩展摘要描述的任务，我们首先在大规模合成数据集上对BART进行训练，该数据集包含摘要-文档对。接下来，为了为文档生成摘要描述，我们提出了一种简单、可控且无需训练的基于编辑AMR图的方法。ABEX融合了两全其美：通过从抽象表示中扩展，它保留了文档的原始语义属性，如风格和含义，从而保持与原始标签和数据分布的一致性。同时，详细描述抽象描述的基本过程促进了多样化生成。我们在涵盖12个数据集和4个低资源设置的4个NLU任务上展示了ABEX的有效性。ABEX在质量上优于我们所有的基线方法，改进幅度为0.04% - 38.8%。在质量上，ABEX在上下文和长度多样性方面优于文献中所有先前方法。

论文链接: https://arxiv.org/pdf/2406.04286

cs.CL: 对人类和大语言模型在对话语调中相似性和差异性的特征化：通过与人类进行采样

原标题: Characterizing Similarities and Divergences in Conversational Tones in Humans and LLMs by Sampling with People

作者: Dun-Ming Huang, Pol Van Rijn, Ilia Sucholutsky, Raja Marjieh, Nori Jacoby

机构: 加州大学伯克利分校马克斯·普朗克实证美学研究所普林斯顿大学

摘要: 对话语调——说话者交流时的方式和态度——对于有效沟通至关重要。在过去几年中，随着大语言模型（LLMs）的日益普及，有必要对它们的对话语调与人类之间的差异进行表征。然而，现有对话模式的研究依赖于预先存在的分类法或文本语料库，这些都存在实验者偏见，并且可能不代表研究的心理语言学领域的真实分布。受认知科学方法的启发，我们提出了一种迭代方法，同时引发对话语调和句子，参与者在两个任务之间交替进行：（1）一个参与者确定给定句子的语调，（2）另一个参与者根据该语调生成句子。我们与人类参与者和 GPT-4 运行了 100 次此过程的迭代，然后获得了一个包含句子和频繁对话语调的数据集。在另一个实验中，人类和 GPT-4 对所有句子进行了所有语调的注释。通过来自 1,339 名人类参与者、33,370 个人类判断和 29,900 个 GPT-4 查询的数据，我们展示了我们的方法如何用于创建人类和 GPT-4 之间对话语调关系的可解释几何表示。这项工作展示了如何结合机器学习和认知科学的思想来解决人机交互中的挑战。

论文链接: https://arxiv.org/pdf/2406.04278

cs.CL: 思维缓冲区：利用大语言模型进行思维增强推理

原标题: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

作者: Ling Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui

机构: 北京大学加州大学伯克利分校斯坦福大学

摘要: 我们介绍了一种名为“思维缓冲区（BoT）”的新颖且多才多艺的思维增强推理方法，用于提升大型语言模型（LLMs）的准确性、效率和稳健性。具体来说，我们提出了元缓冲区，用于存储一系列信息丰富的高层思维，即从各种任务的问题解决过程中提炼出的思维模板。然后对于每个问题，我们检索相关的思维模板，并自适应地将其实例化为具体的推理结构，以进行高效的推理。为了保证可扩展性和稳定性，我们进一步提出了缓冲区管理器，动态更新元缓冲区，从而增强元缓冲区的容量，使其在解决更多任务时更为强大。我们在10个具有挑战性的推理密集型任务上进行了大量实验，并在Game of 24上实现了11%、在Geometric Shapes上实现了20%、在Checkmate-in-One上实现了51%的性能改进，超过了先前的SOTA方法。进一步的分析表明，我们的BoT具有出色的泛化能力和模型稳健性，而平均仅需多查询提示方法（例如思维树/图）成本的12%。值得注意的是，我们发现我们的Llama3-8B+BoT有潜力超越Llama3-70B模型。我们的项目可在此链接找到：https://此链接。

论文链接: https://arxiv.org/pdf/2406.04271

Github: https://github.com/YangLing0818/buffer-of-thought-llm

cs.CL: Transformer需要眼镜！语言任务中的信息过度压缩

原标题: Transformers need glasses! Information over-squashing in language tasks

作者: Federico Barbero, Andrea Banino, Steven Kapturowski, Dharshan Kumaran, João G.M. Araújo, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković

机构: 牛津大学谷歌DeepMind

摘要: 我们研究了仅包含解码器的Transformer中信息如何传播，这是大多数现有前沿大型语言模型（LLMs）的架构支柱。我们依赖于理论信号传播分析–具体来说，我们分析了Transformer最终层中最后一个标记的表示，因为这是用于下一个标记预测的表示。我们的分析揭示了一种表示坍塌现象：我们证明了对Transformer的某些不同输入序列可以产生最终标记中任意接近的表示。这种效应在现代LLMs中经常使用的低精度浮点格式的影响下被加剧。结果，可以证明模型无法以不同方式响应这些序列–导致在涉及计数或复制等任务中出现错误。此外，我们展示了仅包含解码器的Transformer语言模型可能会失去对输入中特定标记的敏感性，这与图神经网络中已知的过度压缩现象相关。我们提供了支持我们对当代LLMs的主张的经验证据。我们的理论还指出了解决这些问题的简单方法。

论文链接: https://arxiv.org/pdf/2406.04267

cs.CL: 大语言模型的基准数据污染：一项调查

原标题: Benchmark Data Contamination of Large Language Models: A Survey

作者: Cheng Xu, Shuhao Guan, Derek Greene, M-Tahar Kechadi

机构: 都柏林大学学院爱尔兰

摘要: 大语言模型（LLMs）如GPT-4、Claude-3和Gemini的快速发展已经改变了自然语言处理领域。然而，这也导致了一个重要问题，即基准数据污染（BDC）。当语言模型无意中将评估基准信息从其训练数据中合并时，就会发生这种情况，导致在评估过程中性能不准确或不可靠。本文审查了LLM评估中基准数据污染的复杂挑战，并探讨了缓解与传统基准相关风险的替代评估方法。本文还探讨了缓解BDC风险的挑战和未来方向，突出了这一问题的复杂性以及需要创新解决方案来确保LLM在实际应用中的可靠性。

论文链接: https://arxiv.org/pdf/2406.04244

cs.CL: FairytaleQA 翻译：在资源较少的语言中实现教育问答生成

原标题: FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages

作者: Bernardo Leite, Tomás Freitas Osório, Henrique Lopes Cardoso

摘要: 问答（QA）数据集对于评估机器和人类的阅读理解能力至关重要。虽然已经为此目的开发了许多英语数据集，但在资源较少的语言中存在明显的空白。为了填补这一空白，我们的论文介绍了童话问答（FairytaleQA）的机器翻译版本，这是一个旨在评估和提升儿童叙事理解能力的知名QA数据集。通过使用经过微调的适度规模模型，我们为翻译数据集中的问答生成（QG）和QA任务建立了基准。此外，我们提出了一个案例研究，提出了一个用于生成问答对的模型，并评估包括问题形式良好性、可回答性、相关性和儿童适宜性等质量指标。我们的评估重点是量化和描述错误案例，并提供未来工作方向。本文有助于推动资源较少语言中QA和QG研究的进展，促进这些模型在阅读理解方面的开发中的可访问性和包容性。代码和数据可在此 http URL 公开获取。

论文链接: https://arxiv.org/pdf/2406.04233

Github: http://github.com/bernardoleite/fairytaleqa-translated

cs.CL: BEADs: 跨领域偏见评估

原标题: BEADs: Bias Evaluation Across Domains

作者: Shaina Raza, Mizanur Rahman, Michael R. Zhang

机构: Vector Institute 皇家加拿大银行多伦多大学

摘要: 最近大语言模型（LLMs）的改进显著增强了自然语言处理（NLP）应用。然而，这些模型也可能继承和延续它们训练数据中的偏见。解决这个问题至关重要，但许多现有数据集并不提供跨多样化NLP任务的评估。为了解决这个问题，我们引入了跨领域偏见评估（BEADs）数据集，旨在支持各种NLP任务，包括文本分类、偏见实体识别、偏见量化和良性语言生成。BEADs采用AI驱动的注释结合专家验证提供可靠的标签。这种方法克服了现有数据集的局限性，这些数据集通常依赖于众包、仅专家注释、偏见评估有限或未经验证的AI标注。我们的实证分析表明，BEADs在检测和减少不同语言模型中的偏见方面是有效的，通过在BEADs上微调较小模型通常在偏见分类任务中胜过LLMs。然而，这些模型仍可能对某些人口统计数据表现出偏见。用我们的良性语言数据微调LLMs也可以减少偏见，同时保留模型的知识。我们的研究结果突显了全面偏见评估的重要性以及有针对性微调以减少LLMs偏见的潜力。我们正在此https URL上公开提供BEADs。
警告：本文包含可能被视为冒犯的例子。

论文链接: https://arxiv.org/pdf/2406.04220

其他链接: https://huggingface.co/datasets/shainar/BEAD

cs.CL: 重新思考大语言模型和语言隐写分析：高效检测强隐藏隐写信息

原标题: Rethinking LLM and Linguistic Steganalysis: An Efficient Detection of Strongly Concealed Stego

作者: Yifan Tang, Yihao Wang, Ru Zhang, Jianyi Liu

摘要: 为了在复杂场景中检测隐写文本（steganographic text），人们提出并取得了卓越表现的语言隐写分析（LS）以应对不同的动机。然而，随着生成式隐写术的发展，一些隐写术具有很强的隐蔽性，尤其是在基于大语言模型（LLMs）的隐写术出现后，现有的LS检测能力较低，甚至无法检测到它们。我们设计了一种名为LSGC的新型LS，具有两种模式。在生成模式中，我们创建了一个LS任务“描述”，利用LLM的生成能力来解释待检测的文本是否为隐写文本。在此基础上，我们重新思考了LS和LLMs的原理，并提出了分类模式。在这种模式下，LSGC删除了LS任务“描述”，将“因果LM”LLMs改为“序列分类”架构。LS特征可以通过模型的一次传递来提取，并添加了一个具有初始化权重的线性层以获得分类概率。对强隐蔽隐写术的实验表明，LSGC显著提高了检测性能，并达到了最先进的水平。此外，LSGC在分类模式下大大缩短了训练时间，同时保持高性能。

论文链接: https://arxiv.org/pdf/2406.04218

cs.CL: 语言模型在上下文中学到了什么？结构化任务假设

原标题: What Do Language Models Learn in Context? The Structured Task Hypothesis

作者: Jiaoda Li, Yifan Hou, Mrinmaya Sachan, Ryan Cotterell

摘要: 大语言模型（LLMs）表现出一种有趣的能力，即从演示中呈现的上下文示例中学习新任务，称为上下文学习（ICL）。可以理解的是，大量研究致力于揭示支持ICL的理论。一个流行的假设解释ICL是基于任务选择的。LLMs根据演示识别任务并将其推广到提示。另一个流行的假设是ICL是一种元学习的形式，即模型在预训练时学习学习算法并将其应用于演示。最后，第三个假设认为LLMs使用演示来选择在预训练期间学习的任务组合以执行ICL。在本文中，我们通过一系列源自常见文本分类任务的实验，从经验上探讨解释LLMs能够学习上下文的三个假设。我们通过反例否定了前两个假设，并提供了支持最后一个假设的证据。我们的结果表明，LLM可以通过组合在预训练期间学习的任务来在上下文中学习新任务。

论文链接: https://arxiv.org/pdf/2406.04216

cs.CL: mCSQA: 通过语言模型和人类统一创建策略的多语言常识推理数据集

原标题: mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans

作者: Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

机构: 奈良科学技术大学

摘要: 在为语言模型的自然语言理解能力评估而策划语言特定知识和常识数据集方面存在很大挑战。由于标注者数量有限，目前大多数多语言数据集是通过翻译创建的，无法评估这些语言特定方面。因此，我们提出了基于 CSQA 构建过程但利用语言模型进行更高效构建的多语言常识问答（mCSQA）。例如，通过要求 LM 生成问题/答案、优化答案并验证问答，随后减少人力工作量进行验证。构建的数据集是用于评估多语言语言模型跨语言语言转移能力的基准，实验结果显示，对于语言模型能够轻松解决的问题，具有很高的语言转移能力，但对于需要深入知识或常识的问题，转移能力较低。这凸显了语言特定数据集在评估和训练中的必要性。最后，我们的方法表明，多语言语言模型可以创建包含语言特定知识的问答，与手动创建相比，显著降低了数据集创建成本。这些数据集可在此 https URL 上获取。

论文链接: https://arxiv.org/pdf/2406.04215

其他链接: https://huggingface.co/datasets/yusuke1997/mCSQA

cs.CL: ValueBench: 旨在全面评估大语言模型的价值取向和理解

原标题: ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models

作者: Yuanyi Ren, Haoran Ye, Hanjun Fang, Xin Zhang, Guojie Song

机构: 北京大学清华大学武汉大学

摘要: 大语言模型（LLMs）正在改变各个领域，并作为人类代理人获得越来越大的影响力。这一发展凸显了评估价值取向和对LLMs的理解的迫切需要，以确保它们能够负责任地整合到面向公众的应用程序中。这项工作介绍了ValueBench，这是第一个用于评估LLMs中的价值取向和价值理解的全面心理测量基准。ValueBench从44个已建立的心理测量清单中收集数据，涵盖453个多维价值维度。我们提出了一个基于现实人工智能交互的评估流程，用于探究价值取向，以及用于评估在开放式价值空间中的价值理解的新任务。通过对六个代表性LLMs进行广泛实验，我们揭示了它们共同和独特的价值取向，并展示了它们在价值相关的提取和生成任务中逼近专家结论的能力。ValueBench可以在此https网址上公开访问。

论文链接: https://arxiv.org/pdf/2406.04214

Github: https://github.com/Value4AI/ValueBench

cs.CL: 使用经过精调的预训练大语言模型进行法律文件起草

原标题: Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model

作者: Chun-Hsien Lin, Pu-Jen Cheng

机构: 国立台湾大学

摘要: 随着大规模语言模型（LLM）的发展，微调预训练的LLM已经成为解决自然语言处理下游任务的主流范式。然而，在法律领域训练语言模型需要大量的法律文件，以便语言模型可以学习法律术语和法律文件格式的特殊性。典型的自然语言处理方法通常依赖于许多手动注释的数据集进行训练。然而，在法律领域的应用中，很难获得大量手动注释的数据集，这限制了应用于起草法律文件任务的典型方法。本文的实验结果表明，我们不仅可以利用大量无注释的法律文件（未进行中文分词）来微调大规模语言模型，更重要的是，可以在本地计算机上微调预训练的LLM以实现生成法律文件草案的任务，并同时实现信息隐私保护和改善信息安全问题。

论文链接: https://arxiv.org/pdf/2406.04202

cs.CL: 检测大语言模型微调阶段中数学推理中的内部分布污染

原标题: DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math Reasoning

作者: Shangqing Tu, Kejian Zhu, Yushi Bai, Zijun Yao, Lei Hou, Juanzi Li

机构: 清华大学北航(Beihang University)

摘要: 大语言模型（LLMs）的进展依赖于使用公共基准进行评估，但数据污染可能导致性能被高估。先前的研究侧重于通过确定模型是否在训练期间看到完全相同的数据来检测污染。在这项工作中，我们认为，即使在类似基准数据上进行训练也会提高内部任务的性能，但不会提高整体容量，这就是我们所称的内部污染。为了有效检测内部污染，我们提出了一种名为DICE的新方法，该方法利用LLMs的内部状态来定位然后检测污染。DICE首先识别对污染最敏感的层，然后基于该层的内部状态训练分类器。实验证明，DICE在检测各种LLMs和数学推理数据集中的内部污染方面具有很高的准确性。我们还展示了经过训练的DICE检测器的泛化能力，它能够检测出多个具有相似分布的基准数据集中的污染。此外，我们发现，DICE检测分数与我们或其他组织在四个数学推理数据集上微调的十个LLMs的性能呈正相关（ $R^2$ 值在0.6和0.75之间）。这表明内部污染问题可能导致对许多现有模型真实能力的高估。代码和数据可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.04197

Github: https://github.com/THU-KEG/DICE

cs.CL: 混淆：大语言模型幻觉的惊人价值

原标题: Confabulation: The Surprising Value of Large Language Model Hallucinations

作者: Peiqi Sui, Eamon Duede, Sophie Wu, Richard Jean So

摘要: 这篇论文提出了对大语言模型（LLM）幻觉或“混淆”的系统性辩护，认为其可能是一种资源，而非绝对的负面陷阱。传统观点认为混淆在本质上存在问题，人工智能研究应该消除这一缺陷。在本文中，我们论证并实证表明，LLM混淆的可测语义特征反映了人类倾向于利用增加的叙事性作为认知资源进行意义构建和沟通的倾向。换句话说，它具有潜在价值。具体而言，我们分析了流行的幻觉基准，并揭示了幻觉输出相对于真实输出显示出增加的叙事性和语义连贯性。这一发现揭示了我们通常对混淆持有的轻视理解存在一种紧张关系。它反直觉地表明，LLM倾向于混淆可能与生成连贯叙事文本的积极能力密切相关。

论文链接: https://arxiv.org/pdf/2406.04175

cs.CL: 指针引导的预训练：向大语言模型注入段落级上下文意识

原标题: Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness

作者: Lars Hillebrand, Prabhupad Pradhan, Christian Bauckhage, Rafet Sifa

摘要: 我们介绍了一种名为“指针引导的段落排序”（SO）的新型预训练技术，旨在增强大型语言模型中段落级文本表示的上下文理解能力。我们的方法利用自注意力驱动的指针网络来恢复被打乱的文本段落的原始顺序，解决了捕捉文档内结构连贯性和上下文依赖性的挑战。这种预训练方法辅以一种细调方法，其中包括动态抽样，增加了训练实例的多样性，并提高了各种下游应用的样本效率。我们在各种数据集上评估了我们的方法，展示了它在需要跨科学文献和财务报告领域的顺序文本分类任务中的有效性。我们的实验表明，指针引导的预训练显著增强了模型理解复杂文档结构的能力，从而在下游分类任务中实现了最先进的性能。

论文链接: https://arxiv.org/pdf/2406.04156

cs.CL: 朝向通过内在偏见和遗忘的视角理解与任务无关的去偏见

原标题: Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness

作者: Guangliang Liu, Milad Afshari, Xitong Zhang, Zhiyu Xue, Avrajit Ghosh, Bidhan Bashyal, Rongrong Wang, Kristen Johnson

机构: 密歇根州立大学加州大学圣巴巴拉分校

摘要: 在不考虑任务的去偏见提供了显著的泛化能力，并减少了对下游数据的依赖，但在去偏见预训练语言模型（PLMs）时，其对语言建模能力和从下游任务特定数据中重新学习社会偏见的风险仍然是两个最重要的挑战。通过提供高质量和长上下文去偏见语料库，可以缓解对语言建模能力的影响，但在理解重新学习偏见的具体细节方面仍存在不足。我们凭经验证实，不考虑任务的去偏见的有效性取决于用于下游应用的任务特定数据和去偏见模型的定量偏见水平。我们经验证明，在大多数实际情况下，下游微调模型的偏见水平下限可以通过去偏见模型的偏见水平来近似。为了更深入地了解由于语言模型的遗忘问题而导致的 PLMs 参数在微调过程中的变化，我们提出了一个新颖的框架，可以将社会公平去偏见传播到下游微调，ProSocialTuning。我们提出的框架可以推动微调模型在下游微调过程中接近偏见下限，表明通过根据 PLMs 从预训练和去偏见阶段的偏见水平成功去偏见注意力头进行正则化，可以缓解去偏见的无效性。

论文链接: https://arxiv.org/pdf/2406.04146

cs.CL: 每个答案都很重要：用概率度量评估常识

原标题: Every Answer Matters: Evaluating Commonsense with Probabilistic Measures

作者: Qi Cheng, Michael Boratko, Pranay Kumar Yelugam, Tim O’Gorman, Nalini Singh, Andrew McCallum, Xiang Lorraine Li

机构: 匹兹堡大学马萨诸塞大学阿默斯特分校

摘要: 大语言模型在常识任务上展现出令人印象深刻的性能；然而，这些任务通常被提出为多项选择题，使模型能够利用系统性偏见。常识也具有多个正确答案的概率性特征。"煮水"的目的可能是泡茶和烹饪，但也可能是杀菌。现有任务未能捕捉到常识的概率性特征。为此，我们提出了常识框架补全（CFC），这是一个通过多个开放式生成来评估常识的新生成任务。我们还提出了一种与人类判断强相关的概率评估方法。在我们的数据集上，人类明显优于强大的语言模型基线，表明这种方法既具有挑战性又有用，可以评估机器的常识。

论文链接: https://arxiv.org/pdf/2406.04145

cs.CL: 语言模型是否理解道德？走向对道德内容的稳健检测

原标题: Do Language Models Understand Morality? Towards a Robust Detection of Moral Content

作者: Luana Bulla, Aldo Gangemi, Misael Mongiovì

机构: 意大利卡塔尼亚大学 ISTC - 国家研究委员会罗马和卡塔尼亚意大利博洛尼亚大学

摘要: 检测文本中的道德价值任务在各个领域具有重要意义，包括自然语言处理、社会科学和伦理决策。先前提出的监督模型经常存在过拟合问题，导致超专业化的道德分类器在不同领域的数据上表现不佳。为了解决这个问题，我们引入了利用大语言模型和自然语言推理模型在先前训练阶段获取的抽象概念和常识知识的新系统，这些模型在多个数据源上进行训练。通过这样做，我们旨在开发出在现实场景中检测道德价值的多功能和健壮方法。我们的方法使用GPT 3.5模型作为零样本准备好的无监督多标签分类器，用于道德价值检测，消除了对标记数据进行明确训练的需求。我们将其与一个较小的基于NLI的零样本模型进行比较。结果显示，NLI方法在与Davinci模型相比取得了竞争性的结果。此外，我们对监督系统在跨领域多标签道德价值检测背景下的性能进行了深入研究。这涉及在不同领域上训练监督模型，探索它们在处理来自不同来源的数据时的有效性，并将它们的性能与无监督方法进行比较。我们的贡献包括对跨领域价值检测的监督和无监督方法的彻底分析。我们将Davinci模型作为一种最先进的零样本无监督道德价值分类器，推动道德价值检测的边界，而无需对标记数据进行明确训练。此外，我们对我们的方法与监督模型进行了比较评估，揭示它们各自的优势和劣势。

论文链接: https://arxiv.org/pdf/2406.04143

cs.CL: 法律判决的重新构想：PredEx 和智能 AI 解释在印度法院的崛起

原标题: Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts

作者: Shubham Kumar Nigam, Anurag Sharma, Danush Khanna, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya

机构: 印度理工学院坎普尔分校印度
印度科学教育与研究学院加尔各答分校印度
Manipal大学斋浦尔分校印度
西比罗斯法学院普纳分校印度

摘要: 在大语言模型（LLMs）时代，预测司法结果面临着重大挑战，原因是法律程序的复杂性和专家标注数据集的稀缺性。为了解决这一问题，我们引入了“PredEx”（Prediction with Explanation）——这是印度背景下用于法律判决预测和解释的最大专家标注数据集，包含超过15,000个注释。这一开创性语料库显著增强了在法律分析领域中对AI模型的训练和评估，创新之处包括将指令调整应用于LLMs。这一方法显著提高了这些模型对法律判决的预测准确性和解释深度。我们采用了各种基于Transformer的模型，旨在适用于通用和印度法律背景。通过严格的词汇、语义和专家评估，我们的模型有效地利用“PredEx”提供精确的预测和有意义的解释，将其确立为法律界和自然语言处理社区的宝贵基准。

论文链接: https://arxiv.org/pdf/2406.04136

cs.CL: 我们完成 MMLU 了吗？

原标题: Are We Done with MMLU?

作者: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini

机构: 爱丁堡大学罗马第一大学巴里理工大学伦敦大学学院特伦托大学 AssemblyAI 英国卫生安全局

摘要: 也许不是。我们在流行的大规模多任务语言理解（MMLU）基准测试中识别和分析错误。尽管MMLU被广泛采用，但我们的分析显示出许多地面真相错误，这些错误掩盖了LLM的真实能力。例如，我们发现在病毒学子集中分析的问题中，有57%包含错误。为了解决这个问题，我们引入了一个全面的框架，使用一种新颖的错误分类法来识别数据集中的错误。然后，我们创建了MMLU-Redux，这是跨30个MMLU主题的3,000个手动重新注释的问题的子集。使用MMLU-Redux，我们展示了与最初报告的模型性能指标存在显著差异。我们的结果强烈主张修订MMLU中错误的问题，以增强其作为基准测试的未来效用和可靠性。因此，我们为额外的注释开放了MMLU-Redux，网址为https://。

论文链接: https://arxiv.org/pdf/2406.04127

其他链接: https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux

cs.CL: 揭示大语言模型在从表格中寻求信息时的局限性

原标题: Uncovering Limitations of Large Language Models in Information Seeking from Tables

作者: Chaoxu Pang, Yixuan Cao, Chunhao Yang, Ping Luo

机构: 中国科学院计算技术研究所中国科学院大学鹏城实验室哈尔滨工程大学

摘要: 表格以其高信息密度和广泛应用而闻名，是信息的重要来源。从表格中获取信息（TIS）是大语言模型（LLMs）的关键能力，是基于知识的问答系统的基础。然而，这一领域目前缺乏彻底和可靠的评估。本文引入了一个更可靠的表格信息获取（TabIS）基准。为了避免基于文本相似度的指标导致的不可靠评估，TabIS采用了单选题格式（每个问题两个选项），而不是文本生成格式。我们建立了一个有效的流程来生成选项，确保它们的难度和质量。对12个LLMs进行的实验表明，虽然GPT-4-turbo的性能在边缘上令人满意，但其他专有和开源模型的表现不佳。进一步的分析显示，LLMs对表格结构的理解较差，并且在TIS性能和对抗伪相关表格（在检索增强系统中常见）的稳健性之间难以平衡。这些发现揭示了LLMs在从表格中获取信息方面的局限性和潜在挑战。我们发布了我们的数据和代码，以促进这一领域的进一步研究。

论文链接: https://arxiv.org/pdf/2406.04113

cs.CL: 对话中的意图和面孔

原标题: Intention and Face in Dialog

作者: Adil Soubki, Owen Rambow

机构: 斯托尼布鲁克大学计算机科学系语言学系高级计算科学研究所

摘要: Brown和Levinson（1987）描述的面子概念已经被详细研究，但该框架关注的一个关键方面，即意图如何调解规划对面子的影响的转折，却受到了较少关注。我们提出了对三个经过训练用于分类意图和礼貌的计算系统的分析，重点关注前者如何影响后者。在礼貌理论中，智能体关注的是希望他们的需求得到赏识（积极面子），以及一种相辅相成的愿望，即行动不受阻碍并保持自由（消极面子）。类似于言语行为，话语可以执行所谓的面子行为，这些行为可以提升或威胁说话者或听话者的积极或消极面子。我们首先使用现有语料库训练一个模型，对面子行为进行分类，从而在这个过程中取得了新的最先进技术。然后我们观察到，每个面子行为都有一个激发它的潜在意图，并进行额外实验，整合对话行为注释，以通过代理提供这些意图。我们的分析发现，对话行为提高了对少数类别面子行为检测的性能，并指出面子和意图之间存在密切关系。

论文链接: https://arxiv.org/pdf/2406.04109

cs.CL: 解释性和仇恨言论：结构化解释使社交媒体管理员更快。

原标题: Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster

作者: Agostina Calabrese, Leonardo Neves, Neil Shah, Maarten W. Bos, Björn Ross, Mirella Lapata, Francesco Barbieri

摘要: 内容审核员在保持社交媒体对话健康方面发挥着关键作用。虽然他们需要判断的大量内容代表了审核流程的瓶颈，但目前尚无研究探讨模型如何支持他们做出更快的决策。目前已经有大量研究致力于检测仇恨言论，有时明确是出于希望帮助改进内容审核的动机，但使用真实内容审核员的发表研究却很少。在这项工作中，我们研究了解释对现实世界审核员速度的影响。我们的实验表明，虽然通用解释不会影响他们的速度，通常会被忽略，但结构化解释可以将审核员的决策时间降低7.4%。

论文链接: https://arxiv.org/pdf/2406.04106

cs.CL: 直接询问大语言模型，“是什么塑造了你的偏见？”：在大语言模型中测量社会偏见

原标题: Ask LLMs Directly, “What shapes your bias?”: Measuring Social Bias in Large Language Models

作者: Jisu Shin, Hoyun Song, Huije Lee, Soyeong Jeong, Jong C. Park

机构: 韩国科学技术院(KAIST)

摘要: 社会偏见是由对不同人口统计特征的目标的社会认知累积而形成的。要充分理解大语言模型（LLMs）中的这种社会偏见，必须考虑来自不同身份的多元化视角的社会认知的综合。先前的研究要么通过间接评估生成文本中对人口统计特征的情感存在与否来评估LLMs中的偏见，要么通过测量与给定刻板印象的一致程度来评估偏见。这些方法在直接量化不同身份之间的独特视角层面上的社会偏见方面存在局限性。在本文中，我们旨在研究来自各种观点的社会认知如何促成LLMs中的社会偏见的发展。为此，我们提出了一种新颖的策略，直观地量化这些社会认知，并提出可以通过汇总不同社会认知来评估LLMs中社会偏见的度量标准。实验结果显示了通过检验社会认知来定量展示LLMs中社会态度的演示。我们进行的分析表明，我们提出的度量捕捉了社会偏见的多维方面，实现了对LLMs中偏见的细粒度和全面调查。

论文链接: https://arxiv.org/pdf/2406.04064

cs.CL: 一个孩子语法-语义接口的路径：对3至11岁儿童引发的普通话递归关系从句产出的研究

原标题: The syntax-semantics interface in a child’s path: A study of 3- to 11-year-olds’ elicited production of Mandarin recursive relative clauses

作者: Caimei Yang, Qihang Yang, Xingzhi Su, Chenxi Fu, Xiaoyi Wang, Ying Yan, Zaijiang Man

机构: 苏州大学外国语学院山东师范大学心理学院江苏师范大学研究生院

摘要: 似乎在儿童习得过程中关于句法-语义关系存在相互冲突的说法。然而，其中很少有人评估儿童习得递归性关系从句（RRCs）的路径。本文的作者进行了实验，研究了3至11岁儿童对八个汉语RRCs的最结构化引发产出，在4（句法类型）*2（语义条件）的设计中。四种句法类型分别是：主语间隙RC嵌入宾语间隙RC的RRCs（SORRCs）、宾语间隙RC嵌入另一个宾语间隙RC的RRCs（OORRCs）、宾语间隙RC嵌入主语间隙RC的RRCs（OSRRCs）和主语间隙RC嵌入另一个主语间隙RC的RRCs（SSRRCs）。每种句法类型分为两种内部语义不同的条件：不可逆内部语义（IIS）和可逆内部语义（RIS）。例如，在IIS条件下，“那个女孩吃香蕉的气球”是SORRCs；在RIS条件下，“那只打猪的狗被猴子打”的SORRCs。对于每个目标，参与者得到一个构建不可逆外部语义条件（IES）的语音-视觉刺激。结果显示，在IIS-IES条件下，SSRRCs、OSRRCs和SORRCs比RIS-IES条件下的对应物提前两年产生。因此，提出了一个两阶段发展路径：语言习得设备从（不可逆）句法和IIS之间的接口开始，最终在句法和IES之间的接口结束，遵循句法-语义接口原则。

论文链接: https://arxiv.org/pdf/2406.04025

cs.CL: 美国手语手势反映了沟通效率的压力

原标题: American Sign Language Handshapes Reflect Pressures for Communicative Efficiency

作者: Kayo Yin, Terry Regier, Dan Klein

机构: 加州大学伯克利分校 UC Berkeley Dan Klein 达恩·克莱因

摘要: 交际效率是语言学和认知科学中一个重要的理论。虽然许多研究已经表明节省能量的压力如何体现在口头语言形式中，但很少有研究探讨手语中的这一现象。在本文中，我们展示了美国手语（ASL）中手型如何反映这些效率压力，并提供了交际效率在视觉-手势模态中的新证据。
我们关注在本土ASL手势和从英语借用的手势中都使用的手型，以比较ASL和英语之间的效率压力。首先，我们设计了新的方法来量化产生手型所需的发音努力以及识别它们所需的感知努力。然后，我们比较了ASL和英语中交际努力与使用统计数据之间的相关性。我们的研究结果表明，频繁出现的ASL手型更容易产生，而交际效率的压力主要来自ASL的使用，而不是英语的词汇借用。

论文链接: https://arxiv.org/pdf/2406.04024

cs.CL: 评估大语言模型在零样本抽象总结中的相关性释义视角。

原标题: Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing

作者: Hadi Askari, Anshuman Chhabra, Muhao Chen, Prasant Mohapatra

机构: 加州大学戴维斯分校南佛罗里达大学

摘要: 大语言模型（LLMs）已经在零样本生成给定文章的抽象摘要方面取得了最先进的性能。然而，对于零样本摘要生成过程的稳健性了解甚少。为了弥补这一差距，我们提出了相关性改写，这是一种简单的策略，可用于衡量LLMs作为摘要生成器的稳健性。相关性改写方法确定了对生成理想摘要有贡献的最相关句子，然后改写这些输入以获得一个最小扰动的数据集。然后，通过评估模型在原始数据集和扰动数据集上的摘要性能，我们可以评估LLM的稳健性的一个方面。我们在4个不同数据集上进行了相关性改写的大量实验，以及4个不同大小的LLMs（GPT-3.5-Turbo，Llama-2-13B，Mistral-7B和Dolly-v2-7B）。我们的结果表明，LLMs对于最小扰动文章的摘要生成并不一致，需要进一步改进。

论文链接: https://arxiv.org/pdf/2406.03993

cs.CL: 关于基于人物的领域特定文档摘要

原标题: On The Persona-based Summarization of Domain-Specific Documents

作者: Ankan Mullick, Sombit Bose, Rounak Saha, Ayan Kumar Bhowmick, Pawan Goyal, Niloy Ganguly, Prasenjit Dey, Ravi Kokku

机构: 印度理工学院卡拉格普尔分校美林组织

摘要: 在一个不断扩大的领域特定知识世界中，消费和存储信息的增加复杂性需要从大型信息存储库中生成摘要。然而，每个领域的角色对信息有不同的需求，因此需要进行个性化摘要。例如，在医疗保健领域，基于角色（如医生、护士、患者等）的方法是必要的，以有效地传递针对性的医疗信息。人类进行基于角色的领域特定信息摘要是一项高认知负荷的任务，通常不受青睐。由两个不同人类生成的摘要具有很高的变异性，并且随着领域和角色的增长，成本和专业知识也不断增加。此外，使用通用大语言模型（LLMs）生成的摘要可能不会在不经过特定领域数据训练的情况下为不同领域提供令人满意的准确性，并且在日常操作中使用也可能非常昂贵。本文的贡献有两个方面：1）我们提出了一种方法，通过使用医疗语料库高效微调领域特定的小型基础LLM，并展示我们可以有效地使用基于AI的批判来评估摘要质量。2）我们进一步展示了基于AI的批判与基于人类的批判在摘要上具有良好的一致性。因此，这种基于AI的管道生成领域特定的基于角色的摘要可以以非常高效和具有成本效益的方式轻松扩展到其他领域，如法律、企业文件、教育等。

论文链接: https://arxiv.org/pdf/2406.03986

cs.CL: 一个通用生成-阅读器框架A + B：优化大语言模型以释放协同潜力

原标题: A + B: A General Generator-Reader Framework for Optimizing LLMs to Unleash Synergy Potential

作者: Wei Tang, Yixin Cao, Jiahao Ying, Bo Wang, Yuyue Zhao, Yong Liao, Pengyuan Zhou

机构: 中国科学技术大学复旦大学新加坡管理大学北京理工大学奥胡斯大学

摘要: 检索增强生成（RAG）是向大语言模型（LLMs）补充必要知识的有效解决方案。针对其检索器性能瓶颈，提出了“生成-然后阅读”流程，用LLM自身的生成取代了检索阶段。尽管有前景，但这个研究方向尚未得到充分探索，而且在给定源知识的情况下仍无法工作。在本文中，我们形式化了一个通用的“A + B”框架，其中包含不同组合的基础模型和类型，以进行系统性研究。我们探索了LLMs的基础和聊天版本的有效性，并发现它们的不同功能适合用于生成器A和阅读器B，分别。它们的组合在复杂场景中始终优于单一模型。此外，我们将“A + B”框架的应用扩展到涉及源文件的场景，通过持续学习实现，实现了外部知识直接整合到LLMs中。这种方法不仅有助于有效获取新知识，还解决了适应后的安全性和实用性挑战。本文强调了“A + B”框架的多功能性，展示了它在各个领域中增强LLMs实际应用的潜力。

论文链接: https://arxiv.org/pdf/2406.03963

cs.CL: Tox-BART：利用毒性属性生成隐含仇恨言论的解释

原标题: Tox-BART: Leveraging Toxicity Attributes for Explanation Generation of Implicit Hate Speech

作者: Neemesh Yadav, Sarah Masud, Vikram Goyal, Vikram Goyal, Md Shad Akhtar, Tanmoy Chakraborty

摘要: 利用语言模型为隐含的仇恨帖子生成解释是一个活跃的研究领域。这种解释旨在明确表达潜在的刻板印象，并帮助内容管理员。训练通常结合了前 k 个相关的知识图 (KG) 元组，以提供世界知识并提高在标准指标上的表现。有趣的是，我们的研究为 KG 元组质量在生成隐含解释中的作用提供了矛盾的证据。因此，融合外部毒性信号的简单模型胜过注入 KG 的模型。与基于 KG 的设置相比，我们观察到在 SBIC (潜在仇恨) 数据集上的性能变化为 BLEU +0.44 (+0.49)，ROUGE-L +1.83 (-1.56)，BERTScore -4.59 (+0.77) 的可比性表现。进一步的人类评估和错误分析显示，我们提出的设置比零样本 GPT-3.5 生成更精确的解释，突显了任务的复杂性。

论文链接: https://arxiv.org/pdf/2406.03953

cs.CL: UltraMedical：在生物医学领域构建专业的通用人才

原标题: UltraMedical: Building Specialized Generalists in Biomedicine

作者: Kaiyan Zhang, Sihang Zeng, Ermo Hua, Ning Ding, Zhang-Ren Chen, Zhiyuan Ma, Haoxin Li, Ganqu Cui, Biqing Qi, Xuekai Zhu, Xingtai Lv, Hu Jinfang, Zhiyuan Liu, Bowen Zhou

机构: 清华大学华盛顿大学南昌大学第一附属医院上海交通大学

摘要: 大语言模型（LLMs）已经在各个领域展示出了卓越的能力，并正在向更专业领域迈进。最近的先进专有模型，如GPT-4和Gemini，在生物医学领域取得了显著进展，但也带来了隐私和安全挑战。专业通用模型的构建在很大程度上取决于高质量数据集，通过监督微调、从人类或AI反馈中学习以及直接偏好优化等技术的增强。然而，这些领先的技术（例如偏好学习）由于专业数据的稀缺性，在开源社区中仍然受到显著限制。在本文中，我们介绍了UltraMedical数据集，其中包括生物医学领域的高质量手动和合成数据集，涵盖了多个先进LLMs的偏好注释。通过利用这些数据集，我们对基于Llama-3系列的一套专业医学模型进行了微调，展示了在各种医学基准测试中的惊人能力。此外，我们开发了在生物医学和一般奖励基准测试中熟练的强大奖励模型，进一步增强了生物医学LLM社区内的在线偏好学习。

论文链接: https://arxiv.org/pdf/2406.03949

cs.CL: 具有文化意识和适应性的自然语言处理：现状的分类法和调查

原标题: Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art

作者: Chen Cecilia Liu, Iryna Gurevych, Anna Korhonen

机构: 技术大学达姆斯塔特分校哈森中心 (Hessian.AI) 前沿知识处理实验室剑桥大学

摘要: 近年来，对具有文化意识和适应性的自然语言处理（NLP）的兴趣激发了许多最新研究。然而，“文化”概念缺乏共同理解，这使得评估这一新兴领域的进展变得困难。借鉴自然语言处理和相关领域的先前研究，我们提出了一个涵盖文化元素的广泛分类法，可以为分析和理解研究进展提供系统性框架。利用这个分类法，我们调查了现有资源和模型，用于具有文化意识和适应性的自然语言处理，概述了现有技术水平和仍需填补的研究空白。

论文链接: https://arxiv.org/pdf/2406.03930

cs.CL: ArMeme：阿拉伯语迷因中的宣传内容

原标题: ArMeme: Propagandistic Content in Arabic Memes

作者: Firoj Alam, Abul Hasnat, Fatema Ahmed, Md Arid Hasan, Maram Hasanain

机构: 卡塔尔计算研究所美国黑鸟.AI 法国APA VI.AI 加拿大新不伦瑞克大学

摘要: 随着数字通信的兴起，模因已成为文化和政治表达的重要媒介，经常被用来误导观众。识别此类具有误导性和说服力的多模态内容在各方利益相关者中变得更加重要，包括社交媒体平台、政策制定者和更广泛的社会，因为它们经常对个人、组织和/或社会造成伤害。尽管已经努力开发基于人工智能的自动系统来处理资源丰富的语言（例如英语），但对于资源中等至低的语言来说，这方面的工作相对较少甚至没有。在这项研究中，我们专注于开发一个带有宣传内容手动注释的阿拉伯语模因数据集。我们对从各种社交媒体平台收集的约6,000个阿拉伯语模因进行了注释，这是阿拉伯语多模态研究的首个资源。我们提供了一项全面的分析，旨在开发用于检测的计算工具。我们将把它们公开提供给社区。

论文链接: https://arxiv.org/pdf/2406.03916

cs.CL: HeSum：一种用于希伯来语抽象文本摘要的新型数据集

原标题: HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew

作者: Tzuf Paz-Argaman, Itai Mondshine, Asaf Achi Mordechai, Reut Tsarfaty

机构: 巴伊兰大学

摘要: 尽管大语言模型（LLMs）在英语等语言的各种自然语言任务中表现出色，但它们在希伯来语等低资源语言中，特别是在抽象摘要等生成任务中的表现仍不清楚。希伯来语中的高形态丰富性增加了进一步的挑战，因为句子理解的歧义和意义构建的复杂性。本文通过引入 HeSum，一个专门设计用于现代希伯来语抽象文本摘要的新基准，来解决这一资源和评估差距。HeSum 包括来自专业人士撰写的希伯来语新闻网站的 10,000 篇文章-摘要对。语言分析证实了 HeSum 的高抽象性和独特的形态学挑战。我们展示了 HeSum 对当代最先进的大语言模型提出了独特的困难，将其确立为希伯来语中生成语言技术以及 MRLs 生成挑战的宝贵试验平台。

论文链接: https://arxiv.org/pdf/2406.03897

cs.CL: 零样本机器翻译评估在低资源印度语言中有多好？

原标题: How Good is Zero-Shot MT Evaluation for Low Resource Indian Languages?

作者: Anushka Singh, Ananya B. Sai, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M Khapra

机构: 尼尔卡尼人工智能中心印度印度理工学院马德拉斯分校日本国立信息通信研究所京都新加坡信息通信研究院星加坡微软印度印度理工学院孟买分校

摘要: 机器翻译评估主要是针对高资源语言进行研究，但近年来由于数据和模型的增加，对低资源语言的评估引起了人们的兴趣。本文关注零样本评估设置，重点关注低资源印度语言，即阿萨姆语、卡纳达语、迈蒂利语和旁遮普语。我们收集了足够的多维质量度量（MQM）和直接评估（DA）注释，创建了测试集，并对大量自动评估指标进行元评估。我们观察到，即使对于已知具有零样本性能的学习指标，Kendall Tau和Pearson与人类注释的相关性仅高达0.32和0.45。合成数据方法显示出不同的结果，总体上并没有对这些语言的差距产生太大帮助。这表明低资源评估仍有很长的路要走。

论文链接: https://arxiv.org/pdf/2406.03893

cs.CL: 利用耳语和大语言模型进行自发言自杀风险检测

原标题: Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models

作者: Ziyun Cui, Chang Lei, Wen Wu, Yinan Duan, Diyang Qu, Ji Wu, Runsen Chen, Chao Zhang

机构: 清华大学中国 Cambridge University Engineering Department 英国

摘要: 自杀风险的早期检测很重要，因为它可以使干预措施及时阻止潜在的自杀行为。本文研究了基于青少年自发言语的自杀风险自动检测，并为实验收集了一个包含来自十到十八岁的一千多名青少年的 15 小时自杀言语的普通话数据集。为了利用自发言语中嵌入的多样的声学和语言特征，我们既使用了 Whisper 语音模型，也使用了文本大语言模型（LLMs）进行自杀风险检测。我们采用了全参数微调和参数高效微调方法来调整预训练模型以用于自杀风险检测，并评估了多种音频文本融合方法来结合 Whisper 和 LLM 的表示。所提出的系统在包含 119 个受试者的测试集上实现了 0.807 的检测准确率和 0.846 的 F1 分数，表明在真实自杀风险检测应用中具有很大的潜力。

论文链接: https://arxiv.org/pdf/2406.03882

cs.CL: 评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

原标题: Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation

作者: Matthias Sperber, Ondřej Bojar, Barry Haddow, Dávid Javorský, Xutai Ma, Matteo Negri, Jan Niehues, Peter Polák, Elizabeth Salesky, Katsuhito Sudoh, Marco Turchi

机构: 苹果夏尔斯大学爱丁堡大学 Meta FBK KIT 约翰霍普金斯大学 NAIST Zoom

摘要: 人工评估是机器翻译系统开发中的关键组成部分，在文本翻译研究中受到了广泛关注。然而，在语音翻译的人工评估领域几乎没有先前的工作，这增加了诸如嘈杂数据和分割不匹配等额外挑战。我们首次采取措施填补这一空白，通过对最近一届国际口语翻译研讨会（IWSLT 2023）的几个共享任务结果进行全面的人工评估。我们提出了一种基于自动重新分割和直接评估与分段上下文的有效评估策略。我们的分析显示：1）所提出的评估策略是稳健的，并且与其他类型的人工判断得分高度相关；2）自动度量通常与直接评估得分相关，但并非总是如此；3）尽管重新分割步骤系统引入了分割噪声，但 COMET 作为一种略强的自动度量优于 chrF。我们发布了收集的人工标注数据，以鼓励进一步研究。

论文链接: https://arxiv.org/pdf/2406.03881

cs.CL: 仅解码器流式Transformer用于同时翻译

原标题: Decoder-only Streaming Transformer for Simultaneous Translation

作者: Shoutao Guo, Shaolei Zhang, Yang Feng

机构: 中国科学院计算技术研究所 ICT/CAS 中国科学院人工智能安全重点实验室中国科学院大学

摘要: 同时翻译（SiMT）在阅读源标记时生成翻译，基本上是根据源前缀生成目标前缀。为了实现良好的性能，它利用源和目标前缀之间的关系来制定指导翻译生成的策略。尽管现有的同时翻译方法主要集中在编码器-解码器架构上，但我们探索了仅解码器架构的潜力，因为它在各种任务中表现出色，并且与同时翻译具有固有的兼容性。然而，直接将仅解码器架构应用于同时翻译在训练和推断方面存在挑战。为了缓解上述问题，我们提出了第一个仅解码器SiMT模型，名为仅解码器流式Transformer（DST）。具体来说，DST分别对源和目标前缀的位置进行编码，确保目标前缀的位置不受源前缀扩展的影响。此外，我们提出了一种针对仅解码器架构量身定制的流式自注意力（SSA）机制。它能够通过评估输入源信息的充分性来获取翻译策略，并与软注意力机制集成以生成翻译。实验证明，我们的方法在三个翻译任务上实现了最先进的性能。

论文链接: https://arxiv.org/pdf/2406.03878

cs.CL: BLSP-Emo: 朝向具有同理心的大语音-语言模型

原标题: BLSP-Emo: Towards Empathetic Large Speech-Language Models

作者: Chen Wang, Minpeng Liao, Zhongqiang Huang, Junhong Wu, Chengqing Zong, Jiajun Zhang

机构: 中国科学院自动化研究所阿里巴巴集团中国科学院大学人工智能学院

摘要: 最近发布的GPT-4o展示了端到端多模态模型的潜力，不仅在低延迟方面表现出色，而且在理解和生成带有丰富情感的表达性语音方面也表现出色。虽然具体细节对于开放研究社区来说是未知的，但这很可能涉及大量精心策划的数据和计算资源，这两者都不容易获取。在本文中，我们提出了BLSP-Emo（带有情感支持的引导式语音-语言预训练），这是一种开发端到端语音-语言模型的新方法，能够理解语音中的语义和情感，并生成富有同理心的回应。BLSP-Emo通过两阶段过程利用现有的语音识别（ASR）和语音情感识别（SER）数据集。第一阶段侧重于语义对齐，遵循最近关于使用ASR数据预训练语音-语言模型的工作。第二阶段在情感感知延续任务上执行情感对齐，该任务是从SER数据构建的。我们的实验表明，BLSP-Emo模型在理解语音和提供同理心回应方面表现出色，无论是在遵循指示任务还是对话中。

论文链接: https://arxiv.org/pdf/2406.03872

cs.CL: 恢复句子级双语文档注释

原标题: Recovering document annotations for sentence-level bitext

作者: Rachel Wicks, Matt Post, Philipp Koehn

机构: 约翰霍普金斯大学微软

摘要: 数据的可用性限制了任何给定任务的范围。在机器翻译中，历史模型无法处理更长的上下文，因此缺乏文档级数据集并不那么明显。现在，尽管出现了处理长序列的方法，我们仍然处于句子级范式之内，缺乏足够接近上下文感知机器翻译的数据。大多数大规模数据集已经通过一个流程处理，该流程丢弃了文档级元数据。在这项工作中，我们为德语、法语、西班牙语、意大利语、波兰语和葡萄牙语（与英语配对）的三个大型数据集（ParaCrawl、News Commentary和Europarl）重建了文档级信息。然后，我们引入了一种文档级过滤技术作为传统双语过滤的替代方法。我们通过分析展示了这种过滤方法更偏好于一致上下文的翻译，而不是可能是句子级机器翻译的翻译。最后，我们在这些更长的上下文上训练模型，并展示了文档级翻译的改进，而不会降低句子级翻译的质量。我们将我们的数据集ParaDocs和生成的模型作为资源发布给社区。

论文链接: https://arxiv.org/pdf/2406.03869

cs.CL: 大语言模型在数值与语义医学知识方面的表现：基于基于证据的问答的基准测试

原标题: Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As

作者: Eden Avnat, Michal Levy, Daniel Herstain, Elia Yanko, Daniel Ben Joya, Michal Tzuchman Katz, Dafna Eshel, Sahar Laros, Yael Dagan, Shahar Barami, Joseph Mermelstein, Shahar Ovadia, Noam Shomron, Varda Shalev, Raja-Elie E. Abdulnour

机构: 空字符串

摘要: 临床问题解决需要处理语义医学知识，如疾病脚本和诊断测试的数值医学知识，以进行基于证据的决策。由于大语言模型（LLMs）在许多基于语言的临床实践方面显示出有希望的结果，它们生成基于非语言证据的临床问题答案的能力受到标记化的固有限制。因此，我们评估了LLMs在两种问题类型上的表现：数值（相关发现）和语义（区分实体），同时检查LLMs在医学方面的差异，并将其性能与人类进行比较。为了基于循证医学生成直观的多选问题和答案（QAs），我们使用了一个包含来自50,000多篇同行评审文章数据的全面医学知识图，并创建了“EBMQA”。EBMQA包含105,000个带有医学和非医学主题标签的QAs，并分为数值或语义问题。我们使用了超过24,500个QAs对两种最先进的LLMs进行了基准测试：Chat-GPT4和Claude3-Opus。我们评估了LLMs在语义和数值问题类型上的准确性，并根据子标签主题进行了评估。为了验证，对六名医学专家进行了100个数值EBMQA问题的测试。我们发现，两种LLMs在语义问题上的表现优于数值问题，Claude3在数值问题上超过了GPT4。然而，两种LLMs在不同医学方面显示出内部和内部差距，并且仍然不及人类。因此，应谨慎对待它们的医学建议。

论文链接: https://arxiv.org/pdf/2406.03855

cs.CL: 通过提前退出的投机解码，使用汤普森抽样控制机制加速大语言模型推理

原标题: Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism

作者: Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai

机构: 美团 Meta AI Meituan

摘要: 最近大语言模型（LLMs）的进展是非凡的，然而与之相关的推理成本不断上升，在实际应用中存在挑战。为了解决这些挑战，我们提出了一种名为早期退出推测解码（EESD）的新方法，具有无损加速。具体而言，EESD利用LLM的一部分生成草稿标记，在前N层后引入早期退出结构。为了提高草稿标记的质量，集成了一种自蒸馏方法。这种早期退出设计不仅降低了部署和训练成本，还显著加快了标记生成速度。此外，我们引入了一种利用汤普森采样调节生成过程的新型采样机制，自动确定每一轮草稿标记的数量。然后，通过单次前向传递使用原始LLM验证这些草稿标记，从而确保最终输出文本保持与基本自回归解码一致的分布。对13B和70B模型的实验结果表明，与先前方法相比，我们的方法以明显加速的速度解码标记，显示了我们方法的有效性。

论文链接: https://arxiv.org/pdf/2406.03853

cs.CL: 精益工作手册：从自然语言数学问题形式化的大规模精益问题集

原标题: Lean Workbook: A large-scale Lean problem set formalized from natural language math problems

作者: Huaiyuan Ying, Zijian Wu, Yihan Geng, Jiayu Wang, Dahua Lin, Kai Chen

机构: 上海人工智能实验室清华大学上海交通大学北京大学

摘要: 大语言模型在各种自然语言处理任务中展示了令人印象深刻的能力，特别是在解决数学问题方面。然而，大语言模型在使用类似Lean的形式语言进行数学定理证明方面表现不佳。该领域的一个重要挑战是这些形式语言中可用的训练数据稀缺。为了解决这个问题，我们提出了一个新颖的流程，通过迭代生成和过滤合成数据，将自然语言数学问题转化为Lean 4语句，反之亦然。我们的结果表明，合成数据流程可以提供有用的训练数据，并提高大语言模型在翻译和理解复杂数学问题和证明方面的性能。我们的最终数据集包含约57K个形式-非形式问题对，以及从数学竞赛论坛和21个新IMO问题中搜索到的证明。我们在此 https URL 开源我们的代码和在此 https URL 开源我们的数据。

论文链接: https://arxiv.org/pdf/2406.03847

Github: https://github.com/InternLM/InternLM-Math

cs.CL: 混乱的关键词：揭示大语言模型对误导性关键词的阿谀奉承，并评估防御策略

原标题: Chaos with Keywords: Exposing Large Language Models Sycophancy to Misleading Keywords and Evaluating Defense Strategies

作者: Aswin RRV, Nemika Tyagi, Md Nayem Uddin, Neeraj Varshney, Chitta Baral

机构: 亚利桑那州立大学

摘要: 这项研究探讨了大语言模型（LLMs）的阿谀奉承倾向，即这些模型倾向于提供符合用户想要听到的答案，即使这些答案并不完全正确。对这一探索的动机源于人们在搜索互联网上的事实时常见的行为，即带有部分或误导性知识的个体。类似于使用网络搜索引擎，用户可能会回忆起一些误导性关键词的片段，并将它们提交给一个LLM，希望得到一个全面的回应。我们对几个LLMs进行的实证分析显示，当面对误导性关键词时，这些模型放大误信息的潜在危险。此外，我们彻底评估了四种现有的幻觉缓解策略，以减少LLMs的阿谀奉承行为。我们的实验表明，这些策略对生成事实正确的陈述是有效的。此外，我们的分析深入探讨了关于事实关键词和不同类别的阿谀奉承缓解的知识探究实验。

论文链接: https://arxiv.org/pdf/2406.03827

cs.CL: ReST-MCTS*: 通过过程奖励引导的树搜索进行LLM自训练

原标题: ReST-MCTS: LLM Self-Training via Process Reward Guided Tree Search*

作者: Dan Zhang, Sining Zhoubian, Yisong Yue, Yuxiao Dong, Jie Tang

机构: 清华大学加州理工学院

摘要: 最近LLM自训练中的最新方法主要依赖于LLM生成响应并过滤具有正确输出答案的数据作为训练数据。这种方法通常会产生质量较低的微调训练集（例如，不正确的计划或中间推理）。在本文中，我们开发了一种名为ReST-MCTS的强化自训练方法，该方法基于将过程奖励指导与树搜索MCTS相结合，以收集更高质量的推理迹象以及每步价值，从而训练策略和奖励模型。ReST-MCTS通过基于树搜索的强化学习规避了通常用于训练过程奖励的每步手动注释：鉴于神谕最终正确答案，ReST-MCTS能够通过估计这一步骤能够帮助导致正确答案的概率来推断正确的过程奖励。这些推断的奖励具有双重目的：它们作为价值目标，进一步完善过程奖励模型，并促进选择高质量迹象用于策略模型的自训练。我们首先展示了ReST-MCTS*中的树搜索策略在相同搜索预算内与先前的LLM推理基线（如Best-of-N和Tree-of-Thought）相比实现了更高的准确性。然后，我们展示了通过使用此树搜索策略搜索的迹象作为训练数据，我们可以连续增强三种语言模型多次迭代，并且胜过其他自训练算法，如ReST $^\text{EM}$ 和Self-Rewarding LM。

论文链接: https://arxiv.org/pdf/2406.03816

cs.CL: 通过kNN-CTC和门控单语数据存储改进零样本中英文混合语音识别

原标题: Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

作者: Jiaming Zhou, Shiwan Zhao, Hui Wang, Tian-Hao Zhang, Haoqin Sun, Xuechen Wang, Yong Qin

机构: 南开大学中国北京科技大学

摘要: kNN-CTC 模型已被证明对于单语种自动语音识别（ASR）非常有效。然而，将其直接应用于类似代码切换的多语种场景会带来挑战。虽然存在性能提升的潜力，但一个利用单一双语数据存储的 kNN-CTC 模型可能会无意中引入来自另一种语言的不良噪音。为了解决这个问题，我们提出了一种新颖的基于 kNN-CTC 的代码切换 ASR（CS-ASR）框架，该框架采用双语种数据存储和门控数据存储选择机制，以减少噪音干扰。我们的方法为每个帧选择适当的数据存储以解码，确保将语言特定信息注入到 ASR 过程中。我们将这一框架应用于最先进的基于 CTC 的模型，开发出一种先进的 CS-ASR 系统。大量实验证明了我们的门控数据存储机制在增强零样本中英文代码切换 ASR 性能方面的显著有效性。

论文链接: https://arxiv.org/pdf/2406.03814

cs.CL: Light-PEFT: 通过早期修剪实现轻量级参数高效微调

原标题: Light-PEFT: Lightening Parameter-Efficient Fine-Tuning via Early Pruning

作者: Naibin Gu, Peng Fu, Xiyu Liu, Bowen Shen, Zheng Lin, Weiping Wang

摘要: 参数高效微调（PEFT）已经成为大语言模型时代微调的主要技术。然而，现有的PEFT方法仍然存在训练效率不足的问题。首先，在训练过程中利用大规模基础模型对于某些微调任务来说是过度冗余的。其次，随着模型规模的增加，经验添加的PEFT模块的可训练参数的增长变得不可忽略且冗余，导致效率低下。为了实现任务特定的高效微调，我们提出了Light-PEFT框架，其中包括两种方法：基础模型的遮蔽早期修剪和PEFT的多粒度早期修剪。Light-PEFT框架允许在训练的早期阶段同时估计基础模型和PEFT模块中的冗余参数。然后可以修剪这些参数以实现更高效的微调。我们在GLUE、SuperGLUE、QA任务和各种模型上验证了我们的方法。通过Light-PEFT，基础模型的参数可以被修剪超过40%，同时仍然控制可训练参数仅为原始PEFT方法的25%。与直接使用PEFT方法相比，Light-PEFT实现了训练和推理加速，减少了内存使用，并保持了可比较的性能和PEFT的即插即用特性。

论文链接: https://arxiv.org/pdf/2406.03792

cs.CL: 端到端可训练的软信息检索器用于低资源关系抽取

原标题: End-to-End Trainable Soft Retriever for Low-resource Relation Extraction

作者: Kohei Makino, Makoto Miwa, Yutaka Sasaki

摘要: 这项研究解决了使用文本生成模型进行基于实例的关系抽取中的一个关键挑战：由于实例选择的非可微性质，目标关系抽取任务中的端到端训练不适用于检索器。我们提出了一种新颖的端到端可训练软K最近邻检索器（ETRASK），采用神经提示方法，利用软、可微的选择 $k$ 个最近实例。这种方法使得检索器在目标任务中可以进行端到端训练。在TACRED基准数据集上，我们的方法在低资源设置下，训练数据减少到10%时，实现了71.5%的最先进F1分数。此外，ETRASK通过为所有设置添加实例，持续改进了基线模型。这些结果突显了我们方法在增强关系抽取性能方面的有效性，特别是在资源受限环境中。我们的发现为未来关系抽取研究提供了一个有前途的方向，以及文本生成在自然语言处理中的更广泛应用。

论文链接: https://arxiv.org/pdf/2406.03790

cs.CL: XL-HeadTags: 利用多模态检索增强多语言生成新闻标题和标签

原标题: XL-HeadTags: Leveraging Multimodal Retrieval Augmentation for the Multilingual Generation of News Headlines and Tags

作者: Faisal Tareque Shohan, Mir Tafseer Nayeem, Samsul Islam, Abu Ubaida Akash, Shafiq Joty

机构: 阿赫桑努拉科技大学艾伯塔大学谢布鲁克大学新加坡南洋理工大学 SalesForce研究

摘要: 每天在线发布的数百万新闻文章可能会让读者感到不知所措。标题和实体（主题）标签对于引导读者决定内容是否值得他们的时间至关重要。虽然标题生成已被广泛研究，但标签生成仍然很少被探讨，然而它为读者提供了更好地访问感兴趣主题的途径。在捕捉读者注意力时需要简洁明了，这就需要改进内容选择策略，以识别长篇文章中突出和相关的部分，从而有效地引导语言模型。为了解决这个问题，我们提出利用嵌入在文章中的图像和标题等辅助信息来检索相关句子，并利用带有变体的指导调整来生成新闻文章的标题和标签，实现多语境下的多语言环境。为了利用这些辅助信息，我们编制了一个名为XL-HeadTags的数据集，其中包括6个不同语言家族的20种语言。通过广泛的评估，我们展示了我们的即插即用的多模态-多语言检索器在两个任务中的有效性。此外，我们开发了一套用于处理和评估多语言文本的工具套件，通过实现跨语言更准确和高效的分析，显著地为研究社区做出了贡献。

论文链接: https://arxiv.org/pdf/2406.03776

cs.CL: 通过建模潜在的词内结构进行字符级中文依存句法分析

原标题: Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure

作者: Yang Hou, Zhenghua Li

摘要: 揭示中文句子的句法结构对于基于词级别的解析器来说存在重大挑战，因为缺乏清晰的词边界。为了促进从词级别到字符级别的中文依存分析的过渡，本文提出了对单词内部结构进行建模。通过这种方式，每个单词级别的依存树被解释为字符级别树的森林。实施了一种受限的Eisner算法，以确保字符级别树的兼容性，保证单词内部结构有一个根，并建立这些根之间的单词间依赖关系。对中文树库的实验表明，我们的方法优于管道框架和先前的联合模型。详细分析表明，粗到细的解析策略使模型能够预测更具语言学合理性的单词内部结构。

论文链接: https://arxiv.org/pdf/2406.03772

cs.CL: NAP^2：通过从人类学习进行自然性和隐私保护文本重写的基准测试

原标题: NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human

作者: Shuo Huang, William MacLean, Xiaoxi Kang, Anqi Wu, Lizhen Qu, Qiongkai Xu, Zhuang Li, Xingliang Yuan, Gholamreza Haffari

摘要: 在学术界和工业界使用第三方提供的自然语言处理模型处理敏感文本时，对隐私泄露问题的担忧日益增加。为了在将敏感数据发送到这些模型之前保护隐私，我们建议使用人类常用的两种策略来清理敏感文本：i) 删除敏感表达，ii) 通过概括来模糊敏感细节。为了探讨这些问题并开发一个文本重写工具，我们通过众包和使用大型语言模型（LLMs）构建了第一个语料库，命名为NAP^2。与基于差分隐私的先前作品相比，这些作品导致信息效用急剧下降和文本不自然，而受人类启发的方法产生了更自然的重写，并在隐私保护和数据效用之间提供了更好的平衡，这一点在我们广泛的实验中得到了证明。

论文链接: https://arxiv.org/pdf/2406.03749

cs.CL: 通过知识图谱-大语言模型对齐实现高效知识注入

原标题: Efficient Knowledge Infusion via KG-LLM Alignment

作者: Zhouyu Jiang, Ling Zhong, Mengshu Sun, Jun Xu, Rui Sun, Hui Cai, Shuhan Luo, Zhiqiang Zhang

摘要: 为了解决大语言模型（LLMs）中领域特定知识稀缺的问题，知识图检索增强方法已被证明是一种有效和高效的知识注入技术。然而，现有方法面临两个主要挑战：公开可用知识图与当前任务特定领域之间的知识不匹配，以及LLMs与知识图之间的信息不一致性。在本文中，我们利用少量标记样本和大规模语料库，通过LLM高效构建领域特定知识图，解决知识不匹配问题。此外，我们提出了一个三阶段的知识图-LLM对齐策略，以增强LLM利用知识图信息的能力。我们在两个生物医学问答数据集上进行了有限样本设置的实验，结果表明我们的方法优于现有基线模型。

论文链接: https://arxiv.org/pdf/2406.03746

cs.CL: LLMEmbed: 重新思考轻量级LLM在文本分类中的真实功能

原标题: LLMEmbed: Rethinking Lightweight LLM’s Genuine Function in Text Classification

作者: Chun Liu, Hongguang Zhang, Kainan Zhao, Xinghai Ju, Lin Yang

机构: 北京系统工程研究所郑州数学工程与高性能计算国家重点实验室

摘要: 随着大语言模型（LLMs）的蓬勃发展，提示学习已成为主要研究的一个有前途的方法，主要在各种研究领域进行研究。最近，许多基于提示学习的尝试已经被用来提高文本分类的性能。然而，大多数这些方法都是基于启发式的思维链（CoT），往往更复杂但效率较低。在本文中，我们重新思考了基于LLM的文本分类方法论，提出了一种简单而有效的迁移学习策略，即LLMEmbed，以解决这一经典但具有挑战性的任务。为了说明，我们首先研究如何通过不同网络深度的各种轻量级LLMs正确提取和融合文本嵌入，以提高它们的鲁棒性和区分度，然后调整这样的嵌入以训练分类器。我们在公开可用的数据集上进行了大量实验，结果显示，与基于更大LLMs（如GPT-3）和复杂的基于提示的策略的最近方法相比，LLMEmbed在使用轻量级LLM骨干的情况下取得了强大的性能，同时享有较低的训练开销。我们的LLMEmbed在公开可用的基准测试上取得了足够的准确性，而且仅使用4%的模型参数，相比之下，电力消耗和运行时间仅为其对应物的1.8%和1.5%。代码可在此链接找到：https://这里是URL。

论文链接: https://arxiv.org/pdf/2406.03725

Github: https://github.com/ChunLiu-cs/LLMEmbed-ACL2024

cs.CL: 关于医学大语言模型的调查：技术、应用、可信度和未来方向

原标题: A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions

作者: Lei Liu, Xiaoyan Yang, Junchi Lei, Xiaoyang Liu, Yue Shen, Zhiqiang Zhang, Peng Wei, Jinjie Gu, Zhixuan Chu, Zhan Qin, Kui Ren

机构: 清华大学哈尔滨工业大学

摘要: 大语言模型（LLMs），如GPT系列模型，由于其生成和理解人类级语言的出色能力而受到广泛关注。最近，LLMs已经成为医疗领域中创新和强大的辅助工具，改变了传统实践方式，开启了增强型医疗服务的新时代。本调查全面概述了医疗大语言模型（Med-LLMs），概述了它们从一般到医疗特定领域的演变（即技术和应用），以及它们对医疗保健的变革性影响（例如，可信度和安全性）。具体而言，从LLMs的基本历史和技术出发，我们首先深入探讨了一般LLM模型在医疗领域中的渐进适应和改进，特别强调了提升LLMs在处理复杂医疗环境中性能的先进算法，包括临床推理、知识图谱、检索增强生成、人类对齐和多模态学习。其次，我们探讨了Med-LLMs在临床决策支持、报告生成和医学教育等领域的广泛应用，说明它们在简化医疗服务和增强患者结果方面的潜力。最后，认识到创新的必要性和责任，我们讨论了确保Med-LLMs应用中公平性、问责制、隐私和稳健性的挑战。最后，我们对预期Med-LLMs可能的未来轨迹进行了简要讨论，确定了谨慎扩展Med-LLMs的途径。通过整合上述见解，本综述旨在为专业人士和研究人员提供对Med-LLMs潜在优势和局限性的全面调查，确保医疗环境中的负责任景观。

论文链接: https://arxiv.org/pdf/2406.03712

cs.CL: 从未标记的文档中合成对话，使用自动响应分割。

原标题: Synthesizing Conversations from Unlabeled Documents using Automatic Response Segmentation

作者: Fanyou Wu, Weijie Xu, Chandan K. Reddy, Srinivasan H. Sengamedu

机构: 亚马逊

摘要: 在这项研究中，我们解决了困扰会话式问答（ConvQA）系统发展的训练数据不足和昂贵的挑战。企业拥有大量多样化的内部文档。与依赖搜索引擎不同，让人们理解这些文档的更具吸引力的方法是创建一个对话系统。在本文中，我们提出了一种强大的对话合成方法。我们学习了对话任务数据的分割，而不是在句子边界进行分割。通过我们提出的方法生成的合成数据集在机器和人类评估中表现出优越的质量，与WikiDialog相比。通过使用我们的修补数据进行ConvQA检索系统的预训练，我们观察到在OR-QuAC基准测试中性能显著提高。

论文链接: https://arxiv.org/pdf/2406.03703

cs.CL: M-QALM：通过问答评估大语言模型在临床阅读理解和知识回忆方面的基准测试

原标题: M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering

作者: Anand Subramanian, Viktor Schlegel, Abhinav Ramesh Kashyap, Thanh-Tung Nguyen, Vijay Prakash Dwivedi, Stefan Winkler

机构: 国立新加坡大学华硕智能云服务（AICS）曼彻斯特大学

摘要: 有关将大型语言模型（LLMs）调整以执行医疗等高风险领域各种任务的研究活跃进行中。尽管它们很受欢迎，但对于LLMs能够回忆相关知识并将其与提供的信息结合起来的程度和促成因素缺乏理解，这是在临床和生物医学领域取得成功的基本先决条件。为填补这一空白，我们使用多项选择和抽象问答来进行一项涉及三个一般和三个专业生物医学子领域的22个数据集的大规模实证研究。我们对15个LLMs的性能进行了多方面分析，进一步按子领域、知识来源和模型架构进行了细分，揭示了诸如指令调整等成功因素，这些因素有助于提高回忆和理解能力。我们进一步表明，尽管最近提出的领域自适应模型可能缺乏足够的知识，但直接在我们收集的医学知识数据集上进行微调显示出令人鼓舞的结果，甚至可以泛化到未见过的专业子领域。我们将定量结果与以技能为导向的手动错误分析相结合，揭示了模型仅仅回忆必要知识和将其与提供的上下文整合起来的能力之间存在显著差距。为促进该领域的研究和合作，我们向研究社区分享了我们的资源、标准化方法和评估结果，以促进语言模型中临床知识表示学习的进一步发展。

论文链接: https://arxiv.org/pdf/2406.03699

cs.CL: 评估生成模型中隐含的世界模型

原标题: Evaluating the World Model Implicit in a Generative Model

作者: Keyon Vafa, Justin Y. Chen, Jon Kleinberg, Sendhil Mullainathan, Ashesh Rambachan

机构: 哈佛大学麻省理工学院康奈尔大学芝加哥大学布斯商学院

摘要: 最近的研究表明，大语言模型可能会隐式地学习世界模型。我们应该如何评估这种可能性？我们为基础现实由确定性有限自动机控制的情况形式化了这个问题。这包括简单的逻辑推理、地理导航、游戏和化学等各种问题。我们提出了受语言理论中经典的Myhill-Nerode定理启发的世界模型恢复的新评估指标。我们在三个领域展示了它们的实用性：游戏玩法、逻辑谜题和导航。在所有领域中，我们考虑的生成模型在评估世界模型的现有诊断方面表现良好，但我们的评估指标揭示了它们的世界模型远没有它们看起来那么连贯。这种不连贯性会导致脆弱性：使用生成模型来解决相关但微妙不同的任务可能会导致严重失败。构建能够有意义地捕捉其模拟领域的基础逻辑的生成模型将是非常有价值的；我们的结果提出了评估给定模型距离该目标有多近的新方法。

论文链接: https://arxiv.org/pdf/2406.03689

cs.CL: 在语言学条件下的语义文本相似度

原标题: Linguistically Conditioned Semantic Textual Similarity

作者: Jingxuan Tu, Keer Xu, Liulu Yue, Bingyang Ye, Kyeongmin Rim, James Pustejovsky

摘要: 语义文本相似度（STS）是一项基础的自然语言处理任务，用于衡量一对句子之间的语义相似性。为了减少句子中固有的歧义，最近提出了一项名为条件STS（C-STS）的工作，用于衡量句子在特定方面的相似性。尽管C-STS很受欢迎，但我们发现当前的C-STS数据集存在各种问题，可能会妨碍对该任务的正确评估。在本文中，我们重新注释了C-STS验证集，并观察到55%的实例存在注释者之间的差异，这是由于原始标签中的注释错误、定义不清晰的条件以及任务定义缺乏明确性所导致的。经过彻底的数据集分析，我们通过利用模型在问答任务设置下理解条件的能力来改进C-STS任务。通过生成的答案，我们提出了一个能够以超过80%的F1分数从C-STS数据中识别注释错误的自动错误识别流水线。我们还提出了一种新方法，通过用答案训练模型，大大提高了在C-STS数据上的性能，超过了基线。最后，我们讨论了基于实体类型的类型特征结构（TFS）的条件性注释。我们通过示例展示，TFS能够为构建具有新条件的C-STS数据提供语言基础。

论文链接: https://arxiv.org/pdf/2406.03673

cs.CL: 什么使语言模型足够好？

原标题: What Makes Language Models Good-enough?

作者: Daiki Asami, Saku Sugawara

机构: 特拉华大学国立情报学研究所

摘要: 心理语言学研究表明，人类可能会构建一个对于手头任务来说“足够好”的语言输入表示。本研究探讨了哪些架构特征使语言模型学习类似人类足够好的语言处理。我们关注Transformer中的层数和自注意力头的数量。我们创建了一个足够好的语言处理（GELP）评估数据集（7,680个示例），旨在测试两种合理性类型、八种构造类型和三种记忆成本对语言处理的影响。为了注释GELP，我们首先进行了一个众包实验，其设计遵循先前的心理语言学研究。我们对标注的GELP进行模型评估，结果显示完整模型以及具有较少层和/或自注意力头的模型表现出足够好的性能。这一结果表明，具有较浅深度和较少头的模型可以学习足够好的语言处理。

论文链接: https://arxiv.org/pdf/2406.03666

cs.CL: 用语言模型重新审视机器学习：重新审视机器学习

原标题: Verbalized Machine Learning: Revisiting Machine Learning with Language Models

作者: Tim Z. Xiao, Robert Bamler, Bernhard Schölkopf, Weiyang Liu

机构: 马克斯·普朗克智能系统研究所图宾根大学剑桥大学

摘要: 受到大语言模型（LLMs）取得的巨大进展的启发，我们引入了口头化机器学习（VML）框架。与通常优化连续参数空间的传统机器学习模型不同，VML将参数空间限制为人类可解释的自然语言。这种约束导致了对函数逼近的新视角，其中带有文本提示的LLM可以被视为由文本提示参数化的函数。在这个视角的指导下，我们重新审视了经典的机器学习问题，如回归和分类，并发现这些问题可以通过LLM参数化的学习器和优化器来解决。VML的主要优势包括：（1）易于编码归纳偏差：关于问题和假设类的先验知识可以用自然语言编码并馈送到LLM参数化的学习器中；（2）自动模型类选择：优化器可以根据数据和口头化的先验知识自动选择具体的模型类，并且可以在训练过程中更新模型类；以及（3）可解释的学习器更新：LLM参数化的优化器可以解释为什么执行每个学习器更新。我们进行了几项研究，以实证评估VML的有效性，并希望VML可以成为机器学习中更强解释性和可信赖性的垫脚石。

论文链接: https://arxiv.org/pdf/2406.04344

cs.CL: 通过短路改进对齐性和稳健性

原标题: Improving Alignment and Robustness with Short Circuiting

作者: Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks

机构: 卡内基梅隆大学 Black Swan AI Center for AI Safety

摘要: AI系统可能采取有害行动，并且极易受到对抗性攻击的影响。我们提出了一种方法，受到最近在表示工程方面的进展的启发，该方法在模型产生有害输出时会“短路”。现有的旨在改善对齐的技术，如拒绝训练，经常会被绕过。诸如对抗训练之类的技术试图通过对抗特定攻击来堵住这些漏洞。作为拒绝训练和对抗训练的替代方案，短路直接控制了最初导致有害输出的表示。我们的技术可应用于仅文本和多模式语言模型，以防止生成有害输出而不牺牲效用——即使在强大的未知攻击存在的情况下也是如此。值得注意的是，尽管独立图像识别中的对抗鲁棒性仍然是一个未解决的挑战，但短路使得更大的多模式系统能够可靠地抵御旨在生成有害内容的图像“劫持”。最后，我们将我们的方法扩展到AI智能体，当它们受到攻击时，显示出有害行动率显著降低。我们的方法代表了在开发可靠防范有害行为和对抗性攻击方面迈出的重要一步。

论文链接: https://arxiv.org/pdf/2406.04313

cs.CL: 测量和解决信息检索中的指称偏见

原标题: Measuring and Addressing Indexical Bias in Information Retrieval

作者: Caleb Ziems, William Held, Jane Dwivedi-Yu, Diyi Yang

机构: 斯坦福大学乔治亚理工学院 Meta人工智能

摘要: 信息检索（IR）系统旨在提供相关内容，但传统系统可能无法针对公平性、中立性或观点平衡进行排名优化。因此，IR通常会引入索引偏见，或者在文档的位置顺序中存在偏见。尽管索引偏见可以明显影响人们的观点、投票模式和其他行为，但由于该领域缺乏可靠的度量标准和自动测量索引偏见的程序，这些问题仍然研究不足。为此，我们引入了PAIR框架，支持对排名文档或整个IR系统进行自动偏见审计。在介绍了DUO（第一个通用自动偏见度量标准）之后，我们对一个包含32k个合成文档和4.7k个自然文档的新语料库上的8个IR系统进行了广泛评估，其中包括涵盖1.4k个有争议问题主题的4k个查询。一项人类行为研究验证了我们的方法，表明我们的偏见度量标准可以帮助预测索引偏见何时以及如何改变读者的观点。

论文链接: https://arxiv.org/pdf/2406.04298

cs.CL: VISTA: 用于通用多模态检索的可视化文本嵌入

原标题: VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

作者: Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong

摘要: 多模态检索在实践中变得越来越受欢迎。然而，现有的检索器大多是面向文本的，缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型，但当前的方法在表示仅文本和仅图像数据方面受到严重限制。在这项工作中，我们提出了一个新的嵌入模型VISTA，用于通用多模态检索。我们的工作带来了三方面的技术贡献。首先，我们引入了一个灵活的架构，通过引入视觉标记嵌入，将强大的文本编码器扩展为具有图像理解能力。其次，我们开发了两种数据生成策略，带来高质量的组合图像-文本以促进嵌入模型的训练。第三，我们引入了一个多阶段训练算法，首先使用大量弱标记数据将视觉标记嵌入与文本编码器对齐，然后使用生成的组合图像-文本数据开发多模态表示能力。在我们的实验中，VISTA在各种多模态检索任务中取得了卓越的性能，无论是在零样本还是监督设置下。我们的模型、数据和源代码都可以在此网址获得。

论文链接: https://arxiv.org/pdf/2406.04292

Github: https://github.com/FlagOpen/FlagEmbedding

cs.CL: 自我对弈与对抗评论者：语言模型的可证明和可扩展的离线对齐

原标题: Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models

作者: Xiang Ji, Sanjeev Kulkarni, Mengdi Wang, Tengyang Xie

摘要: 这项工作研究了将大型语言模型（LLMs）与离线偏好数据进行对齐的挑战。我们特别关注通过人类反馈进行强化学习（RLHF）的对齐。虽然流行的偏好优化方法在实践中表现良好，但它们在理论上不能保证收敛到最优策略，并且在数据覆盖稀疏时可以根据经典的离线强化学习（RL）结果被证明会失败。另一方面，最近的一系列工作专注于具有可证明保证的理论动机的偏好优化方法，但这些方法在大规模应用如LLM对齐时计算效率不高。为了弥合这一差距，我们提出了SPAC，这是一种新的带有自我对弈的离线偏好优化方法，灵感来自于离线RL文献中的平均悲观技术，是第一个可证明且可扩展的LLM对齐方法。我们为其在一般函数逼近设置下的单策略可集中性收敛提供了理论分析，并展示了其在7B Mistral模型上的LLM对酧中具有竞争力的实证表现，通过Open LLM Leaderboard评估。

论文链接: https://arxiv.org/pdf/2406.04274

cs.CL: MLVU：用于多任务长视频理解的综合基准

原标题: MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

作者: Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, Zheng Liu

摘要: 长视频理解（LVU）性能评估提出了一个重要但具有挑战性的研究问题。尽管之前已经做出了努力，但现有的视频理解基准受到几个问题的严重限制，特别是视频长度不足、视频类型和评估任务缺乏多样性，以及不适合评估LVU性能。为了解决上述问题，我们提出了一个新的基准，称为MLVU（多任务长视频理解基准），用于全面深入地评估LVU。MLVU具有以下关键价值：1）视频长度的实质性和灵活扩展，使基准能够评估跨越广泛持续时间范围的LVU性能。2）包括各种视频类型，例如电影、监控录像、自拍视频、卡通、游戏视频等，反映了模型在不同场景中的LVU性能。3）开发多样化的评估任务，使得能够全面检验MLLM在长视频理解中的关键能力。对20个最新MLLM进行的实证研究显示，今天的技术仍有很大改进空间，因为所有现有方法在大多数评估任务上都存在困难，并且在处理更长视频时表现出严重的性能下降。此外，研究表明，诸如上下文长度、图像理解质量和LLM骨干选择等因素在未来的进展中可能起到关键作用。我们期待MLVU通过提供对MLLM的全面深入分析来推动长视频理解的研究。

论文链接: https://arxiv.org/pdf/2406.04264

cs.CL: 个性化 ASR 到非典型语音的超网络

原标题: Hypernetworks for Personalizing ASR to Atypical Speech

作者: Max Mueller-Eberstein, Dianna Yee, Karren Yang, Gautam Varma Mantena, Colin Lea

机构: 哥本哈根IT大学苹果

摘要: 最近，用于个性化自动语音识别（ASR）的参数高效微调（PEFT）已经显示出将一般人群模型适应非典型语音的潜力。然而，这些方法假定需要适应的非典型语音障碍的先验知识，而诊断这种障碍需要专业知识，这种知识并不总是可获得的。即使有这种知识，数据稀缺和高的讲话者内/间变异性进一步限制了传统微调的有效性。为了规避这些挑战，我们首先确定了用于ASR适应所需的最小模型参数集。我们对每个单独参数对适应性能的影响进行分析，使我们能够在适应0.03%的所有权重的同时将词错误率（WER）减少一半。为了减轻对特定队列模型的需求，我们接下来提出了一种新颖的方法，即使用元学习的超网络来实时生成高度个性化的、话语级别的适应，以适应各种非典型语音特征。通过在全局、队列和个体级别评估适应性，我们展示了超网络对于超出分布的讲话者具有更好的泛化能力，同时使用全参数预算的0.1%仍保持了总体相对WER减少了75.2%。

论文链接: https://arxiv.org/pdf/2406.04240

cs.CL: CLRS-Text算法推理语言基准

原标题: The CLRS-Text Algorithmic Reasoning Language Benchmark

作者: Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova, Alex Vitvitskyi, Charles Blundell, Tom Goldstein, Avi Schwarzschild, Petar Veličković

机构: 清华大学哈佛大学

摘要: 从语言模型（LMs）中引出推理能力是通往构建智能系统道路上的一个关键方向。最近大部分致力于推理的研究都集中在针对过程生成的合成基准测试的分布外表现上，这些基准测试是专门设计用来评估特定技能的。这种趋势使得结果难以在不同出版物之间转移，从而减缓了进展速度。三年前，在神经算法推理领域中也发现了类似问题，并通过CLRS基准测试的出现得以解决。CLRS是一个数据集生成器，包含了《算法导论》教材中经典算法的图执行跟踪。受此启发，我们提出了CLRS-Text – 这是这些算法跟踪的文本版本。CLRS-Text能够直接为三十个不同且具有挑战性的算法任务生成跟踪数据，覆盖任何所需的输入分布，同时提供一个标准流程，可以在基准测试中创建任何额外的算法任务。我们对各种LM进行微调和评估，作为这一基准测试上的通用执行器，验证了先前的工作，并为LM推理社区揭示了一个新颖且有趣的挑战。我们的代码可以在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.04229

Github: https://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_text

cs.CL: AgentGym：在不同环境中演化基于大语言模型的智能体

原标题: AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

作者: Zhiheng Xi, Yiwen Ding, Wenxiang Chen, Boyang Hong, Honglin Guo, Junzhe Wang, Dingwen Yang, Chenyang Liao, Xin Guo, Wei He, Songyang Gao, Lu Chen, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang

摘要: 构建能够处理多样任务并在不同环境中自我进化的通用智能体是人工智能领域的长期目标。大语言模型（LLMs）被认为是构建这种智能体的有前途的基础，因为它们具有广义能力。目前的方法要么基于LLM的智能体逐步模仿专家提供的轨迹，需要人类监督，这很难扩展并限制了环境探索；要么让智能体在孤立的环境中探索和学习，导致专家智能体具有有限的泛化能力。在本文中，我们迈出了建立具有自我进化能力的通用LLM智能体的第一步。我们确定了三个要素：1）多样化的环境用于智能体的探索和学习，2）轨迹集用于为智能体提供基本能力和先验知识，3）一种有效且可扩展的进化方法。我们提出了AgentGym，一个新框架，具有各种环境和任务，用于广泛、实时、统一格式和并发的智能体探索。AgentGym还包括一个包含扩展指令、基准套件和跨环境高质量轨迹的数据库。接下来，我们提出了一种新方法AgentEvol，探讨智能体在任务和环境中超越先前见过数据的自我进化潜力。实验结果表明，进化后的智能体可以达到与SOTA模型可比的结果。我们发布了AgentGym套件，包括平台、数据集、基准、检查点和算法实现。AgentGym套件可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.04151

Github: https://github.com/WooooDyy/AgentGym

cs.CL: 促进心理健康和神经系统疾病研究中言语数据集的公平性和多样性

原标题: Promoting Fairness and Diversity in Speech Datasets for Mental Health and Neurological Disorders Research

作者: Eleonora Mancini, Ana Tanevska, Andrea Galassi, Alessio Galatolo, Federico Ruggeri, Paolo Torroni

摘要: 当前机器学习和人工智能领域的研究主要集中在建模和性能评估上，而不是数据收集。然而，最近的研究表明，数据中的限制和偏见可能会对可信度和可靠性产生负面影响。这些方面在精神健康和神经系统障碍等敏感领域尤为重要，这些领域使用语音数据开发人工智能应用程序，旨在改善患者健康并支持医疗保健提供者。在本文中，我们勾画了该领域可用语音数据集的格局，以突出可能的陷阱和改进机会，并促进公平和多样性。我们提出了一个全面的愿景清单，用于构建精神健康和神经系统障碍的语音数据集，并将其提炼成一个专注于伦理关切的检查表，以促进更负责任的研究。

论文链接: https://arxiv.org/pdf/2406.04116

cs.CL: MuJo: 人类活动识别的多模态联合特征空间学习

原标题: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

作者: Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz

摘要: 人类活动识别是人工智能中一个长期存在的问题，应用领域广泛，涵盖医疗保健、体育健身、安全、人机交互以及机器人技术等多个领域。在现实世界中，人类活动识别的性能很大程度上取决于可以获取的输入信号的类型和质量。在给定一个无遮挡、高质量的摄像头视角下，计算机视觉系统，特别是与基础模型（例如 CLIP）结合使用，可以相当可靠地区分复杂的活动。另一方面，使用可穿戴传感器等模态（通常更广泛地可用，例如在手机和智能手表中）进行识别是一个更加困难的问题，因为这些信号通常包含的信息较少，而且标记的训练数据更难获取。在这项工作中，我们展示了如何通过多模态对比预训练来提高不同模态下的人类活动识别性能。我们的方法 MuJo（多模态联合特征空间学习）学习了一个包含视频、语言、姿势和 IMU 传感器数据的多模态联合特征空间。所提出的方法结合了对比和多任务学习方法，并分析了用于学习紧凑共享表示的不同多任务策略。还引入了一个包含平行视频、语言、姿势和传感器数据点的大型数据集来支持研究，同时分析了多模态联合空间对模态不完整和低资源数据的稳健性。在 MM-Fit 数据集上，我们的模型在仅使用 2% 的训练数据时就实现了高达 0.992 的宏 F1 分数，在使用所有可用训练数据进行分类任务时为 0.999。此外，在 MM-Fit 数据集未知的情况下，我们展示了高达 0.638 的泛化性能。

论文链接: https://arxiv.org/pdf/2406.03857

cs.CL: 工具规划：利用工具聚类为大语言模型进行动态解决树规划

原标题: Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering

作者: Yanming Liu, Xinyue Peng, Yuwei Zhang, Jiannan Cao, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du

机构: 浙江大学麻省理工学院东南大学同济大学

摘要: 大语言模型（LLMs）展示了出色的推理能力，使它们能够解决各种复杂问题。最近，这种能力已被应用到工具学习的范式中。工具学习涉及提供工具使用示例及其对应功能，使LLMs能够制定计划并演示调用和执行每个工具的过程。LLMs可以解决它们无法独立完成的任务，从而增强它们在不同任务中的潜力。然而，这种方法面临两个关键挑战。首先，冗余的错误校正导致计划不稳定且执行时间长。此外，在多个工具中设计正确的计划也是工具学习中的一个挑战。为了解决这些问题，我们提出了基于工具包的任务处理框架Tool-Planner。Tool-Planner根据具有相同功能的API函数将工具分组到一个工具包中，并允许LLMs在各种工具包之间实施规划。当工具发生错误时，语言模型可以根据工具包重新选择和调整工具。实验证明，我们的方法在不同数据集上展示了高的通过率和胜率，并优化了诸如GPT-4和Claude 3等模型中的工具学习规划方案，展示了我们方法的潜力。

论文链接: https://arxiv.org/pdf/2406.03807

cs.CL: 你的吸收离散扩散秘密地模拟了干净数据的条件分布

原标题: Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data

作者: Jingyang Ou, Shen Nie, Kaiwen Xue, Fengqi Zhu, Jiacheng Sun, Zhenguo Li, Chongxuan Li

机构: 人民大学高灵人工智能学院华中科技大学华工学院华为诺亚方舟实验室

摘要: 具有吸收过程的离散扩散模型在语言建模中显示出了潜力。需要估计的关键量是在所有时间步长上两个传递状态的边际概率之间的比率，称为具体分数。在本文中，我们揭示了吸收扩散中的具体分数可以被表达为干净数据的条件概率，乘以一个解析形式中的时间相关标量。受到这一发现的启发，我们提出了重新参数化的吸收离散扩散（RADD），这是一个专门的扩散模型，用于表征时间独立的条件概率。除了其简单性外，RADD可以通过在采样间隔内保持嘈杂样本不变时缓存时间独立网络的输出来减少函数评估次数（NFEs）。从经验上看，RADD的速度最多提高了3.5倍，同时始终比最强基准表现更好。基于具体分数的新因式分解，我们进一步证明了一个令人惊讶的结果，即吸收扩散的精确似然可以被重写为一个简单形式（称为去噪交叉熵），然后通过蒙特卡洛方法高效估计。由此产生的方法也适用于具体分数的原始参数化。它显著推进了在GPT-2规模上的5个零样本语言建模基准（以困惑度衡量）上的最新离散扩散技术。

论文链接: https://arxiv.org/pdf/2406.03736

cs.CL: 通过多任务指令微调增强的代码漏洞检测通用化

原标题: Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning

作者: Xiaohu Du, Ming Wen, Jiahao Zhu, Zifan Xie, Bin Ji, Huijun Liu, Xuanhua Shi, Hai Jin

机构: 华中科技大学计算机学院国防科技大学

摘要: 基于预训练模型（CodePTMs）的漏洞检测在近年取得了令人满意的成果。然而，这些模型往往难以泛化，因为它们通常只学习从源代码到标签的表面映射，而不是理解代码漏洞的根本原因，导致在超出训练实例的真实场景中表现不佳。为了解决这一挑战，我们引入了 VulLLM，这是一个将多任务学习与大语言模型（LLMs）相结合的新框架，可以有效地挖掘深层漏洞特征。具体而言，我们在漏洞检测任务之外构建了两个辅助任务。首先，我们利用漏洞补丁构建漏洞定位任务。其次，基于从补丁中提取的漏洞特征，我们利用 GPT-4 构建漏洞解释任务。VulLLM 通过利用生成式LLMs来创新性地增强漏洞分类，以理解复杂的漏洞模式，从而促使模型捕获漏洞的根本原因，而不是过度拟合于单一任务的虚假特征。在六个大型数据集上进行的实验表明，VulLLM在效果、泛化能力和稳健性方面均超过了七个最先进模型。

论文链接: https://arxiv.org/pdf/2406.03718

cs.CL: 嵌入应该嵌入什么？自回归模型代表潜在生成分布

原标题: What Should Embeddings Embed? Autoregressive Models Represent Latent Generating Distributions

作者: Liyi Zhang, Michael Y. Li, Thomas L. Griffiths

机构: 普林斯顿大学斯坦福大学

摘要: 自回归语言模型展示了从文本中提取潜在结构的显著能力。大语言模型的嵌入已被证明能够捕捉语言的句法和语义方面。但是嵌入应该代表什么呢？我们将自回归预测目标与构建预测充分统计量的概念联系起来，以总结包含在一系列观察中的信息，并利用这种联系来确定嵌入的最佳内容可以被识别的三种设置：独立同分布数据，其中嵌入应该捕捉数据的充分统计量；潜在状态模型，其中嵌入应该对给定数据的状态后验分布进行编码；以及离散假设空间，其中嵌入应该反映给定数据的假设后验分布。然后，我们进行实证探究研究，展示了Transformer编码这三种潜在生成分布，并且在这些设置中在样本外情况下表现良好，并且没有在这些设置中进行Token记忆。

论文链接: https://arxiv.org/pdf/2406.03707

cs.CL: 通过多模态上下文和大语言模型改进基于音频编解码器的零样本文本到语音合成

原标题: Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

作者: Jinlong Xue, Yayue Deng, Yicheng Han, Yingming Gao, Ya Li

机构: 北京邮电大学

摘要: 最近大语言模型（LLMs）的进展和音频编解码器的发展极大推动了零样本TTS。它们可以仅凭一个未知说话者的3秒语音作为声学提示来合成个性化语音。然而，它们仅支持短语音提示，无法利用更长的上下文信息，这在有声读物和对话式TTS场景中是必需的。在本文中，我们介绍了一种基于音频编解码器的TTS模型，以适应具有多重增强功能的上下文特征。受Qformer成功的启发，我们提出了一种多模态上下文增强的Qformer（MMCE-Qformer），以利用额外的多模态上下文信息。此外，我们调整了一个预训练的LLM以利用其理解能力来预测语义标记，并使用SoundStorm生成声学标记，从而增强音频质量和说话者相似度。广泛的客观和主观评估表明，我们提出的方法在各种上下文TTS场景中优于基线。

论文链接: https://arxiv.org/pdf/2406.03706

数智笔记

关注

17
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
2024年6月7日Arxiv大语言模型相关论文

原标题作者机构: 加州大学戴维斯分校南佛罗里达大学摘要: 大语言模型（LLMs）已经在零样本生成给定文章的抽象摘要方面取得了最先进的性能。然而，对于零样本摘要生成过程的稳健性了解甚少。为了弥补这一差距，我们提出了相关性改写，这是一种简单的策略，可用于衡量LLMs作为摘要生成器的稳健性。相关性改写方法确定了对生成理想摘要有贡献的最相关句子，然后改写这些输入以获得一个最小扰动的数据集。然后，通过评估模型在原始数据集和扰动数据集上的摘要性能，我们可以评估LLM的稳健性的一个方面。
复制链接

扫一扫