2024年7月3日Arxiv语言模型相关论文

最新推荐文章于 2025-03-15 11:16:01 发布

数智笔记

最新推荐文章于 2025-03-15 11:16:01 发布

阅读量2.1k

点赞数 16

分类专栏：论文速递文章标签：语言模型

本文链接：https://blog.csdn.net/wjjc1017/article/details/140168280

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

RankRAG：在大语言模型中统一上下文排名与检索增强生成

原标题: RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

作者: Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro

机构: 乔治亚理工学院 NVIDIA

摘要: 大语言模型（LLMs）通常利用来自检索器的前 k 个上下文进行检索增强生成（RAG）。在这项工作中，我们提出了一种新颖的指令微调框架 RankRAG，该框架用于对单个LLM进行指令微调，实现在RAG中进行上下文排名和答案生成的双重目的。特别地，通过将少量排名数据添加到训练混合中，经过指令微调的LLMs表现出色，优于现有的专家排名模型，包括仅在大量排名数据上进行微调的相同LLM。对于生成，我们将我们的模型与许多强大的基线模型进行了比较，包括GPT-4-0613、GPT-4-turbo-2024-0409和ChatQA-1.5，这是一个在RAG基准测试中表现最佳的开源模型。具体来说，我们的Llama3-RankRAG在九个知识密集型基准测试中明显优于Llama3-ChatQA-1.5和GPT-4模型。此外，它在生物医学领域的五个RAG基准测试中表现与GPT-4相当，而没有在生物医学数据上进行指令微调，展示了其对新领域泛化的出色能力。

论文链接: https://arxiv.org/pdf/2407.02485

价值范围：通过社会互动的回报潜力模型揭示隐含规范和价值观

原标题: ValueScope: Unveiling Implicit Norms and Values via Return Potential Model of Social Interactions

作者: Chan Young Park, Shuyue Stella Li, Hayoung Jung, Svitlana Volkova, Tanushree Mitra, David Jurgens, Yulia Tsvetkov

机构: 卡内基梅隆大学华盛顿大学阿普蒂玛密歇根大学

摘要: 这项研究介绍了ValueScope，这是一个利用语言模型来量化在线社区中的社会规范和价值观的框架，基于社会科学对规范结构的观点。我们使用ValueScope来剖析和分析涉及性别、政治、科学和金融等13个Reddit社区中的语言和文体表达。我们的分析提供了一个定量基础，显示即使是密切相关的社区也展现出明显多样的规范。这种多样性支持了现有理论，并为理解社区互动增加了一个新维度——社区偏好。ValueScope不仅勾勒出社区之间不同的社会规范，还有效追踪它们的演变以及美国总统选举和新次级社区的出现等重大外部事件的影响。因此，该框架突出了社会规范在塑造在线互动中的关键作用，为数字空间中社会规范研究的理论和应用都带来了重大进展。

论文链接: https://arxiv.org/pdf/2407.02472

Github: https://github.com/stellali7/valueScope

MMedAgent：使用多模态智能体学习使用医疗工具

原标题: MMedAgent: Learning to Use Medical Tools with Multi-modal Agent

作者: Binxu Li, Tiankai Yan, Yuanting Pan, Zhe Xu, Jie Luo, Ruiyang Ji, Shilong Liu, Haoyu Dong, Zihao Lin, Yixin Wang

机构: 斯坦福大学哈佛医学院弗吉尼亚理工大学清华大学杜克大学

摘要: 尽管多模态大语言模型（MLLMs）取得了成功，但在与专门模型相比时，它们表现出有限的普适性，通常表现不佳。最近，基于LLM的智能体已经被开发出来，通过根据用户输入选择适当的专门模型作为工具来解决这些挑战。然而，这样的进展在医学领域尚未得到广泛探讨。为了弥合这一差距，本文介绍了专门为医学领域设计的第一个智能体，名为多模态医疗智能体（MMedAgent）。我们整理了一个包含解决七项任务的六种医疗工具的指令调整数据集，使智能体能够为给定任务选择最合适的工具。全面的实验证明，与最先进的开源方法甚至封闭源模型GPT-4o相比，MMedAgent在各种医学任务中取得了优越的性能。此外，MMedAgent在更新和整合新的医疗工具方面表现出高效性。

论文链接: https://arxiv.org/pdf/2407.02483

MInference 1.0：通过动态稀疏注意力加速长上下文大语言模型的预填充

原标题: MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

作者: Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu

机构: 微软公司英国萨里大学

摘要: 大语言模型（LLM）推理的计算挑战仍然是它们广泛部署的重要障碍，特别是随着提示长度的增加。由于注意力计算的二次复杂度，一个 8B 的大语言模型在单个 A100 GPU 上处理 1M 个标记的提示（即预填充阶段）需要 30 分钟。现有的加速预填充的方法在应用于长上下文大语言模型时往往无法保持可接受的准确性或效率。为了解决这一问题，我们引入了 MInference（Milliontokens Inference），这是一种稀疏计算方法，旨在加速长序列处理的预填充。具体来说，我们在长上下文注意力矩阵中确定了三种独特的模式——A 形状、垂直斜杠和块稀疏，可以利用这些模式在 GPU 上进行高效的稀疏计算。我们离线确定每个注意力头的最佳模式，并在推理过程中根据分配的模式动态构建稀疏索引。借助这些模式和稀疏索引，我们通过优化的 GPU 核心执行高效的稀疏注意力计算，显著减少了长上下文大语言模型预填充阶段的延迟。我们提出的技术可以直接应用于现有的大语言模型，无需修改预训练设置或进行额外的微调。通过在一系列下游任务（包括 InfiniteBench、RULER、PG-19 和 Needle In A Haystack）以及模型（包括 LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K 和 Qwen2-128K）上进行评估，我们证明了 MInference 能够在 A100 上将预填充的推理延迟有效降低多达 10 倍，同时保持准确性。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.02490

Github: https://aka.ms/MInference https://github.com/microsoft/MInference

神经缓存：用于长距离语言建模的高效向量检索

原标题: Neurocache: Efficient Vector Retrieval for Long-range Language Modeling

作者: Ali Safaya, Deniz Yuret

机构: Koç University KUIS AI Center

摘要: 这篇论文介绍了Neurocache，一种通过使用外部向量缓存来存储其过去状态以扩展大语言模型（LLMs）有效上下文大小的方法。与最近的向量检索方法类似，Neurocache使用高效的k最近邻（kNN）算法来检索相关的过去状态并将其合并到注意力过程中。Neurocache改进了先前的方法，具体体现在：（1）存储压缩状态，减少缓存大小；（2）每个标记执行一次检索操作，提高推理速度；以及（3）将检索窗口扩展到相邻状态，从而提高语言建模和下游任务准确性。我们的实验表明，Neurocache对从头开始训练的模型以及通过缓存机制增强的预训练模型（如Llama2-7B和Mistral-7B）都非常有效。我们还将Neurocache与文本检索方法进行了比较，并展示了在单文档问答和少样本学习任务中的改进。我们已经在以下网址下提供了源代码：https://这里是网址。

论文链接: https://arxiv.org/pdf/2407.02486

Github: https://github.com/alisafaya/neurocache

预训练语言模型集成和数据增强用于检测阿拉伯语推文中的仇恨言论

原标题: Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets

作者: Kheir Eddine Daouadi, Yaakoub Boualleg, Kheir Eddine Haouaouchi

机构: 阿尔及利亚泰贝萨Echahid Cheikh Larbi Tebessi大学(Laboratory of Vision and Artificial Intelligence (LA VIA))

摘要: 今天，来自阿拉伯推文的仇恨言论分类引起了多位研究人员的关注。已经开发了许多系统和技术来解决这一分类任务。然而，在这一背景下面临的两个主要挑战是性能有限和数据不平衡的问题。在这项研究中，我们提出了一种新颖的方法，利用集成学习和基于先前手动标记的半监督学习。我们在一个基准数据集上进行了实验，将阿拉伯推文分类为5个不同的类别：非仇恨、一般仇恨、种族、宗教或性别歧视。实验结果表明：（1）基于预训练语言模型的集成学习优于现有的相关工作；（2）我们提出的数据增强改善了从阿拉伯推文中检测仇恨言论的准确性结果，并优于现有的相关工作。我们的主要贡献在于取得了令人鼓舞的阿拉伯仇恨言论检测结果。

论文链接: https://arxiv.org/pdf/2407.02448

预测与行动：世界建模与智能体建模之间的权衡

原标题: Predicting vs. Acting: A Trade-off Between World Modeling & Agent Modeling

作者: Margaret Li, Weijia Shi, Artidoro Pagnoni, Peter West, Ari Holtzman

机构: 华盛顿大学 Meta 不列颠哥伦比亚大学芝加哥大学

摘要: RLHF对齐的LM在基准测试和长文本生成方面展现了前所未有的能力，但它们在一个基础任务上遇到了困难：下一个Token的预测。随着RLHF模型演变为旨在与人类互动的智能体模型，它们似乎失去了世界建模能力–即预测任意文档中接下来会出现什么的能力，而这正是RLHF所适应的基础LM的训练目标。

除了在经验上证明了这种权衡之外，我们提出了一个潜在的解释：为了进行连贯的长文本生成，RLHF模型通过隐式蓝图限制随机性。特别是，RLHF模型将概率集中在跨多个相同提示的生成中共同出现的锚定跨度集上，这些跨度既充当文本支架，又限制了模型生成不包含这些跨度的文档的能力。我们研究了当前最有效的与RLHF对齐的智能体模型上的这种权衡，同时探讨了为什么这可能仍然是行动模型和预测模型之间的基本权衡，即使对齐技术得到改进。

论文链接: https://arxiv.org/pdf/2407.02446

使用模板评估不良药物事件分类模型的鲁棒性

原标题: Evaluating the Robustness of Adverse Drug Event Classification Models Using Templates

作者: Dorothea MacPhail, David Harbecke, Lisa Raithel, Sebastian Möller

机构: 德国人工智能研究中心（DFKI）柏林工业大学贝尔林学习与数据基础研究所（BIFOLD）

摘要: 不良药物反应（ADE）是由药物治疗导致的任何有害事件。尽管它们很重要，ADE经常在官方渠道中被低估。因此，一些研究已经转向在社交媒体中检测ADE的讨论。在各种尝试中已经取得了令人印象深刻的成果。然而，在医学这样一个高风险领域中，对模型能力进行深入评估至关重要。我们针对英语ADE检测中的彻底性能评估问题，使用手工制作的模板来评估四种能力：时间顺序、否定、情感和益处效应。我们发现，在保留测试集上表现相似的模型在这些能力上结果各不相同。

论文链接: https://arxiv.org/pdf/2407.02432

CEB：大语言模型公平性的组合评估基准

原标题: CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models

作者: Song Wang, Peng Wang, Tong Zhou, Yushun Dong, Zhen Tan, Jundong Li

机构: 弗吉尼亚大学亚利桑那州立大学

摘要: 随着大语言模型（LLMs）越来越多地被部署来处理各种自然语言处理（NLP）任务，人们也开始关注LLM生成内容可能带来的负面社会影响。为了评估LLMs所展现的偏见，研究人员最近提出了各种数据集。然而，现有的偏见评估工作通常只关注特定类型的偏见，并采用不一致的评估指标，导致在不同数据集和LLMs之间进行比较时存在困难。为了解决这些限制，我们收集了一系列专为评估LLMs偏见而设计的数据集，并进一步提出了CEB，即一个涵盖不同社会群体和任务中不同类型偏见的组合评估基准。CEB的策划基于我们新提出的组合分类法，该分类法从偏见类型、社会群体和任务三个维度对每个数据集进行表征。通过结合这三个维度，我们为LLMs的偏见开发了全面的评估策略。我们的实验表明，偏见水平在这些维度上有所变化，从而为特定偏见缓解方法的开发提供了指导。

论文链接: https://arxiv.org/pdf/2407.02408

与机器交流：你能听懂我说的话吗？

原标题: Talking to Machines: do you read me?

作者: Lina M. Rojas-Barahona

机构: Université de Lorraine

摘要: 在这篇论文中，我想引导读者了解关于对话研究，更准确地说是我在博士论文以来进行的研究。从模块化架构与机器学习/深度学习以及强化学习开始，到端到端深度神经网络。除了我的研究助理工作，我还介绍了我在过去几年中监督的工作。

我简要回顾了现有技术水平，并强调了对话代理的开放性研究问题。随后，我介绍了我在任务导向对话（TOD）方面的贡献，既作为研究助理，也作为CIFRE博士论文的工业导师。我讨论了对话问答。特别是，我介绍了两位博士候选人Thibault Cordier和Sebastien Montella的工作；以及年轻研究员Quentin Brabant的工作。最后，我介绍了科学项目，讨论了大语言模型（LLMs）在任务导向对话和多模态任务导向对话中的应用。

论文链接: https://arxiv.org/pdf/2407.02354

自动生成的大型语言模型在自动事实检查中的应用：一项调查

原标题: Generative Large Language Models in Automated Fact-Checking: A Survey

作者: Ivan Vykopal, Matúš Pikuliak, Simon Ostermann, Marián Šimko

机构: 布尔诺理工大学坎佩伦智能技术研究所德国人工智能研究中心

摘要: 在在线平台上传播虚假信息构成了一个严重的社会挑战，需要采取强有力的信息验证措施。虽然手动事实核查仍然至关重要，但不断增长的虚假信息量需要自动化方法。大语言模型（LLMs）为协助事实核查人员提供了有希望的机会，利用LLM的丰富知识和强大推理能力。在这篇调查论文中，我们调查了生成式LLMs在事实核查领域的利用，展示了已经被采用的各种方法以及用于提示或微调LLMs的技术。通过概述现有方法，本调查旨在改善对LLMs在事实核查中利用的理解，并促进LLMs在这一过程中的进一步发展。

论文链接: https://arxiv.org/pdf/2407.02351

学习通过细粒度自然语言反馈进行细化

原标题: Learning to Refine with Fine-Grained Natural Language Feedback

作者: Manya Wadhwa, Xinyu Zhao, Junyi Jessy Li, Greg Durrett

机构: 德克萨斯大学奥斯汀分校

摘要: 最近的研究探讨了大语言模型（LLMs）在识别和纠正LLM生成的响应中的错误的能力。这些改进方法经常评估什么样大小的模型能够为什么问题进行改进，但对于改进的有效反馈是什么样的却付出了较少的关注。在这项工作中，我们提出将带有反馈的改进看作是三种不同LLM能力的组合：（1）识别不良生成；（2）细粒度自然语言反馈生成；（3）使用细粒度反馈进行改进。第一步可以通过高性能的判别模型实现，步骤2和3可以通过提示或微调的LLMs实现。这种方法的一个关键特性是，第2步的批评模型可以提供有关错误的细粒度反馈，这是通过在第1步中将歧视转移到一个单独的模型实现的。我们展示了不同能力的模型通过使用这种方法进行改进在提高基于文档的摘要的事实一致性任务上受益。总体而言，我们提出的方法始终优于现有的端到端改进方法和当前未经过事实性批评微调的训练模型。

论文链接: https://arxiv.org/pdf/2407.02397

Github: https://github.com/manyawadhwa/dcr

鹈鹕：通过声明分解和思维程序验证纠正视觉-大语言模型中的幻觉

原标题: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

作者: Pritish Sahu, Karan Sikka, Ajay Divakaran

机构: SRI国际美国普林斯顿大学

摘要: 大型视觉语言模型（LVLMs）在视觉指导任务中存在幻觉问题，限制了它们的可信度和实际应用性。我们提出了Pelican——一个旨在通过声明验证检测和减轻幻觉的新框架。Pelican首先将视觉声明分解为基于一阶谓词的一系列子声明。这些子声明包括（谓词，问题）对，并可以概念化为计算图的节点。然后，我们使用“思维程序”提示生成用于回答这些问题的Python代码，通过灵活地组合外部工具。Pelican通过引入（1）中间变量以精确定位对象实例，以及（2）用于回答子问题的共享计算，从而实现了对以实现自适应校正和不一致性识别。最后，我们利用LLM的推理能力通过考虑每个子声明中（问题，答案）对的一致性和置信度来验证声明的正确性。我们的实验显示，在各种基准LVLMs中，幻觉率下降了约8%-32%，与在MMHal-Bench上提出的减轻幻觉方法相比下降了27%。在另外两个基准测试上的结果进一步证实了我们的结果。

论文链接: https://arxiv.org/pdf/2407.02352

RVISA：隐式情感分析的推理和验证

原标题: RVISA: Reasoning and Verification for Implicit Sentiment Analysis

作者: Wenna Lai, Haoran Xie, Guandong Xu, Qing Li

机构: 清华大学悉尼科技大学

摘要: 随着社会对细粒度情感分析（SA）需求的增加，隐式情感分析（ISA）在表达中缺乏显著线索词的情况下提出了重大挑战。这需要可靠的推理来理解情感是如何引发的，从而确定隐含情感。在大语言模型（LLMs）时代，编码器-解码器（ED）LLMs因其在各种任务中展现出的出色文本理解和推理能力而备受青睐，成为SA应用的骨干模型。另一方面，仅解码器（DO）LLMs展现出优越的自然语言生成和上下文学习能力。然而，它们的响应可能包含误导性或不准确的信息。为了通过可靠的推理识别隐含情感，本研究提出了RVISA，一个利用DO LLMs的生成能力和ED LLMs的推理能力训练增强推理者的两阶段推理框架。具体而言，我们采用三跳推理提示来明确提供情感元素作为线索。生成的理由被用于微调ED LLMs，使其成为一个熟练的推理者。此外，我们开发了一个简单而有效的验证机制，以确保推理学习的可靠性。我们在两个基准数据集上评估了所提出的方法，并在ISA性能方面取得了最先进的结果。

论文链接: https://arxiv.org/pdf/2407.02340

MORPHEUS：通过探索和利用潜在空间，从个性化对话历史中建模角色

原标题: MORPHEUS: Modeling Role from Personalized Dialogue History by Exploring and Utilizing Latent Space

作者: Yihong Tang, Bo Wang, Dongming Zhao, Xiaojia Jin, Jijun Zhang, Ruifang He, Yuexian Hou

机构: 天津大学新媒体与传播学院情报与计算学院中国移动通信集团天津有限公司

摘要: 个性化对话生成（PDG）旨在根据角色或人设创建连贯的回复。传统的PDG依赖于外部角色数据，这可能稀缺并引发隐私问题。一些方法通过从对话历史中提取角色信息来解决这些问题，但通常无法在连续空间中通用地建模角色。为了克服这些限制，我们引入了一个新颖的框架\textbf{MO}dels \textbf{R}oles from \textbf{P}ersonalized Dialogue \textbf{H}istory by \textbf{E}xploring and \textbf{U}tilizing Latent \textbf{S}pace（MORPHEUS），通过三阶段训练过程。具体而言，我们创建一个人设代码簿来紧凑地表示潜在空间中的角色，这个代码簿用于构建角色信息的后验分布。这种方法使模型能够跨角色进行泛化，即使对于未见过的角色也能生成个性化对话。对中英文数据集的实验表明，MORPHEUS增强了角色信息的提取，并改單了在没有外部角色数据的情况下生成回复。此外，MORPHEUS可以被视为大语言模型的高效微调。

论文链接: https://arxiv.org/pdf/2407.02345

为阿塞拜疆语开放基础模型

原标题: Open foundation models for Azerbaijani language

作者: Jafar Isbarov, Kavsar Huseynova, Elvin Mammadov, Mammad Hajili

机构: 乔治华盛顿大学巴库高级石油学校微软

摘要: 多语言大语言模型的出现使得在阿塞拜疆语的语言理解和生成系统的发展成为可能。然而，大多数生产级系统依赖于云解决方案，如GPT-4。虽然已经有一些尝试为阿塞拜疆语开发开放基础模型，但由于缺乏系统性基准测试，这些工作尚未被广泛采用。本文涵盖了几条推动为阿塞拜疆语开发开源基础模型的工作线。我们介绍了（1）一个用于阿塞拜疆语的大型文本语料库，（2）在该数据集上训练的一系列仅编码器语言模型，（3）用于评估这些模型的带标签数据集，以及（4）涵盖所有主要开源模型并支持阿塞拜疆语的广泛评估。

论文链接: https://arxiv.org/pdf/2407.02337

为什么 LLaVA 视觉-语言模型会用英语回复图片呢？

原标题: Why do LLaVA Vision-Language Models Reply to Images in English?

作者: Musashi Hinck, Carolin Holtermann, Matthew Lyle Olson, Florian Schneider, Sungduk Yu, Anahita Bhiwandiwalla, Anne Lauscher, Shaoyen Tseng, Vasudev Lal

机构: 英特尔实验室汉堡大学

摘要: 我们发现在一类流行的多模态视觉语言模型（VLMs）中存在一个令人惊讶的多语言偏见。向LLaVA风格的VLM查询中包含图像显著增加了模型返回英语响应的可能性，而不考虑查询的语言。本文通过两方面的方法调查了这种偏见的原因，结合对设计空间的广泛消融和对模型对图像和文本输入的内部表示的机械分析。这两种方法都表明问题源于LLaVA模型的语言建模组件。统计上，我们发现将语言骨干替换为双语言模型对减少这种错误有最强烈的影响。从机械上讲，我们提供了令人信服的证据表明视觉输入没有映射到与文本相似的空间，通过干预中间注意力层可以减少这种偏见。我们的发现为寻求理解多模态和多语言空间之间交叉的研究人员和工程师提供了重要见解，并有助于发展适用于非英语环境的功能强大和包容性的VLMs的目标。

论文链接: https://arxiv.org/pdf/2407.02333

高效稀疏注意力需要自适应 Token 释放

原标题: Efficient Sparse Attention needs Adaptive Token Release

作者: Chaoran Zhang, Lixin Zou, Dan Luo, Min Tang, Xiangyang Luo, Zihao Li, Chenliang Li

机构: 武汉大学莱赫大学莫纳什大学中国数学工程与先进计算国家重点实验室

摘要: 近年来，大语言模型（LLMs）在各种文本相关任务中展现出了显著的能力。然而，它们的“大”规模带来了重大的计算和存储挑战，特别是在管理Transformer的键-值状态方面，这限制了它们的更广泛适用性。因此，我们提出了从缓存中自适应释放资源并重建必要的键-值状态。具体而言，我们通过一个轻量级控制器模块来近似理想的前 $K$ 稀疏注意力。该模块保留具有最高前 $K$ 注意力权重的标记，并同时重建被丢弃但未来解码可能变得必要的标记。在自然语言生成和建模的全面实验中，我们的方法不仅在性能上与完全注意力竞争力相当，而且实现了高达221.8%的显著吞吐量改进。可在此网址找到用于复制的代码。

论文链接: https://arxiv.org/pdf/2407.02328

Github: https://github.com/WHUIR/ADORE

探讨音译在非拉丁文字书写的低资源语言中的上下文学习作用

原标题: Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts

作者: Chunlan Ma, Yihong Liu, Haotian Ye, Hinrich Schütze

机构: 慕尼黑大学LMU 慕尼黑信息与语言处理中心 Munich Center for Machine Learning (MCML)

摘要: 仅解码器的大语言模型（LLMs）在高资源语言中通过少样本甚至零样本的上下文学习（ICL）在各种任务中表现出色。然而，它们的性能通常不能很好地转移到低资源语言，特别是那些使用非拉丁文字的语言。受到最近利用仅编码器模型中的音译的工作的启发，我们调查了音译是否也能有效地提高用非拉丁文字书写的低资源语言的LLMs性能。为此，我们提出了三种提示模板，其中目标语言文本以（1）其原始文字、（2）拉丁文字或（3）两者表示。我们将这些方法应用于几种不同大小的代表性LLMs上，涵盖文本分类和序列标记等各种任务。我们的研究结果显示，音译的有效性因任务类型和模型大小而异。例如，对于序列标记，所有模型都受益于音译（增加高达25%）。

论文链接: https://arxiv.org/pdf/2407.02320

语言转移的软语言提示

原标题: Soft Language Prompts for Language Transfer

作者: Ivan Vykopal, Simon Ostermann, Marián Šimko

机构: 布尔诺理工大学捷克共和国布尔诺
肯佩伦智能技术研究所斯洛伐克布拉迪斯拉发
德国人工智能研究中心萨尔布吕肯德国

摘要: 跨语言知识转移，特别是在高资源语言和低资源语言之间，仍然是自然语言处理（NLP）中的一个挑战。本研究通过结合参数高效的微调方法，为改进跨语言NLP应用提供了见解。我们系统地探讨了通过引入语言特定和任务特定的适配器以及软提示来增强这种跨语言转移的策略。我们对这些方法的各种组合进行了详细调查，探讨它们在六种语言中的效率，重点关注三种低资源语言，其中包括我们所知的首次使用软语言提示。我们的研究结果表明，与以往工作的说法相反，语言和任务适配器的组合并不总是效果最好的；相反，在许多情况下，将软语言提示与任务适配器结合使用胜过其他配置。

论文链接: https://arxiv.org/pdf/2407.02317

评估大语言模型解决语义感知过程挖掘任务的能力

原标题: Evaluating the Ability of LLMs to Solve Semantics-Aware Process Mining Tasks

作者: Adrian Rebmann, Fabian David Schmidt, Goran Glavaš, Han van der Aa

机构: 曼海姆大学中心人工智能与数据科学維爾茨堡大學維也納大學

摘要: 最近，过程挖掘社区已经认识到大语言模型（LLMs）在解决各种过程挖掘任务中的潜力。初步研究报告了LLMs支持过程分析的能力，甚至在某种程度上表明它们能够推理过程的工作方式。后一属性表明LLMs也可以用于解决那些需要理解过程行为的过程挖掘任务。这类任务的示例包括（语义）异常检测和下一个活动预测，这两者都涉及对活动含义及其相互关系的考虑。在本文中，我们调查了LLMs处理这种语义感知过程挖掘任务的能力。此外，虽然大多数关于LLMs和过程挖掘交集的研究只关注于测试这些模型的开箱即用性，我们提供了对LLMs在过程挖掘中效用的更加原则性的调查，包括它们通过上下文学习和监督微调来获得事后过程挖掘知识的能力。具体而言，我们定义了三个需要理解过程语义的过程挖掘任务，并为每个任务提供了大量的基准数据集。我们的评估实验表明：（1）LLMs无法在开箱即用和仅提供少量上下文示例时解决具有挑战性的过程挖掘任务，（2）但当为这些任务进行微调时，它们表现出色，始终优于较小的基于编码器的语言模型。

论文链接: https://arxiv.org/pdf/2407.02310

朝向人类理解ChatGPT中的复述类型

原标题: Towards Human Understanding of Paraphrase Types in ChatGPT

作者: Dominik Meier, Jan Philip Wahle, Terry Ruas, Bela Gipp

机构: 哥廷根大学 LKA NRW

摘要: 释义代表了人类理解以各种不同方式呈现的表达的直觉能力。目前对语言模型的释义评估主要使用二元方法，提供了对特定文本变化的有限可解释性。原子释义类型（APT）将释义分解为不同的语言变化，并提供了对语言表达灵活性的细粒度视图（例如，语法或词汇的转变）。在这项研究中，我们评估了人类对ChatGPT生成英语释义的偏好，使用了十种APT和五种提示技术。我们引入了APTY（原子释义类型），这是一个由15名注释者进行的500个句子级和单词级注释的数据集。该数据集还提供了对具有不同类型的释义的人类偏好排名，可用于使用RLHF和DPO方法微调模型。我们的结果显示，ChatGPT可以生成简单的APT，如添加和删除，但在复杂结构（例如，从属关系变化）方面存在困难。这项研究有助于理解释义语言模型已经成功理解了哪些方面，以及仍然难以理解的内容。此外，我们策划的数据集可用于开发具有特定语言能力的语言模型。

论文链接: https://arxiv.org/pdf/2407.02302

CFinBench：大语言模型的全面中文金融基准

原标题: CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models

作者: Ying Nie, Binwei Yan, Tianyu Guo, Hao Liu, Haoyu Wang, Wei He, Binfan Zheng, Weihao Wang, Qiang Li, Weijian Sun, Yunhe Wang, Dacheng Tao

机构: 华为诺亚方舟实验室南洋理工大学

摘要: 大语言模型（LLMs）在各种自然语言处理任务上取得了显著的表现，但它们在更具挑战性和特定领域任务（如金融）中的潜力尚未得到充分探索。在本文中，我们提出了CFinBench：一个经过精心设计的、迄今为止最全面的评估基准，用于评估大语言模型在中国背景下的金融知识。在实践中，为了更好地与中国金融从业者的职业轨迹相一致，我们从4个一级类别构建了系统化评估：（1）金融学科：LLMs是否能记住金融学科的必要基础知识，如经济学、统计学和审计学等。（2）金融资格：LLMs是否能获得所需的金融资格认证，如注册会计师、证券资格和银行资格等。（3）金融实践：LLMs是否能胜任实际的金融工作，如税务顾问、初级会计师和证券分析师等。（4）金融法律：LLMs是否能满足金融法律法规的要求，如税法、保险法和经济法等。CFinBench包含99,100个问题，涵盖了43个二级类别，包括单项选择、多项选择和判断等3种问题类型。我们在CFinBench上对50个代表性LLMs进行了广泛实验，结果显示，GPT4和一些面向中文的模型在基准测试中处于领先地位，最高平均准确率为60.16%，突显了CFinBench所提出的挑战。数据集和评估代码可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2407.02301

Github: https://cfinbench.github.io/

Renard：从叙事文本中提取角色网络的模块化流水线

原标题: Renard: A Modular Pipeline for Extracting Character Networks from Narrative Texts

作者: Arthur Amalvy, Vincent Labatut, Richard Dufour

机构: 法国阿维尼翁计算机实验室南特数字科学实验室

摘要: Renard（从叙事文档中提取关系）是一个Python库，允许用户定义自定义自然语言处理（NLP）流水线，从叙事文本中提取角色网络。与少数现有工具相反，Renard可以提取动态网络，以及更常见的静态网络。Renard流水线是模块化的：用户可以选择每个NLP子任务的实现，以提取角色网络。这使用户可以将流水线专门用于特定类型的文本，并研究每个子任务对提取网络的影响。

论文链接: https://arxiv.org/pdf/2407.02284

多语言语言模型的购物车问题

原标题: Multilingual Trolley Problems for Language Models

作者: Zhijing Jin, Sydney Levine, Max Kleiman-Weiner, Giorgio Piatti, Jiarui Liu, Fernando Gonzalez Adauto, Francesco Ortu, András Strausz, Mrinmaya Sachan, Rada Mihalcea, Yejin Choi, Bernhard Schölkopf

机构: MPI for Intelligent Systems ETH Zürich Allen Institute for AI (AI2) University of Washington University of Michigan University of Trieste

摘要: 随着大语言模型（LLMs）在越来越多的现实世界情境中的部署，了解它们在面对道德困境时的决策是至关重要的。受到人类道德偏好的大规模跨文化研究“道德机器实验”的启发，我们为LLMs设置了相同的道德选择集。我们将1000个道德困境小故事，通过在关键轴上进行参数化变化，翻译成100多种语言，并揭示LLMs在每种语言中的偏好。然后，我们将LLMs的回应与那些语言的人类讲者的回应进行比较，利用了4000万人类道德判断的数据集。我们发现，在英语、韩语、匈牙利语和汉语等语言中，LLMs更符合人类偏好，但在印地语和索马里语（非洲）等语言中则不太符合。此外，我们对LLMs对其道德选择所给出的解释进行了描述，发现公平是GPT-4决策背后最主要的支持理由，而GPT-3则是功利主义。我们还发现了“语言不平等”（我们定义为模型在不同语言中的发展水平不同）在一系列道德决策的元属性中。

论文链接: https://arxiv.org/pdf/2407.02273

具有反向推理优化的稳健零样本文本转语音合成

原标题: Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization

作者: Yuchen Hu, Chen Chen, Siyin Wang, Eng Siong Chng, Chao Zhang

机构: 南洋理工大学清华大学

摘要: 在这篇论文中，我们提出了逆推理优化（RIO），这是一种简单而有效的方法，旨在通过从人类反馈中进行强化学习，增强基于自回归模型的零样本文本转语音（TTS）系统的鲁棒性。为了评估TTS系统生成的语音质量而无需人类注释，RIO引入了一个新颖的概念，称为基于贝叶斯原理的逆推理，该原理表明高质量的生成语音应该能够作为后续使用相同TTS模型进行生成的提示。通过利用逆推理作为标准，从TTS系统生成的语音样本中选择用于RLHF的示例，RIO将后续优化引导到增强TTS鲁棒性的方向。RIO框架包括采样、自动注释和学习，无需奖励模型或成对偏好数据，通过减少训练和推断条件之间的差异，显著提高了零样本TTS性能的稳定性。我们的实验结果验证了RIO可以有效改善主观和客观指标，包括平均意见分、词错误率和说话者相似度。值得注意的是，RIO还可以将坏输出的发生率几乎降低到零，与使用地面真实语音作为提示时的鲁棒性相媲美。

论文链接: https://arxiv.org/pdf/2407.02243

PromptIntern：在大语言模型微调过程中通过内部化循环提示来节省推理成本

原标题: PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning

作者: Jiaru Zou, Mengyu Zhou, Tao Li, Shi Han, Dongmei Zhang

机构: 伊利诺伊大学厄巴纳-香槟分校微软上海交通大学

摘要: 大语言模型（LLMs）在各种自然语言处理任务中发挥了重要作用，具有强大的提示技术。然而，在实际应用中，针对重复查询通常存在相似的提示组件，这在推理过程中会导致重大的计算负担。现有的提示压缩和直接微调方法旨在解决这些挑战，但它们经常难以在成本效益和性能有效性之间取得最佳平衡，特别是在复杂任务（如NL2Code）中。在本文中，我们提出了一种名为PromptIntern的新方法，通过渐进微调将提示知识内部化到模型参数中。我们的方法使LLMs能够模拟人类学习新任务的过程，在这个过程中，提示中的详细模板和示例会逐渐内部化，并随着模型逐渐适应任务而逐步淘汰。大量实验证明，我们的方法可以将推理 token 减少超过 90%，推理速度提高 4.2 倍，并节省 88.3% 的货币成本。

论文链接: https://arxiv.org/pdf/2407.02211

朝向三维脑CT报告生成中多模态大语言模型的整体框架

原标题: Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation

作者: Cheng-Yi Li, Kao-Jung Chang, Cheng-Fu Yang, Hsin-Yu Wu, Wenting Chen, Hritik Bansal, Ling Chen, Yi-Ping Yang, Yu-Chun Chen, Shih-Pin Chen, Jiing-Feng Lirng, Kai-Wei Chang, Shih-Hwa Chiou

机构: 加州大学洛杉矶分校台北榮民總醫院国立阳明交通大学医学院国立阳明交通大学台北榮民總醫院香港城市大学医院与卫生保健管理研究所神经学系神经研究所医学院

摘要: 多模态大语言模型（MLLMs）已被充分授权探索令人兴奋的医学应用，主要关注放射学报告生成。然而，在二维放射学字幕生成方面取得的初步成功无法反映体积性三维解剖学中真实世界的诊断挑战。为了缓解现有文献中的三个关键限制方面，包括（1）数据复杂性，（2）模型容量和（3）评估指标的忠实度，我们收集了一组18,885个文本-扫描对的3D脑CT数据集，并应用临床视觉指导调整（CVIT）来训练BrainGPT模型生成符合放射学的3D脑CT报告。统计上，我们的BrainGPT在内部测试中得分为BLEU-1 = 44.35，BLEU-4 = 20.38，METEOR = 30.13，ROUGE-L = 47.6，CIDEr-R = 211.77，并在外部验证CQ500数据集上显示出0.91的标注中线偏移的准确性。通过进一步检查标注的报告，我们报告称传统指标似乎只衡量表面文本相似性，未能衡量诊断目的的信息密度。为了弥补这一差距，我们提出了一种新颖的基于特征的放射学任务评估（FORTE）来评估报告的临床相关性（病变特征和标志物）。值得注意的是，BrainGPT模型在平均FORTE F1分数方面得分为0.71（程度=0.661；标志物=0.706；特征=0.693；印象=0.779）。为了证明BrainGPT模型具有生成类似人类放射学报告的客观准备性，我们进行了一项图灵测试，招募了11名医师评估者，约74%的BrainGPT生成的字幕与人类撰写的字幕无法区分。我们的工作体现了一个全面的框架，展示了策划3D脑CT数据集、微调解剖学合理的语言模型和提出强大的放射学评估指标的第一手经验。

论文链接: https://arxiv.org/pdf/2407.02235

Github: https://github.com/charlierabea/FORTE

通过大语言模型实现自动调整规则优化

原标题: Automatic Adaptation Rule Optimization via Large Language Models

作者: Yusei Ishimizu, Jialong Li, Jinglue Xu, Jinyu Cai, Hitoshi Iba, Kenji Tei

机构: 东京工业大学早稻田大学东京大学

摘要: 基于规则的自适应是一种基础方法，其特点是人类可读性和快速响应。然而，构建高性能和稳健的自适应规则通常是一项挑战，因为它基本上涉及在复杂（变量）空间中搜索最佳设计。为此，本文尝试利用大语言模型（LLMs）作为优化器来构建和优化自适应规则，利用LLMs固有的常识和推理能力。在SWIM中进行的初步实验已经验证了我们方法的有效性和局限性。

论文链接: https://arxiv.org/pdf/2407.02203

合成多模态问题生成

原标题: Synthetic Multimodal Question Generation

作者: Ian Wu, Sravan Jayanthi, Vijay Viswanathan, Simon Rosenberg, Sina Pakazad, Tongshuang Wu, Graham Neubig

机构: C3 AI Carnegie Mellon University

摘要: 多模态检索增强生成（MMRAG）是一种强大的多模态文档问答方法。评估MMRAG的一个关键挑战是缺乏与感兴趣的问题风格和模态相匹配的高质量数据集。基于此，我们提出了SMMQG，一个合成数据生成框架。SMMQG利用检索器、大语言模型（LLM）和大型多模态模型（LMM）之间的相互作用，直接从多模态文档中生成符合指定风格和模态的问题和答案对。我们使用SMMQG在维基百科文档上生成了一个包含1024个问题的MMRAG数据集，并使用它评估了最先进的模型，揭示了只有通过风格和模态特定的评估数据才能获得的模型性能见解。接下来，我们通过人类研究来衡量SMMQG生成的数据质量。我们发现，我们合成数据的质量与众包基准MMQA的质量相当，并且使用这两个数据集的下游评估结果强烈一致。

论文链接: https://arxiv.org/pdf/2407.02233

大语言模型中的生成单一文化

原标题: Generative Monoculture in Large Language Models

作者: Fan Wu, Emily Black, Varun Chandrasekaran

机构: 伊利诺伊大学厄巴纳-香槟分校巴纳德学院

摘要: 我们引入了“生成单一文化”（generative monoculture）这一概念，这是在大语言模型（LLMs）中观察到的一种行为，其特征是模型输出的多样性明显减少，相对于给定任务的可用训练数据：例如，为受到好评和差评的书籍仅生成正面的书评。虽然在某些情况下，生成单一文化会提高性能（例如，LLMs更容易生成高效的代码），但在其他情况下，危险会加剧（例如，LLMs拒绝分享多样化的观点）。随着LLMs在教育和网络搜索等高影响领域的应用越来越广泛，仔细维护LLM输出的多样性对于确保各种事实和观点随时间得以保留至关重要。我们通过对书评和代码生成任务的分析实验证明了生成单一文化的普遍存在，并发现简单的对策，如改变采样或提示策略，无法缓解这种行为。此外，我们的结果表明，生成单一文化的根本原因可能植根于LLM的调整过程中，这表明有必要开发能够保持或促进多样性的微调范式。

论文链接: https://arxiv.org/pdf/2407.02209

在一个喧嚣的世界中如何学习？自我纠正机器翻译中的真实世界数据噪音

原标题: How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise on Machine Translation

作者: Yan Meng, Di Wu, Christof Monz

机构: 阿姆斯特丹大学(Language Technology Lab)

摘要: 大量的网络挖掘平行数据包含大量噪音。作为噪音主要来源的语义不对齐为训练机器翻译系统带来挑战。在本文中，我们首先研究了现实中难以检测的不对齐噪音对机器翻译的影响，提出了一种通过语义相似性模拟现实不对齐的过程。在定量分析模拟不对齐对机器翻译的影响后，我们展示了广泛使用的预过滤器对提高翻译性能的有限效果，强调了处理数据噪音的更精细化方式的必要性。通过观察模型在令牌级别上区分不对齐和干净数据的自我知识的可靠性增加，我们提出了一种自我校正方法，利用模型的预测分布来修正训练过程中从地面真实数据得到的训练监督。通过全面实验，我们展示了我们的自我校正方法不仅在存在模拟不对齐噪音的情况下提高了翻译性能，而且对于涵盖八个翻译任务的现实世界嘈杂的网络挖掘数据集也证明了有效性。

论文链接: https://arxiv.org/pdf/2407.02208

自然语言处理任务的基于高效最近邻的不确定性估计

原标题: Efficient Nearest Neighbor based Uncertainty Estimation for Natural Language Processing Tasks

作者: Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe

机构: 奈良科学技术大学

摘要: 在深度神经网络（DNNs）中进行可信赖的预测，包括预训练语言模型（PLMs），对于现实世界中的安全关键应用至关重要。然而，DNNs经常受到不确定性估计的困扰，比如校准不准确。特别是，需要多次随机推断的方法可以缓解这个问题，但推断的昂贵成本使它们变得不切实际。在这项研究中，我们提出了 $k$ -最近邻不确定性估计（ $k$ NN-UE），这是一种利用邻居之间的距离和邻居标签存在比率的不确定性估计方法。在情感分析、自然语言推理和命名实体识别方面的实验表明，我们提出的方法在置信校准、选择性预测和超出分布检测方面优于基线或最近的基于密度的方法。此外，我们的分析表明，引入最近 $k$ NN-LM研究启发的维度缩减或近似最近邻搜索可以减少推断开销，而当适当地结合它们时，不会显著降低估计性能。

论文链接: https://arxiv.org/pdf/2407.02138

假新闻检测：一切都在数据中！

原标题: Fake News Detection: It’s All in the Data!

作者: Soveatin Kuntur, Anna Wróblewska, Marcin Paprzycki, Maria Ganzha

机构: 华沙理工大学波兰科学院系统研究所

摘要: 这份全面调查为着手进行假新闻检测研究的研究人员提供了必不可少的资源。通过强调数据集质量和多样性的关键作用，突显了这些元素在检测模型的有效性和稳健性中的重要性。该调查详细概述了数据集的关键特征、使用的各种标注系统以及可能影响模型性能的普遍偏见。此外，它还涉及关键的伦理问题和最佳实践，全面概述了当前可用数据集的现状。我们对该领域的贡献进一步得到加强，通过提供 GitHub 代码库，将公开可访问的数据集整合到一个单一、用户友好的门户中。该代码库旨在促进和激发进一步研究和开发工作，以应对虚假新闻这一普遍问题。

论文链接: https://arxiv.org/pdf/2407.02122

黑盒子：语言模型是否隐藏了形容词顺序的理论？

原标题: Black Big Boxes: Do Language Models Hide a Theory of Adjective Order?

作者: Jaap Jumelet, Lisa Bylinina, Willem Zuidema, Jakub Szymanik

机构: 阿姆斯特丹大学格罗宁根大学特伦托大学

摘要: 在英语和其他语言中，复杂名词短语中的多个形容词显示出复杂的排序模式，这一点一直是语言学理论研究的重点。这些模式提供了一个机会，可以评估语言模型（LMs）学习涉及传统句法、语义和语用学领域跨越因素的语言细微规则的能力。我们回顾了旨在解释人类中形容词顺序偏好（AOPs）的现有假设，并开发了一个用于研究LMs中AOPs的设置：我们提供了一个可重复使用的形容词对语料库，并为LMs定义了AOP度量。借助这些工具，我们在训练过程中的中间检查点上研究了一系列LMs。我们发现，所有模型的预测都比理论语言学中识别的因素生成的预测更接近人类的AOPs。与此同时，我们证明了LMs中观察到的AOPs与训练数据中形容词对的频率强相关，并报告了对未见组合的有限泛化能力。这突显了建立LM性能与语言学理论之间联系的困难。因此，我们得出结论，提出了未来研究的路线图，我们的结果为此铺平了道路，并讨论了关于LMs中知识性质及其在训练集之外泛化能力的关键问题。

论文链接: https://arxiv.org/pdf/2407.02136

LlamAr & GemmAr：通过阿拉伯语指导调优增强大语言模型

原标题: LlamAr & GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning

作者: Hasna Chouikhi, Manel Aloui, Cyrine Ben Hammou, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi

机构: Clusterlab Team Polytech INTL

摘要: 大语言模型（LLMs）在自然语言处理（NLP）领域产生了巨大影响，特别是对于英语。这些模型展示了理解和生成类似人类文本的能力。语言模型的成功在很大程度上取决于高质量的指导数据集的可用性，这些数据集包括详细的任务描述和相应的响应，对于训练模型准确地处理各种提示至关重要。然而，这些资源的可用性和质量因语言而异。虽然模型在英语中表现良好，但它们在阿拉伯语等语言中往往表现不佳，这是由于缺乏用于微调阿拉伯特定任务的数据集。为了解决这个问题，我们介绍了InstAr-500k，这是一个新的阿拉伯语指导数据集，通过生成和收集涵盖多个领域和指导类型的内容来创建。然后，我们通过在几个下游任务上微调两个开源模型，Llama-3-8B-Instruct 和 Gemma-7B-IT，来评估这个数据集，以扩大它们功能的改进。根据多次评估，我们微调的模型在几个阿拉伯语NLP基准上实现了最先进的性能。这些结果强调了我们的数据集提升阿拉伯语言模型能力的有效性。我们的指导数据集通过提供资源来增强阿拉伯语NLP的发展，弥合了英语和阿拉伯语语言模型之间的性能差距。在此基础上，我们开发了两个最先进的模型，LlamAr-8B 和 GemmAr-7B，专门针对广泛的阿拉伯语NLP任务进行了调优。

论文链接: https://arxiv.org/pdf/2407.02147

打破语言障碍：规模化跨语言持续预训练

原标题: Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale

作者: Wenzhen Zheng, Wenbo Pan, Xu Xu, Libo Qin, Li Yue, Ming Zhou

机构: 中国科学院哈尔滨工业大学北京大学中南大学训舰科技

摘要: 近年来，大语言模型（LLMs）在通用人工智能方面取得了重大进展。然而，从头开始训练这些模型需要大量的计算资源和大量的文本数据。在本文中，我们探讨了一种构建新语言的LLM的替代方法，即通过不断从现有预训练的LLMs中进行持续预训练（CPT），而不是使用随机初始化的参数。通过对40个模型大小（参数范围从40M到5B）进行并行实验，我们发现：1）CPT收敛速度更快，以可扩展的方式节省了大量资源；2）CPT遵循了Hoffmann等人（2022年）提出的一个扩展的缩放定律，其中包含一个数据-参数缩放项；3）根据我们估计的缩放因子，CPT的计算最优数据-参数分配明显不同；4）在规模上进行的迁移的有效性受训练持续时间和语言属性的影响，同时对数据重播具有鲁棒性，这是一种有效减轻CPT中灾难性遗忘的方法。我们希望我们的发现能为研究界提供关于规模上LLMs可转移性的更深入见解。

论文链接: https://arxiv.org/pdf/2407.02118

有用的助手还是富有成效的促进者？调查人设如何影响语言模型行为

原标题: Helpful assistant or fruitful facilitator? Investigating how personas affect language model behavior

作者: Pedro Henrique Luz de Araujo, Benjamin Roth

机构: 维也纳大学计算机科学学院 UniVie博士学校计算机科学系 UniVie.ac.at

摘要: 个性化和引导大型语言模型（LLM）的一种方法是指定一个角色：描述用户期望LLM如何行为的角色（例如，一个乐于助人的助手，一位教师，一位女性）。本文研究了角色如何影响模型行为的各个方面。我们为七个LLM分配了来自12个类别的162个角色，涵盖性别、性取向和职业等变量。我们提示它们回答来自五个数据集的问题，涵盖客观任务（例如，关于数学和历史的问题）和主观任务（例如，关于信仰和价值观的问题）。我们还将角色的生成与两个基准设置进行比较：一个控制角色设置，其中包含30个“乐于助人的助手”的释义，以控制模型的提示敏感性，以及一个空角色设置，其中没有分配角色。我们发现，对于所有模型和数据集，角色显示出比控制设置更大的变异性，并且某些角色行为的度量在模型之间具有普遍性。

论文链接: https://arxiv.org/pdf/2407.02099

BiasDora：探索视觉-语言模型中的隐藏偏见关联

原标题: BiasDora: Exploring Hidden Biased Associations in Vision-Language Models

作者: Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu

机构: 乔治梅森大学华盛顿大学

摘要: 现有的研究主要关注视觉语言模型（VLMs）中的社会偏见，主要集中在一组有限的已记录的偏见关联，如性别：职业或种族：犯罪。这种狭窄的范围经常忽视了大量未经审查的隐含关联，限制了对这些偏见的识别和因此减轻。我们通过探究VLMs来填补这一空白，(1)揭示跨越9个偏见维度的隐藏的隐含关联。我们系统地探索不同的输入和输出模态，并(2)展示偏见关联在其消极性、毒性和极端性上的变化。我们的工作(3)识别出通常不被现有方法所认可的微妙和极端的偏见。我们公开提供了检索到的关联数据集（Dora），链接在这里：https的URL。

论文链接: https://arxiv.org/pdf/2407.02066

Github: https://github.com/chahatraj/BiasDora

数据增强方法在命名实体识别中适用于不确定性估计吗？

原标题: Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation?

作者: Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe

机构: 奈良科学技术大学

摘要: 这项工作研究了数据增强对命名实体识别（NER）任务中置信度校准和不确定性估计的影响。为了未来在医疗保健和金融等安全关键领域推进NER，实现在应用深度神经网络（DNNs）时准确预测和校准置信度是至关重要的，包括预训练语言模型（PLMs）作为现实世界应用。然而，DNNs容易出现校准不准确的问题，这限制了它们的适用性。此外，现有的校准和不确定性估计方法计算成本很高。我们在NER中的研究发现，数据增强改善了跨流派和跨语言设置中的校准和不确定性，特别是在领域内设置中。此外，我们表明，通过数据增强生成的句子的困惑度较低时，NER的校准往往更有效，并且增加增强的规模进一步改善了校准和不确定性。

论文链接: https://arxiv.org/pdf/2407.02062

大陆之交：利用大型多模型进行文化适应的自动化文物提取

原标题: Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models

作者: Anjishnu Mukherjee, Ziwei Zhu, Antonios Anastasopoulos

机构: 乔治梅森大学

摘要: 在这项工作中，我们提出了一个全面的三阶段研究，以检验：（1）大型多模态模型（LMMs）在识别文化背景方面的有效性；（2）它们对不同文化的表征准确性；以及（3）它们跨文化边界调整内容的能力。我们首先介绍了由DALL-E 3生成并由人类验证的大规模数据集Dalle Street，其中包含67个国家的9,935张图片和10个概念类别。我们揭示了在Dalle Street和其他现有基准测试中，开放权重（LLaVA）和封闭源（GPT-4V）模型在子区域层面的文化理解差异。接下来，我们通过一项工件提取任务评估模型对文化的更深入理解，并识别出与不同国家相关的超过18,000个工件。最后，我们提出了一个高度可组合的流程CultureAdapt，用于将图像从一种文化调整到另一种文化。我们的研究结果揭示了LMMs文化能力的微妙图景，突出了开发文化感知系统的必要性。数据集和代码可在此网址获得：https://…（链接地址）。

论文链接: https://arxiv.org/pdf/2407.02067

Github: https://github.com/iamshnoo/crossroads

融合精华，消除糟粕：自由形式语言生成的细粒度自一致性

原标题: Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation

作者: Xinglin Wang, Yiwei Li, Shaoxiong Feng, Peiwen Yuan, Boyuan Pan, Heda Wang, Yao Hu, Kan Li

机构: 北京理工大学小红书公司

摘要: 自一致性（SC），利用LLM的多个样本，在各种推理任务上显示出显著的增益，但在自由形式生成方面存在困难，因为聚合答案的难度。其变体UCS和USC依赖于样本选择或投票机制来提高输出质量。然而，这些方法面临限制，因为它们无法充分利用多个候选样本中存在的微妙共识知识，通常导致次优输出。我们提出了精细化自一致性（FSC），通过从候选样本中提取和整合段级共同点，增强LLM在开放式和推理任务中的性能，以解决这些限制。基于此，我们提出了两种额外的策略：候选集过滤，通过识别高度相似的候选集来增强整体质量，以及合并，通过组合相似样本来减少输入标记要求。通过对各种任务进行广泛实验，包括摘要、代码生成和数学推理，使用GPT-3.5-turbo和GPT-4来展示FSC的有效性。结果表明，与基准方法相比，FSC在优化输出质量方面取得了显著改进，展示了FSC从多个样本中有效合成细粒度共识知识的潜力。

论文链接: https://arxiv.org/pdf/2407.02056

Github: https://github.com/WangXinglin/FSC

使用大语言模型进行文本标注的提示稳定性评分

原标题: Prompt Stability Scoring for Text Annotation with Large Language Models

作者: Christopher Barrie, Elli Palaiologou, Petter Törnberg

机构: 爱丁堡大学阿姆斯特丹大学

摘要: 研究人员越来越多地使用语言模型（LMs）进行文本注释。这些方法仅依赖于提示，告诉模型根据一组指令返回给定输出。然而，LM输出的可重现性可能会对提示设计中的细微变化产生影响。这引发了对分类程序可复制性的质疑。为了解决这个问题，研究人员通常测试各种语义上相似的提示，以确定我们所称的“提示稳定性”。这些方法仍然是临时的且特定于任务的。在本文中，我们提出了一个诊断提示稳定性的通用框架，通过调整传统方法来进行编码者内部和编码者间的可靠性评分。我们将结果指标称为提示稳定性评分（PSS），并提供一个用于估计其值的Python包PromptStability。使用六个不同的数据集和十二个结果，我们对超过150k行数据进行分类，以：a）诊断提示稳定性较低的情况；b）展示该包的功能。最后，我们提供了应用研究人员的最佳实践建议。

论文链接: https://arxiv.org/pdf/2407.02039

工具使用语言模型的简洁而精确的上下文压缩

原标题: Concise and Precise Context Compression for Tool-Using Language Models

作者: Yang Xu, Yunlong Feng, Honglin Mu, Yutai Hou, Yitong Li, Xinghao Wang, Wanjun Zhong, Zhongyang Li, Dandan Tu, Qingfu Zhu, Min Zhang, Wanxiang Che

机构: 哈尔滨工业大学华为技术有限公司

摘要: 通过阅读上下文中的文档，使用工具的语言模型可以动态地利用外部工具扩展其功能。代价是每次模型需要使用工具时，我们必须输入冗长的文档，占用输入窗口并减慢解码过程的速度。
鉴于通用压缩技术的进展，软上下文压缩是缓解问题的合适方法。然而，在压缩工具文档时，现有方法存在关键信息丢失（具体来说是工具/参数名称错误）和难以根据文档长度调整压缩序列长度的弱点。
为了解决这些问题，我们提出了两种策略，将工具文档压缩成简洁而准确的摘要序列，供使用工具的语言模型使用。1）选择性压缩策略通过有意保留关键信息作为原始文本标记来减轻关键信息丢失。2）块压缩策略涉及将工具文档分成短块，然后使用固定长度的压缩模型实现可变长度压缩。这种策略有助于灵活调整压缩比。
在API-Bank和APIBench上的结果显示，我们的方法在高达16倍的压缩比下达到了与上限基线可比较的性能水平。

论文链接: https://arxiv.org/pdf/2407.02043

打破偏见，搭建桥梁：通过接触假设评估和减轻大语言模型中的社会偏见

原标题: Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis

作者: Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu

机构: 乔治梅森大学华盛顿大学

摘要: 大语言模型（LLMs）延续社会偏见，反映了它们训练数据中的偏见，并强化了社会刻板印象和不平等。我们的工作探讨了社会心理学中的接触假设的潜力，用于去偏置LLMs。我们通过LLM提示模拟各种形式的社会接触，以衡量它们对模型偏见的影响，反映了群体间互动如何在社会环境中减少偏见。我们创建了一个包含108,000个提示的数据集，遵循一种原则性方法复制社会接触，以衡量三个LLMs（LLaMA 2、Tulu和NousHermes）在13个社会偏见维度上的偏见。我们提出了一种独特的去偏置技术，社会接触去偏置（SCD），通过指导这些模型对提示做出无偏见的回应。我们的研究表明，LLM在接受接触探测时表现出社会偏见，但更重要的是，通过我们的SCD策略，在1个时代的指导调整LLaMA 2后，这些偏见可以显著减少高达40%。我们的代码和数据可在此URL找到。

论文链接: https://arxiv.org/pdf/2407.02030

Github: https://github.com/chahatraj/breakingbias

为什么上下文学习有时会失败？评估在开放和封闭问题上的上下文学习

原标题: Why does in-context learning fail sometimes? Evaluating in-context learning on open and closed questions

作者: Xiang Li, Haoran Tang, Siyu Chen, Ziwei Wang, Ryan Chen, Marcin Abram

机构: 南加州大学信息科学研究所

摘要: 我们根据任务的新颖性和难度来衡量上下文学习的性能，针对开放和封闭问题。为此，我们创建了一个包含困难科学问题的新颖基准，每个问题都与各种相关性的上下文配对。我们展示了一个反直觉的结果，即与主题更相关的上下文并不总是比不太相关的上下文更有帮助。这种效应在开放问题和高难度或新颖性问题中尤为明显。这一结果揭示了大语言模型对封闭式和开放式问题处理的根本差异，并显示了对各种不同类型问题的上下文学习进行更强大评估的必要性。它还提出了一个新问题，即如何在大型语言模型中选择最佳上下文，特别是在检索增强生成（RAG）系统的背景下。我们的结果表明，对于这个问题的答案可能高度依赖于应用程序，并可能取决于问题的格式、问题的感知难度级别以及我们寻求的信息的新颖性或流行性。

论文链接: https://arxiv.org/pdf/2407.02028

使用大语言模型进行端到端语音摘要

原标题: An End-to-End Speech Summarization Using Large Language Model

作者: Hengchao Shang, Zongyao Li, Jiaxin Guo, Shaojun Li, Zhiqiang Rao, Yuanchang Luo, Daimeng Wei, Hao Yang

机构: 华为翻译服务中心

摘要: 抽象性语音摘要（SSum）旨在从口语内容生成类似人类的文本摘要。它在处理长篇语音输入和捕捉长篇语音输入与短文本摘要之间复杂的跨模态映射方面遇到困难。关于大语言模型（LLMs）和多模态信息融合的研究为解决这些挑战提供了新的见解。在本文中，我们提出了一个端到端的SSum模型，该模型利用Q-Former作为音频文本模态的连接器，并利用LLMs直接从语音特征生成文本摘要。我们采用了一个多阶段训练方法，包括基于LLM的ASR和文本摘要（TSum）任务作为辅助任务。ASR任务用于对齐特征空间并增强LLM处理更长语音的能力。然后，我们利用课程学习策略促进模型从TSum过渡到SSum。最后，我们的模型在How-2数据集上取得了竞争性表现。

论文链接: https://arxiv.org/pdf/2407.02005

通过大视觉语言模型进行假新闻检测和操纵推理

原标题: Fake News Detection and Manipulation Reasoning via Large Vision-Language Models

作者: Ruihan Jin, Ruibo Fu, Zhengqi Wen, Shuai Zhang, Yukun Liu, Jianhua Tao

摘要: 随着媒体操纵的迅速蔓延，虚假新闻成为信息安全和公共舆论的日益严重威胁。因此，虚假新闻检测引起了学术界的广泛关注。传统的虚假新闻检测模型在真实性二元分类方面表现出色，但它们基于新闻内容推理详细的伪造痕迹的能力仍未得到充分探讨。此外，由于缺乏外部知识，现有方法在与事实相关的新闻上的表现存在疑问，使得它们的实际实施不明确。在本文中，我们提出了一个新的多媒体研究课题，即操纵推理。操纵推理旨在基于新闻内容推理操纵行为。为了支持这项研究，我们引入了一个用于虚假新闻检测和操纵推理的基准，称为以人为中心且与事实相关的虚假新闻（HFFN）。该基准突出了人类的核心地位和高度的事实相关性，并进行了详细的手动注释。HFFN涵盖了通过三种操纵方法生成的虚假新闻样本的四个现实领域。此外，我们提出了一种多模态新闻检测和推理语言模型（M-DRUM），不仅用于判断多模态新闻的真实性，还能对潜在的操纵进行分析推理。在特征提取层面上，采用了交叉注意力机制，从多模态输入中提取细粒度融合特征。在推理层面上，一个大型视觉语言模型（LVLM）作为骨干，促进与事实相关的推理。采用了两阶段训练框架，以更好地激活识别和推理的能力。全面的实验证明，我们的模型优于最先进的虚假新闻检测模型和强大的LVLM，如GPT-4和LLaVA。

论文链接: https://arxiv.org/pdf/2407.02042

你的大语言模型是个有知识的还是只会选择的作弊者？

原标题: Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?

作者: Nishant Balepur, Rachel Rudinger

机构: 马里兰大学

摘要: 最近的研究表明，大语言模型（LLMs）可以仅使用选项来回答多项选择题，但这是否意味着LLMs在多项选择题排行榜上的排名在很大程度上受到了在仅有选项的情况下的能力的影响？为了回答这个问题，我们使用对比集来探究LLMs是否过度依赖于多项选择题中仅有选项的捷径。虽然先前的研究是通过昂贵的人工注释或模型生成的数据来构建对比集，这可能存在偏见，但我们采用图挖掘技术从现有的多项选择题数据集中提取对比集。我们在UnifiedQA上使用我们的方法，这是一个包含六个常识推理数据集且在仅有选项情况下具有较高准确率的群体，构建了一个包含820个问题的对比集。在验证了我们的对比集后，我们测试了12个LLMs，发现这些模型在给定问题和选项的情况下并不依赖于仅有选项的捷径。因此，尽管多项选择题对仅有选项的准确性很敏感，但我们认为LLMs之所以在多项选择题排行榜上获得高排名并不仅仅是因为它们能够利用仅有选项的捷径。

论文链接: https://arxiv.org/pdf/2407.01992

一个边界框等于一个标记：在大语言模型中交错布局和文本以实现文档理解

原标题: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

作者: Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang

机构: 字节跳动公司复旦大学

摘要: 最近，许多研究表明，将OCR提取的文本和空间布局与大语言模型（LLMs）结合起来，对于文档理解任务非常有效。然而，现有的将空间布局与文本整合的方法存在一些局限，比如产生过长的文本序列或未能充分利用LLMs的自回归特性。在这项工作中，我们介绍了一种名为LayTextLLM（Interleaving Layout and Text in a Large Language Model）的文档理解方法。具体而言，LayTextLLM将每个边界框投影到单个嵌入中，并将其与文本交错，有效避免了长序列问题，同时利用了LLMs的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互，而且在关键信息提取（KIE）和视觉问答（VQA）方面表现出了增强的性能。全面的基准评估显示，与先前最先进的文档理解MLLM相比，在KIE任务上提高了27.0％，在VQA任务上提高了24.1％，并且在KIE任务上比其他最先进的基于OCR的LLMs提高了15.5％。

论文链接: https://arxiv.org/pdf/2407.01976

在大语言模型中实现针对法律判决预测的歧视性推理

原标题: Enabling Discriminative Reasoning in Large Language Models for Legal Judgment Prediction

作者: Chenlong Deng, Kelong Mao, Yuyao Zhang, Zhicheng Dou

机构: 中国人民大学高灵人工智能学院

摘要: 法律判决预测对提高司法效率至关重要。在这项工作中，我们发现现有的大语言模型（LLMs）在这一领域表现不佳，原因是难以理解案件复杂性并区分相似的指控。为了使大语言模型能够有效地进行法律判决预测，我们引入了灵感来自人类司法推理的Ask-Discriminate-Predict（ADAPT）推理框架。ADAPT包括分解案件事实，区分潜在指控，并预测最终判决。我们通过在多任务合成轨迹上进行微调，进一步增强了LLMs，在我们的ADAPT框架下提高了法律判决预测的准确性和效率。在两个广泛使用的数据集上进行的大量实验表明，我们的框架在法律判决预测中表现出优越性能，特别是在处理复杂和混淆的指控时。

论文链接: https://arxiv.org/pdf/2407.01964

S2D：排序推测解码，用于更高效部署嵌套大语言模型

原标题: S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models

作者: Parsa Kavehzadeh, Mohammadreza Pourreza, Mojtaba Valipour, Tinashu Zhu, Haoli Bai, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh

摘要: 部署自回归大语言模型（LLMs）是昂贵的，随着这些模型的增大，相关成本将变得更加可观。因此，已经提出了不同的方法来加速标记生成过程并降低成本。猜测解码（SD）是加快LLM解码过程的最有前途的方法之一，它通过并行验证多个标记并使用辅助较小的草稿模型生成可能的标记。在SD中，通常一个草稿模型用于为特定目标模型提供服务；然而，在实践中，LLMs是多样的，我们可能需要处理许多目标模型或同时处理多个目标模型。在这种情况下，不清楚应该为哪个目标模型使用哪个草稿模型，搜索不同的草稿模型或训练定制的草稿模型可能会进一步增加部署成本。在本文中，我们首先介绍了一种用于更快推断的草稿模型部署的新型多目标场景。然后，我们提出了一种新颖、更高效的排序猜测解码机制，在多目标设置中优于常规基线。我们在不同设置下的Spec-Bench上评估了我们的方法，包括Vicuna 7B、13B和LLama Chat 70B等基础模型。我们的结果表明，我们的草稿模型在同时为多个目标模型提供服务时表现优于基线。

论文链接: https://arxiv.org/pdf/2407.01955

AdaCQR：通过稀疏和密集检索对话式搜索增强查询重构

原标题: AdaCQR: Enhancing Query Reformulation for Conversational Search via Sparse and Dense Retrieval Alignment

作者: Yilong Lai, Jialong Wu, Congzhi Zhang, Haowen Sun, Deyu Zhou

机构: 东南大学

摘要: 会话式查询重构（CQR）在解决会话式搜索的挑战方面取得了显著进展，特别是那些源自潜在用户意图和对历史上下文的需求的挑战。最近的研究旨在通过对齐来提高CRQ的性能。然而，它们设计用于特定检索系统，这可能导致泛化能力较差。为了克服这一限制，我们提出了一种新颖的框架AdaCQR。通过将重构模型与基于术语和基于语义的检索系统进行对齐，AdaCQR通过双阶段训练策略增强了信息查询在不同检索环境中的泛化能力。我们还开发了两种有效的方法来获取优越的标签和多样的输入候选项，提高了框架的效率和鲁棒性。对TopiOCQA和QReCC数据集的实验评估表明，AdaCQR明显优于现有方法，在会话式查询重构方面提供了定量和定性改进。

论文链接: https://arxiv.org/pdf/2407.01965

Github: https://github.com/init0xyz/AdaCQR

高效共情：朝着高效和有效选择共情数据的方向

原标题: Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data

作者: Linzhuang Sun, Hao Liang, Jingxuan Wei, Linkun Sun, Bihui Yu, Bin Cui, Wentao Zhang

机构: 中国科学院大学北京大学中国科学院信息工程研究所

摘要: 近年来，随着大语言模型（LLMs）的快速发展，实现出色的共情响应能力已成为一个至关重要的先决条件。因此，管理和理解大规模视频数据集变得日益重要。然而，共情数据通常在没有进行质量选择的情况下进行训练，导致数据利用效率低下，浪费计算资源。此外，使用原始数据可能导致共情对话表现不佳。在这项工作中，我们提出了一种基于理性和合理性评分的数据选择算法 Efficient-Empathy，该算法自动选择合理性和理性性数据，同时丢弃低质量数据。仅使用合理性数据（完整数据集的59%），我们训练的合理性模型有效地实现了最先进的性能。此外，通过多个数据选择超参数，合理性模型展示了最先进的性能，展示了我们方法的稳健性。通过将合理性和理性性数据与 MoE 结构相结合，我们实现了更高的性能，展示了我们 Efficient-Empathy 算法的有效性。

论文链接: https://arxiv.org/pdf/2407.01937

提取和编码：利用大语言模型和医学知识增强放射学文本表示

原标题: Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation

作者: Pablo Messina, René Vidal, Denis Parra, Álvaro Soto, Vladimir Araujo

机构: 智利天主教大学宾夕法尼亚大学 KU鲁汶大学智利智能医疗工程千年研究所智利人工智能国家中心

摘要: 在医学等专业领域推进表示学习仍然具有挑战性，因为文本和图像的专家注释稀缺。为了解决这个问题，我们提出了一个新颖的两阶段框架，旨在从放射学报告的自由文本中提取高质量的事实性陈述，以改进文本编码器的表示，并因此提高它们在各种下游任务中的性能。在第一阶段，我们提出了一个利用大语言模型（LLMs）从精心策划的领域特定数据集中识别事实性陈述的\textit{事实提取器}。在第二阶段，我们引入了一个基于经过设计的目标函数对其表示进行改进的提取事实数据的 BERT 模型微调的\textit{事实编码器}（CXRFE）。我们的框架还包括一个基于嵌入的新度量标准（CXRFEScore），用于评估胸部 X 光文本生成系统，利用我们方法的两个阶段。广泛的评估表明，我们的事实提取器和编码器在句子排序、自然语言推理和从放射学报告中提取标签等任务中优于当前最先进的方法。此外，我们的度量标准证明比放射学报告生成文献中常用的现有度量标准更稳健和有效。该项目的代码可在\url{this https URL}上找到。

论文链接: https://arxiv.org/pdf/2407.01948

Github: https://github.com/PabloMessina/CXR-Fact-Encoder

当我们谈论语言模型时，我们在谈论什么：隐性范式转变和语言模型之船

原标题: What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models

作者: Shengqi Zhu, Jeffrey M. Rzeszotarski

机构: 康奈尔大学

摘要: 语言模型（LMs）这一术语作为一组特定时间的感兴趣模型，不断被重新定义，其指代对象更新，就像 $\textit{忒修斯之船}$ 更换部件但本质上仍然是同一艘船一样。在本文中，我们调查了这个 $\textit{语言模型之船}$ 问题，其中科学进化以对关键现有术语的持续、隐式的改造形式呈现。我们试图引入一种新颖的科学进步视角，除了更加深入研究新术语的出现之外。为此，我们基于最近的自然语言处理出版物构建了数据基础设施。然后，我们进行了一系列基于文本的分析，以深入、定量地了解语言模型作为一种艺术术语的使用情况。我们的工作突显了系统和理论如何在科学论述中相互影响，并呼吁关注我们所有人都在努力改变的这艘船的转变。

论文链接: https://arxiv.org/pdf/2407.01929

研究大规模伪立体数据和不同语音基础模型对对话生成口语模型的影响

原标题: Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model

作者: Yu-Kuan Fu, Cheng-Kuang Lee, Hsiu-Hsuan Wang, Hung-yi Lee

机构: NVIDIA 台湾大学

摘要: 最近在口语对话建模方面的努力旨在合成口语对话，而无需进行直接转录，从而保留言语中固有的丰富非文本信息。然而，当说话者同时交谈时，这种方法面临挑战，需要立体对话数据，其中说话者分别记录在不同的声道上，这是一种明显稀缺的资源。为了解决这个问题，我们开发了一种创新的流程，能够将单声道对话数据转换为伪立体数据。这将我们的训练数据集从仅有的 2,000 小时扩展到令人印象深刻的 17,600 小时，显著丰富了可用的训练示例的多样性和质量。包含这些伪立体数据已被证明能够有效提高口语对话语言模型的性能。此外，我们探索了使用不同语音基础模型的离散单元进行口语对话生成。

论文链接: https://arxiv.org/pdf/2407.01911

遗忘还是不遗忘？面向大语言模型的实用知识去除

原标题: To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

作者: Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang

机构: 浙江大学腾讯广平台与内容团队哈尔滨工业大学

摘要: 大语言模型（LLMs）在广泛语料库上训练时不可避免地会保留敏感数据，如个人隐私信息和受版权保护的材料。最近在知识遗忘方面取得的进展涉及更新LLM参数以消除特定知识。然而，当前的遗忘范式深陷于模糊的遗忘边界中，经常会不加区分地擦除知识。在这项工作中，我们介绍了KnowUnDo，一个包含受版权保护内容和用户隐私领域的基准，以评估遗忘过程是否无意中擦除了重要知识。我们的研究结果表明，现有的遗忘方法经常受到过度遗忘的困扰。为了解决这个问题，我们提出了一种简单而有效的方法MemFlex，它利用梯度信息精确地定位和遗忘敏感参数。实验结果表明，MemFlex在LLMs的精确知识遗忘和通用知识保留方面优于现有方法。代码和数据集将在此https网址发布。

论文链接: https://arxiv.org/pdf/2407.01920

Github: https://github.com/zjunlp/KnowUnDo

使用大语言模型进行中文语音识别中的拼音规范化错误校正

原标题: Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models

作者: Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang

机构: 腾讯以太音频实验室清华大学声语技术中心

摘要: 最近的研究表明，大语言模型（LLMs）在自动语音识别（ASR）的错误校正中表现出了高效性。然而，大部分研究都集中在英语上。本文将注意力转向了中文。首先，我们构建了一个专门针对中文ASR错误校正的基准数据集，名为Chinese Hypotheses Paradise dataset（ChineseHP），其中包含724K个假设-转录对，涵盖了各种场景并提出了重大挑战。随后，我们使用该数据集对直接提示和微调预训练的LLMs进行了初步评估。此外，我们提出了一种简单的拼音规范化方法，用于提示，该方法涉及直接从文本假设中转录拼音。实验结果显示，与没有规范化的情况相比，拼音规范化始终提高了LLMs的纠错能力。该数据集可在网站上获取。

论文链接: https://arxiv.org/pdf/2407.01909

让专家专注于自己的领域：专家专用的稀疏架构大语言模型微调

原标题: Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

作者: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu

机构: DeepSeek AI Northwestern University

摘要: 参数高效微调（PEFT）对于在资源受限情况下定制大语言模型（LLMs）至关重要。尽管针对密集架构LLMs存在各种PEFT方法，但对于稀疏架构LLMs的PEFT仍未被充分探索。在这项工作中，我们研究了Mixture-of-Experts（MoE）架构LLMs的PEFT方法，本工作的内容主要包括三个方面：（1）我们调查了定制任务中激活专家的分散程度，发现特定任务的路由分布往往高度集中，而激活专家的分布在不同任务之间变化显著。（2）我们提出了专家专门化微调（ESFT），该方法调整与下游任务最相关的专家，同时冻结其他专家和模块；实验结果表明，我们的方法不仅提高了调整效率，而且与全参数微调的性能相匹敌甚至超越。（3）我们进一步分析了MoE架构对专家专门化微调的影响。我们发现，具有更精细专家的MoE模型在选择与下游任务最相关的专家组合方面更具优势，从而提高了训练效率和效果。

论文链接: https://arxiv.org/pdf/2407.01906

扩展范围的DRT组合语义解析

原标题: Scope-enhanced Compositional Semantic Parsing for DRT

作者: Xiulin Yang, Jonas Groschwitz, Alexander Koller, Johan Bos

机构: 乔治城大学阿姆斯特丹大学萨尔兰大学根特大学维斯特伦大学

摘要: 话语表示理论（DRT）通过结构嵌套和变量绑定的能力，能够模拟复杂的语义和话语现象，从而与其他语义表示框架区分开来。虽然 seq2seq 模型在 DRT 解析方面处于领先地位，但随着句子复杂度的增加，它们的准确性会下降，有时难以产生形式良好的 DRT 表示。我们引入了 AMS 解析器，这是一个用于 DRT 的组合式神经符号语义解析器。它基于一种用于预测量词作用域的新颖机制。我们展示了 AMS 解析器可可靠地产生形式良好的输出，并在 DRT 解析方面表现良好，尤其是在处理复杂句子时。

论文链接: https://arxiv.org/pdf/2407.01899

2024年第二届SciCAP竞赛的提案报告

原标题: Proposal Report for the 2nd SciCAP Competition 2024

作者: Pengpeng Li, Tingmin Li, Jingyuan Wang, Boyuan Wang, Yang Yang

机构: 南京理工大学

摘要: 在这篇论文中，我们提出了一种利用辅助信息进行文档摘要的方法。这种方法有效地总结了长文本中与特定图像、表格和附录相关的描述。我们的实验表明，利用高质量的OCR数据和最初从原始文本中提取的信息，能够有效地总结与描述对象相关的内容。基于这些发现，我们通过加入额外的辅助分支来改进流行的文本生成模型，从而提高摘要性能。我们的方法在2024年SciCAP竞赛的长标题和短标题赛道中分别获得了4.33和4.66的最高分，两个类别均排名第一。

论文链接: https://arxiv.org/pdf/2407.01897

大语言模型知识蒸馏调查：方法、评估和应用

原标题: Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application

作者: Chuanpeng Yang, Wang Lu, Yao Zhu, Yidong Wang, Qian Chen, Chenlong Gao, Bingjie Yan, Yiqiang Chen

机构: 中国科学院信息工程研究所中国科学院大学网络空间安全学院清华大学浙江大学北京大学中国科学院计算技术研究所中国科学院大学

摘要: 大语言模型（LLMs）在各个领域展示了出色的能力，吸引了学术界和工业界的重要关注。尽管它们表现出色，但由于LLMs的巨大规模和计算需求，对于在资源有限的环境中进行实际部署提出了相当大的挑战。在保持准确性的同时压缩语言模型的努力已成为研究的焦点。在各种方法中，知识蒸馏已经成为一种有效的技术，可以提高推理速度而不会大幅牺牲性能。本文从方法、评估和应用三个方面全面调查了专门针对LLMs量身定制的知识蒸馏技术。具体来说，我们将方法分为白盒知识蒸馏和黑盒知识蒸馏，以更好地阐明它们之间的区别。此外，我们还探讨了不同蒸馏方法之间的评估任务和蒸馏效果，并提出了未来研究的方向。通过深入了解最新进展和实际应用，本调查为研究人员提供了宝贵的资源，为该领域的持续进展铺平道路。

论文链接: https://arxiv.org/pdf/2407.01885

比较而非绝望：具有生成可分离性的可靠偏好评估

原标题: Compare without Despair: Reliable Preference Evaluation with Generation Separability

作者: Sayan Ghosh, Tejas Srinivasan, Swabha Swayamdipta

机构: 南加州大学计算机科学系

摘要: 人类通过成对偏好判断对生成的语言进行评估是普遍存在的。然而，在常见情况下，例如当模型对生成物非常相似时，或者当随机解码导致生成物有很大变化时，会导致偏好评分不一致。我们通过引入一种元评估度量，即可分性，来解决这些挑战，它估计了一个测试实例对于成对偏好评估的适用性。对于一个候选测试实例，可分性从一对模型中抽样多个生成物，并测量这两组生成物有多容易区分。我们的实验表明，具有较高可分性值的实例能够从人类评分者和自动评分者那里获得更一致的偏好评分。此外，可分性的分布可以揭示哪些测试基准对比较模型更有价值。最后，我们将可分性纳入到ELO评分中，考虑每个测试实例可能对LLM进行可靠排名的适用性。总的来说，可分性对于使用人类评分者和自动评分者对LLM进行一致、高效和稳健的偏好评估具有重要意义。

论文链接: https://arxiv.org/pdf/2407.01878

LogEval：用于大语言模型在日志分析中的全面基准套件

原标题: LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis

作者: Tianyu Cui, Shiyu Ma, Ziang Chen, Tong Xiao, Shimin Tao, Yilun Liu, Shenglin Zhang, Duoming Lin, Changchang Liu, Yuzhe Cai, Weibin Meng, Yongqian Sun, Dan Pei

机构: 南开大学清华大学华为

摘要: 日志分析对于确保信息系统的有序稳定运行至关重要，特别是在信息技术运营人工智能（AIOps）领域。大语言模型（LLMs）在自然语言处理任务中展现出了显著潜力。在AIOps领域，它们在异常检测、故障根本原因分析、运维脚本生成和警报信息总结等任务中表现出色。然而，当前大语言模型在日志分析任务中的性能尚未得到充分验证。为了填补这一空白，我们引入了LogEval，这是一个全面的基准套件，旨在首次评估大语言模型在各种日志分析任务中的能力。该基准涵盖了日志解析、日志异常检测、日志故障诊断和日志总结等任务。LogEval使用了4,000条公开可用的日志数据条目对每个任务进行评估，并为每个任务采用了15个不同的提示，以确保进行彻底和公正的评估。通过严格评估领先的大语言模型，我们展示了各种大语言模型技术对日志分析性能的影响，重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英问答评估和提示工程相关的发现。这些发现揭示了大语言模型在多语言环境中的优势和劣势，以及不同提示策略的有效性。针对不同任务采用了各种评估方法，以准确衡量大语言模型在日志分析中的性能，确保进行全面评估。从LogEval的评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性，为研究人员和实践者提供了宝贵的指导。

论文链接: https://arxiv.org/pdf/2407.01896

VSP：评估大语言模型在空间规划任务中感知和推理的双重挑战

原标题: VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs

作者: Qiucheng Wu, Handong Zhao, Michael Saxon, Trung Bui, William Yang Wang, Yang Zhang, Shiyu Chang

机构: 加州大学圣巴巴拉分校 Adobe Research MIT-IBM沃森人工智能实验室

摘要: 视觉语言模型（VLMs）是一类令人兴奋的新兴语言模型（LMs），它们将经典的语言模型能力与图像处理系统的能力相结合。然而，这些能力的结合方式并不总是直观的，值得进行直接调查。VLMs中一个鲜为人知的能力是视觉空间规划——即理解物体的空间布局并制定行动计划以实现视觉场景中的期望结果的能力。在我们的研究中，我们引入了VSP，一个基准，用于评估这些模型中的空间规划能力，并将视觉规划任务细分为更细粒度的子任务，包括感知和推理，并测量这些子任务中LMs的能力。我们的评估显示，无论是开源还是私有的VLMs，都未能为甚至简单的空间规划任务生成有效的计划。对细粒度分析任务的评估进一步揭示了模型在视觉感知和推理能力方面的基本缺陷，解释了它们在一般空间规划任务中表现较差的原因。我们的工作为改进VLMs在空间规划方面的能力指明了未来方向。我们的基准公开可用于此https URL。

论文链接: https://arxiv.org/pdf/2407.01863

Github: https://github.com/UCSB-NLP-Chang/Visual-Spatial-Planning

理解多模态大语言模型中的对齐：一项全面研究

原标题: Understanding Alignment in Multimodal LLMs: A Comprehensive Study

作者: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch

机构: 苹果公司

摘要: 偏好对齐已成为提升大语言模型（LLMs）性能的关键组成部分，然而在多模态大语言模型（MLLMs）中的影响相对较少被探索。类似于语言模型，用于图像理解任务的MLLMs遇到幻觉等挑战。在MLLMs中，幻觉不仅可能通过陈述不正确的事实而发生，还可能通过产生与图像内容不一致的响应而发生。MLLMs对齐的一个主要目标是鼓励这些模型更紧密地与图像信息对齐响应。最近，多项研究为MLLMs引入了偏好数据集，并研究了不同的对齐方法，包括直接偏好优化（DPO）和近端策略优化（PPO）。然而，由于数据集、基础模型类型和对齐方法的变化，仍不清楚这些工作中哪些具体元素对所报道的改进贡献最显著。在本文中，我们独立分析了MLLMs中偏好对齐的每个方面。我们首先将对齐算法分为两组，离线（如DPO）和在线（如在线-DPO），并表明结合离线和在线方法可以在某些场景中提高模型的性能。我们回顾了各种已发表的多模态偏好数据集，并讨论了它们构建细节如何影响模型性能。基于这些见解，我们介绍了一种称为偏见驱动幻觉采样（BDHS）的新型创建多模态偏好数据的方法，它既不需要额外的注释也不需要外部模型，并表明它可以在一系列基准测试中达到与先前发表的多模态模型对齐工作竞争性能。

论文链接: https://arxiv.org/pdf/2407.02477

你的AI生成的代码真的安全吗？评估大语言模型在安全代码生成上的表现与CodeSecEval

原标题: Is Your AI-Generated Code Really Secure? Evaluating Large Language Models on Secure Code Generation with CodeSecEval

作者: Jiexin Wang, Xitong Luo, Liuwen Cao, Hongkui He, Hailin Huang, Jiayuan Xie, Adam Jatowt, Yi Cai

机构: 南方科技大学奥地利因斯布鲁克大学

摘要: 大语言模型（LLMs）在代码生成和代码修复方面取得了显著进展，使得初学者和经验丰富的开发人员都受益。然而，它们使用来自开源代码库（如GitHub）的未经过筛选的数据进行训练，存在意外传播安全漏洞的风险。尽管有许多研究调查了代码LLMs的安全性，但在全面解决其安全特性方面仍存在差距。在这项工作中，我们旨在进行一项全面研究，精确评估和增强代码LLMs的安全方面。为了支持我们的研究，我们引入了CodeSecEval，这是一个精心策划的数据集，旨在涵盖44种关键漏洞类型，包含180个不同样本。CodeSecEval作为自动评估代码模型在两个关键任务中的基础：代码生成和代码修复，重点关注安全性。我们的实验结果显示，当前模型在代码生成和修复过程中经常忽视安全问题，导致产生易受攻击的代码。作为回应，我们提出了利用漏洞感知信息和不安全代码解释的不同策略，以减轻这些安全漏洞。此外，我们的研究结果突出显示，某些漏洞类型特别挑战模型的性能，影响它们在实际应用中的有效性。基于这些发现，我们相信我们的研究将对软件工程社区产生积极影响，激发改进LLMs训练和利用方法的发展，从而实现更安全、更可信赖的模型部署。

论文链接: https://arxiv.org/pdf/2407.02395

SafaRi：用于弱监督指代表达分割的自适应序列Transformer

原标题: SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

作者: Sayan Nag, Koustava Goswami, Srikrishna Karanam

机构: 多伦多大学 Adobe Research

摘要: 指代表达分割（RES）旨在为文本所指的图像中的目标对象提供分割蒙版。现有方法需要大规模的蒙版标注。此外，这种方法并不很好地推广到未见过的/零样本情况。为了解决上述问题，我们提出了一种弱监督引导架构，其中包含几种新的算法创新。据我们所知，我们的方法是第一种仅考虑部分蒙版和框注释（如图1和表1所示）用于训练的方法。为了在这种低注释设置下实现模型的合理训练，改进图像文本区域级对齐，并进一步增强图像中目标对象的空间定位，我们提出了带有注意力一致性的跨模态融合模块。为了对未标记样本进行自动伪标记，我们引入了一种基于空间感知零样本提案评分方法的新型蒙版有效性过滤例程。大量实验证明，仅使用30%的注释，我们的模型 SafaRi 在 RefCOCO+@testA 和 RefCOCO+testB 数据集上分别达到了59.31 和 48.26 的 mIoU，而完全监督的 SOTA 方法 SeqTR 分别获得了58.93 和 48.19 的 mIoU。SafaRi 在未见过的/零样本任务中也比 SeqTR 在完全监督设置下分别提高了11.7%（在 RefCOCO+testA 上）和19.6%（在 RefCOCO+testB 上），展现了强大的泛化能力。

论文链接: https://arxiv.org/pdf/2407.02389

使用完全由文本控制的旋律合成伴唱声音

原标题: Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

作者: Ruiqi Li, Zhiqing Hong, Yongqi Wang, Lichao Zhang, Rongjie Huang, Siqi Zheng, Zhou Zhao

机构: 浙江大学阿里巴巴集团

摘要: 文本转歌曲（TTSong）是一项音乐生成任务，合成伴奏歌声。当前的TTSong方法，继承自歌声合成（SVS），需要与旋律相关的信息，有时可能不太实用，比如乐谱或MIDI序列。我们提出了MelodyLM，这是第一个能够生成高质量歌曲片段的TTSong模型，完全由文本控制旋律，实现了最小的用户需求和最大的控制灵活性。MelodyLM明确地将MIDI建模为中间的与旋律相关的特征，并以语言模型的方式顺序生成声乐轨，条件是文本和声乐提示。伴奏音乐随后由具有混合调节的潜在扩散模型合成，以实现时间对齐。用户只需输入歌词和参考声音即可合成歌曲样本，实现最小的需求。要实现完全控制，只需输入文本提示，甚至直接输入MIDI。实验结果表明，MelodyLM在客观和主观指标方面均表现出优异性能。音频样本可在此网址找到。

论文链接: https://arxiv.org/pdf/2407.02049

Github: https://melodylm666.github.io

使用在线策略和主动学习构建具有成本效益的代理奖励模型

原标题: Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

作者: Yifang Chen, Shuohang Wang, Ziyi Yang, Hiteshi Sharma, Nikos Karampatziakis, Donghan Yu, Kevin Jamieson, Simon Shaolei Du, Yelong Shen

机构: 华盛顿大学微软公司

摘要: 强化学习与人类反馈（RLHF）作为当前大型语言模型管线中被广泛采用的方法，受到人类偏好数据规模的限制。传统方法依赖于离线偏好数据集构建，而最近的方法已经转向在线设置，其中学习者使用少量标记种子数据和大量未标记提示，通过自动生成的响应和高质量奖励/偏好反馈迭代地构建新的偏好数据。然而，大多数当前的在线算法仍侧重于在给定反馈预言者的情况下进行偏好标记，这会带来显著的专家查询成本。我们是第一个探索成本效益代理奖励预言者构建策略，用极少的标记数据和专家查询预算进一步标记偏好或奖励的。我们的方法引入了两个关键创新：（1）基于政策的查询，避免种子数据中的OOD和不平衡问题，以及（2）主动学习，选择最具信息量的数据进行偏好查询。利用这些方法，我们训练了一个评估模型，只需极少的专家标记数据，就能有效地为进一步的RLHF训练标记出九倍多的偏好对。例如，我们的模型使用直接偏好优化（DPO）在AlpacaEval2、MMLU-5shot和MMLU-0shot上平均提升了超过1%，仅需1.7K的查询成本。我们的方法与其他基于直接专家查询的策略正交，因此可以与它们集成以进一步降低查询成本。

论文链接: https://arxiv.org/pdf/2407.02119

神经符号知识图谱完成的简单逻辑规则增强

原标题: Simple Augmentations of Logical Rules for Neuro-Symbolic Knowledge Graph Completion

作者: Ananjan Nandi, Navdeep Kaur, Parag Singla, Mausam

机构: 印度理工学院，德里中文：印度理工学院，德里

摘要: 高质量和高覆盖率的规则集对于神经符号知识图完成（NS-KGC）模型的成功至关重要，因为它们构成了所有符号推理的基础。最近的文献构建了用于生成规则集的神经模型，然而，初步实验表明它们在保持高覆盖率方面存在困难。在这项工作中，我们建议对现有规则集进行三项简单的增强：（1）将规则转换为它们的推导形式，（2）生成使用组成关系的逆形式的等效规则，以及（3）提出新规则的随机游走。最后，我们修剪潜在质量低的规则。对四个数据集和五个规则集基线设置的实验表明，这些简单的增强始终改善结果，并且相对于不使用增强规则，获得高达7.1个百分点的MRR和8.5个百分点的Hits@1增益。

论文链接: https://arxiv.org/pdf/2407.01994

确定地不确定：多模态认识和认知意识的基准和度量

原标题: Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness

作者: Khyathi Raghavi Chandu, Linjie Li, Anas Awadalla, Ximing Lu, Jae Sung Park, Jack Hessel, Lijuan Wang, Yejin Choi

机构: 艾伦人工智能研究所华盛顿大学萨玛亚人工智能微软

摘要: 承认其知识和推理中不可避免的不确定性能力是 AI 系统真实可靠的先决条件。在本文中，我们提出了一种针对视觉-语言 AI 系统的不确定性分类法，区分了认识论不确定性（由于信息不足而产生）和随机性不确定性（由于固有的不可预测性），并进一步探讨了更精细的类别。基于这种分类法，我们合成了一个基准数据集CertainlyUncertain，包含了178K个视觉问答（VQA）样本作为对比对。这是通过以下方式实现的：1）修补图像，使先前可回答的问题变成不可回答的问题；2）使用图像标题提示大型语言模型回答可回答和不可回答的问题。此外，我们引入了一种新的度量标准置信加权准确率，与准确性和校准误差都有很好的相关性，以解决现有度量标准的缺陷。

论文链接: https://arxiv.org/pdf/2407.01942

SoP: 解锁社会促进的力量，实现自动越狱攻击

原标题: SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack

作者: Yan Yang, Zeguan Xiao, Xin Lu, Hongru Wang, Hailiang Huang, Guanhua Chen, Yun Chen

机构: 上海财经大学香港中文大学南方科技大学蚂蚁集团

摘要: 大语言模型（LLMs）的广泛应用引发了人们对其潜在误用的担忧。尽管在发布之前与人类偏好数据保持一致，LLMs 仍然容易受到各种恶意攻击。本文采用红队策略来增强LLM的安全性，并引入了SoP，这是一个简单而有效的框架，可以自动设计越狱提示。受社会促进概念启发，SoP 生成并优化多个越狱角色，以绕过目标LLM的防护栏。与先前依赖专有LLMs或人类专业知识制定的种子越狱模板不同，SoP 可以在冷启动场景中使用开源LLMs生成和优化越狱提示，而无需任何种子越狱模板。实验结果显示，SoP 在绕过GPT-3.5-1106和GPT-4的安全对齐方面分别实现了88%和60%的攻击成功率。此外，我们广泛评估了生成的模板在不同LLMs和保留的恶意请求之间的可转移性，同时探讨了针对SoP设计的越狱攻击的防御策略。代码可在此 https URL找到。

论文链接: https://arxiv.org/pdf/2407.01902

Github: https://github.com/Yang-Yan-Yang-Yan/SoP

GRASP：用于评估常识空间推理的基于网格的基准测试

原标题: GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning

作者: Zhisheng Tang, Mayank Kejriwal

机构: 南加州大学维特比工程学院信息科学研究所

摘要: 空间推理是人类认知的重要能力，具有许多实际应用，是一种不纯粹基于语言的核心常识技能，对于满足（而非最优）解决方案，需要一定程度的规划。现有的常识空间推理（CSR）基准往往评估大语言模型（LLMs）如何解释基于文本的空间描述，而不是直接评估LLM对空间推理场景产生的计划。在本文中，我们构建了一个名为 $\textbf{GRASP}$ 的大规模基准，其中包含16,000个基于网格的环境，代理人的任务是解决一个能源收集问题。这些环境包括100个网格实例，每个实例使用了160种不同的网格设置，涉及五种不同的能源分布，两种代理人起始位置模式，两种不同的障碍配置，以及三种代理人约束类型。使用GRASP，我们将经典基准方法（如随机漫步和贪婪搜索方法）与先进的LLMs（如GPT-3.5-Turbo和GPT-4o）进行比较。实验结果表明，即使是这些先进的LLMs也难以始终实现令人满意的解决方案。

论文链接: https://arxiv.org/pdf/2407.01892

超越数字奖励：具有大语言模型智能体的上下文对战对决

原标题: Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents

作者: Fanzeng Xia, Hao Liu, Yisong Yue, Tongxin Li

机构: 香港中文大学（深圳）加州理工学院

摘要: 在上下文决策是人工通用智能的重要能力，大语言模型（LLMs）在各种场景中有效展示了这一点。然而，LLMs在处理数字上下文时经常面临挑战，而且对通过环境生成的偏好反馈来评估它们的表现的关注有限。本文调查了LLMs作为决策者在Dueling Bandits（DB）背景下的表现。我们首先通过比较GPT-3.5-Turbo、GPT-4和GPT-4-Turbo与已建立的DB算法来评估LLMs的表现。我们的结果显示，特别是GPT-4 Turbo，LLMs能够快速识别Condorcet赢家，从而在弱后悔方面优于现有的最先进算法。然而，LLMs在明确提示下甚至在收敛时也很困难，并且对提示变化敏感。为了克服这些问题，我们引入了一种LLM增强算法，IF-Enhanced LLM，它充分利用了LLMs的上下文决策能力和从经典DB算法继承的理论保证。这种算法的设计揭示了如何增强LLMs在性能稳健性至关重要的决策任务中的可信度。我们展示了IF-Enhanced LLM在弱后悔和强后悔方面都具有理论保证。我们的实验结果验证了IF-Enhanced LLM即使在有噪声和对抗性提示的情况下也很稳健。

论文链接: https://arxiv.org/pdf/2407.01887

在生成式人工智能盛行的时代，针对 GPU 资源匮乏的自动化文本评分

原标题: Automated Text Scoring in the Age of Generative AI for the GPU-poor

作者: Christopher Michael Ormerod, Alexander Kwako

摘要: 目前关于用于自动化文本评分（ATS）的生成式语言模型（GLMs）的研究几乎完全集中在通过应用程序编程接口（API）查询专有模型上。然而，这种做法引发了透明性和安全性方面的问题，而这些方法在效率或可定制性方面提供的帮助甚微。随着较小的开源模型的日益普及，有了探索GLMs的可能性，这些模型可以在配备一般消费级硬件的计算机上运行，也就是说，适用于“GPU贫乏”的情况。在这项研究中，我们分析了用于ATS的开源、小规模GLMs的性能和效率。结果显示，GLMs可以进行微调以达到足够的性能，尽管并非最先进。除了ATS，我们还朝着分析模型生成反馈的能力迈出了一小步，通过促使GLMs解释其评分。模型生成的反馈显示出潜力，但需要更严格的评估，重点放在有针对性的用例上。

论文链接: https://arxiv.org/pdf/2407.01873