2024年6月24日Arxiv语言模型相关论文

最新推荐文章于 2024-12-27 18:04:06 发布

数智笔记

最新推荐文章于 2024-12-27 18:04:06 发布

阅读量1.3k

点赞数 9

分类专栏：论文速递文章标签：语言模型

本文链接：https://blog.csdn.net/wjjc1017/article/details/139920787

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

cs.CL: 语言模型的认知地图：通过口头表达世界模型进行最优规划

原标题: Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model

作者: Doyoung Kim, Jongwon Lee, Jinho Park, Minjoon Seo

机构: 韩国科学技术院（KAIST）三星研究

摘要: 语言模型在各种自然语言处理任务中展示了令人印象深刻的能力，但在需要多步模拟的规划任务中却表现出困难。受人类认知过程的启发，本文研究了能够构建给定环境的认知地图的语言模型的最佳规划能力。我们的实验表明，认知地图显著增强了网格世界路径规划任务中最佳和可达规划生成能力的性能。我们观察到我们的方法展示了两个与人类认知类似的关键特征：将其规划能力推广到外推环境，并在有限的训练数据下快速适应。我们希望我们在网格世界任务中的发现能够深入了解语言模型中建模人类认知过程的见解，可能导致开发更先进和更健壮的系统，更好地类似于人类认知。

论文链接: https://arxiv.org/pdf/2406.15275

cs.CL: LongRAG: 使用长上下文大语言模型增强检索增强生成

原标题: LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

作者: Ziyan Jiang, Xueguang Ma, Wenhu Chen

机构: 滑铁卢大学

摘要: 在传统的RAG框架中，基本的检索单元通常很短。像DPR这样的常见检索器通常与100个单词的维基百科段落一起工作。这样的设计迫使检索器在大语料库中搜索以找到“needle”单元。相比之下，读者只需要从短检索单元中提取答案。这种不平衡的“重型”检索器和“轻型”读者设计可能导致次优性能。为了缓解这种不平衡，我们提出了一个新的框架LongRAG，由一个“长检索器”和一个“长读者”组成。LongRAG将整个维基百科处理成4K令牌单元，比以前长30倍。通过增加单元大小，我们将总单元数量从22M减少到700K。这显著降低了检索器的负担，从而导致了显著的检索得分：NQ上的答案召回率@1=71%（之前为52%），HotpotQA（全维基）上的答案召回率@2=72%（之前为47%）。然后我们将前k个检索到的单元（约30K令牌）馈送给现有的长上下文LLM来执行零样本答案提取。在不需要任何训练的情况下，LongRAG在NQ上实现了62.7%的EM，这是已知的最佳结果。LongRAG在HotpotQA（全维基）上也实现了64.3%，与SoTA模型持平。我们的研究为将RAG与长上下文LLM相结合的未来路线图提供了见解。

论文链接: https://arxiv.org/pdf/2406.15319

cs.CL: 希腊语播客语料库：使用弱监督数据的低资源语言竞争性语音模型

原标题: The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data

作者: Georgios Paraskevopoulos, Chara Tsoukala, Athanasios Katsamanis, Vassilis Katsouros

机构: 希腊雅典研究中心

摘要: 针对数字表现有限语言的语音技术发展面临显著挑战，主要原因是可用数据的稀缺性。在大数据密集型模型时代，这一问题更加严重。最近的研究强调了利用弱监督来增加可用数据的潜力。在本研究中，我们从播客中编制了一个800小时的现代希腊语语料库，并使用Whisper large-v3生成银标注文本。该语料库用于微调我们的模型，旨在评估这一方法在提高自动语音识别性能方面的有效性。我们的分析涵盖了16个不同的播客领域，同时在现代希腊语的已建立数据集上进行评估。研究结果表明，随着数据量和模型规模的增加，词错误率（WER）持续改善。我们的研究证实，编制大规模、弱监督的语料库是推进资源匮乏语言语音技术的一种成本效益高的策略。

论文链接: https://arxiv.org/pdf/2406.15284

cs.CL: NLP-KG：一种用于自然语言处理科学文献的探索性搜索系统

原标题: NLP-KG: A System for Exploratory Search of Scientific Literature in Natural Language Processing

作者: Tim Schopf, Florian Matthes

机构: 慕尼黑工业大学计算机科学系德国

摘要: 科学文献搜索通常是探索性的，用户可能对特定领域或概念尚不熟悉，但有兴趣了解更多。然而，现有的科学文献搜索系统通常只适用于基于关键词的查找搜索，限制了探索的可能性。我们提出了 NLP-KG，这是一个功能丰富的系统，旨在支持对不熟悉的自然语言处理（NLP）领域的研究文献进行探索。除了语义搜索外，NLP-KG 还允许用户轻松找到提供对感兴趣领域快速介绍的综述论文。此外，一个研究领域层次图使用户能够熟悉一个领域及其相关领域。最后，一个聊天界面允许用户就不熟悉的概念或特定的 NLP 文章提出问题，并从科学出版物中获取的知识得到答案。我们的系统为用户提供了全面的探索可能性，支持他们调查不同领域之间的关系，理解 NLP 中的不熟悉概念，并找到相关的研究文献。演示、视频和代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.15294

Github: https://github.com/NLP-Knowledge-Graph/NLP-KG-WebApp

cs.CL: 一个 SMART 记忆法听起来像“胶水汤尼克”：将大语言模型与学生反馈混合，使记忆法学习更加粘性

原标题: A SMART Mnemonic Sounds like “Glue Tonic”: Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick

作者: Nishant Balepur, Matthew Shu, Alexander Hoyle, Alison Robey, Shi Feng, Seraphina Goldfarb-Tarrant, Jordan Boyd-Graber

机构: 马里兰大学耶鲁大学纽约州立大学帝国分校纽约大学 Cohere

摘要: 关键词记忆法是将新术语与更简单的关键词联系起来的易记解释。以往的研究生成了学生的记忆法，但它们并没有引导模型朝着学生偏好的记忆法方向并帮助学习。我们构建了SMART，一个记忆法生成器，它是根据真实学生学习新术语的反馈进行训练的。为了训练SMART，我们首先在一个由用户编写的记忆法精选集上对LLaMA-2进行微调。然后我们使用LLM对齐来增强SMART：我们在一个单词卡应用中部署由SMART生成的记忆法，以找到学生偏好的记忆法。我们从45名学生中收集了2684个偏好，涵盖两种类型：表达的（从评分中推断）和观察的（从学生学习中推断），得出三个关键发现。首先，表达和观察的偏好存在分歧；学生认为有帮助的并不能完全捕捉到真正有帮助的内容。其次，贝叶斯模型可以将来自多种偏好类型的补充数据综合成一个单一的有效信号。SMART通过对这一信号进行直接偏好优化进行调整，我们展示了这种方法解决了典型的两两比较方法中的并列和缺失标签问题，增加了LLM输出质量的数据。第三，记忆法专家评估SMART与GPT-4匹配，而部署成本要低得多，显示了捕捉多样化学生反馈以对齐教育中的LLM的实用性。

论文链接: https://arxiv.org/pdf/2406.15352

cs.CL: 感知神经语音识别模型对音位同化的影响

原标题: Perception of Phonological Assimilation by Neural Speech Recognition Models

作者: Charlotte Pouw, Marianne de Heer Kloots, Afra Alishahi, Willem Zuidema

机构: 阿姆斯特丹大学（University of Amsterdam）蒂尔堡大学（Tilburg University）

摘要: 人类听众在语音感知过程中毫不费力地弥补了语音变化，通常在无意识中推断出预期的声音。例如，听众在听到"clea[m] pan"这样的话语时，会推断出潜在的/n/，其中[m]是由于与后面的唇音[p]的位置同化而产生的。本文探讨了神经语音识别模型Wav2Vec2如何感知同化的声音，并确定了该模型实施的语言知识，以在自动语音识别（ASR）过程中弥补同化。利用心理语言学刺激，我们系统地分析了各种语言环境线索如何影响模型输出中的补偿模式。在补充这些行为实验的同时，我们的探测实验表明，模型在最终层将其对同化声音的解释从其声学形式转变为其潜在形式。最后，我们的因果干预实验表明，模型依赖最少的语音语境线索来实现这种转变。这些发现代表了更好地理解神经ASR模型和人类之间语音加工相似性和差异性的一步。

论文链接: https://arxiv.org/pdf/2406.15265

cs.CL: 评估自动诗歌生成中的多样性

原标题: Evaluating Diversity in Automatic Poetry Generation

作者: Yanran Chen, Hannes Gröner, Sina Zarrieß, Steffen Eger

机构: 曼海姆大学比勒费尔德大学

摘要: 自然语言生成（NLG）和更广泛的生成AI是当前影响最大的研究领域之一。创造性的NLG，如自动诗歌生成，在这一领域是一个迷人的小众。尽管大多数先前的研究集中在图灵测试的形式上，即评估自动诗歌生成是否能让人区分自动生成和人类生成的诗歌，我们通过比较生成诗歌的分布与人类诗歌在结构、词汇、语义和风格维度上的分布来评估自动生成诗歌的多样性，考察不同的模型类型（单词级 vs 字符级、通用大语言模型 vs 专用诗歌模型，包括最新的LLaMA3）以及不同的微调类型（条件 vs 无条件）。我们发现，当前的自动诗歌系统在多个维度上缺乏足够的多样性 - 它们往往押韵不足，语义上过于统一，甚至不能匹配人类诗歌的长度分布。然而，我们的实验显示，风格调节和字符级建模显然在我们探索的几乎所有维度上增加了多样性。我们确定的限制可以作为未来更真正多样化诗歌生成模型的基础。

论文链接: https://arxiv.org/pdf/2406.15267

cs.CL: 无监督形态树标记器

原标题: Unsupervised Morphological Tree Tokenizer

作者: Qingyang Zhu, Xiang Hu, Pengyu Ji, Wei Wu, Kewei Tu

机构: 上海科技大学蚂蚁集团

摘要: 作为语言建模的基石，分词涉及将文本输入分割为预定义的原子单位。传统的统计分词器常常会破坏单词内部的成分边界，从而破坏语义信息。为了解决这一缺陷，我们引入了形态结构指导到分词中，并提出了一个深度模型来诱导单词的字符级结构。具体而言，这个深度模型通过一种名为 $\textit{MorphOverriding}$ 的机制，联合编码单词的内部结构和表示，以确保形态素的不可分解性。通过自监督目标训练模型，我们的方法能够诱导与形态规则一致的字符级结构，而无需标注的训练数据。基于诱导的结构，我们的算法通过自上而下的方式通过词汇匹配来对单词进行分词。实证结果表明，所提出的方法有效地保留了完整的形态素，在形态分割任务和语言建模任务上优于广泛采用的方法，如BPE和WordPiece。代码将稍后发布。

论文链接: https://arxiv.org/pdf/2406.15245

cs.CL: 检测合成歌词的少样本推理

原标题: Detecting Synthetic Lyrics with Few-Shot Inference

作者: Yanis Labrak, Gabriel Meseguer-Brocal, Elena V. Epure

机构: Deezer Research 里雅 - 阿维尼翁大学

摘要: 近年来，音乐领域中生成的内容已经获得了显著的流行，大型语言模型被有效地利用来以各种风格、主题和语言结构生成类似人类的歌词。这种技术进步支持了艺术家们的创作过程，但也引发了关于版权侵权、消费者满意度和内容垃圾信息的问题。为了解决这些挑战，需要方法来检测生成的歌词。然而，现有的研究尚未专注于这种特定的模态或关于机器生成内容检测方法和数据集的创意文本。为此，我们策划了第一个高质量合成歌词数据集，并对各种少样本内容检测方法进行了全面的定量评估，测试它们的泛化能力，并结合人工评估。我们基于LLM2Vec的最佳少样本检测器超越了风格和统计方法，在其他领域显示出了竞争力，可以区分人类写作和机器生成的内容。它还表现出良好的泛化能力，可以适应新的艺术家和模型，并有效地检测生成后的改写。这项研究强调了对创意内容检测的进一步研究的需求，特别是在泛化和与更大的歌曲目录的可扩展性方面。所有数据集、预处理脚本和代码都可以在GitHub和Hugging Face上公开获取，遵循Apache 2.0许可。

论文链接: https://arxiv.org/pdf/2406.15231

cs.CL: 基于大语言模型的排名方法用于评估自动生成的反叙事生成

原标题: A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation

作者: Irune Zubiaga, Aitor Soroa, Rodrigo Agerri

机构: 巴斯克国家大学UPV/EHU

摘要: 在线话语中误传和有害叙事的大量增加凸显了有效对抗叙事（CN）生成技术的重要性。然而，现有的自动评估方法常常缺乏可解释性，无法捕捉生成的CN与人类感知之间的微妙关系。为了更高地与人类判断相关联，本文提出了一种新方法来评估生成的CN，该方法使用大语言模型（LLM）作为评估器。通过在锦标赛式格式中两两比较生成的CN，我们建立了一个模型排名流程，其与人类偏好的相关性达到了0.88。作为额外的贡献，我们利用LLM作为零样本（ZS）CN生成器，并对聊天、指导和基础模型进行了比较分析，探索它们各自的优势和局限性。通过细致的评估，包括微调实验，我们阐明了性能差异及其对领域特定数据的响应差异。我们得出结论，在ZS中，以聊天对齐模型是执行任务的最佳选择，前提是它们不会因安全问题而拒绝生成答案。

论文链接: https://arxiv.org/pdf/2406.15227

cs.CL: 无监督从对话中提取对话策略

原标题: Unsupervised Extraction of Dialogue Policies from Conversations

作者: Makesh Narsimhan Sreedhar, Traian Rebedea, Christopher Parisien

机构: NVIDIA

摘要: 对话策略在开发面向任务的对话系统中起着至关重要的作用，然而它们的开发和维护具有挑战性，并且通常需要对话建模专家投入大量精力。尽管在许多情况下，可以获取大量对话数据来支持当前任务，但人们缺乏能从这些数据中提取对话策略的有效解决方案。本文首先展示了如何利用大语言模型（LLMs）从数据集中提取对话策略，通过将对话转换为由规范形式组成的统一中间表示形式。然后，我们提出了一种新颖的方法，利用可控且可解释的基于图的方法生成对话策略。通过将对话中的规范形式结合成流网络，我们发现运行图遍历算法有助于提取对话流程。与通过提示LLMs提取的流程相比，这些流程更好地表示了底层交互。我们的技术侧重于给对话设计师更大的控制权，提供了一个提高对话策略开发过程效率的工具。

论文链接: https://arxiv.org/pdf/2406.15214

cs.CL: GPT-4 Turbo在根据布鲁姆修订的分类法从教科书中生成学校级问题方面的效果如何？

原标题: How Effective is GPT-4 Turbo in Generating School-Level Questions from Textbooks Based on Bloom’s Revised Taxonomy?

作者: Subhankar Maity, Aniket Deroy, Sudeshna Sarkar

机构: 印度理工学院哈拉格普尔分校 (IIT Kharagpur)

摘要: 我们在零样本模式下评估了GPT-4 Turbo在从NCERT教科书中生成教育问题方面的有效性。我们的研究突出了GPT-4 Turbo生成需要高阶思维技能的问题的能力，特别是根据布鲁姆修订的分类法在“理解”层次上。虽然我们发现GPT-4 Turbo生成的问题在复杂性方面与人类评估的问题之间存在显著的一致性，但偶尔会有差异。我们的评估还揭示了人类和机器在评估问题质量方面的差异，这种趋势与布鲁姆修订的分类法水平呈反比关系。这些发现表明，虽然GPT-4 Turbo是一个有前景的教育问题生成工具，但其效果在不同的认知水平上存在差异，需要进一步改进以完全符合教育标准。

论文链接: https://arxiv.org/pdf/2406.15211

cs.CL: 奖励引导与进化启发式方法在解码时对齐的应用

原标题: Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

作者: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

机构: 新加坡科技与设计大学(Singapore University of Technology and Design)

摘要: 广泛应用和日益普及的大语言模型(Large Language Models)引发了将LLM响应与用户和利益相关者偏好对齐的需求。已经提出了许多优化偏好的方法，这些方法微调LLM参数以实现良好的对齐。然而，众所周知，这种参数调整会干扰模型在许多任务上的性能。此外，在这种情况下跟上不断变化的用户偏好是棘手的。通过奖励模型指导的解码时间对齐解决了这些问题，但代价是增加了推理时间。然而，大多数这类方法未能在探索和利用奖励之间取得正确平衡 – 这往往是由于这两个方面的混合公式导致了对齐良好响应的失败。为了解决这个问题，我们将这两个方面解耦，并以进化方式实现它们：探索通过从突变指令解码来实现，利用则表示为周期性地用奖励不佳的一代替换为奖励良好的一代。实证证据表明，这种策略在两个广泛接受的对齐基准AlpacaEval 2和MT-Bench上胜过许多偏好优化和解码时间对齐方法。我们的实现将在此https URL上提供。

论文链接: https://arxiv.org/pdf/2406.15193

Github: https://darwin-alignment.github.io

cs.CL: 混合对齐训练大语言模型

原标题: Hybrid Alignment Training for Large Language Models

作者: Chenglong Wang, Hang Zhou, Kaiyan Chang, Bei Li, Yongyu Mu, Tong Xiao, Tongran Liu, Jingbo Zhu

机构: 东北大学计算机科学与工程学院中国
中国科学院心理研究所行为科学重点实验室
NiuTrans Research

摘要: 对于使大型语言模型（LLMs）能够满足人类意图和偏好，对齐训练至关重要。通常，这个训练分为两个阶段，分别是指令跟随对齐和人类偏好对齐。然而，按照这两个目标顺序对齐LLMs存在一个固有问题：目标可能会冲突，LLMs不能保证同时很好地与指令和人类偏好对齐。为了应对这个问题，在这项工作中，我们提出了一种混合对齐训练（Hbat）方法，基于交替对齐和修改的弹性权重合并方法。基本思想是在对齐训练过程中交替使用不同的目标，以便在两个对齐任务之间实现更好的协作。我们在摘要和对话任务上进行了Hbat的实验。实验结果表明，所提出的Hbat在所有基线模型上都能显著优于其他模型。值得注意的是，当同时使用近端策略优化和直接偏好优化时，Hbat相对于传统的两阶段对齐训练能够持续提升性能。

论文链接: https://arxiv.org/pdf/2406.15178

cs.CL: 通过自适应对比三元损失增强多语言中的习语表示。

原标题: Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss

作者: Wei He, Marco Idiart, Carolina Scarton, Aline Villavicencio

机构: 谢菲尔德大学里约格兰德杜苏尔联邦大学艾克塞特大学

摘要: 准确地建模习语或非组合性语言一直是自然语言处理（NLP）中长期存在的挑战。这部分是因为这些表达不仅仅从它们的组成词中获得意义，还因为相关数据资源的稀缺性以及对机器翻译和简化等下游任务性能的影响。在本文中，我们提出了一种有效建模习语性的方法，该方法使用三元损失来训练语言模型，该损失考虑了组成词对习语意义的非对称贡献，并使用自适应对比学习和重新采样挖掘器来构建一个习语感知的学习目标。我们提出的方法在SemEval挑战赛上进行了评估，并在许多指标上显著优于先前的替代方法。

论文链接: https://arxiv.org/pdf/2406.15175

cs.CL: 评估ChatGPT生成的好、坏和丑陋论点：一个新数据集，其方法论和相关任务

原标题: Assessing Good, Bad and Ugly Arguments Generated by ChatGPT: a New Dataset, its Methodology and Associated Tasks

作者: Victor Hugo Nascimento Rocha, Igor Cataneo Silveira, Paulo Pirozelli, Denis Deratani Mauá, Fabio Gagliardi Cozman

机构: 圣保罗大学 Escola Politécnica Instituto de Matemática e Estatística Instituto de Estudos Avançados

摘要: 最近大语言模型（LLMs）取得的成功引发了人们对它们可能传播误信息的担忧。因此，迫切需要工具来识别由这些模型生成的“虚假论点”。为了创建这些工具，需要大语言模型生成的文本示例。本文介绍了一种方法论，从ChatGPT生成的论辩性文章中获取优良、劣质和丑陋的论点。然后描述了一个包含多样化论点集合的新型数据集ArGPT。我们评估了我们的数据集的有效性，并为几个与论证相关的任务建立了基准。最后，我们展示人工生成的数据与人类论证相关，并因此可作为训练和测试定义任务系统的工具。

论文链接: https://arxiv.org/pdf/2406.15130

cs.CL: 一个注入语法的方法，用于更快速和更准确的情感分析。

原标题: A Syntax-Injected Approach for Faster and More Accurate Sentiment Analysis

作者: Muhammad Imran, Olga Kellert, Carlos Gómez-Rodríguez

机构: Universidade da Coruña Grupo LyS CITIC

摘要: 情感分析（SA）是自然语言处理（NLP）的一个关键方面，处理文本内容中的主观评估。句法分析在SA中很有用，因为显式的句法信息可以提高准确性同时提供可解释性，但由于分析算法的缓慢性，在实践中往往成为计算瓶颈。本文通过使用序列标注句法解析器（SELSP）来处理这一瓶颈。通过将依赖分析视为序列标注问题，我们极大地提高了基于句法的SA的速度。SELSP在三元极性分类任务上进行了训练和评估，展示了与像Stanza这样的传统解析器以及像VADER这样使用浅层句法规则进行SA的启发式方法相比，在极性预测任务中更快的性能和更好的准确性。这种提高的速度和改进的准确性使SELSP在研究和工业中的SA从业者中特别受欢迎。此外，我们在SELSP上测试了几个情感词典，以确定哪一个在极性预测任务中提升了性能。此外，我们将SELSP与训练在5标签分类任务上的基于Transformer的模型进行了比较。结果表明，捕捉极性判断变化的词典比忽略极性判断变化的词典提供了更好的结果。此外，我们展示了SELSP在极性预测任务中比基于Transformer的模型快得多的事实。

论文链接: https://arxiv.org/pdf/2406.15163

cs.CL: 通过浅层未训练的多头注意力网络实现类脑语言处理

原标题: Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network

作者: Badr AlKhamissi, Greta Tuckute, Antoine Bosselut, Martin Schrimpf

机构: 瑞士洛桑联邦理工学院（EPFL）麻省理工学院（MIT）

摘要: 大语言模型（LLMs）已被证明是人类语言系统的有效模型，一些模型甚至可以预测当前数据集中大部分可解释的大脑活动变化。即使是未经训练的模型，由架构先验引发的表示也可以合理地与大脑数据对齐。在这项工作中，我们调查了驱动未经训练模型惊人对齐的关键架构组件。为了估计LLM与大脑的相似性，我们首先在LLM中选择语言选择性单元，类似于神经科学家如何在人脑中识别语言网络。然后，我们在五个不同的大脑记录数据集中对这些LLM单元的大脑对齐进行基准测试。通过孤立Transformer架构的关键组件，我们确定了标记策略和多头注意力作为驱动大脑对齐的两个主要组件。简单的循环形式进一步改善了对齐。我们进一步通过复制语言神经科学领域的重要研究来展示我们模型的定量大脑对齐，表明局部模型单元–就像在人脑中经验性地测量的语言体素一样–在词汇和句法差异之间比较可靠地区分，并在相同的实验条件下表现出类似的响应特征。最后，我们展示了我们模型表示对语言建模的效用，实现了比可比架构更好的样本和参数效率。我们模型对人类阅读时间的行为对齐估计创造了一个新的最新技术水平。综上所述，我们提出了一个高度与大脑和行为对齐的模型，将人类语言系统概念化为一个未经训练的浅层特征编码器，结构先验与训练后的解码器相结合，实现了高效和高性能的语言处理。

论文链接: https://arxiv.org/pdf/2406.15109

cs.CL: 跨语言释义识别

原标题: Cross-lingual paraphrase identification

作者: Inessa Fedorova, Aleksei Musatow

摘要: 释义识别任务涉及测量两个短句之间的语义相似性。这是一个棘手的任务，而多语言释义识别则更具挑战性。在这项工作中，我们以对比方式训练了一个双编码器模型，以检测跨多种语言的难点释义。这种方法使我们能够利用模型生成的嵌入来执行各种任务，如语义搜索。我们评估了我们的模型在下游任务上的表现，并评估了嵌入空间的质量。我们的性能与最先进的交叉编码器相当，在所选数据集上仅有7-10%的最小相对下降，同时保持嵌入的良好质量。

论文链接: https://arxiv.org/pdf/2406.15066

cs.CL: 输入特征归因分析的统一框架

原标题: A Unified Framework for Input Feature Attribution Analysis

作者: Jingyi Sun, Pepa Atanasova, Isabelle Augenstein

机构: 哥本哈根大学沃尔夫斯堡大学

摘要: 解释机器学习模型决策过程对于确保其可靠性和公平性至关重要。一种流行的解释形式突出了关键的输入特征，例如 i) 标记（例如 Shapley Values 和 Integrated Gradients），ii) 标记之间的交互作用（例如 Bivariate Shapley 和基于注意力的方法），或者 iii) 输入的跨度之间的交互作用（例如 Louvain Span Interactions）。然而，这些解释类型仅在孤立状态下进行了研究，这使得很难判断它们各自的适用性。为了弥合这一差距，我们提出了一个统一的框架，它促进了突出和交互式解释之间的直接比较，由四个诊断性质组成。通过对这三种类型的输入特征解释进行广泛分析–每种都利用三种不同的解释技术–在两个数据集和两个模型中，我们发现每种解释类型在不同的诊断性质方面都表现出色。在我们的实验中，突出解释对模型的预测最为忠实，而交互式解释为学习模拟模型的预测提供了更好的效用。这些见解进一步突显了未来研究需要开发综合方法，以增强所有诊断性质。

论文链接: https://arxiv.org/pdf/2406.15085

cs.CL: 利用大型语言模型进行临床报告错误校正的知识检索

原标题: Harnessing Knowledge Retrieval with Large Language Models for Clinical Report Error Correction

作者: Jinge Wu, Zhaolong Wu, Abul Hasan, Yunsoo Kim, Jason P.Y. Cheung, Teng Zhang, Honghan Wu

机构: 伦敦大学学院香港大学格拉斯哥大学

摘要: 这项研究提出了一种在临床放射学报告中利用大型语言模型（LLMs）和检索增强生成（RAG）技术进行错误校正的方法。所提出的框架采用内部和外部检索机制，从报告和外部知识来源中提取相关的医学实体和关系。引入了一个三阶段推理过程，将任务分解为错误检测、定位和校正子任务，从而增强了系统的可解释性和性能。该方法的有效性是使用由领域专家指导的真实错误创建的基准数据集进行评估的。实验结果表明，所提出的方法的好处，内部和外部检索的结合显著提高了各种最先进的LLMs在错误检测、定位和校正方面的准确性。这些发现有助于开发更健壮、可靠的临床文档错误校正系统。

论文链接: https://arxiv.org/pdf/2406.15045

cs.CL: PARIKSHA：人类-大语言模型评估者在多语言和多文化数据上的大规模调查

原标题: PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data

作者: Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram

机构: 微软公司 Karya

摘要: 多语言大语言模型（LLMs）的评估具有挑战性，原因包括多种因素：缺乏具有足够语言多样性的基准测试、流行基准测试数据在LLM预训练中的污染，以及翻译基准测试中缺乏地方文化细微差别。本文研究了在多语言、多文化环境中人类和基于LLM的评估。我们通过对10种印度语言进行的90K人类评估和30K基于LLM的评估来评估30个模型，并发现像GPT-4o和Llama-3 70B这样的模型在大多数印度语言中表现最佳。我们建立了两种评估设置的排行榜 - 成对比较和直接评估，并分析了人类和LLM之间的一致性。我们发现，在成对比较设置中，人类和LLM的一致性相当好，但对于直接评估评估，特别是对孟加拉语和奥里亚语等语言，一致性下降。我们还检查了人类和基于LLM的评估中的各种偏见，并发现基于GPT的评估器存在自我偏见的证据。我们的工作在扩展多语言LLM评估方面迈出了重要的一步。

论文链接: https://arxiv.org/pdf/2406.15053

cs.CL: 揭示多模态交互对用户参与度的影响：在AI驱动的对话中进行全面评估

原标题: Unveiling the Impact of Multi-Modal Interactions on User Engagement: A Comprehensive Evaluation in AI-driven Conversations

作者: Lichao Zhang, Jia Yu, Shuai Zhang, Long Li, Yangyang Zhong, Guanbao Liang, Yuming Yan, Qing Ma, Fangsheng Weng, Fayu Pan, Jing Li, Renjun Xu, Zhenzhong Lan

机构: 浙江大学西湖大学西湖新臣科技有限公司

摘要: 大语言模型（LLMs）显著推进了用户与机器人的交互，使得对话更加复杂和连贯。然而，普遍采用的纯文本模式可能无法充分利用有效用户参与的潜力。本文探讨了多模态交互对用户参与聊天机器人对话的影响，其中包括图像和音频与文本一起使用。我们使用多种聊天机器人和真实用户交互数据进行全面分析，采用保留率和对话长度等指标评估用户参与度。我们的研究结果显示，与仅使用文本对话相比，多模态交互显著提高了用户参与度。值得注意的是，第三种模态的加入显著增强了参与度，超越了仅使用两种模态的好处。这些结果表明，多模态交互优化了认知处理并促进了更丰富的信息理解。本研究强调了多模态在聊天机器人设计中的重要性，为创建更具吸引力和沉浸式的人工智能通信体验提供了有价值的见解，并向更广泛的人工智能社区介绍了多模态交互在增强用户参与度方面的好处。

论文链接: https://arxiv.org/pdf/2406.15000

cs.CL: GiusBERTo：意大利审计法院决定中个人数据去标识化的法律语言模型

原标题: GiusBERTo: A Legal Language Model for Personal Data De-identification in Italian Court of Auditors Decisions

作者: Giulio Salierno, Rosamaria Bertè, Luca Attias, Carla Morrone, Dario Pettazzoni, Daniela Battisti

机构: 罗马第三大学意大利罗马
罗马大学 Sapienza 意大利罗马
意大利政府

摘要: 近年来在自然语言处理领域取得的进展表明，预训练语言模型如BERT在各种下游任务中展现出了有效性。我们介绍了GiusBERTo，这是首个基于BERT的模型，专门用于在意大利法律文件中匿名化个人数据。GiusBERTo基于大量审计法院决策的数据集进行训练，用于识别需要匿名化的实体，包括姓名、日期、地点，同时保持上下文相关性。我们在一组保留的测试集上评估了GiusBERTo，并达到了97%的标记级别准确率。GiusBERTo为意大利法律社区提供了一个精确且量身定制的BERT模型，用于数据去标识化，平衡了隐私和数据保护。

论文链接: https://arxiv.org/pdf/2406.15032

cs.CL: MedOdyssey：一个长文本评估的医学领域基准，最多达到 200K 个标记

原标题: MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens

作者: Yongqi Fan, Hongli Sun, Kui Xue, Xiaofan Zhang, Shaoting Zhang, Tong Ruan

机构: 华东理工大学上海交通大学上海人工智能实验室

摘要: 众多先进的大语言模型（LLMs）现在支持长达128K的上下文长度，甚至有些扩展到200K。一些通用领域的基准测试也开始评估长文本上下文的能力。在医学领域，由于独特的语境和对领域专业知识的需求，任务具有显著的特点，需要进一步评估。然而，尽管医疗场景中经常出现长文本，但在这一领域内评估LLMs长上下文能力的基准测试仍然很少见。本文提出MedOdyssey，这是首个医学长上下文基准测试，涵盖从4K到200K个标记的七个长度级别。MedOdyssey包括两个主要组成部分：医学语境下的“大海捞针”任务和一系列针对医学应用的特定任务，总共涵盖10个数据集。第一个组成部分包括挑战，如反直觉推理和注入新（未知）事实，以减少LLMs的知识泄露和数据污染。第二个组成部分面临的挑战是需要专业医学知识。特别地，我们设计了“最大相同上下文”的原则，通过确保不同的LLMs尽可能观察到尽可能多的相同上下文来提高公平性。我们的实验评估了专为处理长上下文而定制的先进专有和开源LLMs，并呈现了详细的性能分析。这突显了LLMs在这一领域仍然面临挑战，并需要进一步研究。我们的代码和数据已在此仓库发布：\url{this https URL.}

论文链接: https://arxiv.org/pdf/2406.15019

Github: https://github.com/JOHNNY-fans/MedOdyssey

cs.CL: 电子表格基准测试：朝着具有挑战性的真实世界电子表格操作方向。

原标题: SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation

作者: Zeyao Ma, Bohan Zhang, Jing Zhang, Jifan Yu, Xiaokang Zhang, Xiaohan Zhang, Sijia Luo, Xi Wang, Jie Tang

机构: 中国人民大学清华大学 Zhipu.AI

摘要: 我们介绍了SpreadsheetBench，这是一个具有挑战性的电子表格操作基准测试，专门从现实场景中衍生而来，旨在让当前的大语言模型（LLMs）沉浸于电子表格用户的实际工作流中。与依赖于合成查询和简化电子表格文件的现有基准测试不同，SpreadsheetBench基于从在线Excel论坛收集的912个真实问题构建，这些问题反映了用户复杂的需求。论坛中关联的电子表格包含多种表格数据，如多个表格、非标准关系表和丰富的非文本元素。此外，我们提出了一种类似在线评测平台的更可靠的评估指标，其中为每个指令创建多个电子表格文件作为测试案例，确保评估能够处理具有不同值的电子表格的强大解决方案。我们在单轮和多轮推理设置下对各种LLMs进行了全面评估，结果显示了当前技术水平（SOTA）模型与人类表现之间的显著差距，突显了这一基准测试的难度。

论文链接: https://arxiv.org/pdf/2406.14991

cs.CL: 信任和准确性的故事：基础 vs. 指导的大语言模型在 RAG 系统中的应用

原标题: A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

作者: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri

机构: 罗马大学 sapienza 比萨大学

摘要: 检索增强生成（RAG）代表了人工智能领域的一项重大进展，它将检索阶段与生成阶段相结合，后者通常由大型语言模型（LLMs）提供支持。RAG中目前常见的做法是使用“指导型”LLMs，通过监督训练对其进行微调，以提高其遵循指令的能力，并使用最先进的技术与人类偏好保持一致。与普遍观点相反，我们的研究表明，在我们的实验设置下，基础模型在RAG任务中的表现平均超过了指导型模型20%。这一发现挑战了指导型LLMs在RAG应用中优越性的普遍假设。进一步的调查揭示了一个更加微妙的情况，对RAG的基本方面提出了质疑，并建议对该主题进行更广泛的讨论；或者，正如弗洛姆所说，“仅仅看一眼统计数据往往不足以理解数字的含义”。

论文链接: https://arxiv.org/pdf/2406.14972

cs.CL: ICLEval: 评估大语言模型的上下文学习能力

原标题: ICLEval: Evaluating In-Context Learning Ability of Large Language Models

作者: Wentong Chen, Yankai Lin, ZhenHao Zhou, HongYun Huang, Yantao Jia, Zhao Cao, Ji-Rong Wen

机构: 中国人民大学高灵人工智能学院华为泊松实验室北京大数据管理与分析方法重点实验室

摘要: In-Context Learning (ICL) 是大语言模型 (LLMs) 的关键能力，因为它赋予它们理解和推理跨连接输入的能力。评估LLMs的ICL能力可以增强它们的利用，并加深我们对该能力在训练阶段是如何获得的理解。然而，现有的评估框架主要关注语言能力和知识，往往忽视了ICL能力的评估。在这项工作中，我们介绍了ICLEval基准来评估LLMs的ICL能力，它包括两个关键子能力：精确复制和规则学习。通过ICLEval基准，我们证明了ICL能力在不同的LLMs中普遍存在，而模型大小并非ICL功效的唯一决定因素。令人惊讶的是，我们观察到ICL能力，特别是复制能力，在预训练过程中很早就开始发展，并在之后稳定下来。我们的源代码和基准在这个URL上发布。

论文链接: https://arxiv.org/pdf/2406.14955

Github: https://github.com/yiye3/ICLEval

cs.CL: Llama3-70B-Instruct的领域自适应：通过持续预训练和模型合并进行全面评估

原标题: Domain Adaptation of Llama3-70B-Instruct through Continual Pre-Training and Model Merging: A Comprehensive Evaluation

作者: Shamane Siriwardhana, Mark McQuade, Thomas Gauthier, Lucas Atkins, Fernando Fernandes Neto, Luke Meyers, Anneketh Vij, Tyler Odenthal, Charles Goddard, Mary MacCarthy, Jacob Solawetz

机构: arcee.ai

摘要: 我们对Meta-Llama-3-70B-Instruct模型在SEC数据的领域自适应进行了广泛实验，探索其在通用和特定领域基准上的表现。我们的重点包括持续预训练（CPT）和模型合并，旨在增强模型的特定领域能力，同时减少灾难性遗忘的影响。通过这项研究，我们评估了将金融监管数据整合到强大的语言模型中的影响，并检验了我们的模型合并技术在保留和提升模型指导能力方面的有效性。该模型可以在Hugging Face上访问：[链接]，arcee-ai/Llama-3-SEC-Base。这是我们最终模型的中间检查点，迄今已见过20B个Token。完整模型仍在训练过程中。这是一份预印技术报告，通过深入评估来理解整个过程。

论文链接: https://arxiv.org/pdf/2406.14971

其他链接: https://huggingface.co/arcee-ai/Llama-3-SEC-Base

cs.CL: 检索-计划-生成：一种面向知识密集型大语言模型生成的迭代规划和回答框架

原标题: Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation

作者: Yuanjie Lyu, Zihan Niu, Zheyong Xie, Chao Zhang, Tong Xu, Yang Wang, Enhong Chen

机构: 中国科学技术大学安徽鸿海信息技术工程有限公司

摘要: 尽管大语言模型（LLMs）在各种任务中取得了显著进展，但由于其内部知识的有限性，它们经常会产生事实错误。检索增强生成（RAG）通过外部知识源增强LLMs，提供了一个有希望的解决方案。然而，这些方法可能会被检索到的文档中的无关段落误导。由于LLM生成中固有的不确定性，输入整个文档可能会引入与主题无关的信息，导致模型偏离中心主题，影响生成内容的相关性。为了解决这些问题，我们提出了检索-规划-生成（RPG）框架。RPG在规划阶段生成规划标记，以指导后续的生成。在回答阶段，模型根据规划选择相关的细粒度段落，并将它们用于进一步的回答生成。这个规划-回答的过程反复进行，通过专注于特定主题来增强生成的相关性。为了高效实现这个框架，我们利用了一种简单但有效的多任务提示调整方法，使现有的LLMs能够处理规划和回答两个任务。我们在5个知识密集型生成任务上全面比较了RPG和基准模型，证明了我们方法的有效性。

论文链接: https://arxiv.org/pdf/2406.14979

cs.CL: 向检索增强生成跨大型视频库

原标题: Towards Retrieval Augmented Generation over Large Video Libraries

作者: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont

机构: Moments Lab Research Boulogne-Billancourt, France

摘要: 视频内容创作者需要高效的工具来重新利用内容，这通常需要复杂的手动或自动搜索。从大型视频库中制作新视频仍然是一个挑战。本文介绍了视频库问答（VLQA）任务，通过一个可互操作的架构引入了检索增强生成（RAG）技术到视频库中。我们提出了一个系统，使用大语言模型（LLMs）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段。然后，一个答案生成模块将用户查询与这些元数据整合，生成具有特定视频时间戳的响应。这种方法在多媒体内容检索和AI辅助视频内容创建中显示出潜力。

论文链接: https://arxiv.org/pdf/2406.14938

cs.CL:ESC-Eval: 在大语言模型中评估情感支持对话

原标题: ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models

作者: Haiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexing Huang, Tianle Gu, Yixu Wang, Dandan Liang, Zhixu Li, Tan Teng, Yanghua Xiao, Yingchun Wang

机构: 复旦大学上海人工智能实验室

摘要: 情感支持对话（ESC）是一个关键的应用，旨在减少人类压力，提供情感指导，最终增强人类的心理和身体健康。随着大语言模型（LLMs）的进步，许多研究者已将LLMs应用为ESC模型。然而，这些基于LLMs的ESC的评估仍不确定。受角色扮演智能体发展的启发，我们提出了一个ESC评估框架（ESC-Eval），该框架使用角色扮演智能体与ESC模型进行交互，随后对交互式对话进行手动评估。具体而言，我们首先重新组织了来自七个现有数据集的2801张角色扮演卡片，以定义角色扮演智能体的角色。其次，我们训练了一个特定的角色扮演模型称为ESC-Role，其行为更像是一个困惑的人而非GPT-4。第三，通过ESC-Role和组织的角色卡片，我们系统地使用了14个LLMs作为ESC模型进行实验，包括通用AI助理LLMs（如ChatGPT）和面向ESC的LLMs（如ExTES-Llama）。我们对不同ESC模型的交互式多轮对话进行了全面的人类标注。结果显示，面向ESC的LLMs在ESC能力方面表现出优于通用AI助理LLMs的能力，但仍然落后于人类表现。此外，为了自动化未来ESC模型的评分过程，我们开发了ESC-RANK，该模型在标注数据上进行训练，实现了超过GPT-4的35分的评分性能。我们的数据和代码可在此网址获取：https://链接。

论文链接: https://arxiv.org/pdf/2406.14952

Github: https://github.com/haidequanbu/ESC-Eval

cs.CL: 论语言模型在词汇蕴涵识别中的局限性：言之无行不等于行之有言

原标题: Talking the Talk Does Not Entail Walking the Walk: On the Limits of Large Language Models in Lexical Entailment Recognition

作者: Candida M. Greco, Lucio La Cava, Andrea Tagarelli

机构: 意大利卡拉布里亚大学

摘要: 动词构成语言的骨架，为句子提供结构和意义。然而，它们复杂的语义细微差别构成了长期的挑战。通过词汇蕴涵的概念理解动词之间的关系对于理解句子的含义和把握动词的动态至关重要。本研究通过不同设计的提示策略和零样本/少样本设置，调查了八个大型语言模型在识别动词之间的词汇蕴涵关系方面的能力，涉及来自两个词汇数据库（即WordNet和HyperLex）的动词对。我们的研究结果揭示了这些模型能够以适度良好的性能处理词汇蕴涵识别任务，尽管在不同条件下的效果各有不同。此外，利用少样本提示可以提高模型的性能。然而，完美解决这一任务对于所有受到检验的大型语言模型来说都是一个未解决的挑战，这引发了对这一主题进一步研究发展的需求。

论文链接: https://arxiv.org/pdf/2406.14894

cs.CL: InterBiasing: 通过偏置中间预测来提高未见词识别

原标题: InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions

作者: Yu Nakagome, Michael Hentschel

机构: LINE WORKS Corporation NA VER Cloud Corporation Japan South Korea

摘要: 尽管最近端到端语音识别方法取得了进展，但其输出对训练数据的词汇有偏差，导致对未知术语或专有名词的识别不准确。为了提高对给定一组这类术语的识别准确性，我们提出了一种基于自条件CTC的无需调整参数的方法。我们的方法通过用修正的标签替换中间CTC预测来改善被错误识别的目标关键词的识别准确性，然后将其传递给后续层。首先，我们使用文本转语音和识别模型为关键词列表创建正确标签和识别错误实例的配对。我们使用这些配对来替换标签的中间预测错误。通过在编码器的后续层上对标签进行条件处理，可以对目标关键词进行声学评估。在日语实验中，我们的方法成功提高了未知词的F1得分。

论文链接: https://arxiv.org/pdf/2406.14890

cs.CL: 生成-然后在检索增强生成中接地用于多跳问题回答

原标题: Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering

作者: Zhengliang Shi, Shuo Zhang, Weiwei Sun, Shen Gao, Pengjie Ren, Zhumin Chen, Zhaochun Ren

机构: 山东大学伦敦彭博社电子科技大学中国荷兰莱顿大学

摘要: 多跳问题回答（MHQA）任务对于大型语言模型（LLMs）来说是一个重大挑战，因为需要大量的知识。目前的解决方案，如检索增强生成（Retrieval-Augmented Generation），通常从外部语料库中检索潜在文档以读取答案。然而，这种检索-然后-阅读的范式的性能受到检索器和检索到的文档中不可避免的噪声的限制。为了解决这些挑战，我们引入了一种新颖的生成-然后-基于（GenGround）框架，将LLMs的参数化知识与外部文档相结合，解决多跳问题。GenGround使LLMs能够在最终得出答案之前交替进行两个阶段：（1）制定一个更简单的单跳问题并直接生成答案；（2）将问题-答案对基于检索到的文档进行基础化，修正答案中的任何错误预测。我们还提出了一种指导性基础化蒸馏方法，将我们的方法推广到较小的模型中。在四个数据集上进行的大量实验证明了我们方法的优越性。

论文链接: https://arxiv.org/pdf/2406.14891

cs.CL: InternLM-Law：一个开源的中文法律大语言模型

原标题: InternLM-Law: An Open Source Chinese Legal Large Language Model

作者: Zhiwei Fei, Songyang Zhang, Xiaoyu Shen, Dawei Zhu, Xiao Wang, Maosong Cao, Fengzhe Zhou, Yining Li, Wenwei Zhang, Dahua Lin, Kai Chen, Jidong Ge

机构: 上海人工智能实验室南京大学东部理工学院宁波萨尔兰大学萨尔兰信息学院

摘要: 大型语言模型（LLMs）展示了令人印象深刻的能力，但由于法律领域所需的复杂性和专业知识，它们在处理法律查询方面存在困难。在本文中，我们介绍了InternLM-Law，这是一个专门针对中国法律相关的各种法律查询而设计的LLM，涵盖了从回答标准法律问题（例如教科书中的法律练习）到分析复杂的现实法律情况。我们精心构建了一个涵盖超过100万个查询的中国法律领域数据集，并实施了数据过滤和处理流程，以确保其多样性和质量。我们的训练方法包括一个新颖的两阶段过程：首先对LLMs进行法律特定和通用内容的微调，以使模型具备广泛的知识，然后专门对高质量的法律数据进行微调，以增强结构化输出生成。InternLM-Law在LawBench上取得了最高的平均性能，优于GPT-4等最先进的模型，在20个子任务中有13个表现出色。我们公开提供InternLM-Law和我们的数据集，以促进将LLMs应用于法律领域的未来研究。

论文链接: https://arxiv.org/pdf/2406.14887

cs.CL: FlowBench：重新审视和为基于大语言模型智能体的工作流引导规划进行基准测试

原标题: FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents

作者: Ruixuan Xiao, Wentao Ma, Ke Wang, Yuchuan Wu, Junbo Zhao, Haobo Wang, Fei Huang, Yongbin Li

机构: 浙江大学阿里巴巴集团

摘要: 基于大语言模型的智能体已经成为一种有前途的工具，通过迭代规划和行动来完成复杂任务。然而，在处理专业技术密集型任务时，这些智能体容易出现意外的规划幻觉，因为它们缺乏特定领域的专业知识。为了解决这个问题，初步尝试将外部与工作流相关的知识整合到规划中，以增强规划的可靠性。尽管如此，这些融合的知识大多数情况下是杂乱无章的，格式多样，缺乏严格的形式化和全面的比较。受此启发，我们对工作流知识的不同格式进行了形式化，并提出了FlowBench，这是第一个用于工作流引导规划的基准测试。FlowBench涵盖了来自6个领域的51种不同场景，知识以多种格式呈现。为了评估不同的大语言模型在FlowBench上的表现，我们设计了一个多层次的评估框架。我们评估了多种格式的工作流知识的有效性，结果表明，当前的大语言模型智能体在令人满意的规划方面仍需大幅改进。我们希望我们的挑战性基准测试能为未来的智能体规划研究铺平道路。

论文链接: https://arxiv.org/pdf/2406.14884

cs.CL: OATH-Frames: 用大语言模型助理表征在线对待无家可归问题的态度

原标题: OATH-Frames: Characterizing Online Attitudes Towards Homelessness with LLM Assistants

作者: Jaspreet Ranjit, Brihi Joshi, Rebecca Dorn, Laura Petry, Olga Koumoundouros, Jayne Bottarini, Peichen Liu, Eric Rice, Swabha Swayamdipta

机构: 南加州大学

摘要: 警告：本文内容可能令人不安。
公众对关键社会问题的态度，在在线媒体上表达，对政策和改革工作具有巨大价值，但在规模上理解起来具有挑战性。我们通过利用大型语言模型的显著能力，研究了美国的一个社会问题：无家可归者，以协助社会工作专家分析来自Twitter的数百万帖子。我们引入了一个框架类型：在线对待无家可归者的态度（OATH）框架：九个层次框架，捕捉批评、回应和感知。我们发布了带有不同程度语言模型辅助的注释，这在扩展方面具有巨大的好处：在注释时间上加快了6.5倍，而在性能方面仅对领域专家的F1值减少了3个百分点。我们的实验证明了对OATH框架进行建模的价值，超过了现有的情感和毒性分类器。我们对240万条有关无家可归者的帖子进行了预测OATH框架的大规模分析，揭示了各州、时间段和弱势人群的态度趋势，从而为该问题提供了新的见解。我们的工作提供了一个通用框架，以便在规模上理解细微的公众态度，不仅限于无家可归问题。

论文链接: https://arxiv.org/pdf/2406.14883

cs.CL: 使用70亿参数的大型语言模型进行日语医疗问答。

原标题: 70B-parameter large language models in Japanese medical question-answering

作者: Issey Sukeda, Risa Kishikawa, Satoshi Kodera

机构: 东京大学

摘要: 自从大语言模型（LLMs）的兴起以来，领域适应一直是各个领域的热门话题之一。最近，许多使用英文医学数据集训练的医学LLMs已经公开。然而，医学领域的日语LLMs仍然缺乏研究。在这里，我们首次利用多个70B参数的LLMs，并展示通过使用日语医学问答数据集进行指导调整显着提高了日语LLMs解决日语医学执照考试的能力，准确率超过了50%。特别是，与其英文为中心的对应物相比，以日本为中心的模型通过指导调整取得了更显著的改进。这凸显了持续预训练和我们本地语言中令牌化器的调整的重要性。我们还检查了两种略有不同的提示格式，导致了不可忽视的性能改善。

论文链接: https://arxiv.org/pdf/2406.14882

cs.CL: 体育智能：通过从文本到视频的问答评估语言模型的体育理解能力

原标题: Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video

作者: Zhengbang Yang, Haotian Xia, Jingxi Li, Zezhi Chen, Zhuangdi Zhu, Weining Shen

机构: 乔治梅森大学加州大学欧文分校

摘要: 理解体育对自然语言处理（NLP）的进展至关重要，因为它具有错综复杂和动态的特性。对复杂的体育场景进行推理对当前需要先进认知能力的NLP技术提出了重大挑战。为了解决NLP领域现有体育理解基准的局限性，我们对主流大型语言模型在各种体育任务上进行了广泛评估。我们的评估范围从对基本规则和历史事实的简单查询到复杂的、特定上下文的推理，利用了从零样本到少样本学习以及思维链技术的策略。除了单模态分析，我们进一步评估了主流视频语言模型的体育推理能力，以弥合多模态体育理解基准的差距。我们的研究结果突显了NLP领域体育理解的关键挑战。我们提出了一个基于对现有体育数据集的全面概述的新基准，并提供了广泛的错误分析，希望能够帮助确定这一领域未来的研究重点。

论文链接: https://arxiv.org/pdf/2406.14877

cs.CL: 直接多轮偏好优化用于语言智能体

原标题: Direct Multi-Turn Preference Optimization for Language Agents

作者: Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng

机构: 中国科学技术大学 Meta AI

摘要: 适应大型语言模型（LLMs）以进行智能体任务对于开发语言智能体至关重要。直接偏好优化（DPO）是一种有前途的技术，可通过减轻复合误差来进行适应，并提供一种直接优化强化学习（RL）目标的手段。然而，将DPO应用于多轮任务面临挑战，因为无法取消分区函数。克服这个障碍涉及使分区函数独立于当前状态，并解决首选和不首选轨迹之间的长度差异。在这种情况下，我们将策略约束替换为RL目标中的状态-动作占用度量约束，并将长度归一化到Bradley-Terry模型中，从而产生一种名为DMPO的新损失函数，用于多轮智能体任务，并提供理论解释。对三个多轮智能体任务数据集进行的广泛实验证实了DMPO损失的有效性和优越性。

论文链接: https://arxiv.org/pdf/2406.14868

cs.CL: 利用段落嵌入进行大语言模型的高效列表重新排序

原标题: Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models

作者: Qi Liu, Bo Wang, Nan Wang, Jiaxin Mao

机构: 中国人民大学高灵人工智能学院 Jina AI

摘要: 最近的研究表明，在段落排名中使用大语言模型（LLMs）的有效性。类似RankGPT的基于列表的方法已成为此任务的新的技术水平。然而，RankGPT 模型的效率受到最大上下文长度和LLM推理的相对高延迟的限制。为了解决这些问题，本文提出了PE-Rank，利用单一段落嵌入作为有效的列表式段落重新排名的上下文压缩。通过将每个段落视为特殊标记，我们可以直接将段落嵌入输入LLMs，从而减少输入长度。此外，我们引入了一种推理方法，动态约束解码空间到这些特殊标记，加速解码过程。为了使模型适应重新排名，我们采用了列表式学习以排名损失进行训练。在多个基准测试中的评估结果表明，PE-Rank显著提高了预填充和解码的效率，同时保持了竞争力强的排名效果。\url{此 https URL}上提供了代码。

论文链接: https://arxiv.org/pdf/2406.14848

Github: https://github.com/liuqi6777/pe_rank

cs.CL: 从大语言模型到多模态大语言模型：探索多模态越狱的领域

原标题: From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking

作者: Siyuan Wang, Zhuohan Long, Zhihao Fan, Zhongyu Wei

机构: 南加州大学复旦大学阿里巴巴公司

摘要: 大语言模型（LLMs）和多模态大语言模型（MLLMs）的快速发展暴露了对各种对抗性攻击的脆弱性。本文全面概述了针对LLMs和MLLMs的越狱研究，重点介绍了评估基准、攻击技术和防御策略的最新进展。与单模态越狱的更先进状态相比，多模态领域仍未充分探索。我们总结了多模态越狱的限制和潜在研究方向，旨在激发未来研究，并进一步增强MLLMs的健壮性和安全性。

论文链接: https://arxiv.org/pdf/2406.14859

cs.CL: 通过投票实现有害性分类的ToVo：有害性分类的税收分类法

原标题: ToVo: Toxicity Taxonomy via Voting

作者: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen

机构: Oraichain Labs VinAI Research Florida International University Hanoi University of Science and Technology University of Oregon

摘要: 现有的有毒检测模型面临着重大的限制，如缺乏透明度、定制性和可复现性。这些挑战源于它们训练数据的闭源性质和对其评估机制缺乏解释的问题。为了解决这些问题，我们提出了一个数据集创建机制，该机制整合了投票和思维链过程，产生了一个高质量的开源数据集，用于检测有毒内容。我们的方法确保了每个样本的多样化分类指标，并包括了分类得分和分类的解释推理。

我们利用通过我们提出的机制创建的数据集来训练我们的模型，然后将其与现有的广泛使用的检测器进行比较。我们的方法不仅增强了透明度和定制性，还有助于更好地针对特定用例进行微调。这项工作为开发有毒内容检测模型提供了一个强大的框架，强调开放性和适应性，从而为更有效和用户特定的内容调节解决方案铺平了道路。

论文链接: https://arxiv.org/pdf/2406.14835

cs.CL: 有效的持续预训练通过减少稳定性差距

原标题: Efficient Continual Pre-training by Mitigating the Stability Gap

作者: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen

机构: 北京大学香港科技大学 MIT-IBM沃森人工智能实验室

摘要: 持续的预训练越来越成为适应大型语言模型（LLMs）到新领域的主要方法。这个过程涉及使用新领域的语料库更新预训练的LLM，导致训练分布的变化。为了研究LLMs在这种转变过程中的行为，我们在整个持续预训练过程中测量了模型的性能。我们观察到在开始时有一个暂时的性能下降，随后是一个恢复阶段，这一现象被称为“稳定性差距”，之前在对新类别进行分类的视觉模型中已经注意到。为了解决这个问题并增强LLM在固定计算预算内的性能，我们提出了三种有效的策略：（1）在适当大小的子集上持续预训练LLM多个时期，结果比在单个时期内在大语料库上预训练LLM更快地恢复性能；（2）仅在高质量子语料库上预训练LLM，这将迅速提升领域性能；和（3）使用类似于预训练数据的数据混合来减少分布差距。我们对Llama-family模型进行了各种实验，以验证我们的策略在医学持续预训练和指令调整中的有效性。例如，我们的策略将OpenLlama-3B模型的平均医学任务性能从36.2%提高到40.7%，仅使用原始训练预算的40%，并增强了一般任务的平均性能而不会导致遗忘。此外，我们将我们的策略应用于Llama-3-8B模型。由此产生的模型Llama-3-Physician，在当前开源模型中实现了最佳的医学性能，并在几个医学基准测试中表现出与甚至优于GPT-4的性能。我们在\url{this https URL}发布我们的模型。

论文链接: https://arxiv.org/pdf/2406.14833

其他链接: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

cs.CL: TemPrompt：基于RAG的众包系统中的多任务提示学习用于时间关系提取

原标题: TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems

作者: Jing Yang, Yu Zhao, Yang Linyao, Xiao Wang, Fei-Yue Wang

机构: 清华大学腾讯 IEEE

摘要: 时间关系抽取（TRE）旨在把握事件或行动的演变，从而塑造相关任务的工作流程，因此在帮助理解众包系统中请求者发起的任务请求方面具有潜力。然而，现有方法仍然面临着有限和分布不均的注释数据的困境。因此，受预训练语言模型（PLMs）中存储的丰富全局知识的启发，我们提出了一个多任务提示学习框架用于TRE（TemPrompt），结合提示调整和对比学习来解决这些问题。为了引出更有效的PLMs提示，我们引入了一种面向任务的提示构建方法，充分考虑TRE的各种因素以进行自动提示生成。此外，我们提出了时间事件推理作为补充，以增强模型对事件和时间线索的关注。实验结果表明，TemPrompt在标准和少样本设置下的大多数指标上优于所有比较基线。提供了一个案例研究来验证其在众包场景中的有效性。

论文链接: https://arxiv.org/pdf/2406.14825

cs.CL: 这是一个糟糕的表吗？从文本生成表的评估再深入研究

原标题: Is this a bad table? A Closer Look at the Evaluation of Table Generation from Text

作者: Pritika Ramu, Aparna Garimella, Sambaran Bandyopadhyay

机构: Adobe Research 印度

摘要: 理解生成的表格是否具有良好的质量对于能够使用自动方法创建或编辑文档至关重要。在这项工作中，我们强调现有的表格质量评估指标未能捕捉表格的整体语义，有时不公正地惩罚良好的表格并奖励糟糕的表格。我们提出了TabEval，一种新颖的表格评估策略，通过首先将表格分解为自然语言原子语句列表，然后使用包含基于测量的方法将其与基本事实语句进行比较，来捕捉表格的语义。为了验证我们的方法，我们策划了一个数据集，包括对1,250个不同主题和结构的维基百科表格的文本描述，与现有数据集的有限范围形成对比。我们使用无监督和监督文本到表格生成方法比较TabEval与现有度量标准，在四个数据集中展示其与人类对表格质量的判断之间更强的相关性。

论文链接: https://arxiv.org/pdf/2406.14829

cs.CL: 词汇很重要：什么影响了摘要中的领域适应？

原标题: Word Matters: What Influences Domain Adaptation in Summarization?

作者: Yinghao Li, Siyu Miao, Heyan Huang, Yang Gao

机构: 北京理工大学闽南理工学院

摘要: 领域自适应旨在使大型语言模型（LLMs）能够在训练阶段有效地泛化未见过的领域数据集。然而，诸如模型参数的大小和训练数据的规模等因素是一般性影响因素，并不能反映领域自适应性能的微妙之处。本文研究了影响领域自适应性能的细粒度因素，分析了训练数据中“单词”对摘要任务的具体影响。我们提出将数据集学习难度量化为生成式摘要的学习难度，该难度由两个指标确定：基于单词的压缩率和抽象级别。我们的实验得出结论，考虑到数据集学习难度时，跨领域重叠和摘要任务的性能增益呈现出近似线性关系，这与单词数量无直接关系。基于这一发现，可以在不经过训练的情况下预测模型在未知领域数据集上的性能。

论文链接: https://arxiv.org/pdf/2406.14828

cs.CL: LLM 在跨文化价值观表达方面表现如何？基于霍夫斯泰德文化维度的 LLM 响应的实证分析

原标题: How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions

作者: Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah

机构: 华盛顿大学伯克利加州大学斯坦福大学亚马逊 GenAI

摘要: 大语言模型（LLMs）试图通过以一种取悦用户的方式回应人类来模仿人类行为，包括遵循他们的价值观。然而，人类来自具有不同价值观的多元文化。重要的是要了解LLMs是否会根据用户所知国家的刻板价值观向用户展示不同的价值观。我们使用基于5个霍夫斯泰德文化维度的一系列建议请求提示不同的LLMs，这是一种量化表示国家价值观的方式。在每个提示中，我们包含代表36个不同国家以及与每个国家主要相关的语言的人物角色，以分析LLMs在文化理解方面的一致性。通过对回应的分析，我们发现LLMs能够区分价值观的一面和另一面，以及理解不同国家具有不同的价值观，但在给出建议时并不总是遵循这些价值观，并且未能理解根据不同文化价值观作出不同回答的必要性。基于这些发现，我们提出了培训价值观一致且具有文化敏感性的LLMs的建议。更重要的是，这里开发的方法和框架可以帮助进一步了解和减轻LLMs与文化和语言对齐问题。

论文链接: https://arxiv.org/pdf/2406.14805

cs.CL: 多模态任务向量使得多样本多模态上下文学习成为可能

原标题: Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

作者: Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig

机构: 加州大学伯克利分校 IBM研究麻省理工学院-IBM沃森人工智能实验室

摘要: 最近交错的大型多模态模型（LMMs）在少样本学习中取得的成功表明，在具有许多示例的情境学习（ICL）中可能对学习新任务有所希望。然而，这种多样本多模态ICL设置存在一个关键问题：它在预训练时设定的模型上下文长度会从根本上受到限制。这个问题在多模态领域尤为突出，因为它需要处理文本和图像，需要额外的标记。这促使我们需要一种多模态方法，可以在不进行微调的情况下将许多样本压缩成较少的标记。在这项工作中，我们通过利用多模态任务向量（MTV）–在模型的注意力头中压缩的情境示例的紧凑隐式表示，使LMM能够执行多模态、多样本的情境学习。具体来说，我们首先证明了LMM中存在这样的MTV，然后利用这些提取出的MTV来实现各种视觉与语言任务的多样本情境学习。我们的实验表明，MTV可以随着压缩样本数量的增加而提高性能，并且可以推广到类似的领域外任务，而无需额外的上下文长度进行推断。

论文链接: https://arxiv.org/pdf/2406.15334

cs.CL: 梯度掩码调优提升了大语言模型性能的上限

原标题: Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance

作者: Haoling Li, Xin Zhang, Xiao Liu, Yeyun Gong, Yifan Wang, Yujiu Yang, Qi Chen, Peng Cheng

机构: 清华大学 Microsoft Research

摘要: 大语言模型（LLMs）已经彻底改变了许多研究领域。虽然众所周知，微调对于提升LLMs的能力至关重要，但现有研究表明微调过程中存在潜在的冗余，并因此建议仅更新部分参数。然而，这些方法未能利用任务特定信息来在训练过程中识别重要参数。基于梯度本身包含任务特定数据信息的观点，我们提出了梯度掩码调整（GMT）方法，该方法根据梯度信息选择性地在训练过程中更新参数。具体而言，我们计算梯度的绝对值，并对那些相对较小幅度的梯度应用掩码。我们在各种任务中的实证结果表明，GMT不仅胜过传统的微调方法，而且提高了LLM性能的上限。进一步的分析表明，GMT对掩码比率不敏感，并且具有与传统SFT相当的计算效率。

论文链接: https://arxiv.org/pdf/2406.15330

cs.CL: 跨模态安全对齐

原标题: Cross-Modality Safety Alignment

作者: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang

机构: 复旦大学新加坡国立大学上海人工智能实验室

摘要: 当通用人工智能（AGI）越来越多地整合到人类生活的各个方面时，确保这些系统的安全性和道德一致性至关重要。先前的研究主要集中在单模态威胁，这可能不足以满足跨模态交互的综合和复杂性质。我们引入了一个名为安全输入但不安全输出（SIUO）的新型安全一致性挑战，以评估跨模态安全一致性。具体而言，它考虑了单一模态在独立情况下是安全的，但在组合时可能导致不安全或不道德的输出的情况。为了从经验上研究这个问题，我们开发了SIUO，这是一个跨模态基准，涵盖了自我伤害、非法活动和侵犯隐私等9个关键安全领域。我们的研究结果显示，无论是闭源还是开源的大语言模型（LVLMs），如GPT-4V和LLaVA，都存在实质性的安全漏洞，突显了当前模型无法可靠地解释和应对复杂的现实场景的不足。

论文链接: https://arxiv.org/pdf/2406.15279

cs.CL: STARD: 一个包含非专业人员实际查询的中文法规检索数据集

原标题: STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals

作者: Weihang Su, Yiran Hu, Anzhe Xie, Qingyao Ai, Zibing Que, Ning Zheng, Yun Liu, Weixing Shen, Yiqun Liu

机构: 清华大学北京大学

摘要: 法规检索旨在为特定查询找到相关的法律条文。这一过程是许多法律应用的基础，例如法律咨询、自动化司法决策、法律文件起草等。现有的法规检索基准主要关注来自法律考试和法律案例文件等来源的正式和专业查询，因此忽视了来自公众的非专业查询，这些查询通常缺乏精确的法律术语和参考文献。为了填补这一空白，我们介绍了STAtute Retrieval Dataset (STARD)，这是一个包含1,543个来自真实法律咨询的查询案例和55,348个候选法律条文的中文数据集。与现有的法规检索数据集不同，后者主要关注专业法律查询，STARD捕捉了来自公众的真实查询的复杂性和多样性。通过对各种检索基线的全面评估，我们发现现有的检索方法在面对非专业用户提出的真实查询时均存在不足。最佳方法仅达到了0.907的Recall@100，表明在这一领域需要进一步的探索和额外的研究。

所有代码和数据集均可在此链接获取：https://此链接的URL

论文链接: https://arxiv.org/pdf/2406.15313

Github: https://github.com/oneal2000/STARD/tree/main

cs.CL: 研究二维手势表达对语音伴随手势生成的影响

原标题: Investigating the impact of 2D gesture representation on co-speech gesture generation

作者: Teo Guichoux, Laure Soulier, Nicolas Obin, Catherine Pelachaud

机构: 索邦大学巴黎综合理工学院法国国家科学研究中心 IRCAM STMS实验室

摘要: 语音配图在人类和具身对话代理（ECA）之间的互动中起着至关重要的作用。最近的深度学习方法使得能够生成与语音同步的逼真、自然的语音配图，但这种方法需要大量的训练数据。"野外"数据集通过人体姿势检测模型从 YouTube 等来源编制视频，提供了一种解决方案，它提供了与语音配对的 2D 骨架序列。与此同时，出现了创新的提升模型，能够将这些 2D 姿势序列转换为它们的 3D 对应物，从而产生了大量丰富多样的 3D 手势数据集。然而，所得的 3D 姿势估计本质上是一种伪地面真相，实际地面真相是 2D 运动数据。这种区别引发了关于手势表示维度对生成动作质量的影响的问题，据我们所知，这个问题仍然很少被探讨。在这项工作中，我们评估了训练数据维度（2D 或 3D 关节坐标）对多模态语音到手势深度生成模型性能的影响。我们使用提升模型将 2D 生成的身体姿势序列转换为 3D。然后，我们将直接生成的 3D 手势序列与在 2D 中生成并提升到 3D 的手势序列进行了比较。

论文链接: https://arxiv.org/pdf/2406.15111

cs.CL: 朝向生成文本中的细粒度引文评估：忠实度指标的比较分析

原标题: Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics

作者: Weijia Zhang, Mohammad Aliannejadi, Yifei Yuan, Jiahuan Pei, Jia-Hong Huang, Evangelos Kanoulas

机构: 阿姆斯特丹大学哥本哈根大学信息与数学中心

摘要: 大语言模型（LLMs）通常会产生不受支持或不可验证的信息，即所谓的“幻觉”。为了减少这种情况，引入检索增强型大语言模型（retrieval-augmented LLMs）会包含引用，将内容基于可验证的来源进行基础化。尽管有这些发展，手动评估引用支持相关陈述的效果仍然是一项重大挑战。先前的研究使用忠实度度量来自动估计引用支持，但仅限于二元分类，忽视了在实际场景中对细粒度引用支持的考量。为了探讨忠实度度量在细粒度场景中的有效性，我们提出了一个比较评估框架，评估度量在三类支持水平（完全支持、部分支持和无支持）之间区分引用的效果。我们的框架采用相关性分析、分类评估和检索评估综合测量度量分数与人类判断之间的一致性。我们的结果显示，没有单一的度量能在所有评估中始终表现优异，揭示了评估细粒度支持的复杂性。基于研究结果，我们提出了开发更有效度量的实际建议。

论文链接: https://arxiv.org/pdf/2406.15264

cs.CL: 在线检测和信息图解垃圾评论，并进行数据漂移适应请注意，我已经按照您的要求翻译成中文了。如果还有其他问题或需要进一步帮助，请随时告诉我！

原标题: Online detection and infographic explanation of spam reviews with data drift adaptation

作者: Francisco de Arriba-Pérez, Silvia García-Méndez, Fátima Leal, Benedita Malheiro, J. C. Burguillo

机构: 立陶宛维尔纽斯大学，西班牙维戈大学，葡萄牙波尔图理工学院，葡萄牙系统与计算机工程技术科学研究所

摘要: 垃圾评论在在线平台上是一个普遍存在的问题，因为它对声誉有着重大影响。然而，对于数据流中的垃圾评论检测的研究却很少。另一个问题在于它们需要透明度。因此，本文通过提出一个在线解决方案来解决这些问题，该解决方案能够识别和解释垃圾评论，并整合了数据漂移适应性。它整合了（i）增量配置文件、（ii）数据漂移检测和适应、以及（iii）利用机器学习识别垃圾评论。可解释的机制在仪表板中显示了视觉和文本预测解释。获得的最佳结果达到了87%的垃圾评论F-度量。

论文链接: https://arxiv.org/pdf/2406.15038

cs.CL: Tri-VQA：三角推理医疗视觉问答，用于多属性分析

原标题: Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis

作者: Lin Fan, Xun Gong, Cenyang Zheng, Yafei Ou

机构: 西南交通大学东京工业大学

摘要: 医疗视觉问答（Med-VQA）的交集是一个具有挑战性的研究课题，其优势包括患者参与和临床专家提供的第二意见。然而，现有基于联合嵌入的Med-VQA方法未能解释其提供的结果是基于正确推理还是偶然答案，这削弱了VQA答案的可信度。在本文中，我们研究了更具凝聚力和稳定性的Med-VQA结构的构建。受因果效应的启发，我们提出了一种新颖的三角推理VQA（Tri-VQA）框架，该框架从“为什么这个答案？”的角度构建了逆因果问题，以阐明答案的来源并刺激更合理的前向推理过程。我们在来自五个中心的内窥镜超声（EUS）多属性注释数据集上评估了我们的方法，并在医疗VQA数据集上进行了测试。实验结果表明，我们的方法优于现有方法。我们的代码和预训练模型可在 https://anonymous.4open.science/r/Tri_VQA 获取。

论文链接: https://arxiv.org/pdf/2406.15050

cs.CL: GraLMatch：使用图和语言模型匹配实体组

原标题: GraLMatch: Matching Groups of Entities with Graphs and Language Models

作者: Fernando De Meer Pardo, Claude Lehmann, Dennis Gehrig, Andrea Nagy, Stefano Nicoli, Branka Hadji Misheva, Martin Braschler, Kurt Stockinger

机构: 苏黎世大学应用科学苏黎世大学伯尔尼应用科学大学 Move Digital AG

摘要: 在本文中，我们提出了一个端到端的多源实体匹配问题，称为实体组匹配，其目标是将来自多个数据源但代表同一现实世界实体的记录分配到同一组中。我们关注于经过传递匹配的记录的影响，即图 G = (V,E) 中由路径连接的记录，其中节点和边表示记录及其是否匹配。我们展示了这个问题的一个实际案例，挑战在于匹配来自不同数据提供者的公司和金融证券的记录。我们还引入了两个新的多源基准数据集，这些数据集呈现出与真实世界记录类似的匹配挑战。这些记录的一个显著特征是它们根据真实世界事件定期更新，但更新在数据源之间并不均匀。这种现象使得只能通过使用传递信息来匹配某些记录组成为可能。

在我们的实验中，我们说明了考虑传递匹配记录如何具有挑战性，因为有限数量的误报对会导致大量记录的组分配出错。因此，我们提出了GraLMatch方法，通过基于图的属性部分检测和移除误报对匹配预测。最后，我们展示了如何通过在少量标记样本上对基于Transformer的模型（DistilBERT）进行微调，比训练更多样本和/或引入微调优化更好地实现最终实体组匹配，说明了精度如何成为大量记录的实体组匹配中决定性因素的案例。

论文链接: https://arxiv.org/pdf/2406.15015

cs.CL: 大语言模型是否表现出认知失调？研究揭示信念与声明答案之间的差异

原标题: Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers

作者: Manuel Mondal, Ljiljana Dolamic, Gérôme Bovet, Philippe Cudré-Mauroux

机构: 弗里堡大学瑞士 armasuisse S+T 瑞士

摘要: “提示和多选题（MCQ）已经成为评估大语言模型（LLMs）能力的首选方法，因为它们易于操作和评估。这些实验性评估指向LLMs似乎能够进行因果推理或理解不确定性。在本文中，我们研究这些能力是否可以通过重新构思这些问题作为直接文本完成（LLMs的基础）来进行衡量。为了实现这一目标，我们定义了具有多种可能结果的场景，并比较LLMs通过提示进行的预测（其陈述答案）与它们在下一个标记预测期间计算的这些结果的概率分布（其揭示的信念）。我们的研究结果表明，LLMs的揭示信念与其陈述答案显著不同，并暗示它们的信念在许多场景和结果中可能存在多种偏见和误代表。由于文本完成是LLMs的核心，这些结果表明常见的评估方法可能只提供了部分画面，需要更多研究来评估其能力的范围和性质。”

论文链接: https://arxiv.org/pdf/2406.14986

cs.CL: 残疾表现：发现自动图像生成中的偏见

原标题: Disability Representations: Finding Biases in Automatic Image Generation

作者: Yannis Tevissen

摘要: 近年来，图像生成技术的进步使得人工智能生成的图像广泛应用于广告、娱乐，并逐渐渗透到各种形式的视觉内容中。然而，这些技术往往会延续社会偏见。本研究调查了流行的图像生成模型在残疾人群体表现中存在的偏见。通过涉及多个流行文本到图像模型的全面实验，我们分析了对残疾的描绘。结果显示存在显著的偏见，大多数生成的图像中，残疾个体被描绘为年迈、悲伤，主要使用手动轮椅。这些发现突显了需要在人工智能开发中更多考虑包容性，确保生成图像中残疾人群体的多样化和准确表现的紧迫性。这项研究强调了解决和减轻人工智能模型中偏见的重要性，以促进公平和真实的表现。

论文链接: https://arxiv.org/pdf/2406.14993

cs.CL: 解锁低秩适配器的全球协同效应

原标题: Unlocking the Global Synergies in Low-Rank Adapters

作者: Zixi Zhang, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides, Yiren Zhao

机构: 清华大学剑桥大学 Imperial College London

摘要: 低秩适应（LoRA）已成为大型语言模型的参数高效微调技术。我们提出了HeteroLoRA，这是一种轻量级搜索算法，利用零成本代理来分配有限的LoRA可训练参数到模型中，以提升微调性能。除了为标准LoRA适应模型分配资源外，我们还展示了在更具挑战性的搜索空间中（包括LoRA模块和LoRA适应的快捷连接）中HeteroLoRA的有效性。实验表明，HeteroLoRA在相同的参数预算下改善了模型性能。例如，在MRPC数据集上，我们看到精度提升了1.6%，而训练参数预算相似。一旦论文被接受，我们将开源我们的算法。

论文链接: https://arxiv.org/pdf/2406.14956

cs.CL: 安全学习私有数据：大语言模型的联邦学习框架

原标题: Safely Learning with Private Data: A Federated Learning Framework for Large Language Model

作者: JiaYing Zheng, HaiNan Zhang, LingXiang Wang, WangJie Qiu, HongWei Zheng, ZhiMing Zheng

摘要: 私人数据，比公共数据更大且质量更高，可以极大地改善大型语言模型（LLM）。然而，由于隐私问题，这些数据通常分散在多个孤立系统中，使得安全利用这些数据进行LLM训练成为一项挑战。联邦学习（FL）是一个理想的解决方案，用于训练具有分布式私人数据的模型，但传统的框架如FedAvg对于LLM来说由于对客户端的高计算需求而不适用。另一种替代方案，分布式学习，将大部分训练参数转移到服务器，同时在本地训练嵌入和输出层，使其更适用于LLM。然而，它面临着安全和效率方面的重大挑战。首先，嵌入的梯度容易受到攻击，导致私人数据的潜在逆向工程。此外，服务器一次只能处理一个客户端的训练请求的限制阻碍了并行训练，严重影响了训练效率。在本文中，我们提出了一个名为FL-GLM的LLM联邦学习框架，它可以防止由服务器端和对等客户端攻击引起的数据泄漏，同时提高训练效率。具体来说，我们首先将输入块和输出块放在本地客户端上，以防止来自服务器的嵌入梯度攻击。其次，我们在客户端-服务器通信过程中采用密钥加密，以防止来自对等客户端的逆向工程攻击。最后，我们采用了像客户端批处理或服务器分层这样的优化方法，根据服务器的实际计算能力采用不同的加速方法。在自然语言理解和生成任务上的实验结果表明，FL-GLM实现了与集中式chatGLM模型相当的指标，验证了我们联邦学习框架的有效性。

论文链接: https://arxiv.org/pdf/2406.14898

cs.CL: 自主智能体在信息不对称下的协作任务

原标题: Autonomous Agents for Collaborative Task under Information Asymmetry

作者: Wei Liu, Chenxi Wang, Yifei Wang, Zihao Xie, Rennai Qiu, Yufan Dang, Zhuoyun Du, Weize Chen, Cheng Yang, Chen Qian

机构: 清华大学北京邮电大学

摘要: 大语言模型多智能体系统（LLM-MAS）在解决复杂任务方面取得了巨大进展。它在共享信息的前提下，对系统内的智能体进行通信，共同解决任务。然而，当智能体的通信被利用来增强人类合作时，由于信息不对称，出现了新的挑战，因为每个智能体只能访问其人类用户的信息。先前的多智能体系统在这种情况下很难完成任务。为了解决这个问题，我们提出了一个新的多智能体系统范式，称为iAgents，它代表信息多智能体系统。在iAgents中，人类社交网络在智能体网络中得到了反映，智能体主动交换人类任务解决所需的信息，从而克服了信息不对称。iAgents采用了一种新颖的智能体推理机制InfoNav，将智能体的通信导向有效的信息交换。除了InfoNav，iAgents还利用混合记忆来组织人类信息，为智能体提供准确和全面的信息进行交换。此外，我们引入了InformativeBench，这是第一个专门用于评估LLM智能体在信息不对称条件下任务解决能力的基准。实验结果表明，iAgents可以在一个包含140个个体和588个关系的社交网络中进行合作，自主地进行30轮以上的通信，并从近70,000条消息中检索信息，在3分钟内完成任务。

论文链接: https://arxiv.org/pdf/2406.14928

cs.CL: LLM2FEA：利用生成进化多任务发现新设计

原标题: LLM2FEA: Discover Novel Designs with Generative Evolutionary Multitasking

作者: Melvin Wong, Jiao Liu, Thiago Rios, Stefan Menzel, Yew Soon Ong

机构: 南洋理工大学新加坡科技与研究局德国本田研究所

摘要: 快速发展的生成人工智能技术已经使得从文本提示生成高质量图像、文本和3D模型成为可能。这一进步促使人们探讨这些模型是否能够被利用来为创意和工程应用创建数字化作品。借鉴其他领域的创新设计可能是其中之一的答案，类似于历史上人们从自然的典范设计中汲取灵感的“仿生学”实践。这引发了一个有趣的可能性，即利用生成模型同时处理多个领域的设计任务，促进跨领域学习，并导致一系列创新设计解决方案的产生。在本文中，我们提出LLM2FEA作为第一次尝试，通过跨领域知识转移在生成模型中发现新的设计。通过利用多因素进化算法（MFEA）驱动大语言模型，LLM2FEA整合各领域知识生成文本提示，指导生成模型发现新颖而实用的物体。在3D空气动力设计的实验结果中验证了LLM2FEA提出的发现能力。LLM2FEA生成的设计不仅在一定程度上满足实用需求，还具备新颖且美观的形态，展示了LLM2FEA在发现任务中的潜在应用。

论文链接: https://arxiv.org/pdf/2406.14917

cs.CL: MoA: 自动大型语言模型压缩的稀疏注意力混合

原标题: MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

作者: Tianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang

机构: 清华大学 Infinigence-AI Stanford University 上海交通大学

摘要: 稀疏注意力可以有效减少大语言模型（LLMs）在长文本中的显著内存和吞吐需求。现有方法通常使用统一的稀疏注意力掩码，在不同注意力头部和输入长度中应用相同的稀疏模式。然而，这种统一方法未能捕捉LLMs中固有的多样的注意力模式，忽视了它们独特的准确性和延迟权衡。为了解决这一挑战，我们提出了混合注意力（MoA）方法，自动为不同的注意力头部和层级量身定制不同的稀疏注意力配置。MoA构建并导航各种注意力模式及其相对于输入序列长度的缩放规则的搜索空间。它对模型进行分析，评估潜在的配置，并确定最佳的稀疏注意力压缩方案。MoA适应不同的输入大小，揭示出一些注意力头部扩展其焦点以适应更长的序列，而其他头部则始终集中在固定长度的局部上下文。实验表明，MoA通过相同的平均注意力跨度将有效上下文长度提高了3.9倍，相比统一注意力基准，在Vicuna-7B、Vicuna-13B和Llama3-8B模型中将检索准确度提高了1.5-7.1倍。此外，MoA缩小了稀疏和稠密模型之间的能力差距，在两个长文本理解基准测试中，将最大相对性能下降从9%-36%降低到5%以内。对于单个GPU上的7B和13B稠密模型，MoA实现了1.2-1.4倍的GPU内存减少，并将解码吞吐量提高了5.5-6.7倍，对性能影响最小。

论文链接: https://arxiv.org/pdf/2406.14909

cs.CL: DistiLRR：将代码修复技术转移到低资源编程语言

原标题: DistiLRR: Transferring Code Repair for Low-Resource Programming Languages

作者: Kyle Wong, Alfonso Amayuelas, Liangming Pan, William Yang Wang

机构: 加州大学圣巴巴拉分校

摘要: 大语言模型（LLMs）在代码生成任务上表现出色。LLMs 最近在代码生成方面的一个应用是迭代式代码修复，其中模型通过对错误进行合理化并生成新程序来修复不正确的程序。然而，代码修复主要是在像Python这样的高资源语言上进行研究的，该框架在低资源语言上的有效性尚未得到充分探讨。为了将代码修复应用于低资源语言，我们提出了Distilling Low-Resource Repairs（DistiLRR），这是一种将教师模型的推理和代码生成能力转移到学生模型的方法。我们的结果表明，DistiLRR在低资源语言上始终优于基线，但在高资源语言上的性能相似。为了调查这种行为，我们进行了进一步的分析，并发现合理化质量与代码正确性之间的相关性比以前认为的要弱。我们假设这种弱点在低资源环境中被放大，因为基础模型缺乏对编程语言的深入了解，导致代码修复在高资源语言和低资源语言之间的效益出现波动。

论文链接: https://arxiv.org/pdf/2406.14867

cs.CL: LatentExplainer: 使用多模态基础模型解释深度生成模型中的潜在表示

原标题: LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models

作者: Mengdan Zhu, Raasikh Kanjiani, Jiahui Lu, Andrew Choi, Qirui Ye, Liang Zhao

机构: 埃默里大学南加州大学

摘要: 深度生成模型，如VAEs和扩散模型，通过利用潜在变量学习数据分布并生成高质量样本，推动了各种生成任务的发展。尽管可解释AI领域在解释机器学习模型方面取得了进展，但理解生成模型中的潜在变量仍然具有挑战性。本文介绍了LatentExplainer，这是一个框架，用于自动生成深度生成模型中潜在变量的语义有意义的解释。LatentExplainer解决了三个主要挑战：推断潜在变量的含义，将解释与归纳偏差对齐，以及处理不同程度的可解释性。通过扰动潜在变量并解释生成数据的变化，该框架提供了一种系统的方法来理解和控制数据生成过程，增强了深度生成模型的透明度和可解释性。我们在几个真实世界和合成数据集上评估了我们提出的方法，结果表明在生成潜在变量的高质量解释方面具有卓越的性能。

论文链接: https://arxiv.org/pdf/2406.14862