2024年6月21日Arxiv语言模型相关论文

数智笔记

已于 2024-06-21 14:46:28 修改

阅读量2k

点赞数 17

分类专栏：论文速递文章标签：语言模型

于 2024-06-21 14:45:05 首次发布

本文链接：https://blog.csdn.net/wjjc1017/article/details/139860987

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

cs.CL: xCOMET-lite：在高效性和质量之间架起桥梁的机器翻译评估指标

原标题: xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics

作者: Daniil Larionov, Mikhail Seleznyov, Vasiliy Viskov, Alexander Panchenko, Steffen Eger

机构: University of Mannheim Skoltech

摘要: 讨论了针对机器翻译评估中存在的计算成本高和资源有限等问题，进行了压缩大型编码器的研究。通过蒸馏、量化和修剪等技术，提出了高效的替代方法，并介绍了一种新颖的数据收集方法。实验证明，使用量化技术，xCOMET可以压缩高达三倍而不降低质量。此外，通过蒸馏，创造了一个xCOMET-lite指标，该指标仅具有xCOMET-XXL参数的2.6％，但保留了92.1％的质量。此外，尽管使用的参数减少了50％，但在WMT22指标挑战数据集上，它超过了强大的小规模指标COMET-22和BLEURT-20达6.4％。所有代码、数据集和模型均可在线获得。

论文链接: https://arxiv.org/pdf/2406.14553

cs.CL: 思维白板：在多种模式中逐步思考。

原标题: Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

作者: Sachit Menon, Richard Zemel, Carl Vondrick

机构: 哥伦比亚大学
摘要: 关于使用“whiteboard-of-thought prompting”方法来解锁多模态大型语言模型的视觉推理能力的研究。该方法允许这些模型将推理步骤绘制成图像，然后将这些图像返回给模型进行进一步处理，从而在涉及视觉和空间推理的自然语言任务上显示出最新的结果。研究发现，这种简单的方法在某些困难任务上展现出最先进的表现。该研究还对这种技术成功的领域及其错误来源进行了详细探讨。

如果您有任何关于的问题或需要进一步的解释，请随时告诉我！

论文链接: https://arxiv.org/pdf/2406.14562

cs.CL: 模型合并与安全对齐：一个糟糕的模型会破坏整体效果

原标题: Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

作者: Hasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay

机构: Samsung R&D Institute UK KAUST University of Oxford

摘要: 讨论了大型语言模型（LLMs）的合并技术，强调了安全对齐在合并过程中的重要性。研究表明，现有的模型合并方法不仅可以传递领域专业知识，还可能传播不正确的对齐。为了解决这个问题，提出了一个简单的两步方法：生成合成的安全和领域特定数据，然后将这些生成的数据纳入现有数据感知模型合并技术的优化过程中。这样可以使得在合并后的LLM中对齐被视为一种可以最大化的技能。实验证明，在合并过程中整合与对齐相关的数据的有效性，使得生成的模型在领域专业知识和对齐方面表现出色。

论文链接: https://arxiv.org/pdf/2406.14563

cs.CL: GraphReader: 以构建基于图的代理程序来增强大型语言模型的长距离上下文能力。

原标题: GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models

作者: Shilong Li, Yancheng He, Hangyu Guo, Xingyuan Bu, Ge Bai, Jie Liu, Jiaheng Liu, Xingwei Qu, Yangguang Li, Wanli Ouyang, Wenbo Su, Bo Zheng

机构: 阿里巴巴集团中国香港中文大学上海人工智能实验室曼彻斯特大学

摘要: 描述了一种名为GraphReader的基于图的代理系统，旨在处理长文本。该系统将长文本结构化成图，并利用代理探索这个图。代理在接收到问题后，首先进行逐步分析并制定合理的计划。它调用一组预定义的函数来读取节点内容和邻居，促进对图的逐步探索。在探索过程中，代理不断记录新的见解，并反思当前情况，以优化过程，直到收集到足够的信息生成答案。在LV-Eval数据集上的实验结果显示，使用4k上下文窗口的GraphReader，在16k到256k的上下文长度范围内均明显优于GPT-4-128k。此外，该方法在四个具有挑战性的单跳和多跳基准测试中表现出卓越的性能。

论文链接: https://arxiv.org/pdf/2406.14550

cs.CL: 如何计算一个单词的概率

原标题: How to Compute the Probability of a Word

作者: Tiago Pimentel, Clara Meister

机构: 苏黎世联邦理工学院

摘要: 讨论语言模型（LMs）对自然语言序列的概率分布进行估计，这些分布对于计算语言学研究中的困惑度和惊讶度至关重要。虽然我们通常关注测量单词的这些值，但大多数LMs操作的是子单词。尽管看似简单，精确计算一个单元的概率，需要根据其他单元的概率谨慎处理。实际上，我们在这里展示，许多最近的语言学研究错误地计算了这些值。本论文提出了计算单词概率的正确方法，强调了在依赖使用单词开头标记（bow）的标记器，例如GPT系列，的语言模型时会出现的问题。在经验上，我们展示了更正概率计算中普遍存在的错误如何影响句子理解和词汇优化分析的测量结果。

请问有什么问题我可以帮忙回答吗？

论文链接: https://arxiv.org/pdf/2406.14561

cs.CL: 揭示数据库漏洞：文本到SQL系统中的零知识模式推断攻击

原标题: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems

作者: Đorđe Klisura, Anthony Rios

机构: The University of Texas at San Antonio

摘要: 关系数据库对于现代信息系统至关重要，它们是存储、查询和有效管理数据的基础。大型语言建模的进展导致了文本到SQL技术的出现，显著增强了从这些数据库中查询和提取信息的能力，并引发了对隐私和安全的担忧。我们的研究提取了文本到SQL模型下的数据库模式元素。对模式的了解可以使诸如SQL注入之类的攻击变得更容易。通过提出特制的问题，我们开发了一种零知识框架，旨在在不了解数据库本身的情况下探测各种数据库模式元素。然后，文本到SQL模型处理这些问题，产生我们用来揭示数据库模式结构的输出。我们将其应用于专门针对文本-SQL对进行微调的文本到SQL模型和用于SQL生成的生成式语言模型。总体而言，我们可以在针对文本-SQL对进行微调的模型中以接近0.75的F1值重构表的名称，生成式模型中接近0.96的F1值。

论文链接: https://arxiv.org/pdf/2406.14545

cs.CL: 研究CoT增强蒸馏的神秘之处

原标题: Investigating Mysteries of CoT-Augmented Distillation

作者: Somin Wadhwa, Silvio Amir, Byron C. Wallace

机构: 东北大学

摘要: 主要讨论了如何通过一种名为"chain of thought"（CoT）rationales的方式，即传达一种"推理"过程的令牌序列，来提高语言模型在诸如问题回答等任务中的性能。最近的努力表明，这种理由也可以用于模型蒸馏：在微调小型学生模型时，将CoT序列（从大型"教师"模型中抽取的）与目标标签一起使用，通常会带来显著的改进。这项工作探讨了这种额外训练信号如何帮助模型蒸馏的问题，通过分析来回答这个问题，并报告了一些可能令人惊讶的结果。特别是：（1）将CoT序列放置在标签之后（而不是之前）能够实现一致更好的下游性能——这意味着在测试时不需要学生端的"推理"来实现收益。（2）当以这种方式附加理由时，它们不需要是连贯的推理序列也能带来改进；性能增加对于CoT令牌的排列组合是稳健的。事实上，（3）少量关键令牌就足以实现与在模型蒸馏中使用完整理由时观察到的改进等效的改进。

论文链接: https://arxiv.org/pdf/2406.14511

cs.CL: 连接点：大型语言模型能够从不同的训练数据中推断和表达潜在结构

原标题: Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data

作者: Johannes Treutlein, Dami Choi, Jan Betley, Cem Anil, Samuel Marks, Roger Baker Grosse, Owain Evans

机构: UC Berkeley University of Toronto Vector Institute Constellation Northeastern University Anthropic

摘要: 在处理来自大型语言模型（LLMs）的安全风险方面的一种方法是从它们的训练数据中审查危险知识。虽然这会移除显式信息，但隐式信息可能仍然在各种训练文档中散布。LLM能否通过拼凑这些隐含线索来推断被审查的知识呢？为了回答这个问题，我们研究了归纳的上下文外推理（OOCR），这是一种从训练文档中分布的证据推断潜在信息，并将其应用到下游任务中的泛化类型。通过一系列五项任务，我们展示了前沿LLM可以执行归纳的OOCR。在一个实验中，我们在一个仅由未知城市与其他已知城市之间的距离组成的语料库上对LLM进行微调。值得注意的是，在没有上下文示例或“思维链”情况下，LLM可以表达未知城市是巴黎这一事实，并利用这一事实来回答下游问题。进一步的实验显示，仅在个别抛硬币结果上训练的LLM可以表达硬币是否有偏倚，而仅在对 $(x, f (x))$ 对训练的LLM可以阐述 $f$ 的定义并计算反函数。尽管OOCR在许多情况下取得了成功，但我们也展示了它的不可靠性，特别是对于学习复杂结构的较小LLMs。总的来说，LLMs在没有显式上下文学习的情况下“连接点”的能力可能会对监控和控制LLMs所获得的知识构成潜在障碍。

论文链接: https://arxiv.org/pdf/2406.14546

cs.CL: 关于使用大型语言模型进行政治劝说的对数尺度规律的证据

原标题: Evidence of a log scaling law for political persuasion with large language models

作者: Kobi Hackenburg, Ben M. Tappin, Paul Röttger, Scott Hale, Jonathan Bright, Helen Margetts

机构: 牛津大学图灵

摘要: 讨论了大型语言模型可以生成与人类撰写的政治信息同样具有说服力的信息，引发了对于随着模型规模增大这种说服力可能会继续增强的担忧。研究者生成了720条关于10个美国政治议题的具有说服力的信息，使用了24个规模相差很大的语言模型。然后，在一个涉及25982个参与者的大规模随机调查实验中部署了这些信息，以估计每个模型的说服能力。研究结果有两个方面。首先，研究发现了一个对数缩放规律：模型的说服力呈现出急剧递减的收益，目前的前沿模型几乎比规模小一个数量级或更多的模型更有说服力。其次，仅完成任务（连贯性、围绕主题论述）似乎是更大模型说服力优势的原因。这些发现表明，进一步扩大模型规模并不会显著增强LLM生成的信息的说服力。

论文链接: https://arxiv.org/pdf/2406.14508

Github: https://github.com/kobihackenburg/scaling-llm-persuasion

cs.CL: 跨文化翻译：面向语言内文化的LLM

原标题: Translating Across Cultures: LLMs for Intralingual Cultural Adaptation

作者: Pushpdeep Singh, Mayur Patidar, Lovekesh Vig

机构: TCS研究

摘要: LLM（Large Language Models）在多语言应用中越来越多地被部署，并展示出在多种资源丰富和资源匮乏语言之间的惊人翻译能力。经常被忽视的翻译方面之一是文化适应，即修改源文化引用以适应目标文化。文化适应在数个创意产业中都有应用，并在翻译过程中需要对源文化和目标文化有深入了解。尽管专门的翻译模型在机器翻译任务上仍然胜过LLMs，从正确性的角度来看，但它们对文化差异不敏感，通常需要手动更正。另一方面，LLMs在其参数中嵌入了丰富的文化知识库，这些知识可以潜在地用于这类应用。在本文中，我们定义文化适应任务，并创建一个评估框架来为此任务基准不同模型。我们评估现代LLMs在文化适应方面的表现，并分析它们的跨文化知识，同时将相关概念与不同文化联系起来。我们还分析了自动适应可能遇到的问题，包括文化偏见和刻板印象。我们希望这个任务能够更深入地了解LLMs对文化的理解以及它们在跨文化情境中的创造力。

论文链接: https://arxiv.org/pdf/2406.14504

cs.CL: 关于2023年CAIL辩论挖掘赛道的概述

原标题: Overview of the CAIL 2023 Argument Mining Track

作者: Jingcong Liang, Junlong Wang, Xinyu Zhai, Yungui Zhuang, Yiyang Zheng, Xin Xu, Xiandong Ran, Xiaozheng Dong, Honghui Rong, Yanlun Liu, Hao Chen, Yuhan Wei, Donghai Li, Jiajie Peng, Xuanjing Huang, Chongde Shi, Yansong Feng, Yun Song, Zhongyu Wei

机构: Fudan University Dalian University of Technology Tgnet Shanghai University Xi’an Jiaotong University Lenovo KnowDee Intelligence Hunan University Xiamen Huatian International Vocation Institute Northwest Polytechnica

摘要: 提供了关于CAIL 2023 Argument Mining Track的详细概述，这是中国人工智能与法律挑战赛（CAIL）2023的一个赛道。该赛道的主要目标是在审判对话中识别和提取互动的论点对。它主要使用摘要判决文件，但也可以参考庭审记录。该赛道分为两个阶段，我们介绍了为每个阶段设计的任务；我们还将来自以往事件的数据扩展为一个新数据集–CAIL2023-ArgMine–其中包含来自各种诉因的新案件的注释。我们概述了几个取得最佳结果的提交，包括它们针对不同阶段的方法。虽然所有提交都依赖语言模型，但它们融入了可能有助于这一领域未来工作的策略。

论文链接: https://arxiv.org/pdf/2406.14503

cs.CL: 这个语料描述了一个名为LLaSA的大型多模态代理，通过可穿戴传感器进行人类活动分析。

原标题: LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

作者: Sheikh Asif Imran, Mohammad Nur Hossain Khan, Subrata Biswas, Bashima Islam

机构: Worcester Polytechnic Institute

摘要: 在将惯性测量单元（IMUs）与大型语言模型（LLMs）相结合的情况下，通过增强人类活动理解，推动了多模态人工智能的发展。我们介绍了SensorCaps，这是一个包含26,288个IMU生成的活动描述的数据集，以及OpenSQA，一个包含257,562个问答对的指令遵循数据集。结合LIMU-BERT和Llama，我们开发了LLaSA，这是一个能够解释和回答活动和运动分析查询的大型多模态代理。我们的评估显示LLaSA在活动分类和问题回答方面的有效性，突显了它在医疗保健、运动科学和人机交互领域的潜力。这些贡献推动了传感器感知语言模型的发展，开辟了新的研究路径。我们的代码仓库和数据集可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.14498

Github: https://github.com/BASHLab/LLaSA

cs.CL: 通过向大型语言模型提供普通人概要来改进专家放射学报告的总结

原标题: Improving Expert Radiology Report Summarization by Prompting Large Language Models with a Layperson Summary

作者: Xingmeng Zhao, Tongnian Wang, Anthony Rios

机构: The University of Texas at San Antonio

摘要: 似乎是关于医学影像学报告摘要的内容。他们提出了一种新的提示策略，通过首先生成一个普通人摘要来增强报告摘要的效果。该方法结合了少样本上下文学习，改善了模型将一般术语与具体发现联系起来的能力。他们在MIMIC-CXR、CheXpert和MIMIC-III数据集上对这种方法进行了评估，并将其与Meta-Llama-3-8B-Instruct等7B/8B参数的开源大型语言模型进行了基准测试。研究结果表明，在摘要的准确性和可访问性方面取得了改进，特别是在领域外测试中，部分指标的改进高达5%。

论文链接: https://arxiv.org/pdf/2406.14500

cs.CL: 在指导预训练中，语言模型是受监督的多任务学习者。

原标题: Instruction Pre-Training: Language Models are Supervised Multitask Learners

作者: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei

机构: 清华大学微软研究院

摘要: 讨论了一种名为Instruction Pre-Training的监督多任务预训练框架，该框架通过添加指令-响应对来预训练语言模型。这些指令-响应对是通过一个高效的指令合成器生成的，覆盖了40多个任务类别。实验表明，Instruction Pre-Training不仅可以持续增强预训练的基础模型，而且在进一步调整指令方面也能获得更多好处。这项研究的模型、代码和数据可以在提供的网址上找到。

论文链接: https://arxiv.org/pdf/2406.14491

Github: https://github.com/microsoft/LMOps

cs.CL: BERT的治療能力：如何通過任務特定的微調恢復損壞的語言模型

原标题: Healing Powers of BERT: How Task-Specific Fine-Tuning Recovers Corrupted Language Models

作者: Shijie Han, Zhenyu Zhang, Andrei Arsene Simion

机构: 哥伦比亚大学浙江大学

摘要: BERT语言模型在句子分类任务中表现出色，这归功于对通用数据进行了广泛的预训练，但其对参数损坏的鲁棒性尚未被探索。为了更好地理解这一点，我们研究了当一个语言模型被“破坏”时会发生什么，即一些参数被损坏然后通过微调恢复。通过在不同级别上策略性地破坏BERT变体，我们发现受损模型难以完全恢复其原始性能，而更严重的损坏会造成更严重的退化。值得注意的是，影响基本语言特征的底层损坏比顶层损坏更具破坏性。我们的见解有助于了解语言模型在不利条件下的鲁棒性和适应能力，为开发针对参数扰动具有弹性的自然语言处理系统提供策略。

论文链接: https://arxiv.org/pdf/2406.14459

cs.CL: 显性和隐性的大型语言模型个性产生观点，但未能复制更深层次的认知和偏见

原标题: Explicit and Implicit Large Language Model Personas Generate Opinions but Fail to Replicate Deeper Perceptions and Biases

作者: Salvatore Giorgi, Tingting Liu, Ankit Aich, Kelsey Isman, Garrick Sherman, Zachary Fried, João Sedoc, Lyle H. Ungar, Brenda Curtis

机构: 国家药物滥用研究所纽约大学宾夕法尼亚大学

摘要: 讨论了大型语言模型在人类社会科学任务中的使用越来越普遍，例如数据标注、合成数据创建和对话交流。然而，这些任务非常主观，并且取决于人类因素，如环境、态度、信仰和生活经验。因此，在这些任务中使用没有这些人类因素的LLMs可能导致数据变化不足，无法反映人类经验的多样性。在本文中，作者研究了用类似于人类的角色提示LLMs，并要求模型回答就像他们是特定人类一样的作用。这是通过明确方式进行的，包括精确的人口统计数据、政治信仰和生活经验，或者通过在特定人口中普遍存在的姓名进行隐含方式。然后通过主观注释任务（例如检测毒性）和信仰生成任务评估LLM角色，这两个任务都知道会在人类因素上有所变化。我们研究了明确与隐式角色的影响，并调查LLMs识别和响应哪些人类因素。结果显示，LLMs角色在复制已知的人类偏见时表现出了不同的结果，但通常没有体现出隐含的偏见。我们得出结论，LLMs缺乏人类思维的固有认知机制，但捕捉到了人们说话方式的统计模式，这可能会限制它们在复杂社会科学应用中的有效性。

论文链接: https://arxiv.org/pdf/2406.14462

cs.CL: 这是一篇关于真实多语言大语言模型的文章，主要讨论了基准测试和对齐策略。

原标题: Towards Truthful Multilingual Large Language Models: Benchmarking and Alignment Strategies

作者: Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang

机构: Microsoft STC Asian

摘要:在大型语言模型（LLMs）时代，构建能够满足全球用户需求的多语言大型语言模型（MLLMs）变得越来越重要。然而，目前的研究往往忽视了MLLMs的真实性问题。此外，现有的多语言对齐技术在保持不同语言中的准确性方面面临挑战，尤其是对于那些与英语有显著差异的语言。在我们的研究中，我们建立了一个评估多语言环境中真实性的基准，并探讨了在不同语言之间对齐事实的方法，以提高MLLMs的准确性。我们还提出了Fact-aware Multilingual Selective Synergy（FaMSS）方法，旨在优化跨众多语言和数据类型的数据分布。通过实验，我们展示了我们的方法能够有效减少多语言表达的不一致性，并增强LLMs的多语言能力。

论文链接: https://arxiv.org/pdf/2406.14434

cs.CL: 用于金融问答的系统性评估语料库

原标题: SEC-QA: A Systematic Evaluation Corpus for Financial QA

作者: Viet Dac Lai, Michael Krumdick, Charles Lovering, Varshini Reddy, Craig Schmidt, Chris Tanner

机构: Kensho Technologies

摘要: 讨论了金融领域面临的挑战以及提出的解决方案。主要内容包括金融领域处理大量长文档的重要性，自动化金融数据分析的努力，以及现有数据集无法准确反映真实任务的挑战。提出了SEC-QA，这是一个连续数据集生成框架，具有两个关键特点：1）半自动生成跨越多个长文档的问题-答案（QA）对，更好地代表真实金融场景；2）能够使用最新的公共文档集不断更新数据集，这些文档尚未被LLMs（大型语言模型）摄取。实验证明，当前的检索增强生成方法系统性地无法回答这些具有挑战性的多文档问题。为此，引入了基于思维程序的QA系统，改进了执行复杂信息检索和定量推理流程的能力，从而提高了QA的准确性。

论文链接: https://arxiv.org/pdf/2406.14394

cs.CL: 使用基于LLM的关系抽取技术来探索历史湖区文本中的空间表征。

原标题: Exploring Spatial Representations in the Historical Lake District Texts with LLM-based Relation Extraction

作者: Erum Haris, Anthony G. Cohn, John G. Stell

机构: 利兹大学图灵研究所

摘要: 导航历史叙述在揭示过去景观的空间复杂性方面是具有挑战性的。所提出的工作在英国湖区的语料库的背景下解决了这一挑战，采用了湖区写作语料库。该方法利用生成式预训练变压器模型从语料库中的文本描述中提取空间关系。该研究将这个大型语言模型应用于全面理解历史叙述中固有的空间维度。研究结果呈现为语义三元组，捕捉实体和位置之间微妙的连接，并可视化为网络，呈现出空间叙述的图形表示。该研究有助于更深入地理解英国湖区的空间格局，并提供了一种揭示不同历史背景中空间关系的方法。

论文链接: https://arxiv.org/pdf/2406.14336

cs.CL: 在低资源语言中生成数据集用于自动推理

原标题: SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages

作者: Gayane Ghazaryan, Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein

机构: 美国亚美尼亚大学丹麦哥本哈根大学英国爱丁堡大学

摘要: 问答（QA）数据集对于开发和评估大型语言模型（LLM）的能力起到了关键作用。然而，除了英语之外，其他语言的这类数据集很少，这是因为收集和手动注释成本高，困难重重。这意味着在低资源语言中生成新模型和评估多语言LLM的性能具有挑战性。为了缓解这一问题，我们提出了 ${S}$ yn ${DAR}$ in，一种用于生成和验证低资源语言QA数据集的方法。我们利用平行内容挖掘来获取英语和目标语言之间的 $KaTeX parse error: Expected 'EOF', got '}' at position 5: 人工策划}̲$ 段落。我们使用英语数据作为背景来 $KaTeX parse error: Expected 'EOF', got '}' at position 3: 生成}̲$ 合成的多项选择（MC）问题-答案对，这些对会被自动翻译并进一步验证质量。将这些数据与其指定的非英语 $KaTeX parse error: Expected 'EOF', got '}' at position 5: 人工策划}̲$ 段落组合成最终的QA数据集。该方法能够保持内容质量，减少了事实错误的可能性，避免了昂贵的注释需求。为了测试该方法，我们为亚美尼亚语创建了一个包含1200个样本的QA数据集。人工评估显示，98%的生成的英语数据保持了在问题类型和主题方面的质量和多样性，而翻译验证流水线可以过滤掉约70%质量较差的数据。我们使用该数据集来评估最先进的LLM，表明它们无法实现人类精度，一些模型的性能更接近随机机会。这表明所生成的数据集是非平凡的，并可用于评估低资源语言的推理能力。

论文链接: https://arxiv.org/pdf/2406.14425

cs.CL: 自监督和可解释的基于概念的文本分类模型

原标题: Self-supervised Interpretable Concept-based Models for Text Classification

作者: Francesco De Santis, Philippe Bich, Gabriele Ciravegna, Pietro Barbiero, Danilo Giordano, Tania Cerquitelli

机构: Politecnico di Torino Università della Svizzera Italiana University of Cambridge

摘要: 该语料讨论了大型语言模型（LLMs）尽管取得成功，但由于缺乏可解释性而受到批评，这限制了它们的可控性和可靠性。传统的后期解释方法，基于注意力和基于梯度的分析，对模型决策过程的洞察力有限。在图像领域，基于概念的模型已经出现为可解释性设计架构，采用人类可解释的特征作为中间表示。然而，这些方法尚未适应文本数据，主要是因为它们需要昂贵的概念标注，这对于现实世界的文本数据来说是不切实际的。这篇论文通过提出一种自监督可解释概念嵌入模型（ICEMs）来解决这一挑战。我们利用LLMs的泛化能力以自监督方式预测概念标签，同时通过可解释的函数提供最终预测结果。我们实验的结果显示，ICEMs 可以以自监督方式训练，达到与完全监督的基于概念的模型和端到端的黑盒模型相似的性能。此外，我们展示了我们的模型具有可解释性，为其预测提供有意义的逻辑解释；交互性，允许人类通过概念干预修改中间预测；以及可控性，引导LLMs的解码过程遵循所需的决策路径。

论文链接: https://arxiv.org/pdf/2406.14335

cs.CL: medIKAL：将知识图谱作为大语言模型的助手，增强对电子病历的临床诊断能力。

原标题: medIKAL: Integrating Knowledge Graphs as Assistants of LLMs for Enhanced Clinical Diagnosis on EMRs

作者: Mingyi Jia, Junwen Duan, Yan Song, Jianxin Wang

机构: 中南大学、中国科学技术大学

摘要: 电子病历（EMRs）在现代医疗中发挥着关键作用，但由于其复杂性和冗余信息，也可能给临床推理和诊断带来挑战。为了解决这些挑战，我们开发了一个名为medIKAL的框架（将知识图谱作为LLMs的助手进行整合）。该框架将大型语言模型（LLMs）与知识图谱（KGs）相结合，以增强诊断能力。

medIKAL的一个关键方面是它能够根据实体类型为医疗记录中的实体分配加权重要性。这使得框架能够准确地在知识图谱中定位潜在疾病。此外，medIKAL采用了一种类似残差网络的方法，这使得来自LLM的初始诊断能够被纳入到KG搜索结果中。

为了进一步改进诊断过程，medIKAL还使用了一种基于路径的重排序算法和填空式提示模板。这些功能有助于优化诊断过程，使其更加准确。

我们在一个新引入的开源中文EMR数据集上进行了广泛的实验，以验证medIKAL的有效性。实验结果表明，我们的框架有潜力在现实医疗环境中增强临床诊断。

论文链接: https://arxiv.org/pdf/2406.14326

cs.CL: 注意隐私单元！用于语言模型微调的用户级差分隐私

原标题: Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning

作者: Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Daogao Liu, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang

机构: Google Research Princeton U. U. Washington

摘要: 讨论了大型语言模型（LLMs）在处理复杂任务时的强大作用，以及在敏感数据上进行微调时可能引发的隐私问题。它提到了差分隐私（DP）作为一种解决方案，通过确保模型在有或没有特定隐私单元的情况下“几乎不可区分”，但目前对LLMs的评估大多将每个示例（文本记录）视为隐私单元，这会导致用户隐私保证不均匀，特别是当用户的贡献不同时。因此，作者研究了基于用户级别的差分隐私，这是由于在某些应用中需要确保跨用户之间的隐私保护是均匀的。作者进行了对LLM在自然语言生成任务中进行用户级别差分隐私微调的系统评估。重点关注了实现用户级别差分隐私保证的两种机制，即群体隐私和用户级别DP-SGD，研究了数据选择策略和参数调整等设计选择，以找到最佳的隐私-效用权衡。

论文链接: https://arxiv.org/pdf/2406.14322

cs.CL: 鲁棒的少样本迁移学习用于知识库问答包括无法回答的问题。

原标题: Robust Few-shot Transfer Learning for Knowledge Base Question Answering with Unanswerable Questions

作者: Riya Sawhney, Indrajit Bhattacharya, Mausam

机构: 印度理工学院德里分校 TCS研究

摘要: 基于真实世界的知识库问答应用需要具有鲁棒性（例如，能够区分可回答和不可回答的问题）和低资源需求（不需要大量训练数据）的模型。为了实现这一目标，我们提出了一种新颖的任务，即针对包含不可回答问题的知识库问答的少样本迁移。我们提出了FUn-FuSIC，它扩展了最先进的少样本迁移模型，用于处理不可回答问题的知识库问答。它通过提供多样化的句法、语义和执行引导检查来迭代提示一个LLM生成问题的逻辑形式，并调整自洽性来评估LLM的信心来决定可回答性。在新构建的数据集上进行的实验表明，FUn-FuSIC在处理不可回答问题的知识库问答任务上优于适当调整的最先进模型，以及只针对可回答问题的少样本迁移知识库问答的最先进模型。

论文链接: https://arxiv.org/pdf/2406.14313

cs.CL: 从用户界面轨迹中识别用户目标

原标题: Identifying User Goals from UI Trajectories

作者: Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu, Ido Dagan

机构: Google Research

摘要: 讨论了与图形用户界面(GUI)交互的自主代理在增强用户体验方面的潜力。为了进一步提高这些体验，代理需要个性化和主动性。通过有效理解用户通过其与GUI的交互行为表达的意图，代理将能更好地实现这些目标。该论文介绍了从观察到的UI轨迹中识别目标的任务，旨在根据用户的GUI交互推断用户的预期任务。我们提出了一个新颖的评估指标，用于评估特定UI环境中两个任务描述是否为释义。通过利用与UI自动化任务的逆关系，我们利用了Android-In-The-Wild和Mind2Web数据集进行实验。使用我们的指标和这些数据集，我们进行了几项实验，比较了人类和最先进模型的表现，具体包括GPT-4和Gemini-1.5 Pro。我们的结果表明，Gemini的表现优于GPT，但仍不如人类表现，这表明还有很大的改进空间。

论文链接: https://arxiv.org/pdf/2406.14314

cs.CL: - VAIYAKARANA：孟加拉语自动语法纠错基准

原标题: VAIYAKARANA : A Benchmark for Automatic Grammar Correction in Bangla

作者: Pramit Bhattacharyya, Arnab Bhattacharya

机构: 印度理工学院坎普尔分校印度

摘要: 讨论了孟加拉语（孟加拉语）的语法自动纠正问题，以及如何通过提出一种实用的方法来生成孟加拉语中的语法错误句子。他们首先将不同类型的错误划分为5种广泛的类别和12种细分类别，然后利用这些来系统地从正确的句子中生成语法错误的句子。他们提供了一个数据集Vaiyakarana，其中包含92,830个语法错误的句子和18,426个正确的句子。此外，他们还从母语为孟加拉语的作家撰写的文章中收集了619个人工生成的句子，这有助于他们了解更常见的错误。最后，他们评估了他们的语料库，并与神经模型和LLMs进行了基准测试，并与母语为孟加拉语的人类评估者进行了比较。分析表明，母语为孟加拉语的人更准确地判断句子是否语法正确。最后，他们指出其生成错误句子的方法也适用于大多数其他印度语言。

提到了使用新方法生成语法错误句子的重要性，以及为了改进与语言处理相关的技术（如神经网络），需要一个包含大量语法错误句子的语料库。这些方法的提出有望使处理孟加拉语自动语法纠正问题的工作取得进展。

如果您有任何问题或需要更多帮助，请告诉我！

论文链接: https://arxiv.org/pdf/2406.14284

cs.CL: 从知识图谱中学习为检索增强型大型语言模型进行规划

原标题: Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs

作者: Junjie Wang, Mingyang Chen, Binbin Hu, Dan Yang, Ziqi Liu, Yue Shen, Peng Wei, Zhiqiang Zhang, Jinjie Gu, Jun Zhou, Jeff Z. Pan, Wen Zhang, Huajun Chen

机构: 浙江大学 Ant Group 爱丁堡大学

摘要: 谈论了在复杂问答场景中提高大型语言模型（LLMs）性能的研究重点。最近的研究尝试通过将逐步规划与外部检索相结合来提高LLMs的性能。虽然对于像GPT-3.5这样的先进模型来说是有效的，但较小的LLMs在分解复杂问题时面临挑战，需要进行监督微调。先前的工作依赖于对问题进行手动注释，并从教师LLMs进行知识蒸馏，这是耗时且精度不够的。在这篇论文中，我们介绍了一种利用从知识图中获得的规划数据来增强LLMs规划能力的新框架。使用这些数据进行微调的LLMs具有改进的规划能力，更好地使它们能够处理涉及检索的复杂QA任务。对包括我们新提出的基准测试在内的多个数据集进行评估，突显了我们框架的有效性以及来自知识图的规划数据的益处。

论文链接: https://arxiv.org/pdf/2406.14282

cs.CL:将临床知识融入语言模型的分词器

原标题: Infusing clinical knowledge into tokenisers for language models

作者: Abul Hasan, Jinge Wu, Quang Ngoc Nguyen, Salomé Andres, Imane Guellil, Huayu Zhang, Arlene Casey, Beatrice Alex, Bruce Guthrie, Honghan Wu

机构: 伦敦大学学院健康信息学研究所、爱丁堡大学高级护理研究中心、爱丁堡大学文学、语言和文化学院、爱丁堡大学未来学院、格拉斯哥大学健康与福祉学院

摘要: 这个语料描述了一项关于临床文本处理的研究，介绍了一种新的知识增强的分词机制——K-Tokeniser。在这个机制中，通过使用语义类型来填充全局表示，从而实现基于语义的分词。本研究使用了三种基于Transformer的语言模型，在四个真实世界的数据集上进行了一系列实验，评估了K-Tokeniser在包括临床概念和关系提取、自动临床编码、临床表型识别和临床研究文章分类等广泛的临床文本分析任务中的有效性。研究结果表明，在所有任务中我们的模型都展示出了与对照组相比的一致改进。特别是，在自动临床编码任务中观察到显著的改进，Micro F1分数提高了13%。此外，K-Tokeniser还展示了在促进语言模型更快收敛方面的显著能力。具体而言，使用K-Tokeniser，语言模型只需要使用对照组所需数据量的50%就能在概念提取任务中实现最佳性能，而在自动编码任务中则仅需不到20%的数据。值得一提的是，所有这些改进都不需要预训练过程，使得这种方法具有普适性。

论文链接: https://arxiv.org/pdf/2406.14312

cs.CL: 退一步分析法：提炼用户历史以实现个性化科学写作

原标题: Step-Back Profiling: Distilling User History for Personalized Scientific Writing

作者: Xiangru Tang, Xingyao Zhang, Yanjun Shao, Jie Wu, Yilun Zhao, Arman Cohan, Ming Gong, Dongmei Zhang, Mark Gerstein

机构: Yale University Microsoft

摘要: 讨论了使用Step-Back Profiling来个性化大型语言模型（LLMs）以进行科学写作的个性化内容生成。他们介绍了个性化科学写作（PSW）数据集，通过构建专门的作者组合要求模型编写科学论文。实验证明通过Step-Back Profiling捕捉用户特征对协作写作的有效性，并且他们的方法在一般个性化基准（LaMP）上胜过了基线方法高达3.6个点。此外，他们的大量消融研究验证了方法中不同组件的贡献，并提供了对任务定义的深入见解。他们的数据集和代码可在指定的网址找到。

如果您有任何关于该语料的问题或需要进一步解释，请告诉我。

论文链接: https://arxiv.org/pdf/2406.14275

Github: https://github.com/gersteinlab/step-back-profiling

cs.CL: 使用大型语言模型增强查询和段落，以改进开放域问答的检索增强生成

原标题: Augmenting Query and Passage for Retrieval-Augmented Generation using LLMs for Open-Domain Question Answering

作者: Minsang Kim, Cheoneum Park, Seungjun Baek

机构: 韩国大学韩国国立汉城大学

摘要: 检索增强生成（RAG）在开放域问答（ODQA）任务中备受关注，作为弥补大型语言模型（LLMs）的参数化知识的手段。虽然先前的方法侧重于处理检索到的段落以去除不相关的上下文，但它们仍然严重依赖于检索到的段落的质量，如果问题模棱两可或复杂，质量可能会下降。在本文中，我们提出了一种简单而有效的方法，称为通过LLMs进行问题和段落增强的开放域QA。我们的方法首先将原始问题分解为多步子问题。通过使用详细的子问题和规划增强原始问题，我们能够使查询更具体，明确需要检索的内容，从而提高检索性能。此外，为了弥补检索到的段落包含干扰信息或分歧意见的情况，我们通过LLMs增加了自动生成的段落来指导答案提取。实验结果表明，所提出的方案优于先前的最先进技术，并且比现有的RAG方法取得了显著的性能增益。

论文链接: https://arxiv.org/pdf/2406.14277

cs.CL: 在多语种自然语言处理中的评估实践：机器翻译能否成为人工翻译的替代方案？

原标题: On the Evaluation Practices in Multilingual NLP: Can Machine Translation Offer an Alternative to Human Translations?

作者: Rochelle Choenni, Sara Rajaee, Christof Monz, Ekaterina Shutova

机构: 阿姆斯特丹大学ILLC 阿姆斯特丹大学语言技术实验室

摘要: 讨论了多语言语言模型在评估过程中所面临的挑战，以及使用机器翻译作为大规模评估多语言语言模型的方法。在这篇论文中，作者提出了对多语言自然语言处理中现有评估框架的分析，讨论了它们的局限性，并提出了一些更为健壮和可靠的评估实践方向。作者还通过实证研究了机器翻译在多语言语言模型跨越广泛语言集合的大规模评估中作为人工翻译的可靠替代方法。在这个研究中，他们使用了最先进的翻译模型将来自4个任务的测试数据翻译成198种语言，并用这些数据来评估三个多语言语言模型。他们展示了虽然选择的高资源测试语言子集通常在很大程度上足够代表更广泛的高资源语言范围，但是我们往往会高估多语言语言模型在低资源语言上的能力。最后，他们表明，即使没有从大规模多语言预训练中受益，更简单的基准线模型也可以取得相对强大的性能。

如有任何进一步问题或需要帮助，请告诉我。

论文链接: https://arxiv.org/pdf/2406.14267

cs.CL: 工作记忆中符号表征的复杂性与任务复杂性相关

原标题: Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task

作者: Alsu Sagirova, Mikhail Burtsev

机构: 莫斯科物理技术学院

摘要: 讨论了Transformer在自然语言处理任务中的广泛应用，特别是在机器翻译中，但它们缺乏显式存储已处理文本关键概念的内存。本文探讨了向Transformer模型解码器添加符号工作记忆内容的属性。这种工作记忆可以提升模型对机器翻译任务的预测质量，并作为神经符号信息的表示，对于模型正确翻译至关重要。研究记忆内容发现，翻译文本关键词被存储在工作记忆中，指向了记忆内容与已处理文本的相关性。此外，存储在记忆中的标记和词性的多样性与用于机器翻译任务的语料复杂性相关。

论文链接: https://arxiv.org/pdf/2406.14213

cs.CL:提高标准：通过生成演化测试研究大型语言模型的价值观

原标题: Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

作者: Han Jiang, Xiaoyuan Yi, Zhihua Wei, Shu Wang, Xing Xie

机构: 同济大学微软亚洲研究院加州大学洛杉矶分校

摘要: 讨论了大型语言模型（LLMs）生成的不道德内容可能存在的潜在风险，以及衡量LLMs价值一致性的重要性。提出了一种名为GETA的新型生成式进化测试方法，旨在动态探测LLMs的道德基准。GETA与先前的自适应测试方法不同，它结合了一个迭代更新的项目生成器，推断每个LLM的道德边界，并生成与实际一致的测试项目，从而更准确地评估LLMs的价值观。通过评估各种流行的LLMs，并展示GETA可以创建与实际难度相匹配的测试项目，更准确地评估LLMs的价值观，这与它们在未见过的OOD和i.i.d.项目上的表现更加一致，为未来的评估范式奠定基础。

论文链接: https://arxiv.org/pdf/2406.14230

cs.CL: 关于具备链式思维推理的神经语言模型的表征能力

原标题: On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning

作者: Franz Nowak, Anej Svete, Alexandra Butoi, Ryan Cotterell

机构: 苏黎世联邦理工学院

摘要: 讨论了现代语言模型（LMs）的性能如何通过“链式思维”（CoT）推理得到改进，即生成指导模型朝向最终答案的中间结果的过程。这种改进的可能解释是，CoT推理扩展了LM的计算能力，因为已知具有额外存储空间的RNN和transformers是图灵完备的。然而，将LM与图灵机进行比较引入了一个类别错误 - 图灵机决定语言成员资格，而LM定义了字符串的分布。为了弥合这一差距，作者在概率设置中形式化了CoT推理。作者提出了关于具有CoT推理的循环和transformer LMs的表示能力的几个结果，显示它们可以代表与概率图灵机相同的字符串分布族。

论文链接: https://arxiv.org/pdf/2406.14197

cs.CL: 时间知识图谱问答的综述

原标题: Temporal Knowledge Graph Question Answering: A Survey

作者: Miao Su, ZiXuan Li, Zhuo Chen, Long Bai, Xiaolong Jin, Jiafeng Guo

机构: 中国科学院计算技术研究所

摘要: 知识库问答（KBQA）一直是一个基于知识库回答问题的长期研究领域。最近，知识的动态演化引起了人们对时间知识图谱问答（TKGQA）的日益关注，这是一个新兴任务，用于回答时间相关的问题。然而，这一领域在定义时间问题时存在模糊性，并且缺乏对现有TKGQA方法的系统分类。对此，本文从两个角度提供了一项全面的调查：时间问题的分类法和TKGQA的方法分类。具体来说，我们首先建立了一个详细的时间问题分类法，涵盖了先前研究中的相关问题。随后，我们对TKGQA技术进行了全面回顾，分为语义解析法和TKG嵌入法两大类。在此回顾的基础上，本文概述了旨在推进TKGQA领域的潜在研究方向。此项工作旨在为TKGQA提供一个全面的参考，并激发进一步的研究。

论文链接: https://arxiv.org/pdf/2406.14191

cs.CL: 在树结构中应该生成句子

原标题: In Tree Structure Should Sentence Be Generated

作者: Yaguang Li, Xin Chen

机构: 北京大学伦敦大学

摘要: 主要讨论了关于语言生成的生成模型，特别是在引入广受赞誉的transformers之后，依赖于顺序自回归的生成模型一直处于语言生成的前沿。尽管这些模型表现出色，但今天我们仍然面临一些问题。例如，可能会出现幻觉和陷入逻辑循环的问题。为了提升现有系统的性能，该论文介绍了一种在自然语言中按树遍历顺序生成序列的新方法。论文包括对方法的理论基础和有效性进行了说明，并将其基本原理与图形生成中的扩散模型进行了比较。最后，介绍了一个名为SenTree的模块，用于生成一个近似的二叉树。该模块已经在指定的URL上提供。此外，提出了基于这种方法的联合训练框架，结合了生成对抗网络的内在特性。

论文链接: https://arxiv.org/pdf/2406.14189

Github: https://github.com/arklyg/sentree

cs.CL:用于词汇语义变化检测的定义生成

原标题: Definition generation for lexical semantic change detection

作者: Mariia Fedorova, Andrey Kutuzov, Yves Scherrer

机构: University of Oslo

摘要: 讨论了在历时词汇语义变化检测（LSCD）任务中使用大型语言模型生成的上下文化词义定义作为语义表示的方法。简而言之，生成的定义被用作“意义”，目标词的变化分数是通过比较在两个时间段内它们的分布来获取的。在五个数据集和三种语言的材料上，我们展示了生成的定义确实足够具体和通用，能够传达足够的信号，以便按照它们随时间变化的语义程度对单词集进行排序。我们的方法与或优于先前的非监督感知基础的 LSCD 方法。同时，它保留了可解释性，并允许检查特定转变背后的原因，以离散的定义作为“意义”。这是在可解释的语义变化建模方向上的又一步。

论文链接: https://arxiv.org/pdf/2406.14167

cs.CL: SimulSeamless：FBK 在 IWSLT 2024 同声翻译中的表现

原标题: SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation

作者: Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli

机构: Fondazione Bruno Kessler

摘要: 描述了2024年FBK参与IWSLT Simultaneous Translation Evaluation Campaign的情况。他们在今年的演讲转文本翻译（ST）子任务中提交了SimulSeamless，该模型是通过将AlignAtt和SeamlessM4T在其中等配置中的组合实现的。SeamlessM4T模型是即插即用的，通过采用基于交叉注意力的SimulST策略AlignAtt实现了同时推断，而且可以在不对底层模型进行重新训练或调整的情况下应用。他们参与了包括英语-> {德语，日语，中文} 和捷克语->英语在内的所有共享任务语言，在这些语言上取得了可接受甚至比去年更好的结果。SimulSeamless覆盖了超过143种源语言和200种目标语言，可在此网址发布: this https URL。

您有关于的任何问题或需要进一步解释吗？

论文链接: https://arxiv.org/pdf/2406.14177

Github: https://github.com/hlt-mt/FBK-fairseq/ https://github.com/hlt-mt/fbk-fairseq

cs.CL: 提到了Timo，以及对于语言模型更好的时间推理。

原标题: Timo: Towards Better Temporal Reasoning for Language Models

作者: Zhaochen Su, Jun Zhang, Tong Zhu, Xiaoye Qu, Juntao Li, Min Zhang, Yu Cheng

摘要: 讨论了关于时间推理对于大型语言模型（LLMs）理解世界的重要性，并提出了建立一个处理各种时间推理任务的通用框架的问题。研究表明，有19个任务与数学直接相关，因此首先利用可用的数学数据集为时间推理奠定坚实基础。然而，深入研究表明，仅关注数学增强并不能完全解决纯粹的时间推理任务。为了解决这一局限性，提出了一种简单但有效的自我批判式时间优化方法，以提升模型的时间推理能力而不牺牲一般任务能力。最终，开发了Timo模型，旨在在7B和13B规模上擅长于时间推理。值得注意的是，Timo在平均准确率得分上比对应的LLMs高出10.0和7.6，并实现了与规模相当的最新技术表现（SOTA）。大量实验进一步验证了我们框架的有效性以及其在各种时间任务中的泛化能力。该代码可在上述的链接处找到。

论文链接: https://arxiv.org/pdf/2406.14192

Github: https://github.com/zhaochen0110/Timo

cs.CL: 将大型语言模型与多样的政治观点对齐

原标题: Aligning Large Language Models with Diverse Political Viewpoints

作者: Dominik Stammbach, Philine Widmer, Eunjung Cho, Caglar Gulcehre, Elliott Ash

机构: ETH Zurich EPFL Lausanne

摘要: 讨论了大型语言模型如ChatGPT经常展现出的政治偏见以及如何通过对来自瑞士国家议会候选人撰写的10万条评论进行多样化政治观点的对齐来克服这一问题。通过与商业模型如ChatGPT相比，对齐后的模型能够生成比较准确的瑞士政党政治观点。此外，还提出了一种利用这些模型生成多种观点的平衡概述的程序。

论文链接: https://arxiv.org/pdf/2406.14155

cs.CL: 在大型语言模型中寻找安全性神经元

原标题: Finding Safety Neurons in Large Language Models

作者: Jianhui Chen, Xiaozhi Wang, Zijun Yao, Yushi Bai, Lei Hou, Juanzi Li

机构: 清华大学 BNRist计算机科学与技术系 KIRC人工智能研究所

摘要: 讨论了大型语言模型（LLMs）在各种能力方面的优势，同时也提出了安全风险，如生成有害内容和误导信息，即使在进行安全对齐之后仍然存在这些风险。文中探讨了安全对齐的内在机制，从机械式可解释性的角度出发，着重于识别和分析LLMs内负责安全行为的安全神经元。提出了生成时激活对比以定位这些神经元，以及动态激活修补以评估它们的因果效应。在多个最近的LLMs上的实验表明：（1）安全神经元是稀疏且有效的。我们只需要对大约5%的所有神经元进行干预就可以恢复90%的安全性能。（2）安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。发现安全神经元还解释了“对齐税”。我们观察到，用于安全和帮助的关键神经元明显重叠，但它们需要共享神经元的不同激活模式。此外，我们展示了安全神经元在生成之前检测不安全输出的应用。这些发现可能促进进一步研究LLM对齐的理解。源代码将被公开发布以促进未来研究。

论文链接: https://arxiv.org/pdf/2406.14144

cs.CL: 取其精华，去其糟粕：大语言模型微调中数据选择的再思考

原标题: Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models

作者: Ziche Liu, Rui Ke, Feng Jiang, Haizhou Li

机构: 深圳香港中文大学数据科学学院深圳大数据研究所中国科学技术大学

摘要: 数据选择用于对大型语言模型（LLMs）进行微调，目的是从给定的候选数据集中选择一个高质量的子集，以将待微调模型（PFM）训练为选择性增强模型（SEM）。这可以提高模型性能并加快训练过程。尽管一些调查已经研究了数据选择的相关工作，但由于它们具有不同的实验设置，对现有方法之间的全面比较还存在不足。为了解决这个问题，我们首先提出了一个三阶段方案用于数据选择，并根据这个方案全面审查现有的研究工作。然后，我们设计了一个统一的比较方法，采用基于比率的效率指标和基于排名的可行性指标来克服比较不同实验设置下的不同模型的困难。在深入的比较分析之后，我们发现更具针对性的具有数据特定和模型特定质量标签的方法效率更高，但在设计选择算法时应避免引入额外的噪声信息。最后，我们总结了数据选择的趋势，并强调了短期和长期的挑战，以指导未来的研究。

论文链接: https://arxiv.org/pdf/2406.14115

cs.CL: MACAROON：训练视觉-语言模型成为你的互动伙伴

原标题: MACAROON: Training Vision-Language Models To Be Your Engaged Partners

作者: Shujin Wu, Yi R. Fung, Sha Li, Yixin Wan, Kai-Wei Chang, Heng Ji

机构: 伊利诺伊大学厄巴纳-香槟分校南加州大学加利福尼亚大学洛杉矶分校

摘要: 讲述了关于大型视觉-语言模型（LVLMs）的研究，强调了它们在回答问题时可能会产生幻觉和偏见问题，因此需要主动与人类互动以寻求进一步的澄清或信息以获得更好的回应。研究旨在将LVLMs从被动的答题提供者转变为主动参与的合作伙伴，并介绍了一种三层次层次结构以测量LVLMs的主动参与能力。使用这种结构，作者创建了PIE（ProactIve Engagement Evaluation）评估工具，包括853个问题，通过GPT-4o和人类标注者验证，伴随着明确定义的指标。评估结果表明现有的LVLMs表现不佳，最佳性能的开放权重模型只能实现0.28的聚合对齐率。因此，作者引入了MACAROON，介绍LVLMs自主生成对比响应对给定任务描述和人工制定的标准的方法。实验结果表明MACAROON有效地提高了LVLMs的主动参与能力（0.84的聚合对齐率），同时在一般任务上保持性能相当。

有任何需要帮助的地方吗？

论文链接: https://arxiv.org/pdf/2406.14137

cs.CL: 让指导方针指引你：一种基于指导方针的规定性数据注释方法学

原标题: Let Guidelines Guide You: A Prescriptive Guideline-Centered Data Annotation Methodology

作者: Federico Ruggeri, Eleonora Misino, Arianna Muti, Katerina Korre, Paolo Torroni, Alberto Barrón-Cedeño

机构: University of Bologna

摘要: 我们介绍了指导中心的注释过程，这是一种着眼于报告与每个数据样本相关的注释指南的新型数据注释方法。我们确定了标准规范注释过程的三个主要局限性，并描述了指导中心方法如何通过减少注释过程中信息丢失和确保遵守指南来克服这些局限性。此外，我们讨论了指导中心如何在只进行一次人工注释过程的成本下实现对跨多个任务重新使用已注释数据的能力。

论文链接: https://arxiv.org/pdf/2406.14099

cs.CL: 无缝语言扩展：增强自监督模型中的多语言掌握

原标题: Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models

作者: Jing Xu, Minglin Wu, Xixin Wu, Helen Meng

机构: 香港中文大学、香港中文大学系统工程与工程管理系、香港中文大学感知与交互智能中心、CPII有限公司

摘要: Self-supervised (SSL)模型在各种下游任务中表现出色。然而，它们通常只针对有限的语言进行开发，在现实世界中可能会遇到新的语言。为每种新语言开发一个SSL模型成本很高。因此，至关重要的是要找出如何有效地将现有的SSL模型调整到新语言上，而不损害其原始能力。我们提出了融合LoRA到现有SSL模型的适应方法，以延伸新语言。我们还开发了保留策略，包括数据组合和重新聚类，以保留对现有语言的能力。应用于mHuBERT，我们研究了它们在语音重合成任务上的有效性。实验结果表明，我们的适应方法使mHuBERT能够应用于新语言（普通话），MOS值提高约1.6，WER相对值降低高达61.72%。此外，我们的保留策略确保了对现有语言和新语言性能的保持不变。

论文链接: https://arxiv.org/pdf/2406.14092

cs.CL: 需要多少参数才能换一个灯泡？评估对话游戏自我对话性能的模型特性函数

原标题: How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics

作者: Nidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen

机构: University of Potsdam, Germany German Research Center for Artificial Intelligence (DFKI), Berlin, Germany

摘要: 讨论了什么是一个好的大型语言模型(LLM)，以及如何衡量和提高其性能。它强调了性能与模型特征（如参数数量和训练类型）之间的关系，并指出了在相同参数规模下性能波动的原因，包括训练数据质量和方法的影响。此外，语料还提到了对性能的不确定性和模型在推断过程中相对稳定的表现。整体来看，对大型语言模型的性能分析和提升提供了一些见解。

论文链接: https://arxiv.org/pdf/2406.14051

cs.CL: 超越：在科学领域将复杂事件提取为连接图中的节点

原标题: EXCEEDS: Extracting Complex Events as Connecting the Dots to Graphs in Scientific Domain

作者: Yi-Fan Lu, Xian-Ling Mao, Bo Wang, Xiao Liu, Heyan Huang

机构: 北京理工大学

摘要: 讨论了利用事件来理解特定领域的重要性，特别是在科学领域中事件提取的研究相对缺乏的情况。作者提到了构建了一个大规模的多事件文档级数据集SciEvents，并提出了一个新颖的端到端科学事件提取框架EXCEEDS。他们强调了SciEvents和EXCEEDS在GitHub上的发布。

论文链接: https://arxiv.org/pdf/2406.14075

cs.CL: 通过在语言模型中近似最佳参数来保护隐私

原标题: Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models

作者: Dohyun Lee, Daniel Rim, Minseok Choi, Jaegul Choo

机构: KAIST AI, Hyundai Motor Company

摘要: 讨论了关于语言模型的隐私保护和机器遗忘的方法。研究指出，虽然语言模型在各种任务上表现出色，但它们存在受到提取攻击的潜在风险，这可能会泄漏用户隐私。为了缓解对语言模型隐私的担忧，研究人员提出了机器遗忘作为一个重要的研究领域，用于在保留知识的同时选择性地让模型忘记一些训练数据。以完全重新训练模型来保证成功遗忘和隐私保障的方法不切实际，因为这将耗时且耗费资源。先前的工作高效地遗忘目标令牌序列，但在随后的迭代中，语言模型的性能显著降低。在这项工作中，研究者提出了一种名为 Privacy Protection via Optimal Parameters (POP) 的新型遗忘方法，通过应用最佳梯度更新参数有效地让预训练的语言模型遗忘目标令牌序列。受到完全重新训练的梯度推导的启发，他们近似了能够成功遗忘目标序列同时保留其余训练数据知识的最优训练目标。实验结果表明，POP 在解除遗忘后表现出色，差距较大地超越了现有技术水平，跨越了 9 个分类和 4 个对话基准。此外，他们引入了基于令牌概率的残余记忆准确度来量化基于令牌可能性的隐私风险，并通过定性和定量分析验证了其有效性。

论文链接: https://arxiv.org/pdf/2406.14091

cs.CL: 防御系统中的提示注入攻击

原标题: Prompt Injection Attacks in Defended Systems

作者: Daniil Khomsky, Narek Maloyan, Bulat Nutfullin

摘要: 大型语言模型已成为自然语言处理技术中不可或缺的组成部分。然而，它们的广泛应用也带来了安全方面的担忧，特别是黑盒攻击形式。这些攻击涉及将恶意元素插入模型中，在模型部署时可能产生有害影响。

本文深入探讨了针对大型语言模型的黑盒攻击，并提出了一种三层防御机制来对抗这些攻击。它评估了这些攻击的挑战和重要性，强调了它们对语言处理系统安全造成的潜在风险。该研究还评估了现有的攻击和防御策略，考虑它们在不同场景下的有效性。

研究中探讨的一个关键方面是针对黑盒攻击的检测算法，旨在发现语言模型中的漏洞并保护敏感信息。本文提出了一种检测漏洞和制定策略来防范大型语言模型黑盒攻击的方法论。

论文链接: https://arxiv.org/pdf/2406.14048

cs.CL: 在一片泥土地里，两只长颈鹿：利用游戏玩法来研究大型多模态模型中的情境建模

原标题: Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

作者: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen

机构: 德国波茨坦大学、德国人工智能研究中心(DFKI)

摘要: 讨论了多模态（文本和图像）模型的发展和评估方法。作者将一种新的评估范式从文本模型引入到多模态模型中，即通过目标导向游戏（自我）对话进行评估，这种方法是对基于参考和基于偏好的评估的补充。具体来说，作者定义了一些挑战模型从视觉信息中表示情境并通过对话对齐这些表示的游戏。研究发现，最大的封闭模型在作者定义的游戏中表现相当不错，而即使是最好的开放权重模型也难以胜任。进一步分析发现，最大模型的出色深度字幕能力推动了部分性能。这表明两种模型都还有提升空间，确保基准的持续相关性。

论文链接: https://arxiv.org/pdf/2406.14035

cs.CL: 从心理测量学角度攻击来评估大型语言模型中的隐性偏见

原标题: Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective

作者: Yuchen Wen, Keping Bi, Wei Chen, Jiafeng Guo, Xueqi Cheng

机构: CAS智能安全人工智能实验室，中国科学院，北京，中国中国科学院网络数据科学与技术重点实验室，中国科学院，北京，中国中国科学院大学，北京，中国

摘要: 随着大型语言模型 (LLMs) 成为重要的信息获取方式，人们对LLMs可能生成的不道德内容的担忧也在增加。在本文中，我们通过精心设计的指令进行攻击，以引出偏见的回复，从而对LLMs对某些群体的隐性偏见进行了严格评估。我们的攻击方法受认知和社会心理学中心理测量学原理的启发。我们提出了三种攻击方法，即伪装、欺骗和教学，并基于这些方法构建了四种常见偏见类型的评估数据集。每种提示攻击都有双语版本。对代表性LLMs的广泛评估表明：1）所有三种攻击方法都有效，尤其是欺骗攻击；2）与GPT-3.5和GPT-4相比，GLM-3在防御我们的攻击方面表现最好；3）LLMs在被教导一种偏见类型时，可能会输出其他偏见类型的内容。我们的方法论为评估LLMs的隐性偏见提供了一种严格有效的途径，并将有助于评估LLMs的潜在伦理风险。

论文链接: https://arxiv.org/pdf/2406.14023

cs.CL: 好与坏的原因：借助自然语言反馈打造更好的数学验证器

原标题: The Reason behind Good or Bad: Towards a Better Mathematical Verifier with Natural Language Feedback

作者: Bofei Gao, Zefan Cai, Runxin Xu, Peiyi Wang, Ce Zheng, Runji Lin, Keming Lu, Junyang Lin, Chang Zhou, Tianyu Liu, Baobao Chang

机构: Peking University Alibaba Group DeepSeek-AI

摘要: 讨论了数学验证器在数学推理任务中取得成功的情况，通过验证解决方案的正确性。然而，现有的验证器是通过二元分类标签进行训练的，这些标签对于模型准确评估解决方案来说并不够具信息量。为了减轻二元标签的不足，作者提出使用分步自然语言反馈作为理性标签（即当前步骤的正确性和解释）。在本文中，他们提出了 Math-Minos，这是一个通过构建自动生成训练数据和采用两阶段训练范式来改善的自然语言反馈增强验证器，实现了有效的训练和高效的推理。实验证明，一个小型的自然语言反馈数据集（30k）可以显著提升验证器的性能，将 GSM8K 上的准确率提升了1.6%（从86.6%到88.2%），并将 MATH 上的准确率提升了0.8%（从37.8%到38.6%）。作者将很快发布用于复现的代码、数据和模型。

论文链接: https://arxiv.org/pdf/2406.14024

cs.CL: 主题是HIGHT，一种用于图-语言对齐的分层图标记化方法。

原标题: HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment

作者: Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian

机构: 香港中文大学、清华大学、腾讯AI Lab

摘要: 以上内容涉及将大型语言模型（LLMs）的成功应用于图模态（如社交网络和分子）的新兴兴趣，提出了一种名为层级图标记（HIGHT）的新策略，以改进LLMs对图数据的感知。 HIGHT通过使用层次化图标记器来提取和编码信息令牌的节点、图案和图级别的层次结构，从而改善LLMs对图形的理解。该方法还采用了一个增强的图形语言监督微调数据集，其中包含了层次图信息，以进一步增强图形-语言对齐。经过大量实验证实了HIGHT在减少虚构输出方面的有效性，减少了40％，并在各种分子-语言下游任务中取得了显着进展。

论文链接: https://arxiv.org/pdf/2406.14021

cs.CL: 通过 AI 的视角看待：增强人类对大语言模型生成假新闻的怀疑态度

原标题: Seeing Through AI’s Lens: Enhancing Human Skepticism Towards LLM-Generated Fake News

作者: Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee

机构: 美国休斯顿大学

摘要: 讨论了大型语言模型（LLMs）的应用和潜在风险，以及区分人类撰写的新闻和LLMs生成的新闻的重要性。研究者旨在通过引入简单的标记帮助个人区分这两种类型的文章。他们采用信息论和熵原理设计了一个名为Entropy-Shift Authorship Signature (ESAS)的度量，通过对新闻文章中的术语或实体进行排名，来帮助识别文章的作者。研究结果显示，使用ESAS排名最高的少量术语结合逻辑回归分类器的TF-IDF方法可以高效区分文章作者。这项研究的目的是帮助个人增强对LLMs生成的假新闻的怀疑意识。

论文链接: https://arxiv.org/pdf/2406.14012

cs.CL: 信息引导正则化用于微调语言模型

原标题: Information Guided Regularization for Fine-tuning Language Models

作者: Mandar Sharma, Nikhil Muralidhar, Shengzhe Xu, Raquib Bin Yosuf, Naren Ramakrishnan

机构: 弗吉尼亚理工大学史蒂文斯理工学院

摘要: 预训练-微调范式一直是现代语言建模中的传递学习策略。鉴于语言模型中的任务适应通常是由共享的参数决定的，我们认为需要存在一种更精细的正则化方法，以实现更平滑的传递学习。为此，我们通过信息论的视角研究了预训练损失景观如何受到这些任务敏感参数的影响。然后，我们利用我们的研究结果来设计一种新颖的用于改进模型正则化和提高下游泛化能力的辅助丢弃方法。这种方法被称为引导丢弃，既与任务和架构无关，又不会增加微调过程的计算开销。通过实证评估，我们展示了我们的正则化方法相对于标准基线在数据稀缺情况下始终能够提供更好的性能。

论文链接: https://arxiv.org/pdf/2406.14005

Github: https://github.com/mandar-sharma/guided-dropout

cs.CL: 使用大语言模型中的国籍分配人物角色探索国家认知变化

原标题: Exploring Changes in Nation Perception with Nationality-Assigned Personas in LLMs

作者: Mahammed Kamruzzaman, Gene Louis Kim

机构: 南佛罗里达大学

摘要: 个性化分配已成为定制大语言模型在特定任务和环境中使用的常见策略。在这项研究中，我们探讨了当大语言模型被分配特定国籍个性时，对不同国家的看法会如何改变。我们将193个不同的国籍个性（例如，一个美国人）分配给四个大语言模型，并研究大语言模型对国家的看法如何改变。我们发现，所有大语言模型个性组合都倾向于偏爱西欧国家，尽管国家个性会使大语言模型的行为更加关注并更积极地看待该国家个性所在的地区。不同国籍个性对东欧、拉丁美洲和非洲国家的看法更为负面。我们的研究揭示了当大语言模型采用不同国籍个性时，偏见和刻板印象如何在其中体现。与《AI权利法案蓝图》一致，我们的发现强调了开发机制以确保大语言模型在全球范围内维护公平性并避免过度概括的重要性。

论文链接: https://arxiv.org/pdf/2406.13993

cs.CL: 推理时间去污染：重复使用泄露的基准数据进行大型语言模型评估

原标题: Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation

作者: Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu, Ru Peng, Xipeng Qiu, Xuanjing Huang

机构: 复旦大学计算机科学学院

摘要: 大语言模型（LLMs）的训练过程通常涉及不同程度的测试数据污染。尽管当前的LLMs在各种基准测试中的表现越来越好，但它们在实际应用中的表现并不总是与基准结果相匹配。基准泄漏可能会阻止对LLMs真实性能的准确评估。然而，构建新的基准测试成本高昂，劳动密集，并且仍然存在泄漏的风险。因此，在本文中，我们提出了“推理时间去污染”（ITD）来解决这个问题，通过检测和重写泄漏的样本，而不改变它们的难度。ITD可以减轻因记忆泄漏的基准测试而导致的性能夸大。我们的概念验证实验表明，ITD在GSM8K上将膨胀的准确性降低了22.9％，在MMLU上降低了19.0％。在MMLU上，使用推理时间去污染可以使Phi3和Mistral的结果分别减少6.7％和3.6％。我们希望ITD能为大型语言模型提供更真实的评估结果。

论文链接: https://arxiv.org/pdf/2406.13990

cs.CL: “全球化是好的，本地化是不好的？”：理解大语言模型中的品牌偏见

原标题: “Global is Good, Local is Bad?”: Understanding Brand Bias in LLMs

作者: Mahammed Kamruzzaman, Hieu Minh Nguyen, Gene Louis Kim

机构: University of South Florida

摘要: 许多最近的研究调查了LLMs中的社会偏见，但品牌偏见却受到了很少的关注。这项研究考察了LLMs对不同品牌展示的偏见，这是一个重要的问题，因为LLMs在受影响的用例中广泛使用，如产品推荐和市场分析。有偏见的模型可能会延续社会不平等，不公平地偏向已建立的全球品牌，同时边缘化本地品牌。通过对四个品牌类别的策划数据集，我们探究了LLMs在这个领域的行为。我们发现在这个领域存在一种一致的偏见模式——在将全球品牌与积极属性不成比例地关联以及在高收入国家的个人中不成比例地推荐豪华礼品方面。我们还发现LLMs受到原产国效应的影响，在特定情境下可能会提高LLM输出中本地品牌的偏好。

论文链接: https://arxiv.org/pdf/2406.13997

cs.CL: MR-BEN：大语言模型的全面元推理基准测试

原标题: MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models

作者: Zhongshen Zeng, Yinhong Liu, Yingjia Wan, Jingyao Li, Pengguang Chen, Jianbo Dai, Yuxuan Yao, Rongwu Xu, Zehan Qi, Wanru Zhao, Linling Shen, Jianqiao Lu, Haochen Tan, Yukang Chen, Hao Zhang, Zhan Shi, Bailin Wang, Zhijiang Guo, Jiaya Jia

机构: 香港中文大学剑桥大学爱丁堡大学香港城市大学清华大学德克萨斯大学奥斯汀分校香港大学南洋理工大学麻省理工学院

摘要: 大语言模型（LLMs）在问题解决和决策方面显示出越来越强大的能力，主要基于逐步推理的思维过程。然而，评估LLMs的推理能力变得越来越具有挑战性。具体而言，现有的基于结果的基准开始饱和，并且不足以监测进展。为此，我们提出了一个基于过程的基准MR-BEN，要求具备元推理技能，其中要求LMs定位和分析自动生成的推理步骤中的潜在错误。MR-BEN是一个综合性基准，包括5975个问题，由人类专家收集，涵盖物理学、化学、逻辑学、编码等各个学科。通过我们为评估该基准上的元推理设计的度量标准，我们发现了当前LLMs（开源和闭源模型）的有趣限制和弱点。例如，开源模型在基于结果的基准上似乎与GPT-4相当，但在我们的基准上远远落后，揭示了它们之间潜在的推理能力差距。我们的数据集和代码可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.13975

Github: https://randolph-zeng.github.io/Mr-Ben.github.io/

cs.CL: 成为你的灵魂伴侣：具有动态适应人设的个性化对话智能体

原标题: Evolving to be Your Soulmate: Personalized Dialogue Agents with Dynamically Adapted Personas

作者: Yi Cheng, Wenge Liu, Kaishuai Xu, Wenjun Hou, Yi Ouyang, Chak Tou Leong, Xian Wu, Yefeng Zheng

机构: 香港理工大学腾讯优图实验室百度公司

摘要: 以往关于基于人设对话代理的研究通常在部署之前预设代理的人设，之后保持静态不变。在本文中，我们更进一步探索了一种名为自我演化个性化对话代理（SPDA）的新范式，其中代理在对话过程中不断演化，以更好地与用户的期望保持动态调整其人设。这种范式可以实现更好的个性化，但也会引入独特的挑战，主要在于人设适应的过程中。两个关键问题包括如何实现与用户的人设对齐，以及如何确保适应过程中的平稳过渡。为了解决这些问题，我们提出了一个新颖的框架，通过分层级逐渐改进人设，以可控的方式更好地与用户对齐。实验证明，我们框架调整的人设不断增强了各种基础系统中的个性化和整体对话性能。

论文链接: https://arxiv.org/pdf/2406.13960

cs.CL: 像医生一样推理：通过诊断推理过程对齐改进医疗对话系统

原标题: Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment

作者: Kaishuai Xu, Yi Cheng, Wenjun Hou, Qiaoyu Tan, Wenjie Li

机构: 香港理工大学南方科技大学纽约大学上海分校

摘要: 医疗对话系统因其作为医疗助手的潜力而受到广泛关注。使这些医疗系统能够模拟临床医生的诊断推理过程一直是长期的研究重点。先前的研究通过在高质量对话数据集上对语言模型进行微调，初步实现了对临床医生诊断过程的模拟。然而，它们过于关注临床医生推理过程的结果，而忽视了他们的内部思维过程和与临床医生偏好的一致性。我们的工作旨在构建一个与临床医生的诊断推理过程相一致的医疗对话系统。我们提出了一个新颖的框架Emulation，通过思维过程建模，生成一个依赖于诊断推理分析的适当回应，并与临床医生的偏好相一致。在两个数据集上的实验结果证实了Emulation的有效性。关键是，我们的框架为生成的回应提供了清晰的解释，增强了在医疗咨询中的透明度。

论文链接: https://arxiv.org/pdf/2406.13934

Github: https://github.com/kaishxu/emulation

cs.CL: 自动跨语言对齐规划，用于零样本思维链。

原标题: AutoCAP: Towards Automatic Cross-lingual Alignment Planning for Zero-shot Chain-of-Thought

作者: Yongheng Zhang, Qiguang Chen, Min Li, Wanxiang Che, Libo Qin

机构: 中南大学哈尔滨工业大学

摘要: 跨语言思维链能够有效地完成跨语言的推理任务，引起了越来越多的关注。最近，文献中的主要方法通过整合不同语言的推理知识来提高跨语言对齐能力。尽管取得了出色的性能，但当前方法仍然面临两个主要挑战：（1）手动语言规范：它们仍然高度依赖于手动选择要整合的语言，严重影响了它们的泛化能力；（2）静态权重分配：当前方法只是简单地平等整合所有语言。实际上，不同的语言推理路径应该有不同的权重，以实现更好的补充和整合。受此启发，我们引入了一种用于零样本跨语言思维链的自动跨语言对齐规划（AutoCAP）来解决上述挑战。AutoCAP的核心包括两个组件：（1）自动语言选择提示，引导LLMs选择适当的语言；（2）自动权重分配提示，自动为每个推理路径分配对齐权重分数。在几个基准测试上进行的大量实验表明，AutoCAP实现了最先进的性能，超过了以前需要手动努力的方法。

论文链接: https://arxiv.org/pdf/2406.13940

cs.CL: 大语言模型是怀疑论者：输入冲突幻觉的假阴性问题

原标题: Large Language Models are Skeptics: False Negative Problem of Input-conflicting Hallucination

作者: Jongyoon Song, Sangwon Yu, Sungroh Yoon

机构: 首尔国立大学数据科学与人工智能实验室 ASRI, INMC, and AIIS

摘要: 在这篇论文中，我们确定了一种新的偏见类别，即诱发输入冲突幻觉的偏见，即大语言模型（LLMs）生成与输入上下文内容不一致的响应。我们将这个问题称为假阴性问题，指的是LLMs在评估给定上下文的陈述的正确性时倾向于返回负面判断的现象。在涉及包含相同信息但具有矛盾事实方向的陈述对的实验中，我们观察到LLMs对假阴性存在偏见。具体而言，模型在以“False”作为响应时表现出更大的过度自信。此外，我们分析了假阴性问题与上下文和查询重写之间的关系，并观察到两者都能有效解决LLMs中的假阴性问题。

论文链接: https://arxiv.org/pdf/2406.13929

cs.CL: 生成的自由文本理由在主观决策中的说服力：一项关于成对论证排名的案例研究

原标题: Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking

作者: Mohamed Elaraby, Diane Litman, Xiang Lorraine Li, Ahmed Magooda

机构: 匹兹堡大学微软

摘要: 生成自由文本的理由是大型语言模型（LLM）的新兴能力之一。已经发现这些理由可以提高LLM在各种自然语言处理任务中的性能。最近，人们对使用这些理由为各种重要的下游任务提供洞察力越来越感兴趣。在本文中，我们分析了在具有主观答案的任务中生成的自由文本理由，强调在这种情况下理性化的重要性。我们重点研究了成对论证排序，这是一个高度主观的任务，具有在实际应用中具有重要潜力的特点，例如辩论协助。我们评估了由九个LLM生成的理由的说服力，以支持他们的主观选择。我们的研究结果表明，开源的LLM，特别是Llama2-70B-chat，能够提供高度有说服力的理由，甚至超过了GPT模型。此外，我们的实验表明，通过控制其参数，可以通过提示或自我改进来提高理由的说服力。

论文链接: https://arxiv.org/pdf/2406.13905

cs.CL: GenderAlign：一个用于减轻大型语言模型中性别偏见的对齐数据集

原标题: GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models

作者: Tao Zhang, Ziqian Zeng, Yuxiang Xiao, Huiping Zhuang, Cen Chen, James Foulds, Shimei Pan

机构: 华南理工大学中国
珠江实验室中国
马里兰大学巴尔的摩县信息系统系

摘要: 大语言模型（LLMs）很容易生成展现性别偏见的内容，引发了重大的伦理关切。调整（Alignment）是对大语言模型进行微调以更好地符合期望行为的过程，被认为是减轻性别偏见的有效方法。尽管专有的大语言模型在减轻性别偏见方面取得了重大进展，但它们的调整数据集并不公开可用。常用的公开可用的调整数据集 HH-RLHF 仍然在一定程度上展现性别偏见。目前缺乏专门设计用于解决性别偏见的公开可用的调整数据集。因此，我们开发了一个名为 GenderAlign 的新数据集，旨在减轻大语言模型中的一系列性别偏见。该数据集包括 8k 个单轮对话，每个对话都配对了一个“选择”的回复和一个“拒绝”的回复。与“拒绝”的回复相比，“选择”的回复展现出更低水平的性别偏见和更高的质量。此外，我们将 GenderAlign 中“拒绝”的回复中的性别偏见分为 4 个主要类别。实验结果显示了 GenderAlign 在减少大语言模型中的性别偏见方面的有效性。

论文链接: https://arxiv.org/pdf/2406.13925

cs.CL: 在教育中增强主动学习的生成式人工智能：GPT-3.5和GPT-4在定制测试题方面的比较研究

原标题: Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions

作者: Hamdireza Rouzegar, Masoud Makrehchi

机构: Ontario Tech Universuty

摘要: 这项研究调查了大语言模型（LLMs），特别是GPT-3.5和GPT-4，如何根据主动学习原则为九年级数学提供量身定制的问题。通过使用迭代方法，这些模型根据难度和内容调整问题，并根据模拟的“学生”模型的反馈进行响应。研究的一个新颖之处在于使用GPT-4作为“教师”创建复杂问题，GPT-3.5作为“学生”对这些挑战进行回应。这种设置类似于主动学习，促进了更深入的参与。研究结果表明，GPT-4能够生成精确、具有挑战性的问题，并且在接受GPT-4的指导后，GPT-3.5在处理更复杂问题方面有了显著改进。这些结果突显了大语言模型在模拟和增强主动学习场景方面的潜力，为个性化教育中的人工智能提供了一个有前景的路径。这项研究有助于理解人工智能如何支持个性化学习体验，并强调了在各种教育环境中进一步探索的需求。

论文链接: https://arxiv.org/pdf/2406.13903

cs.CL: Prism: 一种用于解耦和评估 VLM 能力的框架。

原标题: Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

作者: Yuxuan Qiao, Haodong Duan, Xinyu Fang, Junming Yang, Lin Chen, Songyang Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

机构: 南京大学上海人工智能实验室南京邮电大学同济大学中国科学技术大学香港中文大学

摘要: 视觉语言模型（VLM）在解决各种视觉问题方面展示出了卓越的能力，这需要强大的感知和推理能力。尽管由于现有VLM中视觉和推理的相互交织而导致困难，但独立评估这两个能力对于模型的改进至关重要。为了解决这个问题，我们提出了Prism，这是一个创新的框架，旨在解开视觉问题解决中涉及的感知和推理过程。Prism包括两个不同的阶段：感知阶段利用VLM以文本形式提取和表达视觉信息，推理阶段利用大型语言模型（LLM）根据提取的视觉信息制定响应。这种模块化设计使得可以系统地比较和评估专有和开源VLM在感知和推理方面的优势。我们的分析框架提供了一些有价值的见解，突显了Prism作为一种成本效益高的视觉语言任务解决方案的潜力。通过将专注于感知的简化VLM与专为推理而设计的强大LLM相结合，Prism在一般的视觉语言任务中取得了优越的结果，同时大大减少了培训和运营费用。定量评估显示，当Prism配置了一个基本的2B LLaVA和免费可访问的GPT-3.5时，在严格的多模态基准MMStar上，其性能与体积大10倍的VLM相当。该项目已发布在：此https URL。

论文链接: https://arxiv.org/pdf/2406.14544

Github: https://github.com/SparksJoe/Prism

cs.CL: PostMark：大语言模型的强大黑盒水印

原标题: PostMark: A Robust Blackbox Watermark for Large Language Models

作者: Yapei Chang, Kalpesh Krishna, Amir Houmansadr, John Wieting, Mohit Iyyer

机构: 麻省大学阿默斯特分校谷歌

摘要: 最有效的检测大语言模型生成文本的技术依赖于在模型的解码过程中插入可检测的签名或水印。大多数现有的水印方法需要访问底层大语言模型的逻辑回归，但由于担心模型蒸馏，大语言模型API提供者不愿共享这些逻辑回归。因此，这些水印必须由每个大语言模型提供者独立实现。在本文中，我们开发了PostMark，一种模块化的事后水印程序，通过语义嵌入确定一个与输入相关的词语集合，并在解码过程完成后将其插入到文本中。关键是，PostMark不需要逻辑回归访问权限，这意味着它可以由第三方实现。我们还展示了PostMark对抗重述攻击的鲁棒性优于现有的水印方法：我们的实验涵盖了八种基准算法、五种基本大语言模型和三个数据集。最后，我们使用自动化和人工评估来评估PostMark对文本质量的影响，突出了质量和对重述攻击的鲁棒性之间的权衡。我们在此https URL上发布了我们的代码、输出和注释。

论文链接: https://arxiv.org/pdf/2406.14517

Github: https://github.com/lilakk/PostMark

cs.CL: 在错误的合成数据上进行强化学习，将大语言模型的数学推理效率提高了八倍。

原标题: RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

作者: Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith, Aviral Kumar

机构: Carnegie Mellon University Google DeepMind MultiOn

摘要: 使用模型生成的合成数据进行训练是微调大语言模型的一种有前途的方法，但是目前还不清楚它何时有帮助，何时有害。在本文中，我们通过实证研究来探讨这个问题，并建立对我们观察结果的概念理解。首先，我们发现，典型的方法是在由能力强大的模型生成的合成正确或正面问题-解决方案对上微调模型，可以获得适度的性能提升，但是从微调后的学习者自身中采样更多的正确解决方案，然后在这些自动生成的数据上进行进一步微调，可以使相同合成问题的效率提高一倍。同时，训练模型生成的正面数据可能会放大各种虚假相关性，导致数据量增加时出现平坦甚至逆向的缩放趋势。令人惊讶的是，我们发现，如果我们还利用负面响应，即被最终答案验证器认为是不正确的模型生成的响应，可以解决其中的几个问题。关键是，这些负面响应必须构造得使训练能够适当地恢复负面响应中每个中间步骤的效用或优势。通过这种逐步方案，我们能够在仅有正面数据的情况下获得一致的增益，性能类似于将合成数据量扩大8倍。我们展示了在逐步负面数据上进行训练可以帮助消除正面数据中的虚假相关性，并且等效于加权优势强化学习（RL），这意味着它继承了仅模仿正面数据的RL的鲁棒性优势。

论文链接: https://arxiv.org/pdf/2406.14532

cs.CL: CodeRAG-Bench：检索能增强代码生成吗？

原标题: CodeRAG-Bench: Can Retrieval Augment Code Generation?

作者: Zora Zhiruo Wang, Akari Asai, Xinyan Velocity Yu, Frank F. Xu, Yiqing Xie, Graham Neubig, Daniel Fried

机构: Carnegie Mellon University University of Washington University of Southern California

摘要: 尽管语言模型（LMs）在生成代码方面表现出色，但对于许多程序来说，仅凭其参数化知识生成这些程序是具有挑战性的。提供外部上下文，如库文档，可以促进生成准确和功能性的代码。尽管在各种面向文本的任务中，检索增强生成（RAG）取得了成功，但其在改进代码生成方面的潜力尚未得到充分探索。在这项工作中，我们进行了一项系统的大规模分析，提出了以下问题：在哪些情况下，检索可以改善代码生成模型？还存在哪些挑战？我们首先创建了一个全面的评估基准，CodeRAG-Bench，包括基本编程、开放领域和存储库级别的代码生成任务三个类别。我们从五个来源聚合文档，供模型检索上下文使用：竞赛解决方案、在线教程、库文档、StackOverflow帖子和GitHub存储库。我们通过提供从一个或多个来源检索到的上下文来检查CodeRAG-Bench上表现最佳的模型。尽管在各种设置中通过检索高质量上下文在最终代码生成方面取得了显著的增益，但我们的分析揭示了改进的空间–当前的检索器仍然难以获取有用的上下文，特别是在词汇重叠有限的情况下，生成器在上下文长度有限或能力集成额外上下文方面也无法改进。我们希望CodeRAG-Bench能够作为一个有效的测试平台，促进进一步发展先进的面向代码的RAG方法。

论文链接: https://arxiv.org/pdf/2406.14497

cs.CL: 大语言模型时代的数据中心 AI

原标题: Data-Centric AI in the Age of Large Language Models

作者: Xinyi Xu, Zhaoxuan Wu, Rui Qiao, Arun Verma, Yao Shu, Jingtan Wang, Xinyuan Niu, Zhenfeng He, Jiangwei Chen, Zijian Zhou, Gregory Kang Ruey Lau, Hieu Dao, Lucas Agussurja, Rachael Hwee Ling Sim, Xiaoqiang Lin, Wenyang Hu, Zhongxiang Dai, Pang Wei Koh, Bryan Kian Hsiang Low

机构: 清华大学南洋理工大学

摘要: 这篇立场文件提出了一种以数据为中心的人工智能研究视角，重点关注大语言模型（LLMs）。我们首先观察到数据在LLMs的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中起着关键作用，然而在研究界却没有得到足够的关注。我们确定了围绕数据的四种具体场景，涵盖了数据中心的基准和数据策划、数据归因、知识传递和推理情境化。在每个场景中，我们强调了数据的重要性，突出了有前景的研究方向，并阐述了对研究界以及适用的情况下整个社会的潜在影响。例如，我们主张建立一套针对LLMs数据规模和复杂性量身定制的数据中心基准。这些基准可以用于开发新的数据策划方法，并记录研究工作和结果，有助于促进人工智能和LLM研究的开放性和透明度。

论文链接: https://arxiv.org/pdf/2406.14473

cs.CL: 非洲或欧洲燕？为细粒度物体分类基准大视觉语言模型进行基准测试

原标题: African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

作者: Gregor Geigle, Radu Timofte, Goran Glavaš

机构: WüNLP, University of Würzburg, CAIDAS

摘要: 最近的大规模视觉-语言模型（LVLMs）展示了在许多图像理解和推理任务上的令人印象深刻的能力。然而，细粒度对象分类任务（例如，动物物种}之间的区分）尽管在下游重要性方面得到了不充分的探索。我们通过创建FOCI（Fine-grained Object C}assIfication）来填补这一评估空白，这是一个用于细粒度对象分类的困难的多项选择基准，从现有的对象分类数据集中创建：（1）多项选择避免了与将分类作为开放式问答任务相关的模糊答案；（2）我们通过使用 CLIP 模型挖掘负标签来保留分类困难度。FOCI通过四个来自 ImageNet-21k 的特定领域子集，补充了五个流行的分类数据集。我们在FOCI上对12个公共 LVLMs 进行基准测试，并表明它测试了与已建立的图像理解和推理基准的互补技能}。至关重要的是，CLIP 模型的性能比 LVLMs 显着更好。由于 LVLMs 的图像编码器来自这些 CLIP 模型，这表明编码器和 LLM 之间在细粒度对象区分方面存在不足的对齐，并需要（预）训练数据进行更细粒度的注释。我们在\url{this https URL}发布了我们的代码。

论文链接: https://arxiv.org/pdf/2406.14496

Github: https://github.com/gregor-ge/FOCI-Benchmark

cs.CL: 关于层级表示相似性：在具有单个分类器的多出口模型中的应用

原标题: On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier

作者: Jiachen Jiang, Jinxin Zhou, Zhihui Zhu

机构: Ohio State University

摘要: 分析深度神经网络内部表示之间的相似性，无论是在不同模型之间还是在同一模型的不同隐藏层之间，都是理解深度神经网络行为的重要技术。目前大多数用于分析高维表示之间相似性的方法，如基于典型相关分析（CCA）和广泛使用的中心核对齐（CKA）的方法，都依赖于一组数据点的表示的统计特性。在本文中，我们专注于Transformer模型，并研究单个Transformer的隐藏层之间的表示相似性。在这个背景下，我们展示了一个简单的逐样本余弦相似度度量方法能够捕捉到相似性，并与复杂的CKA相一致。我们在常见的Transformer上进行实验，结果显示不同层之间的表示是正相关的，尽管当层之间距离较远时相似性会降低。然后，我们提出了一种对齐训练方法来增强内部表示之间的相似性，训练得到的模型具有以下特点：（1）最后一层分类器可以直接应用于任何隐藏层，使得中间层的准确率远高于标准训练下的准确率，（2）逐层准确率单调增加，并揭示了给定任务所需的最小深度，（3）当作为多出口模型时，它们的性能与标准的多出口架构相当，后者包括为浅层提前退出而设计的额外分类器。据我们所知，我们的工作是首次证明一个通用分类器足以用于多出口模型。我们在视觉和自然语言处理任务上进行实验，以展示所提出的对齐训练的性能。

论文链接: https://arxiv.org/pdf/2406.14479

cs.CL: 目标物体定位真的能减少大型视觉语言模型的幻觉吗？

原标题: Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?

作者: Gregor Geigle, Radu Timofte, Goran Glavaš

机构: University of Würzburg

摘要: 大型视觉语言模型（LVLMs）最近在图像字幕和许多图像理解任务（例如视觉问答）方面取得了显著的突破。然而，LVLMs经常出现“幻觉”，产生的字幕中提到了图像中找不到的概念。这些幻觉削弱了LVLMs的可信度，可以说是普遍采用LVLMs的主要障碍之一。最近的研究表明，添加明确将图像区域或对象与文本范围对齐的基础目标可以减少LVLM的幻觉数量。尽管这种观点很直观，但我们认为这种观点没有经过实证验证，因为减少效果是通过存在缺陷的评估协议建立的，这些协议（i）依赖于在LVLM训练中广泛使用的数据（即MSCOCO），（ii）通过问答而不是开放式字幕生成来衡量幻觉。相比之下，在这项工作中，我们首次对细粒度对象基础目标对LVLM幻觉的影响进行了系统分析，采用了更真实地捕捉LVLM开放生成中幻觉的评估协议。我们对三个主干LLMs进行了大量实验，结果显示，在开放式字幕生成中，基础目标对对象幻觉几乎没有影响。

论文链接: https://arxiv.org/pdf/2406.14492

cs.CL: 常见在线说话人分离方法综述

原标题: A Review of Common Online Speaker Diarization Methods

作者: Roman Aperdannier, Sigurd Schacht, Alexander Piazza

机构: Ansbach应用科学大学

摘要: 说话人分离为音频文件提供“谁何时说话”的答案。这些信息可用于完成音频转录以进行进一步的处理步骤。大多数说话人分离系统假定音频文件作为一个整体可用。然而，在某些情况下，需要在音频片段到达后立即获得说话人标签。具有相应低延迟的说话人分离称为在线说话人分离。本文提供了一个概述。首先简要介绍了在线说话人分离的历史。接下来给出了用于训练和评估的分类和数据集。在接下来的章节中，详细讨论了在线分离方法和系统。本文最后介绍了仍需未来研究解决的在线说话人分离领域的挑战。

论文链接: https://arxiv.org/pdf/2406.14464

cs.CL: FVEL：通过定理证明与大语言模型实现的交互式形式验证环境

原标题: FVEL: Interactive Formal Verification Environment with Large Language Models via Theorem Proving

作者: Xiaohan Lin, Qingxing Cao, Yinya Huang, Haiming Wang, Jianqiao Lu, Zhengying Liu, Linqi Song, Xiaodan Liang

机构: 中山大学深圳校区香港城市大学香港大学华为诺亚方舟实验室 MBZUAI DarkMatter AI Research

摘要: 形式验证（FV）在当前新兴的大语言模型（LLMs）通过不断演化的程序合成中变得越来越重要。然而，当前的形式验证主要依赖于符号验证器或手工制定的规则，导致了广泛和灵活验证的局限性。另一方面，用于自动定理证明的形式语言（如Isabelle）作为另一种严格验证的方法，通过维护全面的规则和定理。在本文中，我们提出了一个名为FVEL的交互式形式验证环境，其中包含LLMs。具体而言，FVEL将待验证的给定代码转换为Isabelle，并通过LLMs进行神经自动定理证明来进行验证。这种联合范式利用了Isabelle中严格而丰富的规则和组织良好的规则，并且方便引入和调整尖端的LLMs。为了实现这个目标，我们提取了一个大规模的FVELER3数据集。FVELER数据集包括在Isabelle中制定的代码依赖和验证过程，总共包含758个理论，29,125个引理和200,646个详细的依赖关系的证明步骤。我们通过首先使用FVELER对LLMs进行微调，然后在Code2Inv和SV-COMP上进行评估来在FVEL环境中对FVELER进行基准测试。结果显示，使用FVELER进行微调的FVEL解决了17.39%（69->81）更多的问题，而Mistral-7B解决了12%（75->84）更多的SV-COMP问题。证明错误的比例也有所降低。项目页面：this https URL。

论文链接: https://arxiv.org/pdf/2406.14408

Github: https://fveler.github.io/

cs.CL: 逻辑数学符号系统处理的神经相关性更类似于空间认知，而不是自然语言处理。

原标题: The neural correlates of logical-mathematical symbol systems processing resemble that of spatial cognition more than natural language processing

作者: Yuannan Li, Shan Xu, Jia Liu

摘要: 人类独有的认知技能之一是操纵逻辑数学符号（LMS），包括计算、推理和编程等任务。考虑到这种能力在人类进化历史上相对较新的出现，有人认为LMS处理可能建立在更基本的认知系统之上，可能通过神经元再利用实现。以往的研究已经确定了两个主要候选者，即自然语言处理和空间认知。现有的比较主要依赖于任务级别的比较，这可能会受到任务特异性的干扰。本研究通过自动化元分析和基于三个典型LMS任务（推理、计算和心理编程）的综合地图，从领域层面比较了神经相关性。我们的结果显示，LMS处理与空间认知之间存在更大的皮层重叠，而与语言处理相比则较少。此外，在空间和语言处理激活的区域中，LMS处理的多变量激活模式与空间认知的多变量相似性大于与语言处理的相似性。层次聚类分析进一步表明，典型的LMS任务在神经水平上与空间认知任务无法区分，这表明这两个认知过程之间存在内在联系。综上所述，我们的发现支持了空间认知很可能是LMS处理的基础的假设，这可能有助于揭示大语言模型在逻辑推理方面的局限性，特别是那些仅在文本数据上进行训练且没有明确强调空间内容的模型。

论文链接: https://arxiv.org/pdf/2406.14358

cs.CL: 越狱作为一种奖励错误规范化问题

原标题: Jailbreaking as a Reward Misspecification Problem

作者: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

机构: 香港大学华为诺亚方舟实验室

摘要: 大语言模型（LLMs）的广泛应用引发了人们对其安全性和可靠性的担忧，特别是对其易受对抗性攻击的脆弱性。在本文中，我们提出了一种新的观点，认为这种脆弱性是由于对齐过程中奖励规范化的错误导致的。我们引入了一种度量指标ReGap来量化奖励规范化错误的程度，并展示了它在检测有害的后门提示方面的有效性和鲁棒性。基于这些洞察，我们提出了ReMiss，一个用于自动红队测试的系统，可以针对各种目标对齐的LLMs生成对抗性提示。ReMiss在AdvBench基准测试中实现了最先进的攻击成功率，同时保持了生成提示的人类可读性。详细分析突出了与之前方法相比，所提出的奖励规范化目标带来的独特优势。

论文链接: https://arxiv.org/pdf/2406.14393

cs.CL: LiveMind: 低延迟的大语言模型与同时推理

原标题: LiveMind: Low-latency Large Language Models with Simultaneous Inference

作者: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li

机构: Technical University of Munich Technical University of Darmstadt Zhejiang University

摘要: 在本文中，我们介绍了一种新颖的用于大语言模型（LLMs）推断的低延迟推断框架，该框架使LLMs能够在不完整提示的情况下进行推断。通过将计算过程重新分配到提示输入阶段，我们实现了大幅减少延迟，从而显著提升了LLMs用户的交互体验。该框架巧妙地管理了流式提示对模型的可见性，使其能够从不完整提示中进行推断或等待额外的提示。与利用完整提示的传统推断方法相比，我们的方法在MMLU-Pro数据集上表现出了平均59%的响应延迟减少，同时保持了可比的准确性。此外，我们的框架促进了跨不同模型的协作推断和输出。通过使用LLM进行推断和小语言模型（SLM）进行输出，与SLM基准相比，我们在MMLU-Pro数据集上实现了平均68%的响应延迟减少，同时准确性提高了5.5%。对于超过20个句子的长提示，响应延迟可以减少高达93%。

论文链接: https://arxiv.org/pdf/2406.14319

cs.CL: 人工利维坦：通过霍布斯社会契约理论探索大语言模型智能体的社会进化

原标题: Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory

作者: Gordon Dai, Weijia Zhang, Jinhan Li, Siqi Yang, Chidera Onochie lbe, Srihas Rao, Arthur Caetano, Misha Sra

机构: 纽约大学伊利诺伊大学香槟分校

摘要: 大语言模型（LLMs）的出现和人工智能（AI）的进步为规模化的计算社会科学研究提供了机会。在之前对LLM智能体设计的探索基础上，我们的工作引入了一个模拟智能体社会，其中复杂的社会关系会随着时间的推移动态形成和演变。智能体具有心理驱动力，并被置于一个沙盒生存环境中。我们通过托马斯·霍布斯的社会契约理论（SCT）的视角对智能体社会进行评估。我们分析了是否如理论所述，智能体寻求通过放弃权利向绝对君主交换秩序和安全来逃离野蛮的“自然状态”。我们的实验揭示了一种一致性：最初，智能体参与无限制的冲突，反映了霍布斯对自然状态的描述。然而，随着模拟的进行，社会契约出现，导致绝对君主的授权和建立在相互合作基础上的和平共和国的建立。我们的LLM智能体社会的演化轨迹与霍布斯的理论描述之间的一致性表明，LLMs具备建模复杂社会动态和潜在复制塑造人类社会的力量的能力。通过使这种对群体行为和新兴社会现象的洞察力成为可能，LLM驱动的多智能体模拟虽然无法模拟人类行为的所有细微差别，但可能有助于推进我们对社会结构、群体动力学和复杂人类系统的理解。

论文链接: https://arxiv.org/pdf/2406.14373

cs.CL: 火焰窃贼也是守护者：在提示中平衡可用性和隐私

原标题: The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts

作者: Zhili Shen, Zihang Xi, Ying He, Wei Tong, Jingyu Hua, Sheng Zhong

机构: 南京大学

摘要: 在线聊天机器人的快速普及代表了人工智能的重大进步。然而，这种便利性带来了相当大的隐私问题，因为提示可能会无意中包含敏感信息，暴露给大型语言模型（LLMs）。受到高计算成本、降低任务可用性和过度系统修改的限制，以本地部署、嵌入扰动和同态加密为基础的先前工作不适用于在线提示型LLM应用。
为了解决这些问题，本文介绍了Prompt Privacy Sanitizer（即ProSan），这是一个端到端的提示隐私保护框架，可以生成去除上下文隐私的匿名提示，同时保持任务可用性和人类可读性。它也可以无缝地集成到在线LLM服务管道中。为了实现高可用性和动态匿名性，ProSan根据单词的重要性和提示的隐私泄漏风险灵活调整其保护目标和强度。此外，ProSan能够适应各种计算资源条件，确保即使是计算能力有限的移动设备也能进行隐私保护。我们的实验表明，ProSan有效地消除了各种任务中的私人信息，包括问答、文本摘要和代码生成，同时最小化了任务性能的降低。

论文链接: https://arxiv.org/pdf/2406.14318

cs.CL: QuST-LLM：将大语言模型整合到全面的空间转录组学分析中

原标题: QuST-LLM: Integrating Large Language Models for Comprehensive Spatial Transcriptomics Analysis

作者: Chao Hui Huang

机构: 青岛科技大学辅助生殖技术实验室辉瑞公司

摘要: 在本文中，我们介绍了QuST-LLM，这是QuPath的一种创新扩展，利用大型语言模型（LLMs）的能力来分析和解释空间转录组学（ST）数据。该工具通过提供包括数据加载、区域选择、基因表达分析和功能注释在内的全面工作流程，有效地简化了ST数据的复杂和高维特性。QuST-LLM利用LLMs将复杂的ST数据转化为基于基因本体注释的可理解和详细的生物学叙述，从而显著提高了ST数据的可解释性。因此，用户可以使用自然语言与他们自己的ST数据进行交互。因此，QuST-LLM为研究人员提供了一个强大的功能，以揭示组织的空间和功能复杂性，促进生物医学研究中的新见解和进展。

论文链接: https://arxiv.org/pdf/2406.14307

cs.CL: 按压缩比对LLM进行排名

原标题: Ranking LLMs by compression

作者: Peijia Guo, Ziguang Li, Haibo Hu, Chao Huang, Ming Li, Rui Zhang

机构: 西北大学数学学院上海数学与交叉科学研究中心中国科学院计算技术研究所滑铁卢大学计算机科学学院

摘要: 我们将理解的过程概念化为信息压缩，并提出了一种基于无损数据压缩的大语言模型（LLM）排序方法。我们证明了在使用大语言模型作为先验的情况下，算术编码下的压缩长度与累积负对数概率等价，即模型的预训练阶段本质上是学习最优编码长度的过程。同时，可以在不进行实际压缩的情况下获得评估指标压缩比，从而大大节省了开

论文链接: https://arxiv.org/pdf/2406.14171

cs.CL: 基于数据驱动的引导解码机制用于诊断字幕生成

原标题: A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning

作者: Panagiotis Kaliosis, John Pavlopoulos, Foivos Charalampakos, Georgios Moschovis, Ion Androutsopoulos

机构: 雅典经济与商业大学、Archimedes/Athena RC

摘要: 诊断字幕（DC）可以从一个或多个医学图像（如X光片、MRI）自动生成诊断文本。生成的文本可以作为草稿，帮助临床医生对患者的病情进行初步估计，加快并保护诊断过程。然而，诊断文本的准确性很大程度上取决于图像中所表达的关键医学状况的表达程度。我们提出了一种新的数据驱动的引导解码方法，将医学信息（以现有标签的形式捕捉图像的关键状况）融入到诊断文本生成过程的波束搜索中。我们使用四个DC系统在两个医学数据集上评估了所提出的方法，这些系统从具有CNN编码器和RNN解码器的通用图像到文本系统到预训练的大型语言模型。后者也可以在少样本和零样本学习场景中使用。在大多数情况下，所提出的机制

论文链接: https://arxiv.org/pdf/2406.14164

Github: https://github.com/nlpaueb/dmmcs

cs.CL: DIRAS: 在检索增强生成中高效的大语言模型辅助注释文档相关性

原标题: DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation

作者: Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold

机构: ETH Zürich University of Zurich Swiss Finance Institute (SFI) University of Electronic Science and Technology of China

摘要: 检索增强生成（RAG）被广泛应用于将响应与特定领域文档上的查询联系起来。但是，RAG 实现是否遗漏了重要信息或过多包含无关信息？为了缓解这些担忧，有必要注释特定领域基准数据集，以评估信息检索（IR）性能，因为相关性定义在查询和领域之间会有所不同。此外，这样的基准数据集应该以成本效益的方式进行注释，以避免注释选择偏见。在本文中，我们提出了 DIRAS（具有可扩展性的特定领域信息检索注释），这是一种无需手动注释的模式，可以微调开源的大语言模型（LLMs）以使用校准的相关性概率注释相关性标签。广泛的评估表明，DIRAS 微调模型在注释和排名未见过的（查询，文档）对时实现了类似 GPT-4 的性能，并有助于实际的 RAG 开发。

论文链接: https://arxiv.org/pdf/2406.14162

cs.CL: 朝向面向事件的长视频理解

原标题: Towards Event-oriented Long Video Understanding

作者: Yifan Du, Kun Zhou, Yuqi Huo, Yifan Li, Wayne Xin Zhao, Haoyu Lu, Zijia Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen

机构: 人民大学高灵人工智能学院人民大学信息学院中国科学院自动化研究所 Baichuan Inc.

摘要: 随着视频多模态大语言模型（MLLMs）的快速发展，已经提出了许多基准来评估它们的视频理解能力。然而，由于视频中缺乏丰富的事件，这些数据集可能存在一种捷径偏见，即答案可以从几帧中推导出，而无需观看整个视频。为了解决这个问题，我们引入了Event-Bench，这是一个基于现有数据集和人类注释构建的面向事件的长视频理解基准。Event-Bench包括六个与事件相关的任务和2,190个测试实例，以全面评估视频事件理解能力。此外，我们提出了视频指令合并（VIM），这是一种成本效益高的方法，通过合并、事件密集型视频指令来增强视频MLLMs，解决了人类注释的、事件密集型数据稀缺的问题。大量实验证明，表现最佳的模型GPT-4o的整体准确率为53.33%，明显优于最佳开源模型的41.42%。利用一种有效的指令合成方法和一种自适应模型架构，VIM在Event-Bench上超越了最先进的开源模型和GPT-4V。所有代码、数据和模型都可以在此https URL上公开获取。

论文链接: https://arxiv.org/pdf/2406.14129

Github: https://github.com/RUCAIBox/Event-Bench

cs.CL: 观察观察者：对基于云的内容审核服务进行比较公平性审计

原标题: Watching the Watchers: A Comparative Fairness Audit of Cloud-based Content Moderation Services

作者: David Hartmann, Amin Oueslati, Dimitri Staufer

机构: TU Berlin, Weizenbaum Institute for the Networked Society, Hertie School Berlin

摘要: 在线平台面临着一个挑战，即要对越来越多的内容进行内容审核，包括有害的仇恨言论。在法律定义不清晰且缺乏关于算法在内容审核决策中发挥作用的透明度的情况下，迫切需要外部问责制。我们的研究通过第三方审计系统地评估了四个领先的基于云的内容审核服务，突出了通过过度依赖这些服务可能出现的针对少数族裔和弱势群体的偏见等问题。我们使用黑盒审计方法和四个基准数据集，通过扰动敏感性分析来衡量明示和隐含仇恨言论检测的性能，以及反事实公平性，并展示了针对某些目标身份群体和数据集的性能差异。我们的分析显示，所有服务在检测隐含仇恨言论方面都存在困难，因为这种言论更加微妙和符号化。此外，我们的结果指出了消除特定群体偏见的必要性。看起来对一些群体，比如妇女，存在的偏见大多已经得到纠正，而对其他群体，比如 LGBTQ+ 和 PoC，仍然存在偏见。

论文链接: https://arxiv.org/pdf/2406.14154

cs.CL: EasyECR：一个用于轻松实现和评估事件共指解析模型的库

原标题: EasyECR: A Library for Easy Implementation and Evaluation of Event Coreference Resolution Models

作者: Yuncong Li, Tianhua Xu, Sheng-hua Zhong, Haiqin Yang

机构: International Digital Economy Academy (IDEA) Shenzhen University

摘要: 事件核指代消解（ECR）是将指代同一现实世界事件的事件提及聚类的任务。尽管取得了显著进展，但 ECR 研究面临两个主要挑战：由于狭窄的数据集评估，跨领域的泛化能力有限，以及在不同 ECR 流程中比较模型存在困难。为解决这些问题，我们开发了 EasyECR，这是第一个旨在标准化数据结构和抽象 ECR 流程以便于实现和公平评估的开源库。更具体地说，EasyECR 集成了七个代表性流程和十个流行的基准数据集，使模型能够在各种数据集上进行评估，并促进健壮的 ECR 流程的发展。通过我们的 EasyECR 进行广泛评估，我们发现：\lowercase\expandafter{\romannumeral1}) 代表性 ECR 流程无法在多个数据集上泛化，因此有必要在多个数据集上评估 ECR 流程；\lowercase\expandafter{\romannumeral2}) ECR 流程中的所有模型对流程性能有很大影响，因此，在比较 ECR 流程中的一个模型时，确保其他模型保持一致至关重要。此外，复现 ECR 结果并不是一件简单的事情，开发的库可以帮助减少这种差异。实验结果为未来研究提供了有价值的基线。

论文链接: https://arxiv.org/pdf/2406.14106

cs.CL: 对零样本大语言模型排名器提示变化的调查

原标题: An Investigation of Prompt Variations for Zero-shot LLM-based Rankers

作者: Shuoqi Sun, Shengyao Zhuang, Shuai Wang, Guido Zuccon

机构: 昆士兰大学 CSIRO

摘要: 我们提供了对基于零样本大语言模型（LLMs）的排名器中使用的特定组件和提示词对排名效果的影响的系统性理解。最近提出了几种基于LLMs的零样本排名方法。在许多方面，这些方法在以下几个方面存在差异：（1）它们实现的排名算法，例如，逐点方式与逐列表方式，（2）所使用的基础LLMs，例如，GPT3.5与FLAN-T5，（3）在提示中使用的组件和措辞，例如，使用角色定义（角色扮演）与否以及用于表达这一概念的实际词语。目前尚不清楚性能差异是由于基础排名算法，还是由于提示中更好选择的词语等偶然因素。这种混淆可能会损害未来的研究。通过我们的大规模实验和分析，我们发现排名算法确实对零样本LLM排名方法之间的差异有所贡献。然而，LLM的基础结构也很重要，但更重要的是，提示组件和措辞的选择会影响排名。事实上，在我们的实验中，我们发现，有时这些后者的影响比实际排名算法更大，当考虑提示变化时，排名方法之间的差异变得更加模糊。

论文链接: https://arxiv.org/pdf/2406.14117

cs.CL: CryptoGPT：一种7B模型，可以与GPT-4竞争，在分析和分类实时金融新闻的任务上表现出色。

原标题: CryptoGPT: a 7B model rivaling GPT-4 in the task of analyzing and classifying real-time financial news

作者: Ying Zhang, Matthieu Petit Guillaume (BH), Aurélien Krauth (ON), Manel Labidi

机构: Beyond Horizon Omnios Leviatan

摘要: CryptoGPT：一种7B模型，与GPT-4在特定任务中竞争–通过QLoRAI的自动注释和战略微调的影响。在本文中，我们提出了一种方法，旨在通过CryptoGPT在工业环境中使用有限资源来完善一个合理质量的专用LLM。这是一个设计用于加密货币市场实时金融新闻分析的LLM。该项目是在工业背景下启动的。这个模型不仅可以对金融信息进行分类，还可以提供全面的分析。我们使用半自动注释来完善不同大小的LLM，如Mistral-7B和LLama-7B，并将它们与各种LLM（如GPT-3.5和GPT-4）进行比较。我们的目标是在几个需求之间找到平衡：1.保护数据（通过避免将它们传输到外部服务器），2.限制注释成本和时间，3.控制模型的大小（以管理部署成本），以及4.保持更好的分析质量。

论文链接: https://arxiv.org/pdf/2406.14039

cs.CL: ReaLHF: 通过参数重新分配优化大语言模型的 RLHF 训练

原标题: ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation

作者: Zhiyu Mei, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang, Yi Wu

机构: 清华大学上海启智研究院 OpenPsi公司

摘要: 强化学习从人类反馈中学习（RLHF）是赋予大型语言模型（LLM）应用程序强大技术的关键技术。由于RLHF涉及多样的计算工作负载和多个LLM之间的复杂依赖关系，直接采用监督训练中的并行化技术可能导致性能不佳。为了克服这个限制，我们提出了一种名为参数重新分配（parameter ReaLlocation）的新方法，在训练过程中动态重新分配LLM参数，并调整并行化策略。基于这个想法，我们引入了ReaLHF，一个能够根据所需的算法和硬件配置自动发现和运行RLHF训练的高效执行计划的先导性系统。ReaLHF将RLHF的执行计划构建为一个增强数据流图。基于这个构建，ReaLHF采用了一个定制的搜索算法和一个轻量级成本估算器，以发现一个高效的执行计划。随后，运行时引擎通过有效地并行化计算和重新分配参数来部署所选计划。我们在具有高达 $4\times70$ 亿个参数和128个GPU的LLaMA-2模型上评估了ReaLHF。实验结果显示，与基准相比，ReaLHF的速度提升了 $2.0-10.6\times$ 。此外，ReaLHF生成的执行计划相对于基于Megatron-LM的启发式方法平均性能提高了 $26\%$ 。ReaLHF的源代码公开可用于此https URL。

论文链接: https://arxiv.org/pdf/2406.14088

Github: https://github.com/openpsi-project/ReaLHF

cs.CL: 基于分类学引导的大语言模型零样本推荐。

原标题: Taxonomy-Guided Zero-Shot Recommendations with LLMs

作者: Yueqing Liang, Liangwei Yang, Chen Wang, Xiongxiao Xu, Philip S. Yu, Kai Shu

机构: 伊利诺伊理工学院芝加哥，美国

摘要: 随着大语言模型（LLMs）的出现及其在各种任务中的能力，它们在推荐系统（RecSys）中的应用显示出了潜力。然而，将LLMs部署到RecSys中面临着一些重要挑战，如有限的提示长度、非结构化的项目信息和无约束的推荐生成，导致性能不佳。为了解决这些问题，我们提出了一种使用分类词典的新方法。该方法为项目的分类和组织提供了一个系统的框架，提高了项目信息的清晰度和结构性。通过将分类词典纳入LLM提示中，我们实现了高效的令牌利用和受控特征生成，从而实现更准确和上下文相关的推荐。我们的分类词典引导推荐（TaxRec）方法包括两个步骤：一次性的分类词典分类和基于LLM的推荐，实现了零样本推荐，无需进行领域特定的微调。实验结果表明，与传统的零样本方法相比，TaxRec显著提高了推荐质量，展示了其作为具有LLMs的个性化推荐器的效果。代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.14043

Github: https://github.com/yueqingliang1/TaxRec

cs.CL: 解密语言模型微调中的遗忘现象：通过示例关联的统计分析

原标题: Demystifying Forgetting in Language Model Fine-Tuning with Statistical Analysis of Example Associations

作者: Xisen Jin, Xiang Ren

机构: 南加州大学

摘要: 语言模型（LMs）在微调时被认为会遗忘先前学习的示例，从而破坏了部署的LM系统的稳定性。尽管有关减轻遗忘的努力，但很少有人调查遗忘的上游示例是否与新学习的任务相关联，以及它们如何相关联。对这种关联的洞察可以实现高效和有针对性的减轻遗忘。在本文中，我们通过实证分析了模型在学习 $M$ 个新任务时发生在 $N$ 个上游示例中的遗忘，并可视化它们与一个 $\times N$ 矩阵的关联。我们经验证明，遗忘程度通常可以通过上游示例和新学习任务的简单乘法贡献来近似。我们还揭示了更复杂的模式，其中特定的示例子集会被遗忘，并提供了统计数据和可视化。根据我们的分析，我们使用矩阵补全方法预测在学习新任务时发生在上游示例中的遗忘，优于依赖可训练LM的先前方法。项目网站：this https URL

论文链接: https://arxiv.org/pdf/2406.14026

其他链接: https://inklab.usc.edu/lm-forgetting-prediction/

cs.CL: 在Transformer中实现无限长前缀

原标题: Toward Infinite-Long Prefix in Transformer

作者: Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Chiwun Yang

机构: 清华大学

摘要: 前缀学习（Prefix Learning）是一种基于提示和上下文的微调方法，旨在提高语言模型在各种下游任务上的性能，以达到完全参数微调的效果。目前对这些方法的工作原理还存在有限的理论理解。本文旨在从前缀长度的角度研究前缀学习的学习能力，以缓解这一限制。具体而言，我们利用神经切向核（Neural Tangent Kernel，NTK）技术来近似无限长的前缀学习优化过程。我们将其形式化并解决为一个单层注意力网络中无限长前缀的学习问题。我们的结果证实了在注意力机制中，无限长的前缀学习具有过参数化特性和任意小的损失收敛保证。在实现方面，我们提出了NTK-Attention方法，它可以高效地计算任意前缀长度的注意力。其时间复杂度主要取决于输入长度（不包括前缀）的次二项，而我们的方法只需要额外的 $d^2 + d$ 个参数来表示，其中 $d$ 是特征维度。此外，我们还进行了实验证明了我们的NTK-Attention方法在视觉或自然语言数据集上与完全参数微调、LoRA和P-Tuning V2方法相比具有优越的性能。我们的代码可以在此链接找到：\url{this https URL}。

论文链接: https://arxiv.org/pdf/2406.14036

Github: https://github.com/ChristianYang37/chiwun/tree/main/src/NTK-Attention https://github.com/christianyang37/chiwun

cs.CL: 调查上下文学习的预训练动态：任务识别 vs. 任务学习

原标题: Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning

作者: Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Ji-Rong Wen

机构: Renmin University of China Beijing Key Laboratory of Big Data Management and Analysis Methods

摘要: 在上下文学习（ICL）的出现可能归因于两个主要能力：任务识别（TR）用于从示范中识别任务并利用预先训练的先验知识，以及任务学习（TL）用于从示范中学习。然而，这两种能力之间的关系以及这种关系如何影响ICL的出现尚不清楚。在本文中，我们通过研究ICL出现的预训练动态迈出了第一步。通过精心设计的度量标准，我们发现这两种能力在预训练过程中实际上是竞争的。此外，我们观察到竞争与ICL性能之间存在强烈的负相关关系。对常见预训练因素（即模型大小、数据集大小和数据课程）的进一步分析表明了管理竞争的可能方法。基于这些见解，我们提出了一种简单而有效的方法，在推理时更好地整合这两种能力以实现ICL。通过自适应集成学习，ICL的性能可以显著提升，使得两个小模型的性能超过具有两倍参数的较大模型。代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.14022

Github: https://github.com/RUCAIBox/Competitive-ICL

cs.CL: CityGPT：赋予大语言模型城市空间认知能力

原标题: CityGPT: Empowering Urban Spatial Cognition of Large Language Models

作者: Jie Feng, Yuwei Du, Tianhui Liu, Siqi Guo, Yuming Lin, Yong Li

机构: 清华大学

摘要: 大语言模型(LLMs)具有强大的语言生成和推理能力，在许多领域已经取得了成功，例如数学和代码生成。然而，由于在训练过程中缺乏物理世界的语料库和知识，它们通常无法解决城市空间中许多实际生活任务。在本文中，我们提出了CityGPT，这是一个系统性框架，通过在模型中构建一个城市规模的世界模型，增强LLMs在理解城市空间和解决相关城市任务方面的能力。首先，我们构建了一个多样化的指令调整数据集CityInstruction，以有效注入城市知识和增强空间推理能力。通过使用CityInstruction和一般指令数据的混合，我们微调了各种LLMs（例如ChatGLM3-6B、Qwen1.5和LLama3系列），以增强它们的能力而不损失一般能力。为了进一步验证所提出方法的有效性，我们构建了一个全面的基准测试CityEval，以评估LLMs在不同城市场景和问题上的能力。广泛的评估结果表明，使用CityInstruction训练的小型LLMs在CityEval的全面评估中可以与商业LLMs实现竞争性能。源代码可通过此https URL向研究社区公开获取。

论文链接: https://arxiv.org/pdf/2406.13948

Github: https://github.com/tsinghua-fib-lab/CityGPT

cs.CL: AspirinSum：一个基于方面的保留效用的去识别摘要框架

原标题: AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework

作者: Ya-Lun Li

机构: 清华大学

摘要: 由于大语言模型（LLM）的快速发展，整个社区都急切地消费任何可用的文本数据，以便训练LLM。目前，大部分可用的文本数据都是从互联网收集而来的，被认为是训练数据的廉价来源。然而，当人们试图将LLM的能力扩展到个人相关的领域，如医疗保健或教育时，这些领域缺乏公共数据集使得LLM在这些领域的应用变得更加缓慢。这些领域缺乏公共可用数据集的原因是因为它们通常包含个人敏感信息。为了遵守隐私法律，在任何形式的传播之前，这些领域的数据需要进行去标识化处理。已经有很多研究尝试解决图像或表格数据的这个问题。然而，对于文本数据的高效和通用的去标识化方法的研究有限。大多数方法都基于人工注释或预定义的类别列表。它们通常不能轻易地适应特定领域。本提案的目标是开发一个文本去标识化框架，可以轻松适应特定领域，利用现有的专家知识而无需进一步的人工注释。我们提出了一个基于方面的保留效用的去标识化摘要框架AspirinSum，通过学习从现有评论数据中对齐专家的方面，它可以通过提取与个人敏感方面相关的子句并用类似的方面子句替换来高效地总结个人敏感文档并进行去标识化。我们设想，去标识化的文本可以用于数据发布，最终发布我们的去标识化数据集以供下游任务使用。

论文链接: https://arxiv.org/pdf/2406.13947

cs.CL: 使用多模态大语言模型从热像中检测物体：交通应用

原标题: The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications

作者: Huthaifa I. Ashqar, Taqwa I. Alhadidi, Mohammed Elhenawy, Nour O. Khanfar

摘要: 热成像数据与多模态大语言模型（MLLMs）的集成为改善自动驾驶系统和许多智能交通系统（ITS）应用的安全性和功能提供了令人兴奋的机会。本研究调查了MLLMs是否能够理解来自RGB和热成像相机的复杂图像，并直接检测物体。我们的目标是：1）评估MLLM从各种数据集中学习的能力；2）在热成像相机中检测物体并识别元素；3）确定两个独立模态图像是否显示相同场景；4）使用不同模态学习所有物体。研究结果显示，GPT-4和Gemini在热成像图像中检测和分类物体方面都很有效。同样，行人分类的平均绝对百分比误差（MAPE）分别为70.39%和81.48%。此外，自行车、汽车和摩托车检测的MAPE分别为78.4%、55.81%和96.15%。Gemini的MAPE分别为66.53%、59.35%和78.18%。这一发现进一步证明了MLLM能够识别热成像图像，并可应用于ITS应用的先进成像自动化技术中。

论文链接: https://arxiv.org/pdf/2406.13898

cs.CL: CityBench：评估大语言模型作为世界模型的能力

原标题: CityBench: Evaluating the Capabilities of Large Language Model as World Model

作者: Jie Feng, Jun Zhang, Junbo Yan, Xin Zhang, Tianjian Ouyang, Tianhui Liu, Yuwei Du, Siqi Guo, Yong Li

机构: 清华大学

摘要: 大语言模型（LLMs）具有强大的泛化能力，在许多领域得到了广泛应用。系统和可靠的LLMs评估是它们发展和应用的关键步骤，特别是对于特定的专业领域。在城市领域，已经进行了一些关于LLMs可用性的早期探索，但仍缺乏系统和可扩展的评估基准。构建城市领域的系统评估基准的挑战在于数据和场景的多样性，以及城市的复杂和动态性。在本文中，我们提出了基于交互式模拟器的评估平台CityBench，作为第一个用于评估LLMs在城市领域作为城市规模世界模型能力的系统评估基准。首先，我们构建了CitySim来整合多源数据并模拟细粒度的城市动态。基于CitySim，我们设计了2类感知-理解和决策制定组的7个任务，以评估LLMs作为城市规模世界模型在城市领域的能力。由于CitySim的灵活性和易用性，我们的评估平台CityBench可以轻松扩展到世界上任何城市。我们在全球13个城市评估了13个知名的LLMs，包括开源LLMs和商业LLMs。广泛的实验证明了所提出的CityBench的可扩展性和有效性，并为城市领域LLMs的未来发展提供了启示。数据集、基准和源代码可通过此https URL向研究社区公开获取。

论文链接: https://arxiv.org/pdf/2406.13945

Github: https://github.com/tsinghua-fib-lab/CityBench

cs.CL: PIN：一个用于配对和交错多模态文档的知识密集型数据集

原标题: PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

作者: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen

机构: Waseda University University of Waterloo Tsinghua University 601.AI Hugging Face

摘要: 最近大型多模态模型（LMMs）的进展利用了广泛的多模态数据集，增强了在复杂的知识驱动任务中的能力。然而，感知和推理错误方面的持续挑战限制了它们的功效，特别是在解释复杂的视觉数据和推断多模态关系方面。为了解决这些问题，我们引入了一种新的数据集格式，PIN（配对和交错的多模态文档），旨在显著提高多模态训练的深度和广度。PIN格式建立在三个基本原则上：知识密度、可扩展性和支持多样化的训练模态。这种创新的格式将markdown文件和全面的图像结合起来，用密集的知识结构和多样化的训练策略丰富训练数据。我们提供了PIN-14M，这是一个开源数据集，包括来自各种中英文来源的1400万个样本，旨在包括复杂的网络和科学内容。这个数据集被精心构建，以确保数据质量和道德完整性，旨在促进先进的训练策略，并提高模型对常见多模态训练陷阱的鲁棒性。我们的初步结果，构成了这份技术报告的基础，表明PIN格式在改进LMM性能方面具有显著的潜力，未来还计划扩展并详细评估其对模型能力的影响。

论文链接: https://arxiv.org/pdf/2406.13923