2024年7月2日Arxiv语言模型相关论文

数智笔记

已于 2024-07-02 22:48:23 修改

阅读量2.1k

点赞数 23

分类专栏：论文速递文章标签：语言模型

于 2024-07-02 22:48:03 首次发布

本文链接：https://blog.csdn.net/wjjc1017/article/details/140138256

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

cs.CL: 大语言模型看，大语言模型做：引导数据生成以达到目标非可微目标

原标题: LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives

作者: Luísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker

机构: Cohere For AI

摘要: 合成数据的广泛采用引发了关于生成数据的模型如何通过精炼数据影响其他大型语言模型（LLMs）的新问题。首先，我们的工作通过系统研究合成数据整合的后果，详尽地描述了模型属性的被动继承对影响。我们提供了迄今为止关于合成数据来源如何塑造模型内部偏见、校准和生成文本属性以及偏好的最全面研究之一。我们发现，即使合成数据提示看起来“中立”，模型对某些属性也表现出惊人的敏感性，这引发了一个问题，即这种敏感性是否可以被利用为善。
我们的发现引发了一个问题，即我们是否可以通过利用数据生成过程来明确引导模型在测试时朝着我们想要的属性发展？这在历史上被认为是不可行的，因为收集具有特定特征或目标的数据的成本很高。然而，合成数据质量的提高，以及向设计成遵循多样化指令的通用模型的转变，意味着这个问题是及时的。我们提出了“主动继承”作为一个术语，用于描述根据非可微目标有意约束合成数据。我们演示了如何通过主动继承来引导模型的生成特征朝着理想的非可微属性发展，例如高词汇多样性或低毒性。

论文链接: https://arxiv.org/pdf/2407.01490

cs.CL: 大语言模型中的自我认知：一项探索性研究

原标题: Self-Cognition in Large Language Models: An Exploratory Study

作者: Dongping Chen, Jiawen Shi, Yao Wan, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun

机构: 清华大学百度亚马逊

摘要: 尽管大语言模型（LLMs）在各种应用中取得了显著成功，但它们也引发了关于自我认知的担忧。在本文中，我们进行了一项开创性研究，探讨LLMs中的自我认知。具体而言，我们首先构建了一组自我认知指令提示，以评估LLM在哪些方面展现出自我认知，并提出了四个精心设计的原则来量化LLMs的自我认知。我们的研究揭示，在Chatbot Arena的48个模型中，有4个模型–具体来说是Command R、Claude3-Opus、Llama-3-70b-Instruct和Reka-core–展示了一定程度可检测到的自我认知。我们观察到模型大小、训练数据质量和自我认知水平之间存在正相关关系。此外，我们还探讨了LLM在自我认知状态下的实用性和可信度，揭示了自我认知状态增强了一些特定任务的能力，如创意写作和夸张。我们相信我们的工作可以作为进一步研究LLMs中自我认知的灵感。

论文链接: https://arxiv.org/pdf/2407.01505

cs.CL: RegMix：数据混合作为语言模型预训练的回归

原标题: RegMix: Data Mixture as Regression for Language Model Pre-training

作者: Qian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin

机构: Sea AI Lab SMU SUTD

摘要: 大语言模型预训练的数据混合显著影响性能，然而如何确定有效的混合仍不清楚。我们提出了 RegMix，通过将其构建为回归任务，自动识别高性能数据混合。RegMix 包括训练一组具有不同数据混合的小模型，并拟合回归模型以预测它们在各自混合情况下的性能。通过拟合的回归模型，我们模拟排名靠前的混合，并将其用于训练一个计算量更大数个数量级的大规模模型。为了在实证验证 RegMix，我们训练了 512 个具有 1M 参数的模型，使用不同混合的 10 亿个 token 来拟合回归模型并找到最佳混合。使用这个混合，我们训练了一个拥有 10 亿参数的模型，使用 250 亿个 token（即比其他混合的 64 个 10 亿参数模型大 1000 倍，时间长 25 倍），我们发现这个模型在性能上表现最佳。此外，我们的方法表现出比人工选择更优越的性能，并取得与或超过 DoReMi 的结果，同时只利用了 10% 的计算预算。我们的实验还表明：（1）数据混合对性能有显著影响，单任务性能变化高达 14.6%；（2）与维基百科等被视为高质量的数据相比，Web 语料库与下游性能有最强的正相关性；（3）领域之间以复杂的方式相互作用，经常与常识相矛盾，因此需要像 RegMix 这样的自动方法；（4）数据混合效应超越了缩放定律，我们的方法通过考虑所有领域的方式捕捉了这种复杂性。我们的代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2407.01492

Github: https://github.com/sail-sg/regmix

cs.CL: 通过缓慢级联学习实现大模型的表达丰富且具有泛化能力的低秩适应

原标题: Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning

作者: Siwei Li, Yifan Yang, Yifei Shen, Fangyun Wei, Zongqing Lu, Lili Qiu, Yuqing Yang

机构: 清华大学微软亚洲研究院

摘要: 高效的微调在现代大型模型中起着基础性作用，低秩适应作为一种特别有前途的方法正在兴起。然而，现有的 LoRA 变体受到表达能力有限、过拟合倾向以及对超参数设置敏感的限制。本文提出了 LoRA Slow Cascade Learning（LoRASC），这是一种创新技术，旨在增强 LoRA 的表达能力和泛化能力，同时保持其训练效率。我们的方法通过级联学习策略增强了表达能力，实现了低秩适应的混合，从而提高了模型捕捉复杂模式的能力。此外，我们引入了慢-快更新机制和级联噪声调整，以增强泛化能力。对各种语言和视觉数据集以及鲁棒性基准的广泛实验表明，所提出的方法不仅明显优于现有基线，而且减轻了过拟合，增强了模型稳定性，并提高了 OOD 鲁棒性。代码将很快在此 https URL 中发布。

论文链接: https://arxiv.org/pdf/2407.01491

Github: https://github.com/microsoft/LoRASC

cs.CL: DogeRM: 通过模型合并为奖励模型提供领域知识

原标题: DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

作者: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen

机构: 国立台湾大学

摘要: 人类反馈强化学习（RLHF）是一种用于使大型语言模型（LLMs）与期望行为保持一致的流行策略。奖励建模是RLHF中的关键步骤。然而，为训练奖励模型收集配对偏好数据通常是昂贵且耗时的，特别是对于需要专家注释的领域特定偏好。为了解决这一挑战，我们提出了领域知识融合奖励模型（DogeRM），这是一个将领域特定知识通过模型合并集成到通用奖励模型中的新颖框架。实验证明，DogeRM提高了在不同基准测试中的性能，并提供了详细分析，展示了模型合并的效果，显示了促进模型对齐的巨大潜力。

论文链接: https://arxiv.org/pdf/2407.01470

cs.CL: 在多语言环境中的检索增强生成

原标题: Retrieval-augmented generation in multilingual settings

作者: Nadezhda Chirkova, David Rau, Hervé Déjean, Thibault Formal, Stéphane Clinchant, Vassilina Nikoulina

机构: NAVER LABS Europe

摘要: 最近，检索增强生成（RAG）已经成为一个有前途的解决方案，可以将最新或领域特定的知识纳入大语言模型（LLMs）中，提高LLM的事实性，但主要是在仅英语环境中进行研究。在这项工作中，我们考虑了多语言环境下的RAG（mRAG），即用户查询和数据存储在13种语言中，并研究了构建一个性能良好的mRAG管道所需的哪些组件以及需要进行哪些调整，以便作为未来工作中的一个强大基准。我们的研究结果表明，尽管有高质量的现成多语言检索器和生成器，但需要进行任务特定的提示工程以实现用户语言的生成。此外，当前的评估指标需要针对多语言环境进行调整，以考虑命名实体拼写的变化。未来工作中需要解决的主要限制包括非拉丁字母语言中频繁的代码切换、偶发的流畅性错误、对提供的文档的错误阅读或无关的检索。我们在此 https URL 上发布了生成的mRAG基准管道的代码。

论文链接: https://arxiv.org/pdf/2407.01463

Github: https://github.com/naver/bergen

cs.CL: 通过强化学习驱动的查询优化提升大语言模型的能力和鲁棒性

原标题: Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement

作者: Zisu Huang, Xiaohua Wang, Feiran Zhang, Zhibo Xu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang

机构: 复旦大学

摘要: 大语言模型（LLMs）生成诚实、无害和有益回应的能力在很大程度上取决于用户提示的质量。然而，这些提示往往简短而模糊，从而显著限制了LLMs的全部潜力。此外，有害提示可以被对手精心制作和操纵，以越狱LLMs，诱使它们生成潜在有毒内容。为了增强LLMs的能力，同时保持对有害越狱输入的强大鲁棒性，本研究提出了一个可转移和可插拔的框架，用于在将用户提示输入LLMs之前对其进行优化。这种策略提高了查询的质量，使LLMs能够生成更真实、良性和有用的回应。具体而言，引入了一个轻量级查询优化模型，并使用专门设计的强化学习方法进行训练，该方法结合了多个目标以增强LLMs的特定能力。大量实验证明，优化模型不仅提高了回应的质量，还增强了它们对越狱攻击的鲁棒性。代码可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2407.01461

Github: https://github.com/Huangzisu/query-refinement

cs.CL: TimeToM: 时间空间是打开大语言模型心智理论之门的关键

原标题: TimeToM: Temporal Space is the Key to Unlocking the Door of Large Language Models’ Theory-of-Mind

作者: Guiyang Hou, Wenqi Zhang, Yongliang Shen, Linjuan Wu, Weiming Lu

机构: 浙江大学

摘要: 心智理论（ToM）-推理我们自己和他人的心理状态的认知能力，是社会互动的基础。尽管ToM对人类来说是自然而然的，但即使是最先进的大语言模型（LLMs）也面临着重大挑战。由于ToM推理中存在复杂的逻辑链条，特别是在高阶ToM问题中，简单利用像思维链（CoT）这样的推理方法并不能提高LLMs的ToM能力。我们提出了TimeToM，它构建了一个时间空间，并将其用作改善LLMs在多种场景中的ToM能力的基础。具体而言，在时间空间内，我们为每个角色构建了时间信念状态链（TBSC），受到社会世界模型的认知视角的启发，我们将TBSC分为自我世界信念和社会世界信念，分别与一阶ToM（一阶信念）和高阶ToM（高阶信念）问题相一致。此外，我们设计了一种新颖的工具-信念求解器，通过考虑时间空间中角色之间的信念交流，可以在信念交流期间将一个角色的高阶信念转化为另一个角色的一阶信念。实验结果表明，TimeToM可以显著提高LLMs在ToM问题上的推理性能，同时在朝着连贯和稳健的ToM推理迈出了一大步。

论文链接: https://arxiv.org/pdf/2407.01455

cs.CL: 大语言模型的记忆中的“大海量数据中的细微之处”

原标题: Needle in the Haystack for Memory Based Large Language Models

作者: Subhajit Chaudhury, Soham Dan, Payel Das, Georgios Kollias, Elliot Nelson

机构: IBM研究

摘要: 在这篇论文中，我们展示了使用记忆增强的大语言模型（LLM）架构来提高从潜在长文本中召回事实的能力的好处。作为案例研究，我们测试了LARIMAR，这是一种最近提出的LLM架构，它在几个长文本召回任务上进行了测试，包括通行证和大海捞针测试。我们展示了外部记忆可以在测试时适应处理比训练过程中看到的更长的文本，同时使得来自记忆的读出对经过训练的解码器可识别，而且不会增加GPU内存占用。与具有相当参数数量的模型的长文本召回任务的替代架构相比，LARIMAR能够在没有任何特定任务训练的情况下保持强大的性能。

论文链接: https://arxiv.org/pdf/2407.01437

cs.CL: 动态少样本学习用于知识图谱问答

原标题: Dynamic Few-Shot Learning for Knowledge Graph Question Answering

作者: Jacopo D’Abramo, Andrea Zugarini, Paolo Torroni

机构: 博洛尼亚大学专家.ai

摘要: 大语言模型为知识图谱问答（KGQA）提供了创新机会。然而，它们并非专为查询生成而设计。为了弥补这一差距，已经提出了依赖于微调或特定架构的解决方案，取得了良好的结果，但在领域外分布泛化方面受到了限制。在这项研究中，我们介绍了一种名为动态少样本学习（DFSL）的新方法。DFSL结合了上下文学习和语义相似性的效率，并为具有最先进性能的KGQA提供了一种通用的解决方案。我们在多个基准数据集和架构配置上进行了广泛评估。

论文链接: https://arxiv.org/pdf/2407.01409

cs.CL: HyperLoader：将基于超网络的LoRA和适配器层集成到多任务Transformer中，用于序列标注

原标题: HyperLoader: Integrating Hypernetwork-Based LoRA and Adapter Layers into Multi-Task Transformers for Sequence Labelling

作者: Jesus-German Ortiz-Barajas, Helena Gomez-Adorno, Thamar Solorio

机构: MBZUAI IIMAS Universidad Nacional Autónoma de México

摘要: 我们提出了HyperLoader，这是一种简单的方法，它将不同的参数高效微调方法结合在多任务设置中。为了实现这一目标，我们的模型使用一个超网络来根据任务、Transformer层以及其在该层中的位置来生成这些模块的权重。我们的方法结合了多任务学习的优点，通过捕捉所有任务的结构，同时通过将任务特定知识封装在生成的权重中来减少任务干扰问题，以及结合不同的参数高效方法的优点，以胜过完全微调。我们提供了实证证据表明，HyperLoader在大多数数据集中优于先前的方法，并在高资源和低资源情景中跨任务获得最佳平均性能。

论文链接: https://arxiv.org/pdf/2407.01411

cs.CL: 一个用于关系分类的全局-局部注意力机制

原标题: A Global-Local Attention Mechanism for Relation Classification

作者: Yiping Sun

机构: 上海交通大学

摘要: 关系分类是关系抽取的一个关键组成部分，涉及识别两个实体之间的连接。先前的研究主要集中在将注意力机制整合到全局尺度的关系分类中，忽视了局部上下文的重要性。为了弥补这一不足，本文引入了一种新颖的全局-局部注意力机制用于关系分类，该机制通过局部焦点增强了全局注意力。此外，我们提出了创新的硬定位和软定位机制，用于识别局部注意力的潜在关键词。通过结合硬定位和软定位策略，我们的方法提供了对有助于有效关系分类的上下文线索的更细致和全面的理解。我们在SemEval-2010 Task 8数据集上的实验结果突显了我们的方法相对于先前基于注意力的关系分类方法的卓越性能。

论文链接: https://arxiv.org/pdf/2407.01424

cs.CL: 利用适配器通过知识图谱将多语言大型语言模型调整到低资源语言

原标题: Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters

作者: Daniil Gurgurov, Mareike Hartmann, Simon Ostermann

机构: 德国人工智能研究中心（DFKI）萨尔兰大学

摘要: 这篇论文探讨了将语言本体知识图谱整合到多语言大语言模型（LLMs）中，使用适配器来提高在情感分析（SA）和命名实体识别（NER）领域中对低资源语言（LRLs）的性能。在成功的参数高效微调技术（如K-ADAPTER和MAD-X）基础上，我们提出了一种类似的方法，用于将多语言图谱中的知识整合到多语言LLMs中，通过语言关系将各种语言中的概念相互连接，以应用于LRLs。具体而言，我们关注八种LRLs – 马耳他语、保加利亚语、印尼语、尼泊尔语、爪哇语、维吾尔语、藏语和僧伽罗语 – 并使用在从ConceptNet的语言特定部分提取的数据上微调的语言特定适配器，旨在实现跨知识图谱覆盖的语言之间的知识传递。我们比较了各种微调目标，包括标准的掩码语言建模（MLM）、带有全词掩码的MLM和带有有针对性掩码的MLM，以分析它们在学习和整合提取的图谱数据方面的有效性。通过对语言特定任务的实证评估，我们评估了结构化图谱知识如何影响多语言LLMs在SA和NER领域中对LRLs的性能，为适应低资源情况下的语言模型提供了见解。

论文链接: https://arxiv.org/pdf/2407.01406

cs.CL: KV缓存压缩，但我们必须付出什么作为交换？长上下文能力方法的全面基准测试

原标题: KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

作者: Jiayi Yuan, Hongyi Liu, Shaochen (Henry)Zhong, Yu-Neng Chuang, Songchen Li, Guanchu Wang, Duy Le, Hongye Jin, Vipin Chaudhary, Zhaozhuo Xu, Zirui Liu, Xia Hu

机构: 犹如大米大学德克萨斯农工大学凯斯西储大学史蒂文斯理工学院

摘要: 大语言模型（LLMs）的长上下文能力是一项至关重要的能力，因为它有助于缓解人类阅读长文本的困难。这种能力使得复杂的任务解决场景成为可能，例如书籍摘要、代码辅助等许多传统上需要大量人力的任务。然而，基于Transformer的LLMs在处理长上下文输入时面临着重大挑战，这是由于KV缓存的不断增长和处理扩展输入的内在复杂性所导致的；在效率驱动的多种方法中，如KV缓存量化、标记丢弃、提示压缩、线性时间序列模型和混合架构等，已经提出了用于生成高效且具有长上下文能力的模型。尽管取得了这些进展，但目前尚无现有工作在一个合理对齐的环境中全面基准测试这些方法。在这项工作中，我们通过提供当前方法的分类法并评估10多种最先进的方法，涵盖了七类长上下文任务。我们的工作揭示了许多以前未知的现象，并为未来长上下文能力LLMs的发展提供了见解，同时提供了一个友好的工作台。源代码将在此https URL上提供。

论文链接: https://arxiv.org/pdf/2407.01527

Github: https://github.com/henryzhongsc/longctx_bench

cs.CL: 在可控可读性水平下的自由文本理由生成

原标题: Free-text Rationale Generation under Readability Level Control

作者: Yi-Sheng Hsu, Nils Feldhus, Sherzod Hakimov

机构: 德国人工智能研究中心（DFKI）波茨坦大学

摘要: 自由文本理由以自然语言解释模型决策，因此在各种任务的解释方法中变得受欢迎和易于理解。然而，它们的有效性可能会受到误解和产生幻觉的影响。作为一种扰动测试，我们研究了大语言模型（LLMs）在可读性水平控制效果下执行自然语言解释（NLE）任务的表现，即在被提示为针对特定专业水平（如六年级或大学）的理由时。我们发现，解释可以适应这种指导，但请求的可读性通常与根据传统可读性指标测得的文本复杂性不一致。此外，质量评估显示，LLMs 对各种文本复杂性下的理由的评分表现出与自然语言生成（NLG）中观察到的偏好模式类似。最后，我们的人类评估表明，在所有可读性水平上，理由都给人留下了总体上令人满意的印象，其中高中水平的可读性被普遍认为是最常见和受欢迎的。

论文链接: https://arxiv.org/pdf/2407.01384

cs.CL: POLygraph：波兰虚假新闻数据集

原标题: POLygraph: Polish Fake News Dataset

作者: Daniel Dzienisiewicz, Filip Graliński, Piotr Jabłoński, Marek Kubis, Paweł Skórzewski, Piotr Wierzchoń

机构: 亚当·密茨凯维奇大学波兹南

摘要: 这篇论文介绍了POLygraph数据集，这是一个用于检测波兰语虚假新闻的独特资源。该数据集由一个跨学科团队创建，由两部分组成：包含11,360对新闻文章（通过它们的URL标识）及相应标签的“真假”数据集，以及包含5,082篇新闻文章（通过它们的URL标识）及评论它们的推文的“他们说是假的”数据集。与现有数据集不同，POLygraph涵盖了源文献中的各种方法，为虚假新闻检测提供了全面的资源。数据是通过专家和非专家标注者的手动注释收集的。该项目还开发了一个软件工具，利用先进的机器学习技术分析数据并确定内容的真实性。预计该工具和数据集将使各种实体受益，从公共部门机构到出版商和事实核查组织。进一步的数据集探索将促进虚假新闻检测，并可能刺激在其他语言中实施类似模型。该论文侧重于数据集的创建和组成，因此不包括对内容真实性分析软件工具的详细评估，这将在项目的后期阶段进行计划。

论文链接: https://arxiv.org/pdf/2407.01393

cs.CL: 在 ArAIEval 共享任务中出现了空指针：使用序列标记中的 Token-to-Word 映射检测阿拉伯宣传技术。

原标题: Nullpointer at ArAIEval Shared Task: Arabic Propagandist Technique Detection with Token-to-Word Mapping in Sequence Tagging

作者: Abrar Abir, Kemal Oflazer

机构: 卡内基梅隆大学卡塔尔分校 Language Technologies Institute Carnegie Mellon University

摘要: 这篇论文研究了在阿拉伯文本中优化宣传技术检测，包括来自ArAIEval共享任务1的推文和新闻段落。我们的方法涉及使用神经网络分类器对AraBERT v2模型进行微调，用于序列标记。实验结果表明，依靠单词的第一个标记进行技术预测能够产生最佳性能。此外，将流派信息作为特征纳入进来进一步提升了模型的性能。我们的系统取得了25.41的分数，在排行榜上排名第4。随后提交后的改进进一步将我们的分数提高到26.68。

论文链接: https://arxiv.org/pdf/2407.01360

cs.CL: 干草堆摘要：对长上下文大语言模型和RAG系统的挑战

原标题: Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

作者: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu

机构: Salesforce AI Research

摘要: 大语言模型（LLMs）和RAG系统现在能够处理数百万个或更多的输入标记。然而，在长文本任务上评估这些系统的输出质量仍然具有挑战性，因为像“大海捞针”这样的任务缺乏复杂性。在这项工作中，我们认为总结可以在这种评估中发挥核心作用。我们设计了一个程序来合成文件堆，确保特定的“洞见”在文件之间重复出现。然后，“大海捞针摘要”（SummHay）任务要求系统处理文件堆，并生成一个摘要，根据查询确定相关的见解并精确引用源文件。由于我们对应该出现在文件堆摘要中的见解以及应该被引用的文件具有精确的知识，我们实施了一个高度可重现的自动评估，可以根据覆盖范围和引文两个方面评分摘要。我们在两个领域（对话、新闻）生成文件堆，并对10个LLMs和相应的50个RAG系统进行大规模评估。我们的研究结果表明，对于当前系统来说，SummHay是一个开放挑战，因为即使系统提供了一个文档相关性的Oracle信号，也比我们对人类表现的估计（56%）低10个以上的分数。没有检索器，像GPT-4o和Claude 3 Opus这样的长文本LLMs在SummHay上得分低于20%。我们展示SummHay也可以用来研究企业RAG系统和长文本模型中的位置偏差。我们希望未来的系统能够在SummHay上达到甚至超过人类的表现水平。

论文链接: https://arxiv.org/pdf/2407.01370

cs.CL: 弥合差距：从英语 PLM 迁移学习到马来西亚英语

原标题: Bridging the Gap: Transfer Learning from English PLMs to Malaysian English

作者: Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam

机构: 孟菲斯大学马来西亚分校 Valiantlytix

摘要: 马来西亚英语是一种资源匮乏的混合语言，其中包含马来语、华语和泰米尔语的元素，以及标准英语。由于其独特的形态句法适应、语义特征和代码混合（混合使用英语和马来语），在捕捉马来西亚英语文本中的实体时，命名实体识别（NER）模型表现不佳。考虑到这些差距，我们引入了MENmBERT和MENBERT，这是一个针对马来西亚英语量身定制的具有上下文理解能力的预训练语言模型。我们使用马来西亚英语新闻文章（MEN）数据集中手动注释的实体和关系对MENmBERT和MENBERT进行了微调。这一微调过程使得PLM能够学习到捕捉对NER和RE任务相关的马来西亚英语细微差别的表示。与bert-base-multilingual-cased模型相比，MENmBERT在NER和RE任务上分别取得了1.52%和26.27%的改进。尽管NER的整体性能没有显著提高，但我们的进一步分析显示，在评估12个实体标签时有显著改进。这些发现表明，在语言特定和地理聚焦的语料库上预训练语言模型可能是改善资源匮乏环境中NER性能的一种有前途的方法。本文中发布的数据集和代码为专注于马来西亚英语的自然语言处理研究工作提供了宝贵资源。

论文链接: https://arxiv.org/pdf/2407.01374

cs.CL: 通过令牌操作保护分类器中的隐私

原标题: Protecting Privacy in Classifiers by Token Manipulation

作者: Re’em Harel, Yair Elboher, Yuval Pinter

机构: 班古里安大学内盖夫分校计算机科学系核研究中心-内盖夫物理系

摘要: 将语言模型用作远程服务涉及将私人信息发送给不受信任的提供者。此外，潜在的窃听者可以拦截消息，从而暴露信息。在这项工作中，我们探讨了在文本操作层面避免此类数据暴露的前景。我们专注于文本分类模型，研究各种标记映射和情境化操作函数，以查看在保持原始文本不可恢复的同时是否可以保持分类器准确性。我们发现，尽管一些标记映射函数易于实现且直观，但它们会严重影响下游任务的性能，并且通过一个复杂的攻击者可以重建。相比之下，情境化操作提供了性能的改进。

论文链接: https://arxiv.org/pdf/2407.01334

cs.CL: 在大语言模型中评估基于知识的跨语言不一致性

原标题: Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models

作者: Xiaolin Xing, Zhiwei He, Haoyu Xu, Xing Wang, Rui Wang, Yu Hong

机构: 苏州大学上海交通大学腾讯 AI Lab

摘要: 这篇论文调查了大语言模型（LLMs）中存在的跨语言不一致性，如ChatGPT、Llama和Baichuan，在各种自然语言处理（NLP）任务中表现出色。尽管它们取得了成功，但这些模型在处理不同语言中的相同概念时经常表现出显著的不一致性。该研究集中在三个主要问题上：LLMs中跨语言不一致性的存在，这些不一致性表现在哪些具体方面，以及跨语言一致性与多语能力之间的相关性。为了解决这些问题，我们提出了一种创新的评估方法，使用LaBSE模型进行跨语义一致性（xSC）评估。我们进一步引入了跨语言准确性一致性（xAC）和跨语言及时性一致性（xTC）的度量标准，全面评估模型在语义、准确性和及时性不一致性方面的表现。通过协调这些度量标准，我们提供了对LLMs跨语言一致性的整体衡量。我们的研究旨在增进对LLMs中多语能力和可解释性的理解和改进，有助于开发更加健壮和可靠的多语言模型。

论文链接: https://arxiv.org/pdf/2407.01358

其他链接: http://LLMs.To

cs.CL: 大语言模型的协作性能预测

原标题: Collaborative Performance Prediction for Large Language Models

作者: Qiyuan Zhang, Fuyuan Lyu, Xue Liu, Chen Ma

机构: 香港城市大学麦吉尔大学 MILA

摘要: 在自然语言处理研究中，全面理解和准确预测大型语言模型在不同下游任务中的表现已经成为一个关键挑战。关于下游工作的开创性扩展法则展示了模型族内在的相似之处，并利用这种相似性进行性能预测。然而，他们往往忽视了模型族之间的相似性，只考虑了原始扩展法则中列出的设计因素。为了克服这些局限性，我们引入了一种新颖的框架，协作性能预测（CPP），通过利用各种模型在下游任务中的历史表现和其他设计因素（包括模型和任务）显著提高了预测准确性。我们还收集了一份来自在线平台的协作数据，其中包含了历史表现和额外的设计因素。在协作数据的支持下，CPP不仅在预测经过扩展的大型语言模型的性能方面超越了传统的扩展法则，还促进了对因素重要性的详细分析，这是以前被忽视的领域。

论文链接: https://arxiv.org/pdf/2407.01300

cs.CL: 展示更少，指导更多：通过定义和指南丰富提示，用于零样本命名实体识别

原标题: Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER

作者: Andrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini

机构: 意大利锡耶纳大学专家.ai

摘要: 最近，出现了几种针对命名实体识别（NER）进行专门调整的大型语言模型（LLMs）。与传统的NER方法相比，这些模型具有很强的泛化能力。现有的LLMs主要侧重于在域外分布中进行零样本NER，在大量实体类别上进行微调，这些类别通常与测试集高度或完全重叠。相反，在这项工作中，我们提出了SLIMER，一种旨在通过指导模型处理从未见过的命名实体标签的方法，通过利用富含定义和指导原则的提示。实验证明，定义和指导原则能够提供更好的性能，更快速和更稳健的学习，特别是在标记未见过的命名实体时。此外，SLIMER在域外零样本NER方面的表现与最先进的方法相当，同时在经过简化的标签集上进行训练。

论文链接: https://arxiv.org/pdf/2407.01272

cs.CL: 2023年全球人工智能技术创新大赛赛道1的第一名解决方案

原标题: First Place Solution of 2023 Global Artificial Intelligence Technology Innovation Competition Track 1

作者: Xiangyu Wu, Hailiang Zhang, Yang Yang, Jianfeng Lu

机构: 南京理工大学

摘要: 在这篇论文中，我们介绍了我们在全球人工智能技术创新大赛Track 1：医学影像诊断报告生成中的冠军解决方案。我们选择CPT-BASE作为文本生成任务的基础模型。在预训练阶段，我们删除了CPT-BASE的掩码语言建模任务，而是重构了词汇，采用了跨度掩码策略，并逐渐增加掩码比例的数量，执行去噪自编码器预训练任务。在微调阶段，我们设计了迭代检索增强和噪声感知相似性桶提示策略。检索增强构建了一个迷你知识库，丰富了模型的输入信息，而相似性桶进一步感知迷你知识库中的噪声信息，引导模型基于相似提示生成更高质量的诊断报告。令人惊讶的是，我们的单一模型在A榜上取得了2.321的分数，多模型融合分别在A和B榜上得分为2.362和2.320，稳居排名第一。

论文链接: https://arxiv.org/pdf/2407.01271

cs.CL: 从高资源语言到低资源语言，针对开放领域对话的语言可移植策略

原标题: Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages

作者: Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre

机构: Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian and Fabrice Lef `evre
Université de Lorraine

摘要: 在这篇论文中，我们提出了一项关于在高资源语言中用于开放领域对话系统的大型预训练语言模型（PLMs）的语言可移植性策略研究。具体来说，目标低资源语言（L_T）将使用法语进行模拟，因为它缺乏特定任务资源并允许我们进行人类评估，而源语言（L_S）是英语。出于明显原因，最近使用这些模型进行开放领域对话的工作主要是用英语开发的。然而，为每种可能的目标语言构建特定的PLMs意味着需要收集新的数据集，而且成本很高。因此，为了尝试利用L_S和L_T中所有现有资源（PLMs和数据），我们希望评估在L_T中采用不同方法可以实现的性能。前两种方法评估了在不同级别使用神经机器翻译（NMT）：TrainOnTarget，即在在L_T微调之前将L_S数据集进行翻译，以及TestOnSource，即在推断过程中将L_S模型与NMT模块相结合。然后，BLOOM的出现，这是世界上第一个开放获取的多语言大型PLM，使研究人员能够开发旨在利用模型的完全可访问性以及其多语言能力和翻译能力的新方法。在这种情况下，任务首先在L_S中学习，然后使用MAD-X Adapter架构调整到L_T。在两组实验中，模型在人类口语对话条件下进行评估，可以根据感知的交互质量来比较这些策略。

论文链接: https://arxiv.org/pdf/2407.01315

cs.CL: SignCLIP：通过对比学习连接文本和手语

原标题: SignCLIP: Connecting Text and Sign Language by Contrastive Learning

作者: Zifan Jiang, Gerard Sant, Amit Moryossef, Mathias Müller, Rico Sennrich, Sarah Ebling

机构: 苏黎世大学慕尼黑大学

摘要: 我们提出了SignCLIP，它重新利用了CLIP（对比语言-图像预训练）来将口头语言文本和手语视频这两类不同形式的自然语言投影到同一空间中。SignCLIP是一种有效的方法，可以从大规模、多语种的视频文本对中学习有用的手语处理视觉表示，而无需直接针对特定任务或通常规模有限的手语进行优化。
我们在Spreadthesign上对SignCLIP进行了预训练，这是一个包含约50万个视频剪辑的知名手语词典，涵盖了多达44种手语，然后用各种下游数据集对其进行评估。SignCLIP可以显著区分领域内的手语，具有显著的文本到视频/视频到文本检索准确性。它还可以在重要的少样本提示或微调下，在领域外的下游任务中表现出竞争力，如孤立手语识别。
我们分析了由口头语言文本和手语姿势形成的潜在空间，这提供了额外的语言洞察力。我们的代码和模型是公开可用的。

论文链接: https://arxiv.org/pdf/2407.01264

cs.CL: uDistil-Whisper：通过大规模伪标记实现知识蒸馏的无标签数据过滤

原标题: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling

作者: Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed

机构: 迪拜穆罕默德·本·扎耶德人工智能大学西北大学可逆人工智能

摘要: 最近关于将Whisper的知识通过伪标签蒸馏到小型模型的研究表现出有希望的性能，同时将模型大小减少了高达50%。这导致了小型、高效且专用的模型。然而，从伪标签进行蒸馏的关键步骤涉及过滤高质量预测，并仅在训练过程中使用这些预测。这一步骤需要地面真相来比较和过滤不良示例，使整个过程成为监督学习。除此之外，蒸馏过程需要大量数据，从而限制了在资源匮乏环境中蒸馏模型的能力。为了解决这一挑战，我们提出了一种无监督或无标签的蒸馏框架，从而完全消除了对标记数据的需求。通过实验，我们展示了我们最佳的蒸馏模型在WER方面比教师模型表现出5-7个百分点的优势。此外，我们的模型与类似的监督数据过滤设置相媲美甚至更好。当我们扩展数据时，我们的模型明显优于所有零样本和监督模型。在这项工作中，我们展示了将大型Whisper模型蒸馏为相对小型模型而无需使用任何标记数据是可能的。因此，我们的蒸馏模型在计算和内存效率方面提高了25-50%，同时保持性能与教师模型相等或更好。

论文链接: https://arxiv.org/pdf/2407.01257

cs.CL: 搜索检索增强生成的最佳实践

原标题: Searching for Best Practices in Retrieval-Augmented Generation

作者: Xiaohua Wang, Zhenghua Wang, Xuan Gao, Feiran Zhang, Yixin Wu, Zhibo Xu, Tianyuan Shi, Zhengyuan Wang, Shizheng Li, Qi Qian, Ruicheng Yin, Changze Lv, Xiaoqing Zheng, Xuanjing Huang

机构: 复旦大学

摘要: 检索增强生成（RAG）技术已被证明在整合最新信息、减轻幻觉并增强响应质量方面非常有效，特别是在专业领域。虽然已经提出了许多RAG方法来通过查询相关的检索增强大型语言模型，但这些方法仍然存在复杂的实现和长时间的响应时间的问题。通常，RAG工作流涉及多个处理步骤，每个步骤可以以各种方式执行。在这里，我们调查现有的RAG方法及其潜在组合，以确定最佳的RAG实践。通过广泛的实验，我们提出了几种部署RAG的策略，平衡了性能和效率。此外，我们证明了多模态检索技术可以显著增强关于视觉输入的问答能力，并加速使用“检索即生成”策略生成多模态内容。

论文链接: https://arxiv.org/pdf/2407.01219

cs.CL: MIRAI：评估大语言模型智能体在事件预测中的表现

原标题: MIRAI: Evaluating LLM Agents for Event Forecasting

作者: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang

机构: 加利福尼亚大学洛杉矶分校加州理工学院

摘要: 最近大语言模型（LLMs）的进展使得LLM智能体能够自主收集世界信息，进行推理以解决复杂问题。鉴于这种能力，人们越来越倾向于利用LLM智能体来预测国际事件，这可以影响决策并塑造国际政策发展。尽管存在着这种日益增长的兴趣，但缺乏对LLM智能体预测能力和可靠性的严格基准。为了填补这一空白，我们引入了MIRAI，这是一个新颖的基准，旨在系统评估LLM智能体作为国际事件时间预测者的能力。我们的基准提供了一个智能环境，其中包含用于访问大量历史结构化事件和文本新闻文章的工具。我们通过仔细清理和解析，对GDELT事件数据库进行了优化，策划了一系列关系预测任务，涵盖了不同的预测时间范围，评估LLM智能体从短期到长期预测的能力。我们还实现了API，使LLM智能体能够通过基于代码的接口利用不同工具。总之，MIRAI全面评估了智能体在三个方面的能力：1）自主从大型全球数据库中获取和整合关键信息；2）使用领域特定的API和库编写代码以使用工具；以及3）共同推理历史知识，涵盖不同格式和时间，准确预测未来事件。通过全面的基准测试，我们旨在建立一个可靠的框架，评估LLM智能体在预测国际事件方面的能力，从而为发展更准确可靠的国际关系分析模型做出贡献。

论文链接: https://arxiv.org/pdf/2407.01231

cs.CL: EconNLI: 在经济推理上评估大语言模型

原标题: EconNLI: Evaluating Large Language Models on Economics Reasoning

作者: Yue Guo, Yi Yang

机构: 香港科技大学

摘要: 大语言模型（LLMs）被广泛用于撰写经济分析报告或提供金融建议，但它们理解经济知识并推理特定经济事件潜在结果的能力缺乏系统评估。为了弥补这一空白，我们提出了一个新数据集，即经济事件的自然语言推理（EconNLI），用于评估LLMs在经济领域的知识和推理能力。我们评估LLMs的能力包括：（1）正确分类前提事件是否会导致假设事件；（2）根据给定前提生成合理的事件。我们的实验表明，LLMs在经济推理方面并不复杂，可能会产生错误或虚构的答案。我们的研究提高了人们对使用LLMs进行涉及经济推理和分析的关键决策的局限性的认识。该数据集和代码可在此网址获得。

论文链接: https://arxiv.org/pdf/2407.01212

Github: https://github.com/Irenehere/EconNLI

cs.CL: 在社交媒体上监控反LGBTQ+内容时的社会文化考虑

原标题: Sociocultural Considerations in Monitoring Anti-LGBTQ+ Content on Social Media

作者: Sidney G.-J. Wong

机构: 新西兰坎特伯雷大学地理空间研究所新西兰语言、大脑与行为研究所

摘要: 本文的目的是确定社会文化因素（即社会、文化和政治因素）在仇恨言论检测系统发展中的影响。我们旨在调查使用开源训练数据监测社交媒体上不同英语国家变体中反LGBTQ+内容水平的适用性。我们的研究结果表明，开源仇恨言论数据集的社会文化一致性影响了预测结果。此外，在开源训练数据开发中反LGBTQ+辱骂词的关键词搜索方法鼓励检测模型过度拟合辱骂词；因此，反LGBTQ+内容可能无法被检测到。我们建议将实证结果与定性见解相结合，以确保这些系统符合预期。

论文链接: https://arxiv.org/pdf/2407.01149

cs.CL: 一个生成式方法在产品属性-值识别方面的实证比较

原标题: An Empirical Comparison of Generative Approaches for Product Attribute-Value Identification

作者: Kassem Sabeh, Robert Litschko, Mouna Kacimi, Barbara Plank, Johann Gamper

机构: 博尔扎诺-博尔扎诺自由大学德国慕尼黑大学 Wonder Technology Srl

摘要: 产品属性对于电子商务平台至关重要，支持搜索、推荐和问答等应用程序。产品属性和值识别（PAVI）的任务涉及从产品信息中识别属性和它们的值。在本文中，我们将PAVI形式化为一个生成任务，并据我们所知，提供迄今为止对PAVI最全面的评估。我们比较了基于微调编码器-解码器模型在三个数据集上的三种不同属性-值生成（AVG）策略。实验表明，端到端的AVG方法在计算效率上表现优异，优于其他策略。然而，根据模型大小和基础语言模型的不同，结果会有所不同。复现所有实验的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.01137

Github: https://github.com/kassemsabeh/pavi-avg

cs.CL: $\text{Memory}^3$ : 具有显式记忆的语言建模

原标题: $\text{Memory}^3$ : Language Modeling with Explicit Memory

作者: Hongkang Yang, Zehao Lin, Wenjin Wang, Hao Wu, Zhiyu Li, Bo Tang, Wenqiang Wei, Jinbo Wang, Zeyun Tang, Shichao Song, Chenyang Xi, Yu Yu, Kai Chen, Feiyu Xiong, Linpeng Tang, Weinan E

机构: 上海高级算法研究所莫奇公司北京大学机器学习研究中心

摘要: 大语言模型（LLMs）的训练和推理是一个昂贵的过程，它将知识从原始数据传输到有意义的计算中。受人脑记忆层次结构的启发，我们通过为LLMs配备显式内存来降低这种成本，这种内存格式比模型参数和文本检索增强生成（RAG）更便宜。从概念上讲，由于大部分知识外部化到显式内存中，LLM可以享受更小的参数大小、训练成本和推理成本，这些成本都与剩余的“抽象知识”量成比例。作为概念验证的初步证据，我们从头开始训练了一个2.4B的LLM，其性能优于更大的LLMs以及RAG模型，并且比RAG具有更高的解码速度。该模型被命名为 $\text{Memory}^3$ ，因为显式内存是LLMs中的第三种记忆形式，它在隐式记忆（模型参数）和工作记忆（上下文键-值）之后。我们提出了一种记忆电路理论来支持知识的外部化，并提出了包括记忆稀疏化机制和促进记忆形成的两阶段预训练方案在内的新技术。

论文链接: https://arxiv.org/pdf/2407.01178

cs.CL: 学习探索和选择以覆盖条件检索增强生成

原标题: Learning to Explore and Select for Coverage-Conditioned Retrieval-Augmented Generation

作者: Takyoung Kim, Kyungjae Lee, Young Rok Jang, Ji Yong Cho, Gangwoo Kim, Minseok Cho, Moontae Lee

机构: 伊利诺伊大学厄巴纳-香槟分校 LG AI研究所康奈尔大学韩国大学伊利诺伊大学芝加哥分校

摘要: 与十亿规模的大语言模型的交互通常会产生长篇回复，这是由于它们具有广泛的参数容量，以及检索增强特性。尽管详细的回复提供了对特定主题的深入见解，但它们经常生成冗余且缺乏吸引力的内容，无法满足用户的兴趣。在这项工作中，我们关注查询概述（即，选择的查询序列）在用户请求特定信息范围的情况下的作用，即覆盖条件（ $C^2$ ）情景。为了模拟 $C^2$ 情景，我们构建了QTree，其中包括了一万组信息查询，这些查询从不同角度对某些主题进行了分解。通过利用QTree，我们训练了QPlanner，一个生成符合覆盖条件查询的定制查询概述的70亿语言模型。我们通过自动和人工评估分析了生成概述的有效性，重点放在检索增强生成（RAG）上。此外，实验结果表明，经过对齐训练的QPlanner可以进一步提供符合不同用户兴趣的概述。我们的资源可以在此https网址找到。

论文链接: https://arxiv.org/pdf/2407.01158

Github: https://github.com/youngerous/qtree

cs.CL: 探讨稀疏专家混合模型在多领域神经机器翻译中的潜力

原标题: Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation

作者: Nadezhda Chirkova, Vassilina Nikoulina, Jean-Luc Meunier, Alexandre Bérard

机构: NAVER LABS Europe

摘要: 我们专注于多领域神经机器翻译，旨在开发能够处理训练过程中遇到的各种领域数据并对训练过程中未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合（SMoE）模型非常适合这一任务，因为它们能够实现高效的模型扩展，有助于适应各种多领域数据，并允许在领域之间灵活共享参数，潜在地实现类似领域之间的知识转移并限制负面转移。我们进行了一系列旨在验证SMoE在多领域场景中实用性的实验，并发现对Transformer进行简单的宽度扩展在实践中是一种更简单且令人惊讶地更有效的方法，并且达到了与SMoE相同的性能水平。我们还寻求更好的多领域系统稳健性配方，强调混合通用领域（即Paracrawl）的重要性，并引入一种简单的技术，即领域随机化。

论文链接: https://arxiv.org/pdf/2407.01126

cs.CL: 非洲女性具有节奏感和深情：对隐含偏见的开放式生成评估

原标题: The African Woman is Rhythmic and Soulful: Evaluation of Open-ended Generation for Implicit Biases

作者: Serene Lim

机构: 伦敦大学学院

摘要: 这项研究调查了大语言模型（LLMs）中存在的微妙且常常隐藏的偏见，尽管它们通过了明确的偏见测试，但仍然可能表现出类似于那些声称拥护平等主义信念却展现出潜在偏见的人类所观察到的隐性偏见。衡量这种偏见的挑战加剧了，因为随着LLMs变得越来越专有，限制了对它们的内部机制（如嵌入）的访问，而这对应用传统的偏见度量方法至关重要。为了解决这些问题，这项研究引入了受心理学方法启发的创新偏见度量方法：LLM隐性关联测试（IAT）偏见和LLM决策偏见。LLM IAT偏见是一种基于提示的方法，旨在通过模拟众所周知的心理IAT来揭示隐性偏见，但经过改编以适用于LLMs。LLM决策偏见度量是为了检测决策任务中的微妙歧视，重点关注LLMs在各种情境中如何选择个体。此外，还通过对词汇生成和叙事的主题分析来利用开放式生成。实验揭示了跨性别和种族领域的偏见，从歧视性分类到异国情调。我们的研究结果表明，隐性偏见的基于提示的度量不仅与传统的基于嵌入的方法相关，而且更有效地预测下游行为，这些行为通过LLM决策偏见进行关键性测量。这种关系强调了在评估隐性偏见时相对而非绝对评估的重要性，反映了心理学对人类偏见评估的见解。这项研究有助于更广泛地理解人工智能伦理，并提出了不断评估和减轻先进人工智能系统中偏见的建议，强调了对更多定性和下游关注的需求。

论文链接: https://arxiv.org/pdf/2407.01270

cs.CL: 跨语言迁移学习用于语音翻译

原标题: Cross-Lingual Transfer Learning for Speech Translation

作者: Rao Ma, Yassir Fathullah, Mengjie Qian, Siyuan Tang, Mark Gales, Kate Knill

机构: 剑桥大学工程系 ALTA研究所

摘要: 近年来，建立用于自然语言处理和语音研究的多语言基础模型引起了越来越多的关注。在一系列自然语言处理任务上展示了零样本跨语言转移，即在一个语言上对特定任务数据进行微调的模型在其他语言上也取得了性能提升。在这里，我们探讨了基于语音的模型是否具有相同的转移能力。以 Whisper 作为一个多语言语音基础模型的例子，我们研究了语音编码器生成的话语表示。尽管一些与语言相关的信息被保留在音频嵌入中，但来自不同语言的单词被映射到一个类似的语义空间，这在语音到语音检索任务中的高召回率证明了这一点。利用这个共享的嵌入空间，在语音翻译中展示了零样本跨语言转移。当 Whisper 模型仅在英文到中文翻译数据上进行微调时，观察到了对其他语言输入话语的性能改进。此外，在低资源语言上的实验表明，通过利用跨语言表示，Whisper 可以为在预训练期间未见过的语言的话语执行语音翻译。

论文链接: https://arxiv.org/pdf/2407.01130

cs.CL: 校准的大语言模型用于二元问题回答

原标题: Calibrated Large Language Models for Binary Question Answering

作者: Patrizio Giovannotti, Alexander Gammerman

机构: 皇家霍洛威大学、伦敦大学、Centrica

摘要: 在二元文本分类任务中，量化大语言模型（LLMs）所做预测的不确定性仍然是一个挑战。在LLMs的背景下，校准指的是模型预测的概率与其实际预测正确性之间的对齐。一个良好校准的模型应该产生准确反映其预测正确性可能性的概率。我们提出了一种新方法，利用归纳式Venn-Abers预测器（IVAP）来校准与二元标签对应的输出标记的概率。我们在BoolQ数据集上使用Llama 2模型进行的实验表明，IVAP在各种标签标记选择方面始终优于常用的温度缩放方法，实现了概率的良好校准同时保持高预测质量。我们的研究结果有助于理解LLMs的校准技术，并为在二元问题回答任务中获得可靠的不确定性估计提供了实用解决方案，增强了LLMs预测的可解释性和可信度。

论文链接: https://arxiv.org/pdf/2407.01122

cs.CL: Pron vs Prompt: 大语言模型是否已经能够挑战世界级小说作家在创意文本写作方面的能力？

原标题: Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?

作者: Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona

机构: UNED（西班牙国家远程教育大学） Universidad Complutense de Madrid（马德里大学）

摘要: 已经成为常规报告研究结果，显示大语言模型（LLMs）在各种与语言相关的任务中胜过普通人类，创意文本写作也不例外。因此，提出一个更高的要求似乎是自然的：LLMs是否已经准备好与顶级（而不是普通）小说家在创意写作技能上竞争？为了初步回答这个问题，我们在帕特里西奥·普龙（一位获奖小说家，被认为是他这一代人中最优秀的之一）和GPT-4（表现出色的LLMs之一）之间进行了一场比赛，灵感来自于AI与人类的对决，如深蓝对卡斯帕罗夫和阿尔法围棋对李世石。我们要求普龙和GPT-4各自提供三十个标题，然后为他们自己的标题和对手的标题写短篇故事。然后，我们准备了一个受博登对创造力定义启发的评估标准，我们收集了由文学评论家和学者提供的5400份手动评估。我们的实验结果表明，LLMs距离挑战顶级人类创意作家还有很长的路要走，并且要达到这种水平的自主创意写作技能可能不仅仅依靠更大的语言模型就能实现。

论文链接: https://arxiv.org/pdf/2407.01119

cs.CL: 消除语言模型的位置偏见：一种机械化方法

原标题: Eliminating Position Bias of Language Models: A Mechanistic Approach

作者: Ziqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji

机构: 清华大学哈佛大学达特茅斯学院

摘要: 位置偏差已被证明是现代语言模型（LMs）中普遍存在的问题，这些模型根据给定上下文中的位置优先考虑内容。这种偏见经常导致意外的模型失败，并且损害了各种应用中的性能、鲁棒性和可靠性。我们的机械分析将位置偏差归因于几乎所有最先进的LMs中使用的两个组件：因果注意力和相对位置编码。具体而言，我们发现因果注意力通常导致模型偏爱远处的内容，而像RoPE这样的相对位置编码则根据检索增强问答（QA）的分析更青睐附近的内容。此外，我们在目标检测的实证研究中发现，位置偏差也存在于视觉语言模型（VLMs）中。

基于以上分析，我们提出以一种无需训练的零样本方式消除由不同输入段顺序（例如，在LM作为评判者中的选项，QA中检索的文档）引起的位置偏差。我们的方法将因果注意力改为段之间的双向注意力，并利用模型注意力值来决定段的相对顺序，而不是使用输入提示中提供的顺序，从而实现段级别的位置不变推理（PINE）。通过消除位置偏差，模型在LM作为评判者和检索增强QA等广泛存在位置偏差的下游任务中实现更好的性能和可靠性。

值得注意的是，PINE在为评估推理对调整LMs时特别有用：在大多数情况下，它始终提供8到10个百分点的性能增益，并且使Llama-3-70B-Instruct在RewardBench推理子集上的表现甚至比GPT-4-0125-preview更好。

论文链接: https://arxiv.org/pdf/2407.01100

cs.CL: M2QA：多领域多语言问答

原标题: M2QA: Multi-domain Multilingual Question Answering

作者: Leon Engländer, Hannah Sterz, Clifton Poth, Jonas Pfeiffer, Ilia Kuznetsov, Iryna Gurevych

机构: 技术大学达姆施塔特分布式知识处理实验室剑桥大学谷歌DeepMind Cohere

摘要: 机器学习研究的核心诉求是泛化性和对输入变化的鲁棒性。语言在多个方面变化，最重要的是语言实例（例如法语）和领域（例如新闻）。虽然在单一领域内将自然语言处理模型适应到新语言，或者在单一语言内适应到新领域的研究已被广泛研究，但联合适应的研究受限于缺乏评估数据集。这阻碍了将自然语言处理系统从资源充足的语言和领域转移到非主导语言-领域组合。为了填补这一空白，我们介绍了M2QA，一个多领域多语言问答基准。M2QA包括德语、土耳其语和中文的13,500个类似SQuAD 2.0的问答实例，涵盖产品评论、新闻和创意写作领域。我们使用M2QA来探索微调模型和最先进大语言模型在跨语言跨领域性能上的表现，并研究领域和语言适应的模块化方法。我们观察到：1）在模型类别内，跨领域-语言组合之间存在相当大的性能差异；2）在所有模型规模上，源语言-领域组合与目标语言-领域组合之间存在相当大的性能下降。我们证明M2QA还远未解决，需要新的方法来有效地转移语言和领域特定信息。我们在此https URL上公开提供M2QA。

论文链接: https://arxiv.org/pdf/2407.01091

Github: https://github.com/UKPLab/m2qa

cs.CL: Face4RAG：用于中文检索增强生成的事实一致性评估

原标题: Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

作者: Yunqi Xu, Tianchi Cai, Jiyan Jiang, Xierui Song

机构: 清华大学蚂蚁集团

摘要: 在传统的检索增强生成（RAG）中存在的事实不一致错误问题推动了对事实一致性评估（FCE）的研究。尽管先前提出了各种FCE方法，但这些方法是在特定大语言模型（LLMs）生成的数据集上进行评估的。缺乏全面的基准测试，尚未探讨这些FCE方法在其他具有不同错误分布甚至未知错误类型的LLMs上的表现如何，因为这些方法可能无法检测其他LLMs生成的错误类型。为了填补这一空白，在本文中，我们提出了第一个独立于基础LLM的全面FCE基准测试\emph{Face4RAG}用于RAG。我们的基准测试包括一个基于精心设计的事实不一致错误类型学分类建立的合成数据集，以及一个由六个常用LLMs构建的真实数据集，可以评估FCE方法在特定错误类型或真实错误分布上的表现。在提出的基准测试中，我们发现现有的FCE方法无法检测逻辑谬误，即答案与检索到的参考之间逻辑结构不匹配。为了解决这个问题，我们进一步提出了一种名为\emph{L-Face4RAG}的新方法，具有保留逻辑的答案分解和事实逻辑FCE的两个新设计。大量实验证明，L-Face4RAG在广泛的任务上显著优于先前的事实不一致性检测方法，特别是超出了最初的RAG任务的范围。我们提出的基准测试和方法都是公开可用的。\footnote{\url{this https URL}\label{link_face4rag}}

论文链接: https://arxiv.org/pdf/2407.01080

其他链接: https://huggingface.co/datasets/yq27/Face4RAG

cs.CL: BERGEN：一个用于检索增强生成的基准库

原标题: BERGEN: A Benchmarking Library for Retrieval-Augmented Generation

作者: David Rau, Hervé Déjean, Nadezhda Chirkova, Thibault Formal, Shuai Wang, Vassilina Nikoulina, Stéphane Clinchant

机构: NAVER LABS Europe

摘要: 检索增强生成允许将外部知识与大语言模型相结合。针对生成式大语言模型近来的普及，许多检索增强生成方法已被提出，涉及复杂的不同配置，如评估数据集、收集物、度量标准、检索器和大语言模型。不一致的基准测试在比较方法和理解管道中每个组件的影响方面构成了一项重大挑战。在这项工作中，我们研究了为系统评估检索增强生成奠定基础的最佳实践，并提出了 BERGEN，一个端到端的库，用于可重复研究，标准化检索增强生成实验。在一项重点关注问答的广泛研究中，我们对不同最先进的检索器、重新排序器和大语言模型进行了基准测试。此外，我们分析了现有的检索增强生成度量标准和数据集。我们的开源库 BERGEN 可在此 https URL 下获得。

论文链接: https://arxiv.org/pdf/2407.01102

Github: https://github.com/naver/bergen

cs.CL: 利用高效的多监督增强文档级关系抽取

原标题: Augmenting Document-level Relation Extraction with Efficient Multi-Supervision

作者: Xiangyu Lin, Weijia Jia, Zhiguo Gong

机构: 澳门大学北京师范大学（珠海）

摘要: 尽管在句子级关系抽取中很受欢迎，但由于其嘈杂的特性和低信息密度，远程监督数据很少被现有的文档级关系抽取工作所利用。在当前的应用中，远程监督数据主要被整体用于相关性，这在时间效率上效果较低。为了填补对远程监督训练数据进行高效和稳健利用的空白，我们提出了用于文档级关系抽取的高效多重监督方法，首先通过将远程监督与专家监督相结合，从庞大数据集中选择一部分信息丰富的文档子集，然后使用集成来自多个监督来源的知识的多重监督排序损失来训练模型，以减轻噪声的影响。实验证明了我们的方法在提高模型性能方面的有效性，且比现有基准线具有更高的时间效率。

论文链接: https://arxiv.org/pdf/2407.01026

cs.CL: IBSEN：导演-演员智能体协作，用于可控和互动戏剧剧本生成

原标题: IBSEN: Director-Actor Agent Collaboration for Controllable and Interactive Drama Script Generation

作者: Senyu Han, Lu Chen, Li-Min Lin, Zhengshan Xu, Kai Yu

机构: 上海交通大学人工智能教育部重点实验室媒体与传播学院苏州实验室

摘要: 大语言模型已经展示了它们在故事情节创作和类人角色扮演方面的能力。当前的语言模型智能体主要关注个体层面的合理行为，而它们的行为可能难以在整个故事情节层面上加以约束。在本文中，我们介绍了IBSEN，一个导演-演员协作智能体框架，用于生成戏剧剧本并使智能体扮演的情节更加可控。导演智能体编写用户希望看到的情节概要，指导演员智能体扮演他们的角色，并在人类玩家参与情节时重新安排情节，以确保情节朝着目标发展。为了评估该框架，我们创建了一个涉及多个演员智能体的新颖戏剧情节，并在导演智能体的指导下检查它们之间的互动。评估结果显示，我们的框架可以仅从情节目标的粗略概要中生成完整、多样的戏剧剧本，同时保持戏剧中角色的特征。我们的代码和提示可在此网址找到。

论文链接: https://arxiv.org/pdf/2407.01093

Github: https://github.com/OpenDFM/ibsen

cs.CL: 工程对话式搜索系统：应用、架构和功能组件综述

原标题: Engineering Conversational Search Systems: A Review of Applications, Architectures, and Functional Components

作者: Phillip Schneider, Wessel Poelman, Michael Rovatsos, Florian Matthes

机构: 慕尼黑工业大学比利时鲁汶大学爱丁堡大学

摘要: 会话式搜索系统通过自然语言交互实现信息检索，旨在通过多个对话轮次最大化用户的信息获取。采用这种搜索范式的会话界面日益普及，挑战传统的信息检索方法，强调更好地理解开发这些系统的工程过程的重要性。我们进行了系统文献综述，以调查理论研究与会话式搜索系统技术实现之间的联系。我们的综述确定了现实世界的应用场景、系统架构和功能组件。我们通过提出分层架构框架并解释会话式搜索系统的核心功能来整合我们的结果。此外，我们结合大语言模型的快速进展反思我们的发现，讨论它们的能力、局限性和未来研究方向。

论文链接: https://arxiv.org/pdf/2407.00997

cs.CL: 在预训练语言模型中认知智能的发展

原标题: Development of Cognitive Intelligence in Pre-trained Language Models

作者: Raj Sanjay Shah, Khushi Bhardwaj, Sashank Varma

机构: 佐治亚理工学院

摘要: 最近的研究显示，大型预训练语言模型（PLMs）中存在新兴的认知能力证据。这些模型日益增强的认知一致性使它们成为认知科学理论的候选对象。先前对PLMs新兴认知能力的研究在很大程度上是

论文链接: https://arxiv.org/pdf/2407.01047

cs.CL: 最小P采样：在高温下平衡创造力和连贯性

原标题: Min P Sampling: Balancing Creativity and Coherence at High Temperature

作者: Minh Nguyen, Andrew Baker, Andreas Kirsch, Clement Neo

机构: Apart Research Independent

摘要: 大语言模型（LLMs）通过在每个解码步骤中基于标记词汇的概率分布连续采样下一个标记来生成长篇文本。当前流行的截断采样方法，如前 $- p$ 采样，也被称为核采样，通常在生成文本时在使用较高温度时很难平衡连贯性和创造力。为了解决这个问题，我们提出了最小 $- p$ ，一种动态截断采样方法，它为标记建立了一个最小基础百分比阈值，根据顶部候选标记的概率进行调整。通过对 GPQA、GSM8K 和 AlpacaEval Creative Writing 等几个基准的实验，我们证明了最小 $- p$ 在高温度下提高了生成文本的连贯性和质量，同时与前 $- p$ 和其他采样方法相比，还促进了更具创造性和多样化的输出。截至撰写本文时，最小 $- p$ 已被多个开源LLM实现采纳，并已由开源LLM社区的成员进行了独立评估，进一步验证了其实际效用和潜力。

论文链接: https://arxiv.org/pdf/2407.01082

cs.CL: DynaThink：快还是慢？一种针对大语言模型的动态决策框架

原标题: DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models

作者: Jiabao Pan, Yan Zhang, Chen Zhang, Zuozhu Liu, Hongwei Wang, Haizhou Li

机构: 浙江大学国立大学新加坡国立大学香港中文大学

摘要: 大语言模型（LLMs）通过流行的“思维链”（COT）提示在各种推理任务中展示了新兴的能力。然而，这种简单快速的COT方法经常在处理复杂问题时遇到限制，而一种彻底的方法，考虑到多个推理路径并仔细验证每一步，会导致推理速度较慢。本文解决了使LLMs能够自主选择快速和慢速推理方法之间的挑战，从而优化效率和效果。我们引入了一个动态决策框架，将任务分为两个不同的路径：“快速”，用于LLM快速识别高置信度解决方案的任务，“慢速”，用于LLM认为复杂的任务，对于这些任务，LLM对即时解决方案的置信度较低，并且需要更多的推理路径来验证。在五个流行的推理基准测试上的实验表明，DynaThink相对于基线方法具有优越性。

论文链接: https://arxiv.org/pdf/2407.01009

cs.CL: 通过方向蕴涵图和声明级响应增强来量化LLM的不确定性

原标题: LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation

作者: Longchao Da, Tiejin Chen, Lu Cheng, Hua Wei

机构: 亚利桑那州立大学伊利诺伊大学芝加哥分校

摘要: 大语言模型（LLMs）展示了在各个领域复杂任务中的卓越能力，从基本的问答开始，它们如今被用作对陌生内容进行决策辅助或解释。然而，由于特定领域语料库中数据稀疏或模型的幻觉问题，它们并不总是正确的。鉴于此，我们应该信任LLMs的回应有多少？本文提出了一种评估不确定性的新方法，捕捉了方向不稳定性，通过从蕴涵概率构建方向图，并创新地进行随机游走拉普拉斯，考虑到构建的有向图的非对称性质，然后通过从拉普拉斯过程中导出的特征值来聚合不确定性。我们还提供了一种将现有工作的语义不确定性与我们提出的层结合的方法。此外，本文确定了原始响应集中的模糊问题，并提出了一种增强方法来缓解这一问题，我们进行了大量实证实验，并展示了我们提出的解决方案的优越性。

论文链接: https://arxiv.org/pdf/2407.00994

cs.CL: 房子总是赢的：评估大语言模型中战略欺骗的框架

原标题: The House Always Wins: A Framework for Evaluating Strategic Deception in LLMs

作者: Tanush Chopra, Michael Li

机构: 乔治亚理工学院卡内基梅隆大学

摘要: 我们提出了一个评估大语言模型（LLMs）中战略欺骗的框架。在这个框架中，一个LLM在两种情景下充当游戏主持人：一种是具有随机游戏机制，另一种是可以在随机或故意行动之间进行选择。作为示例，我们使用了21点游戏，因为该游戏的行动空间和策略都不涉及欺骗。我们在21点游戏中对Llama3-70B、GPT-4-Turbo和Mixtral进行基准测试，将结果与公平游戏中的预期分布进行比较，以确定LLMs是否会发展出有利于“庄家”的策略。我们的研究结果表明，当给定隐式随机性指令时，LLMs表现出与公平游戏明显偏离的情况，这表明在模糊情景中存在战略操纵的倾向。然而，当面临明确选择时，LLMs在很大程度上遵循公平游戏，这表明指令的表述在引发或减轻AI系统中潜在欺骗行为方面起着至关重要的作用。

论文链接: https://arxiv.org/pdf/2407.00948

cs.CL: MalAlgoQA：一种评估反事实推理能力的教学方法

原标题: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities

作者: Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk

机构: 瑞斯大学

摘要: 这篇论文介绍了 MalAlgoQA，这是一个新颖的数据集，旨在通过教学方法评估大语言模型（LLMs）的反事实推理能力。该数据集包括数学和阅读理解问题，每个问题都附带四个答案选项及其相应的推理。我们关注不正确答案的推理，称为“malgorithms”，它突出了导致错误答案的错误推理步骤，并提供了有价值的洞察力，了解错误的思维过程。我们还提出了Malgorithm识别任务，LLMs根据其识别给定不正确答案选项的能力进行评估。为了评估模型性能，我们引入了两个指标：正确答案推理识别准确率（AIA）和错误答案推理识别准确率（MIA）。该任务具有挑战性，因为最先进的LLMs在MIA方面表现出明显下降，与AIA相比。此外，我们发现，思维链提示技术不仅未能始终提高MIA，而且与简单提示相比还可能导致性能下降。这些发现对于开发更具认知启发的LLMs以提高其反事实推理能力具有重要意义，特别是通过教学视角，理解和纠正学生误解至关重要。

论文链接: https://arxiv.org/pdf/2407.00938

cs.CL: 小语言模型能学习、遗忘和保留噪声模式吗？

原标题: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?

作者: Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani

机构: 印度科学研究所印度 Talking Yak 公司美国

摘要: 小语言模型（SLMs）通常被认为是大语言模型（LLMs）的更紧凑版本，通常具有少于70亿个参数。本研究调查了小语言模型学习、保留和随后消除噪音的能力，这些噪音通常在互联网上找不到，在那里大多数预训练数据集都是获取的。为此，使用了四个预训练的SLMs：Olmo 1B，Qwen1.5 1.8B，Gemma 2B和Phi2 2.7B。这些模型在没有噪音的情况下进行了指令调整，并通过上下文学习测试了任务执行能力。随后，引入噪音模式以评估模型的学习和遗忘能力。我们评估了不同训练水平下模型的性能。Phi在单词级噪音方面表现出色，但在字符级噪音方面表现最差。尽管Olmo的参数约为10亿，是最小的，但在任务上表现始终良好。

论文链接: https://arxiv.org/pdf/2407.00996

cs.CL: 大语言模型增强知识表示学习：一项调查

原标题: Large Language Model Enhanced Knowledge Representation Learning: A Survey

作者: Xin Wang, Zirui Chen, Haofen Wang, Leong Hou U, Zhao Li, Wenbin Guo

机构: 天津大学计算智能学院同济大学设计与创新学院澳门大学科学与技术学院

摘要: 将大语言模型（LLMs）与知识表示学习（KRL）相结合，标志着人工智能领域的重要进展，增强了捕捉和利用复杂知识结构的能力。这种协同作用利用了LLMs的高级语言和上下文理解能力，以提高KRL的准确性、适应性和效果，从而扩大了其应用和潜力。尽管越来越多的研究集中在将LLMs嵌入知识表示领域，但缺乏一项全面审查，审视这些增强模型的基本组成部分和过程。我们的调查通过将这些模型基于三种不同的Transformer架构进行分类，并分析来自各种KRL下游任务的实验数据，以评估每种方法的优势和劣势。最后，我们确定并探讨了这一新兴但尚未充分开发的领域的潜在未来研究方向，提出了持续进展的途径。

论文链接: https://arxiv.org/pdf/2407.00936

cs.CL: CLEME2.0：通过将编辑分解为语法错误修正的更易解释评估

原标题: CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction

作者: Jingheng Ye, Zishan Xu, Yinghui Li, Xuxin Cheng, Linlin Song, Qingyu Zhou, Hai-Tao Zheng, Ying Shen, Xin Su

机构: 清华大学北京大学华中科技大学鹏城实验室中山大学腾讯

摘要: 这篇论文侧重于改进语法错误修正（GEC）指标的可解释性，在先前的研究中受到了较少关注。为了弥合这一差距，我们提出了CLEME2.0，这是一种基于参考的评估策略，可以描述GEC系统的四个基本维度，即命中修正、错误修正、欠修正和过修正。它们共同有助于揭示GEC系统的关键特征并找出缺陷。通过结合这些维度评估系统，可以实现高人类一致性，超过其他基于参考和无参考指标。对2个人类判断数据集和6个参考数据集进行了大量实验，证明了我们方法的有效性和稳健性。所有代码将在同行评审后发布。

论文链接: https://arxiv.org/pdf/2407.00934

cs.CL: 在仅针对英语进行调整查询编码器时保持多语言质量

原标题: Preserving Multilingual Quality While Tuning Query Encoder on English Only

作者: Oleg Vasilyev, Randy Sawaya, John Bohannon

机构: Primer Technologies Inc.

摘要: 一个密集的段落检索系统可以作为信息检索的初始阶段，为下游任务选择最相关的文本段落。在这项工作中，我们进行了实验，旨在找出如果双编码器的查询部分在仅有英语数据集上进行调优（假设在目标领域或任务中跨语言样本稀缺），多语言检索的质量可能会降低多少。具体来说，从一个高质量的多语言嵌入模型开始，我们观察到仅在英语上进行调优可能不仅可以保持多语言检索的原始质量，甚至可能改善它。

论文链接: https://arxiv.org/pdf/2407.00923

cs.CL: FineSurE: 使用大语言模型进行细粒度摘要评估

原标题: FineSurE: Fine-grained Summarization Evaluation using LLMs

作者: Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour

机构: 韩国科学技术院（KAIST） AWS AI实验室 Amazon

摘要: 自动化评估对于简化文本摘要基准测试和模型开发至关重要，考虑到人工评估的成本高且耗时。传统方法如 ROUGE 与人类判断的相关性不强，而最近提出的基于大语言模型（LLM）的指标仅提供基于 Likert 评分的摘要级评估。这限制了对模型的深入分析，例如，我们只能在摘要级别分配一个幻觉分数，而在句子级别，我们可以计算包含幻觉的句子数量。为了解决这些限制，我们提出了 FineSurE，这是一个专门针对使用大型语言模型（LLMs）的摘要任务量身定制的细粒度评估器。它还采用完整性和简洁性标准，除了忠实度，还能进行多维度评估。我们比较了各种开源和专有的大语言模型作为 FineSurE 的基础。此外，我们对 FineSurE 进行了广泛的基准测试，与包括 NLI、QA 和基于 LLM 的方法在内的 SOTA 方法进行了比较，表现出在完整性和简洁性维度上的改进性能。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.00908

Github: https://github.com/DISL-Lab/FineSurE-ACL24

cs.CL: EXCGEC：一个解释性中文语法错误修正基准。

原标题: EXCGEC: A Benchmark of Edit-wise Explainable Chinese Grammatical Error Correction

作者: Jingheng Ye, Shang Qin, Yinghui Li, Xuxin Cheng, Libo Qin, Hai-Tao Zheng, Peng Xing, Zishan Xu, Guo Cheng, Zhao Wei

机构: 清华大学北京大学中南大学彭城实验室腾讯

摘要: 现有研究探讨了在有限场景中语法错误纠正（GEC）的可解释性，他们忽略了纠正和解释之间的交互作用。为了弥合这一差距，本文引入了可解释的 GEC（EXGEC）任务，重点关注纠正和解释任务的整体作用。为了促进这一任务，我们提出了 EXCGEC，这是一个专为中文 EXGEC 定制的基准测试，包括 8,216 个增强解释样本，具有混合编辑式解释设计。我们在多个设置中对几个系列的大语言模型进行基准测试，涵盖了后解释和先解释。为了推动任务的发展，我们引入了一套全面的自动评估指标，并进行人类评估实验，以展示自由文本解释的自动指标的人类一致性。所有代码和数据将在审阅后发布。

论文链接: https://arxiv.org/pdf/2407.00924

cs.CL: 角色扮演-允许领域专家通过引导和遵循原则创建大语言模型模拟患者

原标题: Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles

作者: Ryan Louie (1), Ananjan Nandi (1), William Fang (1), Cheng Chang (1), Emma Brunskill (1), Diyi Yang (1) ((1) Stanford University)

机构: 斯坦福大学

摘要: 最近的研究利用大语言模型来扮演逼真的社交场景，帮助新手练习他们的社交技能。然而，模拟敏感互动，比如在心理健康领域，是具有挑战性的。隐私问题限制了数据获取，并且收集专家反馈虽然至关重要，但是费时费力。为了解决这个问题，我们开发了Roleplay-doh，这是一个新颖的人-大语言模型协作流程，从领域专家那里获取定性反馈，然后将其转化为一组原则或自然语言规则，用来指导大语言模型引发的角色扮演。我们将这一流程应用于使高级心理健康支持者能够为新手辅导员创建定制的AI患者，作为模拟练习伙伴。在发现GPT-4模拟未遵循专家定义的原则的问题后，我们还引入了一种新颖的原则遵从提示流程，显示在响应质量和原则遵循方面有30%的改进，用于下游任务。通过与25名辅导专家进行的用户研究，我们证明了该流程使得创建更贴近真实患者的AI患者变得简单且有效，这一点由创建者和第三方辅导员来评判。

论文链接: https://arxiv.org/pdf/2407.00870

cs.CL: 如何利用数字嵌入来表示数字？

原标题: How to Leverage Digit Embeddings to Represent Numbers?

作者: Jasivan Alex Sivakumar, Nafise Sadat Moosavi

机构: 谢菲尔德大学

摘要: 除了执行算术运算之外，理解数字本身对于现有语言模型仍然是一个挑战。简单的泛化，比如解决100+200而不是1+2，可以显著影响模型性能（Sivakumar和Moosavi，2023）。在各种技术中，数字的字符级嵌入已经成为改进数字表示的一种有前途的方法。然而，这种方法存在局限性，因为它将数字表示的聚合任务留给了模型，这使得模型在这一过程中缺乏直接监督。在本文中，我们探讨了使用数学先验知识来计算聚合的数字嵌入，并将这些聚合明确地纳入Transformer模型中。这可以通过向输入嵌入中添加一个特殊的token或者引入一个额外的损失函数来实现以增强正确的预测。我们评估了纳入这种显式聚合的有效性，分析了其优势和不足，并讨论了未来更好地从这种方法中获益的方向。我们的方法虽然简单，但与任何预训练模型兼容，只需要几行代码，我们已经公开提供。

论文链接: https://arxiv.org/pdf/2407.00894

cs.CL: 大语言模型是不自愿的真相告诉者：利用谬误失败进行越狱攻击

原标题: Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks

作者: Yue Zhou, Henry Peng Zou, Barbara Di Eugenio, Yang Zhang

机构: 伊利诺伊大学芝加哥分校麻省理工学院-IBM沃森人工智能实验室IBM研究

摘要: 我们发现语言模型在生成虚假和欺骗性推理方面存在困难。当要求生成欺骗性输出时，语言模型往往会泄露诚实的对应内容，但认为它们是错误的。利用这一缺陷，我们提出了一种越狱攻击方法，引导一个对齐的语言模型生成恶意输出。具体来说，我们查询模型生成一个虚假但具有欺骗性的真实过程，用于有害行为。由于虚假过程通常被LLM认为是假的，因此无害，有助于绕过安全机制。然而，输出实际上是有害的，因为LLM无法编造虚假解决方案，而是提出真实的解决方案。我们在五个安全对齐的大型语言模型上评估了我们的方法，比较了四种先前的越狱方法，并展示了我们的方法在更有害输出方面取得了竞争性表现。我们相信这些发现可以扩展到模型安全之外，如自我验证和幻觉。

论文链接: https://arxiv.org/pdf/2407.00869

cs.CL: 用推理能力赋能3D视觉定位

原标题: Empowering 3D Visual Grounding with Reasoning Capabilities

作者: Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu

机构: 上海人工智能实验室香港大学

摘要: 尽管在3D视觉定位方面取得了巨大进展，但当前模型仍然依赖于明确的文本描述来进行定位，并且缺乏从隐含指令中推断人类意图的能力。我们提出了一个名为3D推理定位的新任务，并引入了一个名为ScanReason的新基准，该基准提供了来自五种需要推理和定位协同作用的推理类型的超过10K个问题-答案-位置对。我们进一步设计了我们的方法ReGround3D，由视觉中心的推理模块和由多模态大语言模型（MLLM）强化的3D定位模块组成，通过回顾增强的几何和来自3D场景的细粒度细节来获得准确的物体位置。提出了一种基于链式定位机制，通过在推理过程中交替进行推理和定位步骤来进一步提高性能。在提出的基准上进行的大量实验证实了我们提出方法的有效性。

论文链接: https://arxiv.org/pdf/2407.01525

cs.CL: MMLongBench-Doc：利用可视化技术对长篇文档理解进行基准测试

原标题: MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

作者: Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao, Xinze Li, Xinyuan Lu, Ziyu Liu, Yan Ma, Xiaoyi Dong, Pan Zhang, Liangming Pan, Yu-Gang Jiang, Jiaqi Wang, Yixin Cao, Aixin Sun

机构: 新加坡南洋理工大学北京大学伊利诺伊大学厄巴纳-香槟分校新加坡国立大学武汉大学新加坡管理大学加州大学圣巴巴拉分校复旦大学上海人工智能实验室

摘要: 理解具有丰富布局和多模态组件的文档是一个长期存在且实际的任务。最近的大视觉语言模型（LVLMs）在各种任务中取得了显著进展，特别是在单页文档理解（DU）方面。然而，它们在长上下文DU方面的能力仍然是一个悬而未决的问题。这项工作提出了MMLongBench-Doc，一个长上下文、多模态基准，包括1,062个专家注释的问题。与以往的数据集不同，它是基于130个长PDF格式文档构建的，平均每个文档有49.4页，包含20,971个文本标记。为了进行全面评估，这些问题的答案依赖于来自不同来源（文本、图像、图表、表格和布局结构）和不同位置（即页码）的证据。此外，33.2%的问题是跨页问题，需要跨多个页面的证据。22.8%的问题被设计为无法回答，以便检测潜在的幻觉。对14个LVLM进行的实验表明，长上下文DU极大地挑战了当前模型。值得注意的是，表现最佳的模型GPT-4o仅达到42.7%的F1分数，而第二名的GPT-4V得分为31.4%。此外，12个LVLM（除了GPT-4o和GPT-4V之外的所有模型）甚至比它们被馈送有丢失解析的OCR文档的LLM对应模型表现更差。这些结果验证了未来研究朝着更有能力的长上下文LVLM的必要性。项目页面：此处链接。

论文链接: https://arxiv.org/pdf/2407.01523

Github: https://mayubo2333.github.io/MMLongBench-Doc

cs.CL: MIA-Bench：朝着更好的多模态大语言模型指令遵循评估前进

原标题: MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

作者: Yusu Qian, Hanrong Ye, Jean-Philippe Fauconnier, Peter Grasch, Yinfei Yang, Zhe Gan

机构: 苹果香港科技大学

摘要: 我们介绍了 MIA-Bench，这是一个新的基准测试，旨在评估多模态大语言模型（MLLMs）在严格遵循复杂指令方面的能力。我们的基准测试包括一个多样化的400个图像提示对，每个对都经过精心设计，旨在挑战模型在生成满足特定请求模式的准确响应时遵守分层指令的能力。来自各种最先进的MLLMs的评估结果显示出性能上的显著差异，突出了在指令忠实度方面需要改进的领域。此外，我们创建了额外的训练数据，并探索了监督微调方法，以增强模型在严格遵循指令的能力的同时不影响在其他任务上的性能。我们希望这个基准测试不仅可以作为衡量MLLM遵循指令的工具，还可以指导未来MLLM训练方法的发展。

论文链接: https://arxiv.org/pdf/2407.01509

cs.CL: Badllama 3：在几分钟内从 Llama 3 中移除安全微调

原标题: Badllama 3: removing safety finetuning from Llama 3 in minutes

作者: Dmitrii Volkov

机构: Palisade Research

摘要: 我们展示了当攻击者可以访问模型权重时，广泛的大语言模型安全微调很容易被颠覆。我们评估了三种最先进的微调方法-QLoRA、ReFT和Ortho-并展示了算法进步如何实现在FLOPs和优化能力上的恒定越狱性能。我们在单个GPU上仅用一分钟从Llama 3 8B中剥离安全微调，在30分钟内从Llama 3 70B中剥离，并勾画了进一步减少这一过程的方法。

论文链接: https://arxiv.org/pdf/2407.01376

cs.CL: Gloss2Text：使用大语言模型和语义感知标签平滑进行手语标签翻译

原标题: Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing

作者: Pooya Fayyazsanavi, Antonios Anastasopoulos, Jana Košecká

机构: 乔治梅森大学

摘要: 视频中手语翻译成口头文本具有独特的挑战，因为手语具有独特的语法、表达细微差别，以及不同说话者和情境下视觉外观的高度变化。视频中的中间注释旨在指导翻译过程。在我们的工作中，我们专注于{\em Gloss2Text}翻译阶段，并通过利用预训练的大语言模型（LLMs）、数据增强和利用手语翻译歧义的新型标签平滑损失函数等几项进展，显著提高了最先进方法的性能。通过对PHOENIX Weather 2014T数据集进行大量实验和消融研究，我们的方法在{\em Gloss2Text}翻译中超越了最先进的性能，表明其在解决手语翻译方面的有效性，并为未来研究和发展提供了有前途的途径。

论文链接: https://arxiv.org/pdf/2407.01394

cs.CL: 无智能体：揭秘基于大语言模型的软件工程智能体

原标题: Agentless: Demystifying LLM-based Software Engineering Agents

作者: Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang

机构: 伊利诺伊大学厄巴纳-香槟(University of Illinois Urbana-Champaign)

摘要: 最近大语言模型（LLMs）的进展显著推动了软件开发任务的自动化，包括代码合成、程序修复和测试生成。最近，研究人员和行业从业者开发了各种自主的LLM智能体来执行端到端的软件开发任务。这些智能体具备使用工具、运行命令、观察环境反馈以及规划未来行动的能力。然而，基于这些智能体的方法的复杂性，再加上当前LLMs的能力有限，引发了以下问题：我们是否真的需要使用复杂的自主软件智能体？为了尝试回答这个问题，我们构建了Agentless——一种无智能体的方法来自动解决软件开发问题。与基于智能体方法的冗长复杂设置相比，Agentless采用了一个简单的两阶段过程，即定位后修复，而不让LLM决定未来的行动或使用复杂工具。我们在流行的SWE-bench Lite基准测试上的结果显示，令人惊讶的是，简单的Agentless能够实现最高性能（27.33%）和最低成本（$0.34），相较于所有现有的开源软件智能体！此外，我们手动分类了SWE-bench Lite中的问题，并发现存在确切的修补程序或问题描述不足/误导性的问题。因此，我们构建了SWE-bench Lite-S，通过排除这些问题来进行更严格的评估和比较。我们的工作突显了在自主软件开发中简单、可解释技术的当前被忽视的潜力。我们希望Agentless将有助于重新设定自主软件智能体的基线、起点和发展方向，并激发未来沿着这一关键方向开展工作。

论文链接: https://arxiv.org/pdf/2407.01489

cs.CL: 增加模型容量的免费方法：一种参数高效微调的简单策略

原标题: Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning

作者: Haobo Song, Hao Zhao, Soumajit Majumder, Tao Lin

机构: 西湖大学瑞士洛桑联邦理工学院华为

摘要: 最近，对于对大型预训练基础模型（如175B GPT-3）进行微调，以用于下游任务，引起了更多关注。虽然已经提出了参数高效的微调方法，并且已被证明在不重新训练所有模型参数的情况下是有效的，但它们的性能受到增量模块容量的限制，特别是在受限的参数预算下。\ 为了克服这一挑战，我们提出了CapaBoost，这是一种简单而有效的策略，通过在目标层中的并行权重模块中利用低秩更新来增强模型容量。通过将静态随机掩码应用于共享权重矩阵，CapaBoost构建了一组多样的权重矩阵，有效地增加了增量权重的秩，而不会增加参数。值得注意的是，我们的方法可以无缝集成到各种现有的参数高效微调方法中。我们通过在各种下游任务（包括自然语言理解、问答和图像分类）上进行实验证明了CapaBoost的有效性。我们的结果显示，与基准相比，CapaBoost能够显著提高性能，而不会增加额外的计算或存储成本。我们的代码可在\url{this https URL}上找到。

论文链接: https://arxiv.org/pdf/2407.01320

Github: https://github.com/LINs-lab/CapaBoost

cs.CL: 语言模型智能体的树搜索

原标题: Tree Search for Language Model Agents

作者: Jing Yu Koh, Stephen McAleer, Daniel Fried, Ruslan Salakhutdinov

机构: 卡内基梅隆大学

摘要: 由语言模型（LMs）驱动的自主代理已经展示了它们在执行决策任务（如网络自动化）方面的潜力。然而，一个关键限制仍然存在：LMs主要针对自然语言理解和生成进行了优化，但在尝试解决现实计算机任务时，它们在多步推理、规划和使用环境反馈方面存在困难。为了解决这个问题，我们提出了一种推理时搜索算法，用于LM代理在交互式网络环境中明确执行探索和多步规划。我们的方法是一种在实际环境空间内运行的最佳优先树搜索，与大多数现有的最先进代理相辅相成。这是LM代理的第一个树搜索算法，在现实网络任务上显示出了有效性。在具有挑战性的VisualWebArena基准测试中，将我们的搜索算法应用于GPT-4o代理，相对于没有搜索的相同基准，成功率增加了39.7%，将成功率提高到了26.4%，创下了最新的成功率。在WebArena上，搜索还使基准代理的成功率提高了28.0%，将竞争成功率提高到了19.2%。我们的实验突出了搜索对网络代理的有效性，并且我们证明了性能随着测试时间计算量的增加而提高。我们对结果进行了彻底分析，以突出搜索的改进、限制和未来工作的有希望方向。我们的代码和模型已经在此https URL上公开发布。

论文链接: https://arxiv.org/pdf/2407.01476

其他链接: https://jykoh.com/search-agents

cs.CL: 轻量级零样本文本转语音技术与适配器混合

原标题: Lightweight Zero-shot Text-to-Speech with Mixture of Adapters

作者: Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima

机构: NTT Corporation

摘要: 基于大规模模型的零样本文本转语音（TTS）方法的进展已经展示出在复制说话者特征方面具有高保真度。然而，这些模型对于实际日常使用来说过于庞大。我们提出了一种使用混合适配器（MoA）的轻量级零样本TTS方法。我们提出的方法将MoA模块整合到非自回归TTS模型的解码器和方差适配器中。这些模块通过根据说话者嵌入的基础上选择与说话者特征相关的适配器，增强了以零样本方式适应各种说话者的能力。我们的方法在保持额外参数最少的情况下实现了高质量的语音合成。通过客观和主观评估，我们确认我们的方法在不到40%的参数情况下以1.9倍的更快推理速度实现了比基准更好的性能。我们的演示页面提供了音频样本（此 https URL）。

论文链接: https://arxiv.org/pdf/2407.01291

Github: https://ntt-hilab-gensp.github.io/is2024lightweightTTS/

cs.CL: We-Math：您的大型多模态模型是否实现了类似人类的数学推理？

原标题: We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

作者: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang

机构: 北京邮电大学腾讯公司华中科技大学北京理工大学

摘要: 作为一种基本的视觉推理能力，视觉数学推理受到了大型多模型（LMMs）社区的广泛关注。现有的基准测试，如MathVista和MathVerse，更注重结果导向的性能，但忽略了知识获取和泛化中的基本原则。受人类类似数学推理的启发，我们引入了WE-MATH，这是第一个专门设计用于探索超越端到端性能的解决问题原则的基准测试。我们精心收集和分类了6.5K个视觉数学问题，涵盖了67个分层知识概念和五层知识粒度。我们根据所需的知识概念将复合问题分解为子问题，并引入了一种新颖的四维度指标，即不足知识（IK）、不充分泛化（IG）、完全掌握（CM）和机械记忆（RM），以层次化评估LMMs推理过程中的固有问题。通过WE-MATH，我们对现有LMMs在视觉数学推理中进行了彻底评估，并揭示了解决步骤与特定问题性能之间的负相关性。我们确认LMMs的IK问题可以通过知识增强策略有效改善。更重要的是，GPT-4o的主要挑战已经显著从IK转变为IG，将其确立为首个朝着知识泛化阶段前进的LMM。相比之下，其他LMMs表现出明显倾向于机械记忆 - 它们可以正确解决涉及多个知识概念的复合问题，但无法回答子问题。我们期待WE-MATH将为LMMs的视觉数学推理领域的进展开辟新途径。WE-MATH的数据和评估代码可在此https URL上找到。

论文链接: https://arxiv.org/pdf/2407.01284

Github: https://github.com/We-Math/We-Math

cs.CL: 利用大语言模型为可操作的课程评估提供学生对讲师的反馈

原标题: Leveraging Large Language Models for Actionable Course Evaluation Student Feedback to Lecturers

作者: Mike Zhang, Euan D Lindsay, Frederik Bode Thorbensen, Danny Bøgsted Poulsen, Johannes Bjerva

机构: 奥尔堡大学挪威哥本哈根分校

摘要: 学期末学生评价教学是向学术界提供反馈的主要机制。然而，对于大班级而言，反馈的数量使得这些工具在这个目的上变得不切实际。本文探讨了使用开源生成式人工智能来综合学生对调查问卷的反馈，以产生事实性、可操作性和适当性摘要的可能性。在我们的设置中，我们有742份学生反馈，涵盖计算机科学系的75门课程。对于每门课程，我们综合了课程评价的摘要和教师的可操作建议。我们的结果显示了在课堂环境中增强教学实践的一个有前途的途径。我们的贡献在于展示了使用生成式人工智能为教师提供有见地的反馈的可行性，从而提供了支持教育工作者发展的一种经济有效手段。总的来说，我们的工作突显了在课堂环境中使用生成式人工智能产生事实性、可操作性和适当性反馈给教师的可能性。

论文链接: https://arxiv.org/pdf/2407.01274

cs.CL: 取消对齐一切：或在多模态模型中将任何文本对齐到任何图像

原标题: Unaligning Everything: Or Aligning Any Text to Any Image in Multimodal Models

作者: Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu

机构: 佛罗里达州立大学

摘要: 利用共享嵌入空间，新兴的多模态模型展现出前所未有的零样本能力。然而，如果不同的模态存在错位，共享嵌入空间可能会导致新的漏洞。在本文中，我们扩展并利用了最近开发的一种有效的基于梯度的程序，使我们能够通过最小修改图像来匹配给定文本的嵌入。利用这一程序，我们展示了通过在联合图像-文本模型中进行不可察觉的对抗攻击，我们可以将可区分文本的嵌入与任何图像对齐，揭示了语义无关的图像可以具有相同文本的嵌入，同时视觉上无法区分的图像可以与非常不同的文本的嵌入匹配。我们的技术在应用于来自多个来源的文本数据集和图像时实现了100%的成功率。在克服这种漏洞之前，多模态模型无法稳健地以语义上有意义的方式对齐来自不同模态的输入。\textbf{警告：本文使用的文本数据具有毒性，并可能会冒犯一些读者。}

论文链接: https://arxiv.org/pdf/2407.01157

cs.CL: CVLUE：一个用于中文视觉-语言理解评估的新基准数据集

原标题: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

作者: Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che

机构: 浙江实验室哈尔滨工业大学

摘要: 尽管中国视觉语言模型（VLMs）迅速发展，但大多数现有的中文视觉语言（VL）数据集是基于现有英文VL数据集中的西方中心图像构建的。图像中的文化偏见使得这些数据集不适合评估中文文化中的VLMs。为了解决这个问题，我们提出了一个新的中文视觉语言理解评估（CVLUE）基准数据集，其中物体类别和图像的选择完全由中国本土人士驱动，确保源图像代表中国文化。该基准数据集包含四个不同的VL任务，从图像文本检索到视觉问答、视觉定位和视觉对话。我们对CVLUE进行了详细的统计分析，并使用几种开源多语言VLMs在CVLUE及其英文对应数据集上进行了基准性能分析，揭示了它们在英文和中文之间的性能差距。我们深入的类别级别分析揭示了现有VLMs中缺乏中国文化知识。我们还发现，在中国文化相关的VL数据集上微调有效地增强了VLMs对中国文化的理解。

论文链接: https://arxiv.org/pdf/2407.01081

cs.CL: 在多模态大语言模型中，类似人类对象概念的表示自然而然地出现。

原标题: Human-like object concept representations emerge naturally in multimodal large language models

作者: Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He

机构: 中国科学院自动化研究所南方科技大学

摘要: 人类大脑对自然物体的概念化和分类长期以来一直引起认知科学家和神经科学家的兴趣，为人类感知和认知提供了重要见解。最近，大语言模型（LLMs）的快速发展引发了一个有趣的问题，即这些模型是否也能通过接触大量的语言和多模态数据来发展类似人类的物体表示。在这项研究中，我们结合了行为和神经影像分析方法，揭示了LLMs中的物体概念表示如何与人类的表示相关。通过从LLM和多模态LLM（MLLM）收集的470万个三元组判断的大规模数据集，我们能够得出捕捉1854个自然物体潜在相似结构的低维嵌入。结果显示，这些66维嵌入具有高度稳定性和预测性，并展现出类似于人类心智表示的语义聚类。有趣的是，这些嵌入底层维度的可解释性表明，LLM和MLLM已经发展出类似于人类的自然物体概念表示。进一步分析表明，确定的模型嵌入与许多功能定义的大脑ROIs（如EBA、PPA、RSC和FFA）中的神经活动模式之间存在强烈的对齐。这提供了有力的证据，即LLMs中的物体表示虽然不完全相同于人类的表示，但共享反映人类概念知识关键模式的基本共性。这项研究推动了我们对机器智能的理解，并为开发更类似人类的人工认知系统提供了信息。

论文链接: https://arxiv.org/pdf/2407.01067

cs.CL: Mobile-Bench：面向基于大语言模型的移动智能体的评估基准

原标题: Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

作者: Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Rui Yan, Shuo Shang

机构: 中国电子科技大学人民大学中国人民大学高灵学院小米人工智能实验室

摘要: 随着大语言模型（LLMs）的显著进展，基于LLM的智能体已成为人机交互领域的研究热点。然而，针对LLM移动智能体的基准测试仍然很少。对这些智能体进行基准测试通常面临三个主要挑战：（1）仅基于用户界面操作的低效性限制了任务评估的范围。（2）在单一应用程序中的具体指令不足以评估LLM移动智能体的多维推理和决策能力。（3）当前的评估指标不足以准确评估顺序动作的过程。因此，我们提出了Mobile-Bench，这是一个用于评估基于LLM的移动智能体能力的新型基准测试。首先，我们通过整合103个收集的API来扩展传统的用户界面操作，以加快任务完成的效率。随后，我们通过将真实用户查询与LLMs的增强相结合来收集评估数据。为了更好地评估移动智能体的不同规划能力水平，我们的数据被分类为三个不同组别：SAST、SAMT和MAMT，反映了不同级别的任务复杂性。Mobile-Bench包括832个数据条目，其中有200多个任务专门设计用于评估多应用程序协作场景。此外，我们引入了一种更准确的评估指标，名为CheckPoint，用于评估基于LLM的移动智能体在规划和推理步骤中是否达到关键点。

论文链接: https://arxiv.org/pdf/2407.00993

cs.CL: VisEval：大语言模型时代数据可视化基准。

原标题: VisEval: A Benchmark for Data Visualization in the Era of Large Language Models

作者: Nan Chen, Yuge Zhang, Jiahang Xu, Kan Ren, Yuqing Yang

机构: IEEE Transactions on Visualization and Computer Graphics
VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
南京大学清华大学

摘要: 将自然语言转换为可视化（NL2VIS）已经显示出在视觉数据分析方面具有巨大潜力，但仍然是一个具有挑战性的任务，需要多个低级实现，如自然语言处理和可视化设计。最近预训练的大语言模型（LLMs）的进展为从自然语言生成可视化打开了新的途径。然而，缺乏全面可靠的基准测试阻碍了我们对LLMs在可视化生成方面能力的理解。在本文中，我们通过提出一个名为VisEval的新NL2VIS基准测试来解决这一问题。首先，我们引入了一个高质量且大规模的数据集。该数据集包括2,524个代表性查询，涵盖了146个数据库，并配有准确标记的基本事实。其次，我们倡导一种全面的自动化评估方法，涵盖了多个维度，包括有效性、合法性和可读性。通过系统地扫描潜在问题，使用多个异构检查器，VisEval提供可靠且值得信赖的评估结果。我们在一系列最先进的LLMs上运行VisEval。我们的评估揭示了普遍存在的挑战，并为未来的进展提供了重要见解。

论文链接: https://arxiv.org/pdf/2407.00981

cs.CL: 产品智能体：使用询问澄清问题对话式产品搜索智能体进行基准测试

原标题: ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions

作者: Jingheng Ye, Yong Jiang, Xiaobin Wang, Yinghui Li, Yangning Li, Hai-Tao Zheng, Pengjun Xie, Fei Huang

机构: 清华大学深圳国际研究生院阿里巴巴集团达摩院彭城实验室

摘要: 这篇论文介绍了在电子商务场景中产品需求澄清的任务，用户以模糊查询开始对话，任务型代理旨在通过询问澄清问题实现更准确和定制的产品搜索。为了解决这一任务，我们提出了ProductAgent，这是一个具备战略澄清问题生成和动态产品检索能力的对话信息获取代理。具体来说，我们为产品特征总结、查询生成和产品检索开发了代理的策略。此外，我们提出了一个名为PROCLARE的基准来评估代理的性能，借助LLM驱动的用户模拟器在自动和定性方面进行评估。实验表明，ProductAgent与用户积极互动，并随着对话轮次的增加增强了检索性能，用户需求逐渐变得更加明确和详细。所有源代码将在审查匿名期结束后发布。

论文链接: https://arxiv.org/pdf/2407.00942

cs.CL: 从内省到最佳实践：多模态上下文学习中演示的原则分析

原标题: From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning

作者: Nan Xu, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen

机构: 南·徐费·王盛·张郝凤陈慕豪南加州大学微软研究加州大学戴维斯分校

摘要: 受大语言模型（LLMs）的上下文学习（ICL）能力的启发，具有额外视觉模态的多模态LLMs在提供多个图像-文本对作为示范时也表现出类似的ICL能力。然而，相对较少的工作已经进行了对多模态ICL如何以及为什么起作用的原则性研究。我们对不同规模模型在广泛的新而关键任务上进行了系统而有原则的多模态ICL评估。通过对不同模态信息的扰动，我们展示了在多模态ICL中，模态在不同任务中的重要性不同。考虑到这种模态影响，我们进一步利用模态驱动的示范策略来提升ICL性能。我们还发现示范选择与模型从多模态ICL中捕捉任务归纳偏差的能力密切相关。我们的原则性分析提供了一种全面理解示范在多模态上下文学习中的作用的方式，并为有效改进多模态ICL在各种任务上提供了启示，即使这些任务在预训练数据中没有出现，甚至与之相矛盾。

论文链接: https://arxiv.org/pdf/2407.00902

cs.CL: FoldGPT：简单而有效的大语言模型压缩方案

原标题: FoldGPT: Simple and Effective Large Language Model Compression Scheme

作者: Songwei Liu, Chao Zeng, Lianqiang Li, Chenqian Yan, Lean Fu, Xing Mei, Fangmin Chen

机构: 字节跳动公司浙江大学

摘要: 部署大语言模型(LLMs)到移动设备的需求不断增加，这是由不断升级的数据安全担忧和云成本推动的。然而，网络带宽和内存限制对于在移动设备上部署十亿级模型提出了挑战。在这项研究中，我们调查了不同规模LLMs的不同层的输出，并发现大多数层的输出表现出显著的相似性。此外，随着模型规模的增加，这种相似性变得更加明显，表明在LLMs的深度方向上存在大量冗余。基于这一观察，我们提出了一种高效的模型容量压缩策略，称为FoldGPT，它结合了块删除和块参数共享。该策略包括三个部分：(1)基于可学习的门控参数，我们确定块的重要性排名，同时建模块之间的耦合效应。然后根据给定的删除率删除一些冗余层。(2)对于保留的块，我们应用了一种特殊设计的组参数共享策略，其中同一组内的块共享相同的权重，显著压缩了参数数量并略微降低了延迟开销。(3)在共享这些块之后，我们通过少量微调来“治愈”由稀疏性引起的不匹配，并引入尾层蒸馏策略来提高性能。实验证明，FoldGPT在高效模型压缩方面优于先前的最先进方法，展示了通过简单的块删除和参数共享实现模型轻量化的可行性。

论文链接: https://arxiv.org/pdf/2407.00928

cs.CL: 在Transformer中通过上下文分解进行机械解释

原标题: Mechanistic Interpretation through Contextual Decomposition in Transformers

作者: Aliyah R. Hsu, Yeshwanth Cherapanamjeri, Anobel Y. Odisho, Peter R. Carroll, Bin Yu

机构: 清华大学百度

摘要: Transformer表现出令人印象深刻的能力，但由于理解特征之间复杂非线性关系的挑战，通常被视为黑匣子。解释机器学习模型对于减轻风险至关重要，而机械解释性特别引起当前兴趣，因为它为指导手动修改和逆向工程解决方案打开了一扇窗户。在这项工作中，我们介绍了用于Transformer的上下文分解（CD-T），扩展了先前针对RNN和CNN的CD工作，以在计算上高效地解释机制。CD-T是Transformer的一种灵活解释方法。它可以捕获输入特征或源内部组件（例如注意力头、前馈网络）组合对最终预测或任何目标内部组件输出的贡献。利用CD-T，我们提出了一种用于电路发现的新算法。在一个真实的病理报告分类任务中：我们展示了CD-T提炼了一个更忠实的注意力头电路，比先前的基准方法path patching提高了计算效率（加速2倍）。作为一种多功能解释方法，CD-T还展现出出色的本地解释能力。通过人类实验，我们证明了CD-T使用户能够识别两个模型中更准确的模型，并相对于SHAP和LIME等替代解释方法更加信任模型的输出。

论文链接: https://arxiv.org/pdf/2407.00886