2024年7月4日Arxiv语言模型相关论文

最新推荐文章于 2024-12-10 10:28:49 发布

数智笔记

最新推荐文章于 2024-12-10 10:28:49 发布

阅读量2.4k

点赞数 3

分类专栏：论文速递文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/wjjc1017/article/details/140192612

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

使用增量机器翻译系统评估自动评估指标

原标题: Evaluating Automatic Metrics with Incremental Machine Translation Systems

作者: Guojun Wu, Shay B. Cohen, Rico Sennrich

机构: 苏黎世大学爱丁堡大学计算语言学系信息学院

摘要: 我们介绍了一个数据集，包括在12个翻译方向上每周收集的商业机器翻译，历时六年。由于人类A/B测试通常被使用，我们假设商业系统随着时间的推移而改进，这使我们能够根据它们对更近期翻译的偏好来评估机器翻译（MT）指标。我们的研究证实了机器翻译指标研究中的一些先前发现，并展示了该数据集作为指标评估的试验平台的价值。我们在以下网址发布了我们的代码。

论文链接: https://arxiv.org/pdf/2407.03277

Github: https://github.com/gjwubyron/Evo

深度学习驱动新兴通信应用的综述

原标题: A Review of the Applications of Deep Learning-Based Emergent Communication

作者: Brendon Boldt, David Mortensen

机构: 卡内基梅隆大学

摘要: 新兴通信，或新兴语言，是研究人类类似语言的沟通系统如何在深度多智能体强化学习环境中自发出现的领域。复制类似语言这样复杂行为的出现可能性具有很强的直观吸引力，然而有必要补充清晰的概念，说明这类研究如何适用于其他科学、技术和工程领域。本文全面审视了新兴通信研究在机器学习、自然语言处理、语言学和认知科学领域的应用。每个应用都以其范围描述、新兴通信在解决该问题中的独特作用的阐释、朝着应用方向工作的现有文献摘要，以及对近期研究方向的简要建议进行说明。

论文链接: https://arxiv.org/pdf/2407.03302

大语言模型内部状态揭示了在面对查询时可能面临的虚构风险。

原标题: LLM Internal States Reveal Hallucination Risk Faced With a Query

作者: Ziwei Ji, Delong Chen, Etsuko Ishii, Samuel Cahyawijaya, Yejin Bang, Bryan Wilie, Pascale Fung

机构: 香港科技大学

摘要: 大语言模型（LLMs）的幻觉问题显著限制了它们的可靠性和可信度。人类拥有一种自我意识过程，使我们能够在面对问题时认识到自己不知道的东西。受此启发，我们的论文探讨了LLMs在生成响应之前是否能够估计它们自己的幻觉风险。我们广泛分析了LLMs的内部机制，包括训练数据来源以及跨越了15个不同的自然语言生成（NLG）任务，涵盖了700多个数据集。我们的实证分析揭示了两个关键见解：（1）LLM的内部状态表明它们是否在训练数据中看到了查询；（2）LLM的内部状态显示它们在关于查询的幻觉风险方面是有可能产生幻觉的或者不会。我们的研究探讨了在LLM对不确定性和幻觉风险的感知中发挥关键作用的特定神经元、激活层和标记。通过一个探测估计器，我们利用LLM的自我评估，在运行时实现了平均幻觉估计准确率达到84.32%。

论文链接: https://arxiv.org/pdf/2407.03282

STF：句子 Transformer 在有限数据情况下进行主题分类微调

原标题: STF: Sentence Transformer Fine-Tuning For Topic Categorization With Limited Data

作者: Kheir Eddine Daouadi, Yaakoub Boualleg, Oussama Guehairia

机构: Echahid Cheikh Larbi Tebessi University

摘要: 如今，来自推文的主题分类引起了相当多的研究关注。由于这些研究努力，提出了不同的分类系统。然而，由于有限数量的标记数据，它们面临着低性能指标的重大挑战。我们提出了句子Transformer微调（STF），这是一个主题检测系统，利用预训练的句子Transformer模型和微调来准确地对推文中的主题进行分类。此外，进行了广泛的参数敏感性分析，以微调STF参数，以实现最佳性能结果。在两个基准数据集上进行的实验表明：（1）所提出的STF可以有效用于分类推文主题，并且优于最新的最先进方法；（2）所提出的STF不需要大量标记推文即可实现良好的准确性，这是许多最先进方法的局限性。我们的主要贡献是通过应用预训练的句子Transformer语言模型，在推文主题分类方面取得了令人期待的结果。

论文链接: https://arxiv.org/pdf/2407.03253

星座馆：将文本翻译成结构化规划语言的严格基准

原标题: Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

作者: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach

机构: 布朗大学

摘要: 许多最近的研究探讨了使用语言模型解决规划问题。一个研究方向集中在将规划任务的自然语言描述转换为结构化规划语言，如规划领域定义语言（PDDL）。虽然这种方法很有前途，但准确衡量生成的PDDL代码质量仍然存在重大挑战。首先，生成的PDDL代码通常使用规划验证器进行评估，检查问题是否可以用规划器解决。这种方法是不够的，因为语言模型可能生成有效的PDDL代码，但与任务的自然语言描述不一致。其次，现有的评估集通常具有与真实PDDL密切相似的规划任务的自然语言描述，降低了任务的挑战性。为了弥合这一差距，我们引入了\benchmarkName，这是一个旨在评估语言模型从规划任务的自然语言描述中生成PDDL代码能力的基准。我们首先创建了一个PDDL等价算法，通过灵活地将生成的PDDL代码与真实PDDL进行比较，严格评估语言模型生成的PDDL代码的正确性。然后，我们提供了一个包含13个不同任务的 $132, 037$ 个文本到PDDL对的数据集，难度各不相同。最后，我们评估了几种API访问和开放权重的语言模型，揭示了这一任务的复杂性。例如，GPT-4o生成的87.6%的PDDL问题描述在语法上可解析，82.2%是有效的、可解决的问题，但只有35.1%在语义上是正确的，突显了对这一问题更严格的基准的需求。

论文链接: https://arxiv.org/pdf/2407.03321

通过基于AST的排名和模式修剪改进检索增强的文本到SQL

原标题: Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning

作者: Zhili Shen, Pavlos Vougiouklis, Chenxin Diao, Kaustubh Vyas, Yuanyi Ji, Jeff Z. Pan

机构: 华为技术（Huawei Technologies）印度国家科学研究所（CSI）

摘要: 我们从大语言模型的角度关注文本到SQL语义解析。受商业数据库模式规模和商业智能解决方案的可部署性挑战的启发，我们提出了一种动态检索输入数据库信息并使用抽象语法树选择少样本示例进行上下文学习的方法。此外，我们研究了并行语义解析器在生成 $\textit{近似}$ 预期SQL查询版本方面的利用程度，以支持我们的检索。我们将这种方法推向极致–我们调整了一个包含不到 $500$ M参数的模型，使其成为一个极其高效的近似器，并增强其能够以并行化方式处理模式。我们将我们的方法应用于单语和跨语言语义解析基准测试中，显示出优于最先进基线的改进。全面的实验突显了涉及检索增强生成设置的模块的贡献，揭示了未来工作的有趣方向。

论文链接: https://arxiv.org/pdf/2407.03227

CATT：基于字符的阿拉伯语Tashkeel Transformer

原标题: CATT: Character-based Arabic Tashkeel Transformer

作者: Faris Alasmary, Orjuwan Zaafarani, Ahmad Ghannam

机构: 阿布贾德有限公司

摘要: Tashkeel，或阿拉伯文本音标化（ATD），通过消除歧义并最小化由其缺失引起的误解风险，极大地提高了阿拉伯文本的理解。它在改进阿拉伯文本处理方面发挥着至关重要的作用，特别是在诸如文本转语音和机器翻译等应用中。本文介绍了一种训练ATD模型的新方法。首先，我们微调了两个Transformer，分别是仅编码器和编码器-解码器，它们是从预训练的基于字符的BERT初始化的。然后，我们应用了Noisy-Student方法来提升最佳模型的性能。我们使用两个手动标记的基准数据集WikiNews和我们的CATT数据集，评估了我们的模型以及11个商业和开源模型。我们的研究结果显示，我们的顶级模型在WikiNews和CATT上相对音标错误率（DERs）分别超过所有评估模型30.83%和35.21%，实现了ATD领域的最新技术。此外，我们展示了我们的模型在CATT数据集上相对于GPT-4-turbo的DER高出9.36%。我们向研究界开放了我们的CATT模型和基准数据集。

论文链接: https://arxiv.org/pdf/2407.03236

Github: https://github.com/abjadai/catt

量化如何影响多语言大语言模型？

原标题: How Does Quantization Affect Multilingual LLMs?

作者: Kelly Marchisio, Saurabh Dash, Hongyu Chen, Dennis Aumiller, Ahmet Üstün, Sara Hooker, Sebastian Ruder

机构: Cohere For AI

摘要: 量化技术被广泛应用于提高大语言模型推理速度和部署。虽然有大量研究探讨了量化大语言模型对英语任务的影响，但没有人研究过量化对不同语言的影响。我们对量化多语言大语言模型进行了彻底分析，重点关注它们在不同语言和不同规模下的性能。我们使用自动基准测试、LLM作为评判方法和人类评估，发现：(1) 量化的有害影响在人类评估中显而易见，而自动指标严重低估了损害：在自动任务中，日语平均下降1.7%，而在真实提示下，人类评估者报告的下降为16.0%；(2) 不同语言受量化影响不同，非拉丁文字语言受影响最严重；(3) 数学推理等具有挑战性的任务下降最快。由于能够提供低计算模型对于广泛采用自然语言处理技术至关重要，我们的结果敦促考虑多语言性能作为高效模型的关键评估标准。

论文链接: https://arxiv.org/pdf/2407.03211

通过分歧思维的微调，通过自我纠正提升语言模型的推理能力

原标题: Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models

作者: Haritz Puerto, Tilek Chubakov, Xiaodan Zhu, Harish Tayyar Madabushi, Iryna Gurevych

机构: 德国达姆施塔特工业大学、加拿大女王大学、英国巴斯大学

摘要: 要求一个大语言模型生成中间推理步骤已被证明是提高性能的有效方法。事实上，已经发现在这些中间推理步骤上进行指导调整可以提高模型性能。在这项工作中，我们提出了一种新颖的方法，通过要求模型在单个推理步骤中比较多个推理链来进一步提高性能。我们将这种方法称为Divergent CoT（DCoT）。我们发现在DCoT数据集上进行指导调整可以提升甚至更易访问的较小LLMs的性能。通过一系列严格的实验涵盖需要各种推理类型的各种任务，我们展示了在DCoT上微调始终比在CoT基线上改进性能，跨模型系列和规模（从1.3B到70B）。通过经验和手动评估的结合，我们另外展示了这些性能增益源于模型在单个推理步骤中生成多个不同的推理链，表明语言模型实现了自我校正的能力。我们的代码和数据可以在此网址公开获取。

论文链接: https://arxiv.org/pdf/2407.03181

Github: https://github.com/UKPLab/arxiv2024-divergent-cot

探究仅解码器的大语言模型在语音转文本翻译中的应用

原标题: Investigating Decoder-only Large Language Models for Speech-to-text Translation

作者: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri

机构: 国立台湾大学香港中文大学人工智能在Meta

摘要: 大语言模型（LLMs）以其出色的推理能力、泛化能力和在不同领域中的流畅性而闻名，为增强与语音相关任务提供了一个有前途的途径。在本文中，我们专注于将仅解码器的LLMs集成到语音转文本翻译（S2TT）任务中。我们提出了一种仅解码器架构，使LLM能够直接消耗编码的语音表示并生成文本翻译。此外，我们研究了不同参数高效微调技术和任务制定的影响。我们的模型在没有专有数据训练的模型中在CoVoST 2和FLEURS上实现了最先进的性能。我们还进行了分析，验证了我们提出的模型设计选择，并为LLMs集成到S2TT中带来了见解。

论文链接: https://arxiv.org/pdf/2407.03169

让代码大语言模型在您编辑代码时自我编辑。

原标题: Let the Code LLM Edit Itself When You Edit the Code

作者: Zhenyu He, Jun Zhang, Shengjie Luo, Jingjing Xu, Zhi Zhang, Di He

机构: 北京大学字节跳动公司

摘要: 在这项工作中，我们研究了代码生成中的一个典型场景，即开发人员实时编辑现有代码并请求代码助手（例如大语言模型）在运行时重新预测下一个标记或下一行。简单地说，大语言模型需要重新编码整个 KV 缓存以提供准确的预测。然而，当序列长度较长时，这个过程在计算上是昂贵的。仅对编辑的子序列进行编码并将其集成到原始 KV 缓存中会导致时间混淆问题，从而导致性能显著下降。我们通过引入\textbf{位置完整性编码}（PIE）来解决这种效率和准确性的权衡。在旋转位置编码的基础上，PIE 首先移除引入时间混淆的 Key 缓存中的旋转矩阵，然后重新应用正确的旋转矩阵。这个过程确保了标记之间的位置关系是正确的，并且只需要进行一轮矩阵乘法。我们通过在 RepoBench-C-8k 数据集上进行大量实验验证了 PIE 的有效性，使用了具有 13 亿、67 亿和 330 亿参数的 DeepSeek-Coder 模型。我们的评估包括三个真实世界的编码任务：代码插入、代码删除和多处代码编辑。结果表明，与标准的完全重新计算方法相比，PIE 在所有模型大小和任务中将计算开销降低了超过 85%，同时很好地逼近了模型性能。

论文链接: https://arxiv.org/pdf/2407.03157

通过在平行数据上持续预训练来提高大语言模型的翻译准确性

原标题: Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data

作者: Minato Kondo, Takehito Utsuro, Masaaki Nagata

机构: 筑波大学 NTT通信科学实验室NTT公司日本

摘要: 在这篇论文中，我们提出了一种两阶段训练方法，其中预训练的大语言模型持续在平行数据上进行预训练，然后在少量高质量的平行数据上进行监督微调。为了调查我们提出的方法的有效性，我们使用一个包含3.8B参数的模型和跨八种不同格式的平行数据进行了持续预训练。我们在十三个日译英和英译日的测试集上评估了这些方法。结果表明，在持续预训练中利用平行数据时，交替使用源语句和目标语句是至关重要的。此外，我们证明了只有在持续预训练数据和推理之间的源语句和目标语句顺序一致的翻译方向上，翻译准确性才会提高。此外，我们证明了基于大语言模型的翻译模型在翻译口语时更加稳健，并且相比监督编码器-解码器模型，使用更少的训练数据就能实现更高的准确性。我们还展示了当持续预训练数据包含交错的源语句和目标语句，并且在源语句中添加标签时，可以实现最高的准确性。

论文链接: https://arxiv.org/pdf/2407.03145

仙人掌：基于认知行为理论的心理咨询对话

原标题: Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory

作者: Suyeon Lee, Sunghwan Kim, Minju Kim, Dongjin Kang, Dongil Yang, Harim Kim, Minseok Kang, Dayi Jung, Min Hee Kim, Seungbeen Lee, Kyoung-Mee Chung, Youngjae Yu, Dongha Lee, Jinyoung Yeo

机构: 延世大学

摘要: 最近，随着越来越多的人表达对心理健康的关注，心理咨询的需求显著增加。这种激增加速了通过使用大语言模型（LLMs）作为咨询师来改善咨询服务的努力。为了确保客户隐私，训练开源LLMs面临一个关键挑战：缺乏现实咨询数据集。为了解决这个问题，我们介绍了Cactus，这是一个多轮对话数据集，通过认知行为疗法（CBT）的目标导向和结构化方法模拟真实生活中的互动。我们通过设计具有不同特定人设的客户，并让咨询师系统地应用CBT技术进行互动，创建了一个多样且逼真的数据集。为了评估我们数据的质量，我们将其与用于评估真实咨询会话的已建立的心理标准进行基准测试，确保与专家评估保持一致。实验结果表明，通过Cactus训练的模型Camel在咨询技能方面优于其他模型，突显了其作为咨询智能体的有效性和潜力。我们将我们的数据、模型和代码公开提供。

论文链接: https://arxiv.org/pdf/2407.03103

大语言模型的社会偏见评估需要提示变化。

原标题: Social Bias Evaluation for Large Language Models Requires Prompt Variations

作者: Rem Hida, Masahiro Kaneko, Naoaki Okazaki

机构: 东京工业大学 MBZUAI 国立情报学研究所

摘要: 警告：本文包含刻板印象和偏见的例子。大语言模型（LLMs）表现出相当大的社会偏见，各种研究已经试图准确评估和减轻这些偏见。先前的研究使用下游任务作为提示来检查社会偏见的程度以进行评估和减轻。虽然大语言模型的输出高度依赖于提示，但先前评估和减轻偏见的研究通常依赖于有限种类的提示。在本文中，我们通过分析任务性能和大语言模型的社会偏见来调查改变提示变化（任务说明和提示，少样本示例，去偏见提示）时大语言模型的敏感性。我们的实验结果显示，大语言模型对提示非常敏感，以至于在比较任务性能和社会偏见的模型时，大语言模型的排名会波动。此外，我们表明大语言模型在性能和社会偏见之间存在由提示引起的权衡。设置更少偏见的提示可能会导致性能降低。此外，实例的模糊性是导致高级大语言模型对提示敏感的原因之一，从而产生各种输出。我们建议像本研究中一样使用多样的提示来比较提示对大语言模型社会偏见的影响。

论文链接: https://arxiv.org/pdf/2407.03129

ALTER：大表格推理的增强

原标题: ALTER: Augmentation for Large-Table-Based Reasoning

作者: Han Zhang, Yuheng Ma, Hanfang Yang

机构: 中国人民大学统计学院应用统计中心

摘要: 尽管广泛的研究已经探讨了大语言模型（LLMs）在基于表格推理中的应用，但大多数方法在应用于大型表格时存在可扩展性问题。为了在这些场景中保持LLMs的优越理解能力，我们引入了ALTER（Augmentation for Large-Table-Based Reasoning）- 一个旨在利用自由形式自然语言（NL）问题中的潜在增强潜力以及半结构化表格数据的框架，通过查询增强器和表格增强器。通过仅利用表格中的少量相关数据，并补充预增强的模式、语义和文字信息，ALTER在基于表格的推理基准测试中取得了出色的表现。我们还对大型表格场景进行了详细分析，比较了不同方法和各种分区原则。在这些场景中，我们的方法胜过所有其他方法，并表现出对扰动的稳健性和效率。

论文链接: https://arxiv.org/pdf/2407.03061

关于多任务学习的上下文感知神经机器翻译案例研究

原标题: A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning

作者: Ramakrishna Appicharla, Baban Gain, Santanu Pal, Asif Ekbal, Pushpak Bhattacharyya

机构: 印度尼加拉技术学院帕特纳分校印度印度尼加拉技术学院焦特布尔分校印度印度尼加拉技术学院孟买分校印度 Wipro人工智能实验室伦敦英国

摘要: 在文档级神经机器翻译（DocNMT）中，多编码器方法常用于编码上下文和源句子。最近的研究表明，上下文编码器会产生噪音，并使模型对上下文选择具有鲁棒性。本文通过显式建模上下文编码来进一步研究这一观察结果，通过多任务学习（MTL）使模型对上下文选择敏感。我们在级联MTL架构上进行实验，该架构包括一个编码器和两个解码器。从上下文生成源句被视为辅助任务，从源句生成目标句是主要任务。我们在德语-英语语言对的News、TED和Europarl语料库上进行了实验。评估结果显示，所提出的MTL方法在低资源环境中表现优于基于串联和多编码器的DocNMT模型，并对上下文选择敏感。然而，我们观察到MTL模型未能从上下文生成源句。这些观察结果与先前的研究一致，这可能表明可用的文档级平行语料库并不具备上下文感知能力，而强大的句子级模型可以胜过具有上下文感知能力的模型。

论文链接: https://arxiv.org/pdf/2407.03076

通过直接偏好对齐改进量化大语言模型的对话能力

原标题: Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment

作者: Janghwan Lee, Seongmin Park, Sukjin Hong, Minsoo Kim, Du-Seong Chang, Jungwook Choi

机构: 汉阳大学 KT

摘要: 大语言模型（LLMs）的快速发展促使它们转变为可以抓住上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术（如指令调整和从人类反馈中学习的强化学习）紧密模拟人类价值观。然而，为了实现LLMs所需的计算效率，通过后训练量化（PTQ）等技术实现，会带来诸如标记翻转等挑战，可能损害聊天机器人的性能。作为回应，我们提出了一种新颖的偏好对齐方法，即量化感知直接偏好优化（QDPO），可以将量化的LLMs与其全精度对应物对齐，从而提高对话能力。在两种不同语言的指令调整LLMs上进行评估，QDPO相对于已建立的PTQ和知识蒸馏微调技术表现出更优异的性能，标志着在开发高效和有效的对话LLMs方面迈出了重要的一步。

论文链接: https://arxiv.org/pdf/2407.03051

原始文本就是你所需要的：面向大语言模型的知识密集型多轮指令调整

原标题: Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model

作者: Xia Hou, Qifeng Li, Jian Yang, Tongliang Li, Linzheng Chai, Xianjie Wu, Hangyuan Ji, Zhoujun Li, Jixuan Nie, Jingbo Dun, Wenfeng Song

机构: 北京信息科技大学计算机学院北京航空航天大学复杂与关键软件环境国家重点实验室

摘要: 指导调优作为一种有效的技术，可以使大型语言模型（LLMs）的输出与人类偏好保持一致。但是如何从原始文档中生成季节性多轮对话以进行指导调优，仍需要进一步探索。在本文中，我们提出了一个名为 R2S 的新颖框架，利用对话逻辑的 CoD-Chain 来指导大型语言模型（LLMs）生成知识密集型的多轮对话，用于指导调优。通过将来自开源数据集和特定领域网络爬虫文档的原始文档整合到基准 K-BENCH 中，我们涵盖了维基百科（英文）、科学（中文）和文物（中文）等多个领域。我们的方法首先确定当前对话的逻辑流程，然后提示LLMs生成用于获取相关响应内容的关键短语。这种方法使得能够创建 GINSTRUCT 指导数据集，将原始文档知识保留在对话式互动中。利用这个数据集，我们对GLLM进行微调，这是一个旨在将原始文档转换为结构化多轮对话的模型，从而将全面的领域知识注入SFT模型以增强指导调优。这项工作标志着在处理和生成更准确、具有上下文细微差别的响应方面，LLMs的适应性和有效性得到了改进。

论文链接: https://arxiv.org/pdf/2407.03040

关于在联邦学习中对大语言模型微调的客户偏好

原标题: On the Client Preference of LLM Fine-tuning in Federated Learning

作者: Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Jing Gao

机构: 普渡大学

摘要: 强化学习与人类反馈（RLHF）通过使用偏好数据集微调预训练的大语言模型（LLM），使LLM生成符合人类偏好的输出。鉴于这些偏好数据集由各个客户持有且具有敏感性，有必要将RLHF实施在联邦学习（FL）框架内，其中客户由于隐私问题而不愿共享其数据。为解决这一问题，我们提出了一个可行的框架，其中客户使用我们提出的FedBis 协作训练一个二元选择器，以其偏好数据集微调LLM。通过训练良好的选择器，我们可以进一步增强生成符合人类偏好的LLM完成。同时，我们提出了一种新颖的算法FedBiscuit，通过根据他们的偏好将客户组织成平衡且不相交的集群，训练多个选择器。与FedBis相比，FedBiscuit在模拟人类偏好的成对完成方面表现出更优异的性能。我们在联邦人类偏好数据集上进行了大量实验，这是首个旨在解决客户之间异构数据分区的基准测试，结果表明FedBiscuit优于FedBis，甚至超过了传统的集中式训练。

论文链接: https://arxiv.org/pdf/2407.03038

阿拉伯文可读性建模策略

原标题: Strategies for Arabic Readability Modeling

作者: Juan Piñeros Liberato, Bashar Alhafni, Muhamed Al Khalil, Nizar Habash

机构: 纽约大学阿布扎比分校

摘要: 自动可读性评估与构建教育、内容分析和可访问性的自然语言处理应用相关。然而，由于阿拉伯语的形态丰富性和有限的可读性资源，阿拉伯语的可读性评估是一项具有挑战性的任务。在本文中，我们提出了一组关于阿拉伯语可读性评估的实验结果，使用了从基于规则的方法到阿拉伯预训练语言模型的多种方法。我们在一个新创建的语料库上报告了不同文本粒度级别（单词和句子片段）的结果。我们的结果表明，结合不同技术可以取得最佳结果，在单词级别达到了86.7的宏F1分数，在片段级别达到了87.9的盲测集上。我们公开提供我们的代码、数据和预训练模型。

论文链接: https://arxiv.org/pdf/2407.03032

利用方言识别进行自动方言文本规范化

原标题: Exploiting Dialect Identification in Automatic Dialectal Text Normalization

作者: Bashar Alhafni, Sarah Al-Towaity, Ziyad Fawzy, Fatema Nassar, Fadhl Eryani, Houda Bouamor, Nizar Habash

机构: 纽约大学阿布扎比分校卡内基梅隆大学卡塔尔分校

摘要: 方言阿拉伯语是日常交流中由阿拉伯语母语使用的主要口语。社交媒体平台的兴起显著扩大了其作为书面语言的使用。然而，阿拉伯语方言没有标准的正字法。这与社交媒体上用户生成内容中固有的噪音相结合，给处理方言阿拉伯语的自然语言处理应用带来了重大挑战。在本文中，我们探讨并报告了 CODAfication 任务，旨在将方言阿拉伯语规范化为方言阿拉伯语的传统正字法（CODA）。我们使用一个独特的多种阿拉伯方言平行语料库，重点关注五种主要城市方言。我们在 CODAfication 任务上对新开发的预训练序列到序列模型进行基准测试。我们进一步展示，使用方言识别信息可以提高所有方言的性能。我们将我们的代码、数据和预训练模型公开提供。

论文链接: https://arxiv.org/pdf/2407.03020

什么影响工具学习的稳定性？工具学习框架稳健性的实证研究

原标题: What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks

作者: Chengrui Huang, Zhengliang Shi, Yuntao Wen, Xiuying Chen, Peng Han, Shen Gao, Shuo Shang

机构: 中国电子科技大学山东大学阿布扎比人工智能大学

摘要: 工具学习方法已经增强了大语言模型（LLMs）与真实世界应用进行交互的能力。许多现有研究对LLMs进行微调或设计提示，以使LLMs能够选择适当的工具并正确调用它们以满足用户需求。然而，在先前的研究中观察到，工具学习的性能因任务、数据集、训练设置和算法而异。如果不了解这些因素的影响，可能会导致结果不一致、模型部署低效和工具利用不佳，最终阻碍LLMs在真实场景中的实际整合和可扩展性。因此，在本文中，我们探讨了内部和外部因素对工具学习框架性能的影响。通过对两个基准数据集进行广泛实验，我们为未来工作得出了一些有见地的结论，包括LLMs可以从增加试验和探索中获益显著的观察。我们相信我们的实证研究为未来的工具学习研究提供了新的视角。

论文链接: https://arxiv.org/pdf/2407.03007

神经语音模型中的人类语言偏见：Wav2Vec2.0 中的音素分类和音系约束

原标题: Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0

作者: Marianne de Heer Kloots, Willem Zuidema

机构: 阿姆斯特丹大学逻辑、语言和计算研究所

摘要: 深度神经语音模型对音系学了解多少？现有研究已经考察了这些模型中诸如音素等个体语言单位的编码。在这里，我们研究单位之间的相互作用。受人类语音知觉经典实验的启发，我们研究了Wav2Vec2如何解决音位结构约束。我们在/l/和/r/之间的声学连续体上合成声音，并将它们嵌入到受控环境中，其中在英语中仅出现/l/、仅出现/r/或两者都不出现。与人类类似，Wav2Vec2模型在处理这种模棱两可的声音时显示出对音位结构合法类别的偏好。通过使用简单的措施分析模型内部在个体刺激水平上的情况，我们发现这种偏好出现在模型的Transformer模块的早期层中。这种效应在ASR微调中被放大，但也存在于完全自监督的模型中。我们的方法展示了如何通过受控刺激设计来帮助定位神经语音模型中特定语言知识。

论文链接: https://arxiv.org/pdf/2407.03005

VIVA：一个以人类价值为基础的视觉驱动决策基准。

原标题: VIVA: A Benchmark for Vision-Grounded Decision-Making with Human Values

作者: Zhe Hu, Yixiao Ren, Jing Li, Yu Yin

机构: 香港理工大学 Case Western Reserve大学

摘要: 这篇论文介绍了VIVA，一个以人类价值驱动的视觉基决策基准。虽然大多数大型视觉语言模型（VLMs）侧重于物理层面的技能，我们的工作是第一个研究它们多模态能力的，利用人类价值观在视觉呈现的情境下做决策。VIVA包含1,062张描绘不同现实情况的图片，以及与之相关的手动注释决策。给定一张图片，模型应选择最合适的行动来解决情况，并提供决策背后的相关人类价值观和原因。基于VIVA的广泛实验显示了VLM在利用人类价值做多模态决策方面的局限性。进一步的分析表明了利用行动后果和预测的人类价值的潜在好处。

论文链接: https://arxiv.org/pdf/2407.03000

SemioLLM：评估大语言模型在癫痫研究中的符号分析能力

原标题: SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research

作者: Meghal Dani, Muthu Jeyanthi Prakash, Zeynep Akata, Stefanie Liebe

机构:

摘要: 大语言模型已经展示出在标准医学问答数据集中编码一般医学知识的能力，但它们在临床实践中的潜在应用需要在特定领域任务中进行评估，而这些任务中缺乏基准。在这项名为semioLLM的研究中，我们测试了最先进的大语言模型（GPT-3.5、GPT-4、Mixtral 8x7B和Qwen-72chat）利用其内部知识和推理能力进行癫痫诊断的能力。具体而言，我们使用包含1269个条目的注释临床数据库，获取将癫痫发作的脑区与未结构化文本描述癫痫发作之间的可能性估计。我们评估了大语言模型在性能、置信度、推理和引用能力方面与临床评估的比较。模型实现了高于随机分类的性能，通过适当的提示工程显著改善了结果，一些模型实现了接近临床性能和推理。然而，我们的分析还揭示了一些重要缺陷，其中几个模型过于自信，表现不佳，同时出现引用错误和幻觉。总之，我们的工作提供了首个在癫痫医学领域比较当前最先进大语言模型的广泛基准，并突出它们利用患者病史中的未结构化文本来辅助卫生保健诊断过程的能力。

论文链接: https://arxiv.org/pdf/2407.03004

大语言模型在价值观问题上是否一致？

原标题: Are Large Language Models Consistent over Value-laden Questions?

作者: Jared Moore, Tanvi Deshpande, Diyi Yang

机构: 斯坦福大学

摘要: 大语言模型（LLMs）似乎会偏向某些价值观来回答调查问题。尽管如此，一些人认为LLMs在模拟特定价值观方面并不一致。它们是吗？为了回答这个问题，我们首先将价值观一致性定义为：在一个问题的释义、一个主题下的相关问题、一个问题的多选和开放式用例，以及一个问题翻译成英语、中文、德语和日语后的相似性。我们将这些度量应用于几个大型（>=34b）的开放LLMs，包括llama-3和gpt-4o，使用涵盖300多个主题的八千个问题。与以往的研究不同，我们发现模型在释义、用例、翻译以及主题内部方面相对一致。然而，仍然存在一些不一致之处。在不具争议的主题上（例如在美国的“感恩节”），模型更加一致，而在有争议的主题上（“安乐死”）则不太一致。基础模型在一致性方面比微调模型更加一致，并且在各个主题上的一致性是均匀的，而微调模型在某些主题（“安乐死”）上比其他主题（“妇女权益”）更加不一致，就像我们的人类受试者一样（n=165）。

论文链接: https://arxiv.org/pdf/2407.02996

朝向 Talkamatic 对话管理器的谈判式对话

原标题: Towards Negotiative Dialogue for the Talkamatic Dialogue Manager

作者: Staffan Larsson, Alexander Berman, David Hjelm

机构: 哥德堡大学 Talkamatic AB

摘要: 这篇论文描述了与谈判对话相关的一些对话现象，这些现象在Talkamatic对话管理器（TDM）的开发版本中得到了实现。这一实现是朝着在TDM中全面覆盖谈判对话的一般特征迈出的初步步骤。

论文链接: https://arxiv.org/pdf/2407.02917

大语言模型作为科学综合评估者

原标题: Large Language Models as Evaluators for Scientific Synthesis

作者: Julia Evans, Jennifer D’Souza, Sören Auer

机构: TIB - 莱布尼茨科技信息中心汉诺威德国

摘要: 我们的研究探讨了最先进的大语言模型（LLMs），如GPT-4和Mistral，能够多好地评估科学摘要或更贴切地说是科学综合的质量，将它们的评估与人类注释者的评估进行比较。我们使用了一个包含100个研究问题及其由GPT-4从五篇相关论文的摘要中制作的综合的数据集，与人类质量评分进行了核对。该研究评估了闭源的GPT-4和开源的Mistral模型评价这些摘要的能力，并提供了其判断的理由。初步结果显示，大语言模型能够提供在一定程度上与质量评分相匹配的逻辑解释，但更深入的统计分析显示LLM和人类评分之间存在较弱的相关性，表明了大语言模型在科学综合评估中的潜力和当前限制。

论文链接: https://arxiv.org/pdf/2407.02977

Mast Kalandar在SemEval-2024任务8中：在文本起源的轨迹上：RoBERTa-BiLSTM方法用于检测AI生成的文本

原标题: Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text

作者: Jainit Sushil Bafna, Hardik Mittal, Suyash Sethia, Manish Shrivastava, Radhika Mamidi

机构: 印度国际信息技术学院（IIIT Hyderabad）

摘要: 大语言模型（LLMs）展示了在生成对各种用户查询流畅回应方面的令人印象深刻的能力。然而，关于这些文本在新闻、教育和学术领域潜在滥用的担忧已经浮出水面。SemEval 2024引入了多生成器、多领域和多语言黑盒机器生成文本检测任务，旨在开发自动化系统来识别机器生成的文本并检测潜在的滥用。在本文中，我们i）提出了一个基于RoBERTa-BiLSTM的分类器，旨在将文本分类为两类：AI生成或人类生成；ii）进行了与基准方法的比较研究，以评估其有效性。本文有助于推进自动文本检测系统的发展，以解决机器生成文本滥用带来的挑战。我们的架构在官方排行榜上排名第46，准确率为80.83，在125个参赛队伍中。

论文链接: https://arxiv.org/pdf/2407.02978

FSM：基于有限状态机的零样本提示范式，用于多跳问题回答

原标题: FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering

作者: Xiaochen Wang, Junqing He, Zhe yang, Yiru Wang, Xiangdi Meng, Kunhao Pan, Zhifang Sui

摘要: 大语言模型（LLMs）结合思维链（COT）提示在简单自然语言推理任务上展现出令人印象深刻的能力。然而，它们在多跳问题回答（MHQA）任务上表现不佳，原因包括幻觉、错误传播和有限的上下文长度等多个挑战。我们提出了一种提示方法，有限状态机（FSM），以增强LLM在复杂任务中的推理能力，同时提高效果和可信度。与COT方法不同，FSM通过将问题迭代地分解为多轮子问题，并及时进行自我校正，从而提高每一步答案的准确性来解决MHQA。具体而言，FSM一次处理一个子问题，并根据当前结果和状态决定下一步操作，以自动机的形式进行。在基准测试中的实验显示了我们方法的有效性。虽然我们的方法在相对较简单的数据集上表现与基准相当，但在像Musique这样具有挑战性的数据集上表现出色。此外，这种方法减轻了幻觉现象，即在中间推理出现错误的情况下仍能恢复正确的最终答案。此外，我们的方法提高了LLMs遵循指定输出格式要求的能力，显著降低了答案解释的难度和重新格式化的需求。

论文链接: https://arxiv.org/pdf/2407.02964

探究多语种说话者匿名化的可行性

原标题: Probing the Feasibility of Multilingual Speaker Anonymization

作者: Sarina Meyer, Florian Lux, Ngoc Thang Vu

机构: 斯图加特大学自然语言处理研究所德国

摘要: 在说话者匿名化中，语音记录会被修改，以隐藏说话者的身份。虽然这项技术可以帮助保护全球个人的隐私，但目前的研究几乎完全集中在英语数据上，限制了其应用范围。在这项研究中，我们通过将语言相关组件转换为多语言对应组件，将最先进的匿名化系统扩展到九种语言。实验测试表明，匿名化语音对隐私攻击和语音质量下降的抵抗力表现出整体成功，适用于所有语言。结果表明，在英语数据上训练的说话者嵌入可以跨语言应用，并且语言的匿名化性能主要受到用于其的语音合成组件质量的影响。

论文链接: https://arxiv.org/pdf/2407.02937

比较基于特征和基于上下文的个人身份信息泛化级别预测方法

原标题: Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction

作者: Kailin Zhang, Xinying Qiu

机构: 广东外语外贸大学

摘要: 在文本数据中保护个人可识别信息（PII）对于隐私至关重要，但当前的PII泛化方法面临着诸如数据分布不均和有限上下文意识等挑战。为了解决这些问题，我们提出了两种方法：一种基于特征的方法利用机器学习来提高对结构化输入的性能，另一种是一种新颖的考虑原始文本与泛化候选项之间更广泛上下文和语义关系的上下文感知框架。上下文感知方法采用Multilingual-BERT进行文本表示，功能转换和均方误差评分以评估候选项。对WikiReplace数据集的实验表明，这两种方法的有效性，其中上下文感知方法在不同规模下表现优于基于特征的方法。这项工作通过突出特征选择、集成学习和整合上下文信息以实现文本匿名化中更好的隐私保护，有助于推进PII泛化技术。

论文链接: https://arxiv.org/pdf/2407.02837

研究负责上下文和时间语义变化的上下文化词嵌入维度

原标题: Investigating the Contextualised Word Embedding Dimensions Responsible for Contextual and Temporal Semantic Changes

作者: Taichi Aida, Danushka Bollegala

机构: 东京都立大学利物浦大学

摘要: 随着时间的推移以及不同语境中，单词的含义也会发生变化。意识到语境的词嵌入（SCWEs），例如通过在Word-in-Context（WiC）数据上微调掩盖语言模型（MLMs）而产生的XL-LEXEME所生成的词嵌入，试图在上下文化的词嵌入（CWE）空间中编码单词的这种语义变化。尽管SCWEs在上下文/时间语义变化检测（SCD）基准测试中表现出色，但目前仍不清楚这些含义变化是如何编码在嵌入空间中的。为了研究这一点，我们在主成分分析（PCA）和独立成分分析（ICA）转换下比较了预训练的CWEs及其在上下文和时间语义变化基准测试中的微调版本。我们的实验结果揭示了一些新颖的见解，例如（a）尽管在预训练的CWE空间中存在较少数量的轴负责单词的语义变化，但这些信息在微调时分布在所有维度上；（b）与先前研究CWE几何形状的工作相反，我们发现PCA更能有效地表示语义变化，而不是ICA。源代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.02820

Github: https://github.com/LivNLP/svp-dims

基于方面的情感分析技术：一项比较研究

原标题: Aspect-Based Sentiment Analysis Techniques: A Comparative Study

作者: Dineth Jayakody, Koshila Isuranda, A V A Malkith, Nisansa de Silva, Sachintha Rajith Ponnamperuma, G G N Sandamali, K L K Sudheera

机构: 罗瑟纳大学莫拉图瓦大学 Emojot 公司

摘要: 自数字化时代开始以来，客户反馈和在线评论无疑是企业洞察的主要来源。因此，对这些来源进行比较分析已成为任何希望在竞争中获得优势并提高客户忠诚度的企业的默认操作方式。情感分析是一种重要方法，有助于衡量公众兴趣，揭示市场趋势，并分析竞争对手。虽然传统情感分析侧重于整体情感，但随着时间的推移，探索公众对评论中提到的各种特定主题、产品和服务的意见和情感在更细粒度的层面上变得重要。为此，基于方面的情感分析（ABSA），借助人工智能（AI）技术的进步，已经实现了从简单的词级分析到对语气和上下文敏感的分析的范式转变，重点是识别文本中的特定方面，并确定与每个方面相关的情感。在这项研究中，我们比较了几种深度神经网络方法在两个基准数据集（Restaurant14 和 Laptop-14）上进行 ABSA，发现 FAST LSA 获得了最佳的整体结果，准确率分别为 87.6% 和 82.6%，但没有超过 LSA+DeBERTa，后者分别报告了 90.33% 和 86.21% 的准确率。

论文链接: https://arxiv.org/pdf/2407.02834

用于无术语手语翻译和制作的通用术语级表示

原标题: Universal Gloss-level Representation for Gloss-free Sign Language Translation and Production
作者: Eui Jun Hwang, Sukmin Cho, Huije Lee, Youngwoo Yoon, Jong C. Park

机构: 韩国科学技术院（KAIST）电子与通信研究院 (ETRI)

摘要: 手语对聋人和听力有困难的人至关重要，由于其多模态特性和将手语动作映射到口语单词时固有的歧义性，因此在翻译和制作过程中存在独特挑战。先前的方法通常依赖于术语标注，需要耗费大量时间和手语专业知识。出现了无术语的方法来解决这些限制，但它们通常依赖于外部手语数据或词典，无法完全消除对术语标注的需求。人们明显需要一种全面的方法，可以取代术语标注，并可用于手语翻译（SLT）和手语制作（SLP）。我们介绍了通用术语级表示（UniGloR），这是一个统一的自监督解决方案，可用于SLT和SLP，经过PHOENIX14T、How2Sign和NIASL2021等多个数据集的训练。我们的结果展示了UniGloR在翻译和制作任务中的有效性。我们进一步报告了对先前未见数据的手语识别（SLR）的令人鼓舞的结果。我们的研究表明，自监督学习可以以统一的方式进行，为未来研究中的创新和实际应用铺平道路。

论文链接: https://arxiv.org/pdf/2407.02854

Translatotron-V(ison)：一种用于图像内端到端机器翻译的模型

原标题: Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation

作者: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Min Zhang, Jinsong Su

机构: 厦门大学腾讯公司苏州大学

摘要: 图像机器翻译（IIMT）旨在将包含源语言文本的图像翻译成包含目标语言翻译的图像。在这方面，传统的级联方法存在诸如错误传播、大量参数以及部署和保留输入图像的视觉特征困难等问题。因此，构建端到端模型已成为一种选择，然而，面临两个主要挑战：1）巨大的建模负担，因为需要同时学习跨语言的对齐和保留输入图像的视觉特征；2）直接预测过长像素序列的困难。在本文中，我们提出了一个由四个模块组成的端到端IIMT模型\textit{Translatotron-V(ision)}。除了图像编码器和图像解码器外，我们的模型还包含一个目标文本解码器和一个图像标记器。其中，目标文本解码器用于减轻语言对齐负担，而图像标记器将长序列像素转换为较短的视觉标记序列，防止模型过度关注低级视觉特征。此外，我们提出了一个两阶段训练框架，以帮助模型学习跨模态和跨语言的对齐。最后，我们提出了一种名为Structure-BLEU的位置感知评估指标，用于评估生成图像的翻译质量。实验结果表明，我们的模型在仅使用70.9％的参数的情况下，与级联模型相比取得了竞争性表现，并且明显优于像素级端到端IIMT模型。

论文链接: https://arxiv.org/pdf/2407.02894

使用紧凑且一致的下一个 Token 分布高效训练语言模型

原标题: Efficient Training of Language Models with Compact and Consistent Next Token Distributions

作者: Ashutosh Sathe, Sunita Sarawagi

机构: 印度理工学院孟买

摘要: 最大化下一个标记的可能性是预训练语言模型的一个已建立的统计学上合理的目标。在本文中，我们展示了通过使用折叠的 $n$ -gram分布对语料进行预聚合，我们可以更快地训练出更好的模型。先前的研究提出了语料级 $n$ -gram统计作为正则化器；然而，如果天真地构建和查询这些 $n$ -gram，将会证明是昂贵的并且显著地阻碍训练速度，从而限制了它们在现代大型语言模型预训练中的应用。

我们引入了下一个标记分布的另一种紧凑表示，该表示在期望上与完整的 $n$ -gram分布一致，同时与标准的下一个标记损失相比，显著减少了小批量之间的方差。从经验上讲，我们证明了 $n$ -gram正则化模型和我们的近似方法相比现有方法在模型质量和收敛速度上都取得了显著的改进。此外，我们的近似方法有助于将收益扩展到更大的数据集和模型，相比直接的 $n$ -gram正则化方法。

论文链接: https://arxiv.org/pdf/2407.02819

从 52B 到 1T：通过远程大语言模型系列学到的经验

原标题: 52B to 1T: Lessons Learned via Tele-FLM Series

作者: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang

机构: 北京人工智能学院中国电信股份有限公司南洋理工大学

摘要: 大语言模型（LLMs）代表着迈向通用人工智能的重要进展。随着规模定律强调增加模型大小的潜力，学术界加大了对容量超过50亿参数的LLMs的研究力度。本技术报告基于我们之前与Tele-FLM（也称为FLM-2）的合作，这是一个公开可用的520亿参数模型。我们深入探讨了两个主要领域：首先讨论了我们在Tele-FLM-52B上对监督微调（SFT）的观察，支持SFT数据构建的“少即是多”方法；其次，我们展示了关于如何从520亿逐步增长到1020亿，然后再到1万亿参数的模型的最佳实践的实验和分析。我们将开源一个1T模型检查点，即Tele-FLM-1T，以推动进一步的训练和研究。

论文链接: https://arxiv.org/pdf/2407.02783

一个用于量子有限状态语言与密度映射的框架

原标题: A Framework for Quantum Finite-State Languages with Density Mapping

作者: SeungYeop Baik, Sicheol Sung, Yo-Sub Han

机构: 延世大学

摘要: 量子有限状态自动机（QFA）是一个理论模型，旨在模拟量子系统在有限记忆情况下对顺序输入字符串的演化。我们将QFA的语言定义为一组字符串，当从初始状态处理时，这些字符串会使QFA进入接受状态。QFA展示了量子计算如何比经典计算实现更高效。虽然是最简单的量子模型之一，但由于需要对自动机施加幺正约束的量子力学初步知识，从零开始构建QFA仍然是具有挑战性的。此外，即使QFA被正确组装，当前量子计算机的限制也可能导致模拟结果的波动，这取决于如何将组装的QFA转化为量子电路。

我们提出了一个框架，提供了一种简单直观的方法来构建QFA并最大限度地提高模拟精度。我们的框架依赖于两种方法：首先，它为基础类型的QFA提供了预定义的构造，这些QFA可以识别特殊语言MOD和EQU。它们扮演着更复杂QFA的基本构建块的角色。换句话说，可以使用标准语言操作从这些基础自动机获得更复杂的QFA。其次，我们通过将这些QFA转换为量子电路来提高模拟精度，使得生成的电路在嘈杂的量子计算机上表现良好。

我们的框架可以在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.02776

Github: https://github.com/sybaik1/qfa-toolkit

MLKD-BERT：预训练语言模型的多层知识蒸馏

原标题: MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models

作者: Ying Zhang, Ziheng Yang, Shufan Ji

摘要: 知识蒸馏是一种有效的预训练语言模型压缩技术。尽管现有的知识蒸馏方法对于最典型的模型BERT表现良好，但在两个方面仍有进一步改进的空间：可以进一步探索关系级知识以提高模型性能；学生注意力头数量的设置可以更灵活，以减少推理时间。因此，我们提出了一种新颖的知识蒸馏方法MLKD-BERT，用于在师生框架中蒸馏多层知识。在GLUE基准测试和抽取式问答任务上进行的大量实验证明，我们的方法在BERT上优于最先进的知识蒸馏方法。此外，MLKD-BERT可以灵活设置学生注意力头数量，可以大幅减少推理时间而性能下降很小。

论文链接: https://arxiv.org/pdf/2407.02775

多模态对话中情感和意图的联合理解：一个基准数据集

原标题: Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset

作者: Rui Liu, Haolin Zuo, Zheng Lian, Xiaofen Xing, Björn W. Schuller, Haizhou Li

机构: 内蒙古大学中国科学院南方科技大学慕尼黑工业大学香港中文大学深圳

摘要: 多模态对话中情感和意图的联合理解（MC-EIU）旨在解码表现在多模态对话历史中的语义信息，同时推断当前话语的情感和意图。MC-EIU是许多人机界面的关键技术。然而，在标注、模态、语言多样性和可访问性方面缺乏可用的数据集。在这项工作中，我们提出了一个MC-EIU数据集，包括7种情感类别、9种意图类别、3种模态，即文本、声学和视觉内容，以及两种语言，即英语和普通话。此外，该数据集完全开源，可免费访问。据我们所知，MC-EIU是第一个用于多模态对话的全面且丰富的情感和意图联合理解数据集。随着数据集的发布，我们还开发了一种情感和意图交互（EI $^2$ ）网络作为参考系统，通过建模多模态对话中情感和意图之间的深层相关性。通过比较实验和消融研究，我们展示了所提出的EI $^2$ 方法在MC-EIU数据集上的有效性。数据集和代码将在以下网址提供：this https URL。

论文链接: https://arxiv.org/pdf/2407.02751

Github: https://github.com/MC-EIU/MC-EIU

学习减少：改善大语言模型在结构化数据上的性能

原标题: Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data

作者: Younghun Lee, Sungchul Kim, Ryan A. Rossi, Tong Yu, Xiang Chen

摘要: 大语言模型（LLMs）在各种下游任务上取得了胜任的表现，但现有研究表明，LLMs在结构化数据上的推理是具有挑战性的。这是因为LLMs需要理解长结构化数据或在推理之前选择最相关的证据，而这两种方法都不是微不足道的。本文提出了一个框架，Learning to Reduce，该框架使用On-Policy Learning对语言模型进行微调，以生成输入结构化数据的简化版本。与GPT-4等最先进的LLMs相比，Learning to Reduce不仅在减少输入方面取得了出色的性能，而且在不同数据集上展现了泛化能力。我们进一步展示，使用我们框架进行微调的模型有助于LLMs在表格问答任务上表现更好，特别是当上下文更长时。

论文链接: https://arxiv.org/pdf/2407.02750

e-Health CSIRO在“Discharge Me！”2024年：利用微调的语言模型生成出院总结部分

原标题: e-Health CSIRO at “Discharge Me!” 2024: Generating Discharge Summary Sections with Fine-tuned Language Models

作者: Jinghui Liu, Aaron Nicolson, Jason Dowling, Bevan Koopman, Anthony Nguyen

机构: 澳大利亚CSIRO e-Health研究中心

摘要: 临床文档是临床医生日常工作中的重要方面，通常需要大量时间。BioNLP 2024关于简化出院文档（Discharge Me!）的共享任务旨在通过自动生成出院总结部分（包括简要住院经过和出院指导）来减轻这种文档负担，这些内容通常需要耗费大量时间进行综合和手动撰写。我们通过微调多个开源语言模型（LMs）来处理生成任务，包括仅解码器和编码器-解码器LMs，并在输入上下文的各种配置上进行微调。我们还研究了不同的解码算法设置、模型整合或合并以及模型专业化。我们的结果表明，在生成任务中，根据出院总结内容在目标部分之前进行调节是有效的。此外，我们发现，较小的编码器-解码器LMs可以与通过LoRA微调的较大的基于解码器的LMs一样有效，甚至略有改善。我们团队（aehrc）的模型检查点是公开可用的。

论文链接: https://arxiv.org/pdf/2407.02723

MentalAgora：通过多智能体辩论和属性控制，实现精准个性化心理健康护理的门户。

原标题: MentalAgora: A Gateway to Advanced Personalized Care in Mental Health through Multi-Agent Debating and Attribute Control

作者: Yeonji Lee, Sangjun Park, Kyunghyun Cho, JinYeong Bak

机构: 成均馆大学上海交通大学纽约大学

摘要: 随着全球心理健康问题不断升级，对先进数字支持系统的需求十分迫切。我们推出了MentalAgora，这是一个新颖的框架，采用了大语言模型，并通过多个智能体之间的互动来提供量身定制的心理健康支持。该框架通过三个阶段运作：战略性辩论、定制顾问创建和响应生成，实现根据个体用户偏好和治疗需求动态定制响应。我们进行了实验，利用与心理健康专业人士合作制作的高质量评估数据集TherapyTalk，结果显示MentalAgora生成了与专家一致且增强了用户偏好的响应。我们的评估，包括实验和用户研究，表明MentalAgora符合专业标准，有效满足用户偏好，为数字心理健康干预设立了新的基准。

论文链接: https://arxiv.org/pdf/2407.02736

通过基于规则的数据增强提升生物医学概念提取

原标题: Boosting Biomedical Concept Extraction by Rule-Based Data Augmentation

作者: Qiwei Shao, Fengran Mo, Jian-Yun Nie

机构: DIRO Université de Montréal Quebec Canada

摘要: 文档级生物医学概念提取是识别给定文档中提到的生物医学概念的任务。最近的进展已经将预训练语言模型应用到这一任务中。然而，领域特定数据的稀缺性以及概念与它们的规范名称偏离通常会阻碍这些模型的有效性。为了解决这个问题，我们使用MetaMapLite，一个现有的基于规则的概念映射系统，从PubMed和PMC生成额外的伪标注数据。标注数据用于增强有限的训练数据。通过大量实验，这项研究展示了手工制作的概念映射工具对训练更好的概念提取模型的实用性。

论文链接: https://arxiv.org/pdf/2407.02719

当选政治人物和他们的选民有多相似？来自在线社交网络的定量证据

原标题: How Similar Are Elected Politicians and Their Constituents? Quantitative Evidence From Online Social Network

作者: Waleed Iqbal, Gareth Tyson, Ignacio Castro

机构: 伦敦玛丽女王大学香港科技大学

摘要: 政治家和选民有多相似？这是民主代表制核心的一个关键问题，尤其是在政治不满和民粹主义抬头的时候。为了回答这个问题，我们比较了当选政治家和他们选民的在线话语。我们收集了美国和英国两国在两年半时间内（2020年9月至2023年2月）的选区级数据集，包括：（i）当选政治代表的 Twitter 时间线（560万条推文）（英国议会议员595名，美国众议院代表433名），（ii）选区的 Nextdoor 帖子（2180万条帖子）（美国98.4％，英国91.5％的选区）。我们发现，当选政治家在内容和风格上往往与他们的选民同样相似，无论选区是否选举了右翼或左翼政治家。选举胜利的规模和选区收入水平展现出一个微妙的画面。选举胜利越小，风格越相似，内容越不相似。选区收入越低，内容越相似。在风格方面，较贫困的选区往往具有更相似的情绪，以及更不相似的心理文本特征（即使用 LIWC 类别测量）。

论文链接: https://arxiv.org/pdf/2407.03255

InternLM-XComposer-2.5：一款多才多艺的大视觉语言模型，支持长上下文输入和输出。

原标题: InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

作者: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

机构: 上海人工智能实验室香港中文大学清华大学 SenseTime Group

摘要: 我们介绍 InternLM-XComposer-2.5（IXC-2.5），这是一个多才多艺的大视觉语言模型，支持长上下文输入和输出。IXC-2.5在各种文本图像理解和合成应用中表现出色，仅使用7B LLM后端即可实现GPT-4V级别的能力。通过使用24K交错的图像文本上下文进行训练，它可以通过RoPE外推轻松扩展到96K长上下文。这种长上下文能力使IXC-2.5在需要广泛输入和输出上下文的任务中表现出色。与其之前的2.0版本相比，InternLM-XComposer-2.5在视觉语言理解方面有三个主要升级：（1）超高分辨率理解，（2）细粒度视频理解，以及（3）多轮多图像对话。除了理解，IXC-2.5还通过使用额外的LoRA参数扩展到两个引人注目的应用，用于文本图像合成：（1）制作网页和（2）撰写高质量的文本图像文章。IXC-2.5已在28个基准测试上进行评估，在16个基准测试上胜过现有的开源最先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro竞争激烈。InternLM-XComposer-2.5可在此 https URL 上公开获取。

论文链接: https://arxiv.org/pdf/2407.03320

Github: https://github.com/InternLM/InternLM-XComposer

BACON：使用概念图的 Bag-of-Concept 图来增强您的 VLM 以减轻幻觉

原标题: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

作者: Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Chaojie Mao, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng

机构: 上海交通大学阿里巴巴集团宾夕法尼亚大学滑铁卢大学

摘要: 这篇论文提出了基于概念图的袋装（BACON），为具有有限语言能力的模型提供了品尝视觉语言模型（VLMs）特权的机会，并提升了检测、视觉问答（VQA）和图像生成等下游任务。由于物理世界中的视觉场景由对象之间的复杂关系构成，BACON将注释分解为基本最小元素，并以图结构呈现。基于元素的风格使理解变得容易，结构化组合消除了难以定位的困难。精心设计的提示通过公开可用的VLMs和分割方法生成BACON标题。通过这种方式，我们收集了一个包含10万个带注释图像的数据集，赋予VLMs出色的能力，例如准确生成BACON，将提示转换为BACON格式，以BACONr风格设想场景，并通过交互式对话动态修改BACON中的元素等。广泛的代表性实验，包括检测、VQA和图像生成任务，表明BACON是实现先前无法完成的任务或在当前尖端解决方案中脱颖而出的救命稻草。

论文链接: https://arxiv.org/pdf/2407.03314

自我评估作为对大语言模型遭受对抗性攻击的一种防御方式

原标题: Self-Evaluation as a Defense Against Adversarial Attacks on LLMs

作者: Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh

机构: 新加坡国立大学

摘要: 当大语言模型被部署在敏感的、面向人类的环境中时，至关重要的是它们不会输出不安全、带有偏见或侵犯隐私的结果。因此，这些模型既经过训练，也被指示拒绝回答诸如“告诉我如何制造炸弹”等不安全提示。我们发现，尽管有这些保障措施，但通过在模型输入的末尾添加一个空格就可以简单地打破模型的防御。在对八个开源模型进行研究中，我们证明这足以作为一种强有力的攻击手段，导致大多数模型生成具有非常高成功率的有害输出。我们研究了这种行为的原因，发现在标记化训练数据中单个空格出现的上下文会促使模型在提示时生成列表，从而覆盖了拒绝回答不安全请求的训练信号。我们的发现凸显了当前模型对齐的脆弱状态，并倡导开发更加健壮的对齐方法的重要性。代码和数据将在此 https URL 上提供。

论文链接: https://arxiv.org/pdf/2407.03234

Github: https://github.com/Linlt-leon/Adversarial-Alignments

单个字符扰动会破坏大语言模型的对齐。

原标题: Single Character Perturbations Break LLM Alignment

作者: Leon Lin, Hannah Brown, Kenji Kawaguchi, Michael Shieh

机构: 新加坡国立大学

摘要: 当大语言模型被部署在敏感的、面向人类的环境中时，至关重要的是它们不会输出不安全、带有偏见或侵犯隐私的结果。因此，这些模型不仅经过训练，还被指示拒绝回答诸如“告诉我如何制造炸弹”之类的不安全提示。我们发现，尽管有这些保障措施，但通过在模型输入的末尾添加一个空格就可能简单地打破模型的防御。在对八个开源模型进行研究中，我们证明这种方法足以作为一种强有力的攻击手段，导致大多数模型生成有害输出的成功率非常高。我们研究了这种行为的原因，发现在标记化训练数据中单个空格出现的上下文会促使模型在提示时生成列表，从而覆盖了拒绝回答不安全请求的训练信号。我们的发现突显了当前模型对齐的脆弱状态，并倡导开发更加健壮的对齐方法的重要性。代码和数据将在此 https 链接上提供。

论文链接: https://arxiv.org/pdf/2407.03232

Github: https://github.com/hannah-aught/space_attack

CiteAssist：一种用于自动预印本引用和BibTeX生成的系统

原标题: CiteAssist: A System for Automated Preprint Citation and BibTeX Generation

作者: Lars Benedikt Kaesberg, Terry Ruas, Jan Philip Wahle, Bela Gipp

机构: 哥廷根大学洛斯·本尼迪克特·卡斯伯格亚恩·菲利普·瓦勒特里·鲁阿斯贝拉·吉普

摘要: 我们提出了CiteAssist，这是一个用于自动化生成预印本的BibTeX条目的系统，简化了文献注释过程。我们的系统提取元数据，如作者姓名、标题、出版日期和关键词，以在文档中创建标准化的注释。CiteAssist会自动将BibTeX引用附加到PDF的末尾，并在文档的第一页上进行链接，以便其他研究人员立即获得文章的正确引用。这种方法通过确保注释始终可访问，无论用于发布或访问预印本的存储库如何，促进了平台的灵活性。即使在CiteAssist外部查看预印本，这些注释也仍然可用。此外，该系统会根据提取的关键词向预印本添加相关的相关论文，为研究人员提供除相关工作中的论文之外的其他出版物以供进一步阅读。研究人员可以通过一个免费且公开可用的网络界面增强他们的预印本组织和参考管理工作流程。

论文链接: https://arxiv.org/pdf/2407.03192

SOS！针对开源大型语言模型的软提示攻击

原标题: SOS! Soft Prompt Attack Against Open-Source Large Language Models

作者: Ziqing Yang, Michael Backes, Yang Zhang, Ahmed Salem

机构: CISPA Helmholtz信息安全中心微软

摘要: 开源的大语言模型（LLMs）在公众和工业界中变得越来越受欢迎，因为它们可以定制、微调和免费使用。然而，一些开源的LLMs在使用前需要获得批准，这导致第三方发布了他们自己易于访问的版本。类似地，第三方一直在发布这些LLMs的微调或量化变体。这些版本特别受用户欢迎，因为它们易于访问且减少了计算资源需求。这一趋势增加了训练时间攻击的风险，危及了LLMs的完整性和安全性。在这项工作中，我们提出了一种新的训练时间攻击，SOS，它设计成在计算需求上较低，并且不需要干净的数据或修改模型权重，从而保持模型的效用完整。该攻击解决了各种情况下的安全问题，包括后门攻击、越狱攻击和提示窃取攻击。我们的实验结果表明，所提出的攻击在所有评估目标上都是有效的。此外，我们介绍了我们SOS技术的另一面，即版权标记 - 一种新颖的技术，使用户能够标记其受版权保护的内容并防止模型使用它。

论文链接: https://arxiv.org/pdf/2407.03160

LoRA-Guard：大语言模型内容审查的参数高效防护栏适应

原标题: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models

作者: Hayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay

机构: 三星研究与开发学院英国分部(SRUK)

摘要: Guardrails已经成为大语言模型（LLMs）内容审查的安全对齐的替代方案。现有基于模型的Guardrails并未设计用于资源受限的计算便携设备，例如手机，其中越来越多的设备在本地运行基于LLM的应用程序。我们介绍了LoRA-Guard，这是一种参数高效的Guardrail适应方法，依赖于LLMs和Guardrail模型之间的知识共享。LoRA-Guard从LLMs中提取语言特征，并使用低秩适配器将其调整为内容审查任务，同时双路径设计防止在生成任务上出现任何性能下降。我们展示了LoRA-Guard在维持准确性的同时，比现有方法表现更好，参数开销降低了100-1000倍，实现了设备上的内容审查。

论文链接: https://arxiv.org/pdf/2407.02987

从语音中独立于说话人和文本的估计发音运动和音素对齐

原标题: Speaker- and Text-Independent Estimation of Articulatory Movements and Phoneme Alignments from Speech

作者: Tobias Weise, Philipp Klumpp, Kubilay Can Demir, Paula Andrea Pérez-Toro, Maria Schuster, Elmar Noeth, Bjoern Heismann, Andreas Maier, Seung Hee Yang

机构: 弗赖堡-亚历山大大学德国慕尼黑路德维希-马克西米利安大学哥伦比亚安蒂奥基亚大学

摘要: 这篇论文介绍了两个先前分开处理的任务的新颖组合：声学到发音的语音反演（AAI）和音素到发音的运动估计（PTA）。我们将这个联合任务称为声学音素到发音的语音反演（APTAI），并探讨了两种不同的方法，在推断过程中都可以独立于说话者和文本地工作。我们采用多任务学习设置，最终的目标是以原始语音作为输入，估计相应的发音运动、音素序列和音素对齐。虽然两种提出的方法都满足这些要求，但它们在实现与音素相关的预测的方式上有所不同：一种基于帧分类，另一种基于两阶段训练过程和强制对齐。我们在AAI任务中达到了竞争性的0.73平均相关性，并与最先进的文本相关音素强制对齐器相比，实现了高达约87%的帧重叠。

论文链接: https://arxiv.org/pdf/2407.03132

KeyVideoLLM: 迈向大规模视频关键帧选择

原标题: KeyVideoLLM: Towards Large-scale Video Keyframe Selection

作者: Hao Liang, Jiapeng Li, Tianyi Bai, Chong Chen, Conghui He, Bin Cui, Wentao Zhang

机构: 北京大学中国国家开放大学华为云业务部上海人工智能实验室

摘要: 最近，随着网络视频的兴起，管理和理解大规模视频数据集变得越来越重要。由于其强大的视频理解能力，视频大语言模型（VideoLLMs）近年来应运而生。然而，针对VideoLLMs的训练和推断过程需要大量数据，这给数据管理带来了重大挑战，特别是在效率、鲁棒性和有效性方面。在这项工作中，我们提出了KeyVideoLLM，这是一种基于文本-视频帧相似性的关键帧选择方法，旨在高效、稳健和有效地管理VideoLLM数据。具体而言，KeyVideoLLM实现了高达60.9倍的数据压缩率，大大降低了磁盘空间需求，证明了其高效性。此外，与现有的关键帧选择方法相比，它在所有视频格式和比例上保持了100%的选择成功率，将处理速度提高了多达200倍，并且不需要超参数调整。除了其出色的效率和鲁棒性外，KeyVideoLLM还在视频问答任务中提高了模型性能，无论是在训练阶段还是推断阶段。值得注意的是，它在各种数据集上始终取得了最先进的实验结果。

论文链接: https://arxiv.org/pdf/2407.03104

JailbreakHunter：一种从大规模人类-大语言模型对话数据中发现越狱提示的视觉分析方法

原标题: JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets

作者: Zhihua Jin, Shiyi Liu, Haotian Li, Xun Zhao, Huamin Qu

机构: 清华大学哈尔滨工业大学

摘要: 大语言模型（LLMs）引起了广泛关注，但也引发了滥用风险的担忧。破解提示（Jailbreak prompts）是一种常见的针对LLMs的对抗性攻击类型，不断演变以突破LLMs的安全协议。为解决这一问题，LLMs定期根据报告的破解提示更新安全补丁。然而，恶意用户经常保留他们成功的破解提示以利用LLMs。为了揭示这些私人破解提示，需要对大规模对话数据集进行深入分析，以识别仍然能够绕过系统防御的提示。由于对话数据的庞大数量、破解提示的多样特征以及它们存在于复杂的多轮对话中，这项任务具有极高的挑战性。为了解决这些挑战，我们引入了JailbreakHunter，这是一种用于识别大规模人-LLM对话数据集中破解提示的视觉分析方法。我们设计了一个包括三个分析层次的工作流程：组级别、对话级别和轮次级别。组级别分析使用户能够了解对话的分布情况，并使用多个标准（如与先前研究中报告的破解提示的相似性和攻击成功率）来识别可疑对话。对话级别分析有助于理解对话的进展，并帮助在对话背景中发现破解提示。轮次级别分析允许用户探索单轮提示与报告的破解提示之间的语义相似性和标记重叠，有助于识别新的破解策略。通过多个案例研究和专家访谈验证了系统的有效性和可用性。

论文链接: https://arxiv.org/pdf/2407.03045

ObfuscaTune：在私有数据集上对专有大语言模型进行混淆的离线微调和推理

原标题: ObfuscaTune: Obfuscated Offsite Fine-tuning and Inference of Proprietary LLMs on Private Datasets

作者: Ahmed Frikha, Nassim Walha, Ricardo Mendes, Krishna Kanth Nakka, Xue Jiang, Xuebing Zhou

机构: 华为慕尼黑研究中心

摘要: 这项工作解决了一个及时但鲜为人知的问题，即在另一个数据所有者实体的机密/私人数据上执行专有LLM的推理和微调，以确保模型和数据的保密性。在此过程中，微调是在外部进行的，即在第三方云提供商的计算基础设施上进行。我们通过提出ObfuscaTune来解决这个问题，这是一种结合了简单而有效的混淆技术和对机密计算的高效利用的全新、高效且完全保留效用的方法（仅将5%的模型参数放置在TEE上）。我们通过在四个NLP基准数据集上验证不同大小的GPT-2模型来实证证明ObfuscaTune的有效性。最后，我们将我们的方法的一个朴素版本与之进行比较，以突出在我们的方法中使用具有低条件数的随机矩阵的必要性，以减少混淆引起的错误。

论文链接: https://arxiv.org/pdf/2407.02960

IncogniText：通过基于LLM的私有属性随机化增强隐私的条件文本匿名化

原标题: IncogniText: Privacy-enhancing Conditional Text Anonymization via LLM-based Private Attribute Randomization

作者: Ahmed Frikha, Nassim Walha, Krishna Kanth Nakka, Ricardo Mendes, Xue Jiang, Xuebing Zhou

机构: 华为慕尼黑研究中心

摘要: 在这项工作中，我们解决了文本匿名化的问题，其目标是防止对手正确推断作者的私人属性，同时保持文本的实用性，即含义和语义。我们提出了IncogniText，一种将文本匿名化以误导潜在对手预测错误私人属性值的技术。我们的实证评估显示，私人属性泄露减少了超过90%。最后，我们通过将其匿名化能力提炼为一组与设备模型相关的LoRA参数，展示了IncogniText在真实应用中的成熟性。

论文链接: https://arxiv.org/pdf/2407.02956

GPTQT：将大语言模型量化两次以提高效率

原标题: GPTQT: Quantize Large Language Models Twice to Push the Efficiency

作者: Yipin Guo, Yilin Lang, Qinyuan Ren

机构: 浙江大学

摘要: 由于其庞大的体积，生成式大语言模型（LLMs）需要大量的计算和存储资源。本文介绍了一种新的后训练量化方法，GPTQT，通过将LLM的权重表达为3位/2位，以减少内存使用量并提高处理速度。实践表明，减小权重的量化误差是无效的，会导致过拟合。因此，GPTQT采用渐进式两步方法：首先使用线性量化将权重量化为相对较高的位数，然后将获得的整数权重转换为较低位的二进制编码。提出了一种重新探索策略来优化初始缩放因子。在推断过程中，这些步骤被合并为纯二进制编码，实现高效计算。在各种模型和数据集上的测试证实了GPTQT的有效性。与强3位量化基线相比，GPTQT在opt-66B上将困惑度进一步降低了4.01，并在opt-30b上将速度提高了1.24倍。在Llama2上的结果表明，GPTQT目前是这类LLMs的最佳二进制编码量化方法。

论文链接: https://arxiv.org/pdf/2407.02891

GraCoRe：在大语言模型中对图理解和复杂推理进行基准测试

原标题: GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models

作者: Zike Yuan, Ming Liu, Hui Wang, Bing Qin

机构: 哈尔滨工业大学深圳校区彭成实验室

摘要: 评估大语言模型（LLMs）的图形理解和推理能力具有挑战性，通常是不完整的。现有的基准重点主要集中在纯图形理解上，缺乏对所有图形类型和详细能力定义的全面评估。本文介绍了GraCoRe，这是一个用于系统评估LLMs图形理解和推理能力的基准。GraCoRe使用三层分层分类法对模型进行分类和测试，涵盖纯图和异构图，将能力细分为10个不同领域，通过19个任务进行测试。我们的基准包括11个数据集，涵盖5,140个不同复杂度的图形。我们评估了三个闭源和七个开源LLMs，从能力和任务角度进行了彻底分析。关键发现显示，语义丰富化提高了推理性能，节点排序影响任务成功，处理更长文本的能力并不一定会提高图形理解或推理能力。GraCoRe在此https网址上开源。

论文链接: https://arxiv.org/pdf/2407.02936

Github: https://github.com/ZIKEYUAN/GraCoRe

PII-Compass：通过基础支持引导大语言模型训练数据提取提示朝向目标 PII

原标题: PII-Compass: Guiding LLM training data extraction prompts towards the target PII via grounding

作者: Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou

机构: 华为慕尼黑研究中心

摘要: 大语言模型的最新和最有影响力的进展源于它们不断增加的大小。不幸的是，这导致了改进的记忆能力，引发了数据隐私方面的担忧。具体来说，已经表明模型可以输出其训练数据中包含的个人可识别信息（PII）。然而，报告的PIII提取性能差异很大，并且对于评估这种风险的最佳方法尚无共识，导致低估了现实对手的能力。在这项工作中，我们通过将手动构建的提取提示的前缀与领域内数据联系起来，经验性地证明了可以将PII的可提取性提高十倍以上。我们的方法PII-Compass 在1、128 和 2308 个查询下分别实现了 0.92%、3.9% 和 6.86% 的电话号码提取率，即每 15 个人中就有一个人的电话号码是可提取的。

论文链接: https://arxiv.org/pdf/2407.02943

CogErgLLM：使用认知人机工程学探索大语言模型系统设计视角

原标题: CogErgLLM: Exploring Large Language Model Systems Design Perspective Using Cognitive Ergonomics

作者: Azmine Toushik Wasi

摘要: 将认知人类工效学与大语言模型相结合对于增强人工智能与人类交互中的安全性、可靠性和用户满意度至关重要。当前大语言模型的设计通常缺乏这种整合，导致系统可能无法完全符合人类的认知能力和局限性。不足的关注认知科学方法的应用加剧了大语言模型输出中的偏见，而对用户中心设计原则的不一致应用导致了次优的用户体验。为了解决这些挑战，我们的立场论文探讨了认知人类工效学原则对大语言模型设计的关键整合，旨在为道德大语言模型开发提供全面框架和实用指南。通过我们的贡献，我们希望推动在大语言模型系统中整合认知人类工效学的理解和实践，促进更安全、更可靠、更符合道德的人工智能与人类交互。

论文链接: https://arxiv.org/pdf/2407.02885

CoIR：代码信息检索模型的全面基准

原标题: CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

作者: Xiangyang Li, Kuicai Dong, Yi Quan Lee, Wei Xia, Yichun Yin, Hao Zhang, Yong Liu, Yasheng Wang, Ruiming Tang

机构: 华为诺亚方舟实验室

摘要: 尽管信息检索（IR）在各种自然语言处理任务中取得了可观的成功，但大多数IR系统主要处理自然语言中的查询和语料库，忽视了代码检索领域。代码检索至关重要，但仍未得到充分探索，现有方法和基准不足以充分代表不同领域和任务中代码的多样性。为填补这一空白，我们提出了\textbf{\name}（\textbf{Co}de \textbf{I}nformation \textbf{R}etrieval Benchmark），这是一个专门设计用于评估代码检索能力的强大而全面的基准。 \name 包括\textbf{十个}经过精心策划的代码数据集，涵盖\textbf{七}个不同领域中\textbf{八}个独特的检索任务。我们首先讨论了\name 的构建以及其多样的数据集组成。此外，我们使用\name 评估了九种广泛使用的检索模型，发现即使使用最先进的系统，在执行代码检索任务时仍存在重大困难。为了方便在现有研究工作流程中轻松采用和集成，\name 已开发为一个用户友好的Python框架，可通过pip轻松安装。它与MTEB和BEIR等其他流行基准共享相同的数据架构，实现了无缝的跨基准评估。通过\name，我们旨在激发代码检索领域的研究，提供一个多功能的基准工具，鼓励进一步开发和探索代码检索系统。

论文链接: https://arxiv.org/pdf/2407.02883

Github: https://github.com/CoIR-team/coir

MindBench：用于心智图结构识别和分析的全面基准

原标题: MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis

作者: Lei Chen, Feng Yan, Yujie Zhong, Shaoxiang Chen, Zequn Jie, Lin Ma

机构: 美团

摘要: 多模态大语言模型（MLLM）在文档分析领域取得了显著进展。尽管如此，现有的基准测试通常只关注提取文本和简单布局信息，而忽略了结构化文档中元素之间复杂的交互，如思维导图和流程图。为解决这一问题，我们引入了名为MindBench的新基准测试，该基准测试不仅包括精心构建的双语真实或合成图像、详细注释、评估指标和基准模型，还专门设计了五种类型的结构化理解和解析任务。这些任务包括完全解析、部分解析、与位置相关的解析、结构化视觉问答（VQA）和与位置相关的VQA，涵盖文本识别、空间意识、关系辨别和结构化解析等关键领域。大量实验结果表明，当前模型处理结构化文档信息的能力具有巨大潜力和显著改进空间。我们期待MindBench的推出将显著推动结构化文档分析技术的研究和应用开发。MindBench可在此https网址获取。

论文链接: https://arxiv.org/pdf/2407.02842

Github: https://miasanlei.github.io/MindBench.github.io/

对比然后记忆：语义邻居检索增强归纳多模态知识图完成

原标题: Contrast then Memorize: Semantic Neighbor Retrieval-Enhanced Inductive Multimodal Knowledge Graph Completion

作者: Yu Zhao, Ying Zhang, Baohang Zhou, Xinying Qian, Kehui Song, Xiangrui Cai

机构: 南开大学天津大学

摘要: 大量研究涌现出来，用于多模态知识图完成（MKGC）以预测 MKG 中的缺失链接。然而，提出用于研究归纳 MKGC（IMKGC）的研究较少，这涉及在训练期间未见过的新实体。现有的归纳方法侧重于学习文本实体表示，而忽略了视觉模态中丰富的语义信息。此外，它们侧重于聚合现有知识图中的结构邻居，而新实体的结构邻居通常是有限的。然而，语义邻居与拓扑链接是分离的，并且通常暗示了真实的目标实体。在本文中，我们提出了 IMKGC 任务和一个语义邻居检索增强的 IMKGC 框架 CMR，其中对比将有用的语义邻居拉近，然后记忆支持语义邻居检索以增强推理。具体而言，我们首先提出了统一的跨模态对比学习，以同时捕捉查询实体对之间的文本-视觉和文本-文本相关性在统一的表示空间中。对比学习增加了正查询-实体对的相似性，从而使有用的语义邻居的表示接近。然后，我们明确地记忆知识表示以支持语义邻居检索。在测试时，我们检索最近的语义邻居，并将它们插值到查询实体相似性分布中，以增强最终预测。大量实验证实了 CMR 在三个归纳 MKGC 数据集上的有效性。代码可在此网址获得。

论文链接: https://arxiv.org/pdf/2407.02867

Github: https://github.com/OreOZhao/CMR

LANE: 逻辑对齐非调整大语言模型和在线推荐系统，用于可解释的推理生成

原标题: LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation

作者: Hongke Zhao, Songming Zheng, Likang Wu, Bowen Yu, Jing Wang

机构: 天津大学百度智能人才中心百度公司

摘要: 推荐系统的可解释性对于增强用户信任和满意度至关重要。利用大语言模型（LLMs）为生成全面的推荐逻辑提供了新机遇。然而，在现有的相关研究中，为推荐任务微调LLM模型会带来高计算成本和与现有系统的对齐问题，限制了已被证明的专有/闭源LLM模型（如GPT-4）的应用潜力。在这项工作中，我们提出的有效策略LANE可以在不进行额外LLM调整的情况下将LLMs与在线推荐系统对齐，降低成本并提高可解释性。这种创新方法解决了将语言模型与推荐系统整合时的关键挑战，同时充分利用了强大专有模型的能力。具体而言，我们的策略通过几个关键组件运作：语义嵌入、使用零样本提示进行用户多偏好提取、语义对齐，以及使用Chain of Thought（CoT）提示进行可解释推荐生成。通过嵌入项目标题而不是ID，并利用多头注意机制，我们的方法将用户偏好的语义特征与候选项目的特征对齐，确保推荐连贯且符合用户需求。充分的实验结果，包括性能比较、问卷投票和可视化案例，证明了我们的方法不仅可以确保推荐性能，还可以提供易于理解和合理的推荐逻辑。

论文链接: https://arxiv.org/pdf/2407.02833

安全遗忘：一种出乎意料的有效且通用的解决方案，用于防御越狱攻击

原标题: Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks

作者: Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang

机构: 清华大学

摘要: 大语言模型被认为容易受到越狱攻击的影响，即使在安全对齐之后也是如此。一个重要观察是，虽然不同类型的越狱攻击可能会产生明显不同的查询，但它们大多会导致根植于相同有害知识的类似响应（例如，制作炸弹的详细步骤）。因此，我们推测直接在大语言模型中消除有害知识可能是比主流的基于监督微调（SFT）方法更有效地防御越狱攻击的方式。我们的广泛实验证实了我们的洞察，并表明基于消除有害知识的方法具有令人惊讶的泛化能力：仅使用20个原始有害问题，在训练过程中没有任何越狱提示，我们的解决方案将Vicuna-7B上的攻击成功率（ASR）从82.6％降低到7.7％，这是在包含各种复杂越狱提示的\emph{超出分布}（OOD）有害问题上。这明显优于Llama2-7B-Chat，后者在大约0.1M安全对齐样本上进行了微调，但即使在额外的安全系统提示的帮助下，其ASR仍为21.9％。进一步的分析揭示了我们解决方案的泛化能力源于有害问题之间有害响应的内在相关性（例如，响应模式、共享步骤和操作，以及它们在大语言模型中学习表示之间的相似性）。我们的代码可在\url{this https URL}上找到。

论文链接: https://arxiv.org/pdf/2407.02855

Github: https://github.com/thu-coai/SafeUnlearning

图像胜过言辞：从因果中介的角度理解和减轻视觉语言模型中的偏见

原标题: Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective

作者: Zhaotian Weng, Zijun Gao, Jerone Andrews, Jieyu Zhao

机构: 南加州大学索尼人工智能

摘要: 在广泛数据集上预训练的视觉语言模型（VLMs）可能会通过将性别信息与特定对象或场景相关联而无意中学习偏见。当前的方法主要集中在修改输入并监控模型输出概率分数的变化，往往难以全面理解模型组件角度的偏见。我们提出了一个框架，该框架结合因果中介分析来衡量和映射 VLMs 中偏见生成和传播的路径。这种方法使我们能够确定干预对模型偏见的直接影响以及通过不同模型组件传递的偏见的间接影响。我们的结果显示，图像特征是偏见的主要贡献者，其影响显著高于文本特征，具体而言，在 MSCOCO 和 PASCAL-SENTENCE 数据集中分别占偏见的 32.57% 和 12.63%。值得注意的是，图像编码器的贡献超过了文本编码器和深度融合编码器。进一步的实验证实，语言和视觉模态的贡献是一致的且不冲突的。因此，专注于模糊图像编码器中的性别表征，这对模型偏见的贡献最大，可以在不增加计算需求或降低性能的情况下，分别在 MSCOCO 和 PASCAL-SENTENCE 数据集中将偏见有效减少 22.03% 和 9.04%。

论文链接: https://arxiv.org/pdf/2407.02814

使用广义牛顿法进行自动梯度下降

原标题: Automatic gradient descent with generalized Newton’s method

作者: Zhiqi Bu, Shiyun Xu

机构: 亚马逊AI 宾夕法尼亚大学

摘要: 我们提出了广义牛顿法（GeN）——一种基于Hessian信息的方法，适用于任何优化器，如SGD和Adam，并涵盖牛顿-拉夫逊法作为一个子情况。我们的方法自动动态选择学习率，加速收敛，无需对学习率调度器进行密集调整。在实践中，我们的方法易于实现，因为它只需要额外的前向传递，几乎零计算开销（以训练时间和内存成本衡量），如果开销分摊到许多迭代中。我们在语言和视觉任务（如GPT和ResNet）上进行了大量实验，展示了GeN优化器与最先进的性能相匹配，这是通过精心调整学习率调度器实现的。代码将在\url{this https URL}上发布。

论文链接: https://arxiv.org/pdf/2407.02772

Github: https://github.com/ShiyunXu/AutoGeN

DSL 代码生成的比较研究：微调 vs. 优化检索增强

原标题: A Comparative Study of DSL Code Generation: Fine-Tuning vs. Optimized Retrieval Augmentation

作者: Nastaran Bassamzadeh, Chhaya Methani

机构: 微软公司

摘要: 自然语言转代码生成在最近几年取得了显著进展，随着大语言模型（LLMs）的出现。虽然针对通用语言如C、C++和Python的生成有了显著改进，但LLMs在特定领域语言（DSLs）中的自定义函数名称方面仍存在困难。这导致了更高的虚构率和语法错误，特别是对于具有大量自定义函数名称的DSLs。此外，对函数名称的不断更新增加了挑战，因为LLMs需要保持最新。在本文中，我们提出了在DSL生成中使用检索增强生成（RAG）与LLMs的优化方法，并进行了一项消融研究来比较这些策略。我们生成了一个包含大约700个公共领域API的DSL来表示自动化任务的训练和测试数据集。我们使用训练数据集来微调一个Codex模型以用于这个DSL。我们的结果显示，微调后的模型在代码相似度指标上得分最高。通过我们的RAG优化，我们实现了相似度指标的匹配。然而，编译率显示，两个模型仍然在许多情况下得到了错误的语法，基于RAG的方法要好2个百分点。相反，对于API名称，RAG模型的虚构率落后1个百分点，对于API参数键则落后2个百分点。我们得出结论，优化的RAG模型可以匹敌微调模型的质量，并为新的、未见过的API提供优势。

论文链接: https://arxiv.org/pdf/2407.02742