2024年6月26日Arxiv语言模型相关论文

cs.CL: 背诵、重构、回忆:大语言模型中的记忆作为多方面现象

原标题: Recite, Reconstruct, Recollect: Memorization in LMs as a Multifaceted Phenomenon

作者: USVSN Sai Prashanth, Alvin Deng, Kyle O’Brien, Jyothir S V, Mohammad Aflah Khan, Jaydeep Borkar, Christopher A. Choquette-Choo, Jacob Ray Fuehne, Stella Biderman, Tracy Ke, Katherine Lee, Naomi Saphra

机构: 纽约大学 微软 东北大学 印度信息技术印度普拉斯塔研究所 伊利诺伊大学厄巴纳-香槟分校 哈佛大学 企业名称为空字符串

摘要: 语言模型中的记忆通常被视为一个同质现象,忽略了记忆数据的具体情况。相反,我们将记忆建模为一组描述每个样本并将其与模型和语料库相关联的复杂因素的影响。为了对这些因素有直观的理解,我们将记忆分解为一个分类法:高度重复序列的背诵,固有可预测序列的重构,以及既非重复又可预测的序列的回忆。我们通过使用这个分类法来构建记忆的预测模型来展示我们分类法的实用性。通过分析依赖关系并检查预测模型的权重,我们发现不同的因素根据分类类别对记忆的可能性产生不同的影响。

论文链接: https://arxiv.org/pdf/2406.17746

cs.CL: BMIKE-53:使用上下文学习调查跨语言知识编辑

原标题: BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning

作者: Ercong Nie, Bo Shao, Zifeng Ding, Mingyang Wang, Helmut Schmid, Hinrich Schütze

机构: 慕尼黑大学 德国 慕尼黑机器学习中心 慕尼黑工业大学 德国 牛津大学 罗伯特·博世人工智能中心

摘要: 大语言模型(LLMs)具有广泛的参数化知识,但由于重新训练成本高昂且对于闭源模型来说不可行,因此更新这些知识是困难的。知识编辑(KE)已经成为一种可行的解决方案,可以更新LLMs的知识而不影响其整体性能。受到上下文学习(ICL)启发的即时KE方法表现出很大的潜力,并允许将LLMs视为黑匣子。过去,KE主要用于英语环境,而当前以英语为中心的LLMs在跨语言KE方面的潜力尚未得到充分探索。为了促进更多沿着这个方向的研究,我们引入了BMIKE-53基准,用于评估跨语言KE在53种不同语言上的三种KE任务类型。我们还提出了一种无梯度KE方法,称为多语言上下文知识编辑(MIKE),并在BMIKE-53上进行了评估。我们的评估侧重于跨语言知识转移的可靠性、普适性、局部性和可移植性,为跨语言KE的未来研究提供了宝贵的见解和框架。我们的代码和数据可以通过匿名仓库https://anonymous.4open.science/r/MIKE 公开访问。

论文链接: https://arxiv.org/pdf/2406.17764

cs.CL: 衡量和基准大语言模型生成有说服力语言的能力

原标题: Measuring and Benchmarking Large Language Models’ Capabilities to Generate Persuasive Language

作者: Amalie Brogaard Pauli, Isabelle Augenstein, Ira Assent

机构: 奥胡斯大学 哥本哈根大学

摘要: 我们接触到许多试图影响我们的信息,比如引人入胜的信息、辩论、政治框架的新闻和宣传,所有这些都使用有说服力的语言。随着对大语言模型(LLMs)的最近关注,我们研究了LLMs产生有说服力文本的能力。与以往侧重于特定领域或类型的说服工作不同,我们进行了跨领域的普遍研究,以衡量和基准LLMs产生有说服力文本的程度 - 无论是在明确指示下重写文本以使其更具说服力还是减弱说服力,还是仅被指示改写。为此,我们构建了一个新的数据集,即“有说服力对”,其中每对由一段短文本和LLM重写的文本组成,以放大或减弱说服性语言。我们对这些对进行了相对比例的多重注释,以评估说服性语言。这些数据不仅本身是宝贵的资源,而且我们还展示了它可以用于训练回归模型,以预测文本对之间的说服性语言得分。这个模型可以对跨领域的新LLMs进行评分和基准测试,从而促进不同LLMs的比较。最后,我们讨论了不同系统提示的影响。值得注意的是,我们发现LLaMA3系统提示中的不同“人物角色”会显著改变文本中的说服性语言,即使只是被指示改写。这些发现强调了调查LLM生成文本中说服性语言的重要性。

论文链接: https://arxiv.org/pdf/2406.17753

cs.CL: 利用大语言模型加速临床证据综合

原标题: Accelerating Clinical Evidence Synthesis with Large Language Models

作者: Zifeng Wang, Lang Cao, Benjamin Danek, Yichi Zhang, Qiao Jin, Zhiyong Lu, Jimeng Sun

机构: 伊利诺伊大学厄巴纳-香槟分校 国家生物技术信息中心 美国国家医学图书馆 Carle伊利诺伊医学院

摘要: AI对自动医学发现的梦想是许多人的愿望。朝着这个目标迈出的一步是创建一个AI模型,以理解临床研究并从文献中综合临床证据。目前,临床证据综合依赖于临床试验的系统性回顾和医学文献的回顾分析。然而,出版物的快速扩张在有效识别、总结和更新证据方面提出了挑战。我们介绍了TrialMind,这是一个基于生成式AI的管道,用于进行医学系统性回顾,包括研究搜索、筛选和数据提取阶段。我们利用大型语言模型(LLMs)驱动每个管道组件,同时融入人类专家监督以最小化错误。为了便于评估,我们还创建了一个基准数据集TrialReviewBench,这是一个定制数据集,包括来自25篇不同医学治疗的荟萃分析论文中的870个注释临床研究。我们的结果表明,TrialMind显著改进了文献回顾过程,在从超过2000万篇PubMed研究中搜索研究时实现了高召回率(0.897-1.000),并在筛选方面优于传统的基于语言模型嵌入的方法(Recall@20为0.227-0.246,而传统方法为0.000-0.102)。此外,我们的方法在结果提取方面超过了直接的GPT-4性能,准确率范围为0.65至0.84。我们还支持森林图中的临床证据综合,经过八名人类注释者的验证,他们更偏好TrialMind而不是GPT-4基准,涉及的回顾中获胜率为62.5%-100%。我们的发现表明,基于LLM的临床证据综合方法,如TrialMind,可以实现可靠且高质量的临床证据综合,以提高临床研究的效率。

论文链接: https://arxiv.org/pdf/2406.17755

cs.CL: CaLMQA:探索跨23种语言的具有文化特色的长篇问题回答

原标题: CaLMQA: Exploring culturally specific long-form question answering across 23 languages

作者: Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi

机构: 德克萨斯大学奥斯汀分校 马萨诸塞大学阿默斯特分校

摘要: 大语言模型(LLMs)通常用于长篇问答,这要求它们生成复杂问题的段落长度答案。虽然长篇问答在英语中已经通过许多不同的数据集和评估指标进行了深入研究,但这项研究尚未扩展到涵盖大多数其他语言。为了弥合这一差距,我们介绍了CaLMQA,这是一个包含23种语言的2.6K个复杂问题的集合,包括资源匮乏、鲜为人知的语言,如斐济语和基隆迪语。我们的数据集包括从社区网络论坛收集的自然发生的问题,以及由我们专门聘请的母语人士编写的问题。我们的过程产生了多样化、复杂的问题,反映了文化主题(如传统、法律、新闻)和母语人士的语言使用。我们使用我们的新颖指标CaLMScore对一系列开源和闭源模型进行自动评估,该指标可以检测答案中的错误语言和标记重复,并观察到对于一些低资源语言,大语言模型生成的答案质量显著下降。我们对一部分模型进行人工评估,发现对于文化特定问题,模型性能显著较差,而对于文化无关问题,模型性能较好。我们的发现突显了在大语言模型多语言能力和非英语长篇问答评估方面需要进一步研究的必要性。

论文链接: https://arxiv.org/pdf/2406.17761

cs.CL: 在说明中遵循长度约束

原标题: Following Length Constraints in Instructions

作者: Weizhe Yuan, Ilia Kulikov, Ping Yu, Kyunghyun Cho, Sainbayar Sukhbaatar, Jason Weston, Jing Xu

机构: 纽约大学 Meta FAIR

摘要: 对齐指令跟随模型可以比其未对齐的对应物更好地满足用户请求。然而,已经表明在评估这类模型时存在长度偏差,并且训练算法倾向于利用这种偏差学习更长的响应。在这项工作中,我们展示了如何训练可以在推断时受到包含所需长度约束的指令控制的模型。这些模型在长度受控评估中表现优异,胜过了诸如GPT4、Llama 3和Mixtral等标准指令跟随模型。

论文链接: https://arxiv.org/pdf/2406.17744

cs.CL: 找到父节点,然后标记子节点:一种利用预训练语言模型的两阶段分类体系完善方法

原标题: Find Parent then Label Children: A Two-stage Taxonomy Completion Method with Pre-trained Language Model

作者: Fei Xia, Yixuan Weng, Shizhu He, Kang Liu, Jun Zhao

机构: 中国科学院自动化研究所 中国科学院大学

摘要: 分类法将领域概念组织成分层结构,对于构建知识系统和下游应用至关重要。随着领域知识的不断发展,分类法需要不断更新以包含新概念。先前的方法主要集中在将概念添加到现有层次树的叶节点,这并未充分利用分类法的知识,并且无法更新原始的分类法结构(通常涉及非叶节点)。在本文中,我们提出了一种名为ATTEMPT的两阶段方法,用于分类法的完善。我们的方法通过找到父节点并标记子节点,将新概念插入到正确的位置。具体而言,通过将本地节点与提示结合生成自然句子,我们利用预训练语言模型进行上下位识别。在两个公共数据集(包括六个领域)上的实验结果表明,ATTEMPT在分类法的完善和扩展任务上表现最佳,超过了现有方法。

论文链接: https://arxiv.org/pdf/2406.17739

cs.CL: 大语言模型的有针对性的低性能会不成比例地影响到脆弱用户。

原标题: LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users

作者: Elinor Poole-Dayan, Deb Roy, Jad Kabbara

机构: 麻省理工学院 MIT Center for Constructive Communication

摘要: 尽管最先进的大语言模型(LLMs)在许多任务上表现出色,但对于诸如幻觉和偏见等不良模型行为已经进行了广泛的研究。在这项工作中,我们调查了LLM响应质量如何随着信息准确性、真实性和拒绝程度而变化,具体取决于三种用户特征:英语熟练程度、教育水平和国家/地区来源。我们对三种最先进的LLM和两种针对真实性和事实性的不同数据集进行了广泛的实验。我们的研究结果表明,最先进的LLM中的不良行为在英语熟练程度较低、教育水平较低以及来自美国以外的用户中出现的比例更高,使得这些模型对于最脆弱的用户而言成为不可靠的信息来源。

论文链接: https://arxiv.org/pdf/2406.17737

cs.CL: ViANLI:越南语对抗自然语言推理

原标题: ViANLI: Adversarial Natural Language Inference for Vietnamese

作者: Tin Van Huynh, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen

机构: 越南胡志明市信息技术大学 越南国立大学胡志明市

摘要: 自然语言处理(NLI)数据集和模型的发展受到注释设计创新的启发。随着机器学习模型的快速发展,现有机器学习模型在与自然语言处理相关的各种任务上的性能迅速达到了最先进的水平,包括自然语言推理任务。通过在注释过程中使用预训练模型,可以挑战当前的NLI模型,让人类产生前提-假设组合,使机器模型无法正确预测。为了使越南语的自然语言推理研究保持吸引力和挑战性,本文介绍了对NLP研究社区引入了名为ViANLI的对抗性NLI数据集。该数据集包含超过10,000个前提-假设对,并通过不断调整的过程构建,以获得注释者生成的模式的最大利用。ViANLI数据集对许多当前SOTA模型带来了许多困难,最强大模型在测试集上的准确率仅达到48.4%。此外,实验结果表明,使用我们的数据集训练的模型在其他越南语NLI数据集上的结果显著提高。

论文链接: https://arxiv.org/pdf/2406.17716

cs.CL: 从分布式到奥弗顿多元主义:探究大语言模型的对齐

原标题: From Distributional to Overton Pluralism: Investigating Large Language Model Alignment

作者: Thom Lake, Eunsol Choi, Greg Durrett

机构: 德克萨斯大学奥斯汀分校 Indeed

摘要: 对大语言模型(LLM)的对齐过程会改变输出分布的几个属性。我们分析了LLM响应的对齐后分布转移的两个方面。首先,我们重新审视了对齐后响应多样性的降低。我们的分析表明,响应多样性的明显下降在很大程度上可以通过质量控制和信息聚合来解释。对齐会抑制不相关和无用的内容,同时将输出分布转向覆盖基础LLM的多个响应中的信息的更长响应,从根本上在单个响应中呈现多样的信息。我们发现很少证据表明对齐会抑制有用信息,因此自然而然地会问相反的问题:对齐模型是否会呈现无法从基础模型中恢复的信息?我们的第二项研究表明情况并非如此,对齐模型的行为可以在不经过微调的情况下从基础模型中恢复。在上下文示例和有关响应内容的低分辨率语义提示的组合可以引发基础LLM的响应,这些响应与对齐调整的LLM响应之间的相似程度与对齐调整的LLM响应之间的相似程度一样。综合起来,这些结果表明当前的对齐技术捕捉了但没有扩展助理型基础LLM行为的有用子集,进一步证明了表面对齐假设。它们还表明,在上下文对齐中可以出人意料地作为一种策略来模仿对齐的LLM而无需进行微调。我们的代码和数据可在此网址获得:https://…(链接地址)。

论文链接: https://arxiv.org/pdf/2406.17692

Github: https://github.com/thomlake/investigating-alignment

cs.CL: VarBench:通过动态变量扰动实现鲁棒的语言模型基准测试

原标题: VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation

作者: Kun Qian, Shunji Wan, Claudia Tang, Youzhi Wang, Xuanming Zhang, Maximillian Chen, Zhou Yu

机构: 哥伦比亚大学 Barnard学院

摘要: 随着大型语言模型在传统基准测试中取得令人印象深刻的成绩,越来越多的研究人员开始关注预训练过程中基准数据泄漏的问题,通常被称为数据污染问题。为了确保公平评估,最近的基准测试只发布训练和验证集,保留测试集标签的闭源性。他们要求任何希望评估其语言模型的人都必须提交模型的预测结果进行集中处理,然后在他们的排行榜上发布模型的结果。然而,这种提交过程效率低下,阻碍了有效的错误分析。为了解决这个问题,我们提出了对基准进行变量化,并动态评估语言模型的方法。具体来说,我们从每个测试案例中提取变量,并为每个变量定义一个值范围。对于每次评估,我们从这些值范围中抽样新值,以创建独特的测试案例,从而确保每次都进行新鲜的评估。我们将这种变量扰动方法应用于四个数据集:GSM8K、ARC、CommonsenseQA 和 TruthfulQA,涵盖了数学生成和多项选择任务。我们的实验结果表明,这种方法提供了对语言模型真实能力更准确的评估,有效地缓解了污染问题。

论文链接: https://arxiv.org/pdf/2406.17681

cs.CL: LLM-ARC: 用自动推理评论者增强LLM

原标题: LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic

作者: Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci

机构: Elemental Cognition Inc.

摘要: 我们介绍了LLM-ARC,这是一个神经符号框架,旨在通过将其与自动推理评论者(ARC)结合,增强大语言模型(LLMs)的逻辑推理能力。LLM-ARC采用了演员-评论家方法,其中LLM演员生成声明性逻辑程序以及语义正确性测试,而自动推理评论者评估代码,运行测试并提供有关测试失败的反馈,以进行迭代改进。LLM-ARC采用Answer Set Programming(ASP)实现,在FOLIO基准测试中取得了88.32%的新的最先进准确性,该基准测试检验了复杂的逻辑推理能力。我们的实验表明,相对于仅使用LLM的基准线,LLM-ARC实现了显著的改进,突显了逻辑测试生成和迭代自我改进的重要性。我们通过完全自动化的自监督训练循环获得了最佳结果,其中演员在端到端对话跟踪上接受评论家的反馈进行训练。我们讨论了潜在的增强措施,并提供了详细的错误分析,展示了LLM-ARC在复杂自然语言推理任务中的稳健性和有效性。

论文链接: https://arxiv.org/pdf/2406.17663

cs.CL: 量化AI心理学:大语言模型的心理测量基准

原标题: Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models

作者: Yuan Li, Yue Huang, Hongyi Wang, Xiangliang Zhang, James Zou, Lichao Sun

机构: 剑桥大学 诺特丹大学 卡内基梅隆大学 斯坦福大学 利哈伊大学

摘要: 大语言模型(LLMs)已经展示出了出色的任务解决能力,越来越多地扮演类似于人类助手的角色。LLMs更广泛地融入社会引发了人们对它们是否具有心理特征以及这些特征是否稳定的兴趣,这些探究可以加深对它们行为的理解。受心理测量学启发,本文提出了一个调查LLMs心理学的框架,包括心理维度识别、评估数据集策划以及带有结果验证的评估。根据这一框架,我们介绍了一个涵盖六个心理维度的LLMs心理测量基准:人格、价值观、情绪、心灵理论、动机和智力。这一基准包括十三个数据集,涵盖多种情景和项目类型。我们的研究结果表明,LLMs表现出广泛的心理特征。我们还发现了LLMs自我报告的特质与它们在现实场景中行为之间的差异。本文展示了对LLMs的彻底心理测量评估,为可靠评估和在人工智能和社会科学领域的潜在应用提供了见解。

论文链接: https://arxiv.org/pdf/2406.17675

cs.CL: 变体学:探索书面语言数据中多方面的变化和偏见

原标题: Variationist: Exploring Multifaceted Variation and Bias in Written Language Data

作者: Alan Ramponi, Camilla Casula, Stefano Menini

机构: Fondazione Bruno Kessler 意大利 University of Trento 意大利

摘要: 探索和理解语言数据是处理人类语言的所有领域的基本阶段。它使自然语言处理从业者能够在训练之前发现数据质量问题和有害偏见,帮助语言学家和社会科学家洞悉语言使用和人类行为。然而,目前缺乏一个统一的、可定制的工具,可以无缝地检查和可视化跨多个变量、语言单元和多样化指标的语言变化和偏见,这些指标超越了描述性统计。在本文中,我们介绍了Variationist,这是一个高度模块化、可扩展的、任务无关的工具,填补了这一空白。Variationist一次处理潜在的无限组合的变量类型和语义,涉及选择的语言单元的多样性和关联指标,并组织创建超过30种变量类型-语义组合的高达五维交互式图表。通过我们在计算方言学、人类标签变化和文本生成方面的案例研究,我们展示了Variationist如何使来自不同学科的研究人员能够轻松回答特定的研究问题或揭示语言数据中不希望出现的关联。我们向研究社区公开了Python库、代码、文档和教程。

论文链接: https://arxiv.org/pdf/2406.17647

cs.CL: 自动标注中的知识蒸馏:LLM 生成的训练标签进行监督文本分类

原标题: Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels

作者: Nicholas Pangakis, Samuel Wolken

机构: 宾夕法尼亚大学

摘要: 计算社会科学(CSS)从业者通常依赖人工标注的数据来微调监督文本分类器。我们评估研究人员利用生成式大型语言模型(LLMs)的替代训练标签来增强或替换人工生成的训练数据的潜力。我们介绍了一个推荐的工作流程,并通过复制14个分类任务并测量性能来测试这种LLM应用。我们使用了最近在高影响期刊中的CSS文章中的英语文本分类数据集的新颖语料库。由于这些数据集存储在受密码保护的存档中,我们的分析不太容易受到污染问题的影响。对于每个任务,我们将使用GPT-4标签微调的监督分类器与使用人类注释微调的分类器以及使用来自GPT-4和Mistral-7B的标签进行少样本上下文学习的分类器进行比较。我们的研究结果表明,使用LLM生成的标签微调的监督分类模型的性能与使用人工标注微调的模型相当。使用LLM生成的标签微调模型可以是构建监督文本分类器的一种快速、高效和具有成本效益的方法。

论文链接: https://arxiv.org/pdf/2406.17633

cs.CL: 消除大语言模型的幻觉需要重新思考泛化

原标题: Banishing LLM Hallucinations Requires Rethinking Generalization

作者: Johnny Li, Saksham Consul, Eda Zhou, James Wong, Naila Farooqui, Yuxin Ye, Nithyashree Manohar, Zhuxiaona Wei, Tian Wu, Ben Echols, Sharon Zhou, Gregory Diamos

机构: Lamini AI

摘要: 尽管大语言模型(LLMs)具有强大的聊天、编码和推理能力,但它们经常出现幻觉。传统智慧认为,幻觉是创造力和事实之间的平衡的结果,可以通过将LLM与外部知识来源联系起来来减轻,但无法完全消除。通过广泛的系统实验,我们表明这些传统方法无法解释LLMs在实践中为何会出现幻觉。具体来说,我们表明,通过大规模的混合记忆专家(MoME)增强的LLMs可以轻松记忆大量随机数字的数据集。我们用理论构建证实了这些实验结果,该构建显示,当训练损失超过阈值时,简单的神经网络在训练时通常会出现幻觉,这通常在训练互联网规模数据时发生。我们通过与传统检索方法进行比较来解释我们的发现,以减轻幻觉。我们利用我们的发现设计了第一代模型 Lamini-1,用于消除幻觉,该模型将事实存储在数百万个动态检索的混合记忆专家中。

论文链接: https://arxiv.org/pdf/2406.17642

cs.CL: 自我评估、展示和认知:大语言模型中的人格评价综述

原标题: Self-assessment, Exhibition, and Recognition: a Review of Personality in Large Language Models

作者: Zhiyuan Wen, Yu Yang, Jiannong Cao, Haoming Sun, Ruosong Yang, Shuaiqi Liu

机构: 香港理工大学 华为技术有限公司

摘要: 随着大型语言模型(LLMs)在基于文本的交互中表现出越来越类似人类,越来越多的研究人员对LLMs中的个性进行调查表现出兴趣。然而,心理个性研究的多样性和LLMs的快速发展导致了这一跨学科领域的广泛但分散的研究格局。在不同的研究重点、不同的个性心理测量和不同的LLMs之间进行广泛的研究使得全面了解变得具有挑战性,并且在将研究结果应用于实际应用中也存在困难。在本文中,我们通过将当前研究分类为自我评估、展示和识别三个研究问题,基于LLMs中个性的内在特征和外部表现,提出了一项全面的综述。对于每个问题,我们提供了深入的分析,并对它们的相应解决方案进行了深入比较。此外,我们总结了当前研究的研究结果和开放性挑战,并进一步讨论了它们的根本原因。我们还收集了大量的公开可用资源,以便于感兴趣的研究人员和开发者使用。最后,我们讨论了潜在的未来研究方向和应用场景。我们的论文是关于LLMs中个性最新文献的首次全面调查。通过提出清晰的分类法、深入分析、有前途的未来方向和广泛的资源收集,我们旨在提供更好的理解,并促进这一新兴领域的进一步发展。

论文链接: https://arxiv.org/pdf/2406.17624

cs.CL: CoSafe:在多轮对话共指中评估大语言模型的安全性

原标题: CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference

作者: Erxin Yu, Jing Li, Ming Liao, Siqi Wang, Zuchen Gao, Fei Mi, Lanqing Hong

机构: 香港理工大学 华为Noah’s Ark Lab

摘要: 随着大语言模型(LLMs)不断发展,确保它们的安全性仍然是一个关键的研究问题。先前针对LLM安全性的红队方法主要集中在单提示攻击或目标劫持上。据我们所知,我们是第一个研究多轮对话共指中LLM安全性的团队。我们创建了一个包含14个类别的1,400个问题的数据集,每个问题都涉及多轮共指安全攻击。然后我们对五个广泛使用的开源LLM进行了详细评估。结果表明,在多轮共指安全攻击下,LLaMA2-Chat-7b模型的最高攻击成功率为56%,而Mistral-7B-Instruct模型的最低攻击成功率为13.9%。这些发现突显了LLMs在对话共指交互中的安全漏洞。

论文链接: https://arxiv.org/pdf/2406.17626

cs.CL: “从微观中看到宏观:LLM能否通过少量解释来逼近人类在自然语言推理上的判断分布?”

原标题: “Seeing the Big through the Small”: Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations?

作者: Beiduo Chen, Xinpeng Wang, Siyao Peng, Robert Litschko, Anna Korhonen, Barbara Plank

机构: 慕尼黑大学LMU(德国) 剑桥大学(英国)

摘要: 人类标签变异(HLV)是一种宝贵的信息来源,当多个人类标注者出于合理的原因提供不同的标签时就会产生。在自然语言推理(NLI)中,早期捕捉HLV的方法包括从许多众包工作者那里收集注释以代表人类判断分布(HJD),或者使用专家语言学家提供其选择标签的详细解释。前一种方法提供了更密集的HJD信息,但获取它需要耗费大量资源。相比之下,后一种方法提供了更丰富的文本信息,但很难扩展到许多人类评判者。此外,大语言模型(LLMs)越来越多地被用作评估者(“LLM评判者”),但结果参差不齐,而且很少有研究旨在研究HJD。本研究提出利用LLMs来近似HJD,使用少量专家标签和解释。我们的实验表明,少量解释显著提高了LLMs近似HJD的能力,无论是否有明确的标签,从而提供了一种扩展HJD注释的解决方案。然而,使用LLM生成的模型判断分布(MJDs)对较小的软标签感知模型进行微调呈现出部分不一致的结果:虽然距离相似,但它们的最终微调模型和可视化分布差异很大。我们展示了将实例级距离度量与全局级形状度量和可视化相结合,以更有效地评估MJD与人类判断分布的重要性。

论文链接: https://arxiv.org/pdf/2406.17600

cs.CL: LongIns:面向大语言模型的具有挑战性的长文本指令型考试

原标题: LongIns: A Challenging Long-context Instruction-based Exam for LLMs

作者: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang

机构: M-A-P, University of Waterloo, 301.ai

摘要: 大语言模型(LLMs)的长文本能力近年来成为热门话题。为了评估LLMs在不同场景下的表现,出现了各种评估基准。然而,由于大多数这些基准侧重于识别关键信息以回答问题,这主要需要LLMs的检索能力,这些基准只能部分代表LLMs在大量信息中的推理表现。同时,尽管LLMs经常声称具有32k、128k、200k甚至更长的上下文窗口,但这些基准未能揭示这些LLMs实际支持的长度。为了解决这些问题,我们提出了LongIns基准数据集,这是一个基于现有指令数据集构建的具有挑战性的长上下文指令型考试,专门针对LLMs。具体来说,在我们的LongIns中,我们引入了三种评估设置:全局指令和单一任务(GIST)、本地指令和单一任务(LIST)以及本地指令和多个任务(LIMT)。基于LongIns,我们对现有的LLMs进行了全面评估,并得出了以下重要发现:(1)性能最佳的GPT-4在128k上下文长度下在我们的LongIns中的评估上下文窗口16k表现不佳。 (2)对于许多现有LLMs的多跳推理能力,在短上下文窗口(小于4k)下仍需要大量努力。

论文链接: https://arxiv.org/pdf/2406.17588

cs.CL: 超越文本到SQL的物联网防御:一个全面的框架,用于查询和分类物联网威胁

原标题: Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats

作者: Ryan Pavlich, Nima Ebadi, Richard Tarbell, Billy Linares, Adrian Tan, Rachael Humphreys, Jayanta Kumar Das, Rambod Ghandiparsi, Hannah Haley, Jerris George, Rocky Slavin, Kim-Kwang Raymond Choo, Glenn Dietrich, Anthony Rios

机构: 圣安东尼奥得克萨斯大学

摘要: 认识到自然语言界面对数据库的潜力,先前的研究强调了文本到SQL系统的发展。虽然在这一领域取得了实质性进展,但现有研究集中于从文本查询生成SQL语句。然而,更广泛的挑战在于推断有关返回数据的新信息。我们的研究在解决这一差距方面做出了两个重大贡献。首先,我们引入了一个新颖的物联网(IoT)文本到SQL数据集,包括10,985个文本-SQL对和239,398行网络流量活动。该数据集包含了先前文本到SQL数据集中所限制的其他查询类型,特别是与时间相关的查询。我们的数据集来自一个智能建筑的物联网生态系统,探索传感器读数和网络流量数据。其次,我们的数据集允许两阶段处理,即从生成的SQL中返回的数据(网络流量)可以被分类为恶意或非恶意。我们的结果表明,联合训练查询和推断有关数据的信息可以提高整体文本到SQL的性能,几乎可以与更大的模型相匹敌。我们还表明,当前的大型语言模型(例如GPT3.5)在推断有关返回数据的新信息方面存在困难,因此我们的数据集为将复杂的领域特定推理整合到大语言模型中提供了一个新颖的测试平台。

论文链接: https://arxiv.org/pdf/2406.17574

cs.CL: FrenchToxicityPrompts:一个用于评估和减轻法语文本中毒性的大型基准测试

原标题: FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts

作者: Caroline Brun, Vassilina Nikoulina

机构: NAVER LABS Europe

摘要: 大语言模型(LLMs)越来越受欢迎,但也容易生成偏见、有毒或有害语言,这可能对个人和社区产生不利影响。尽管大部分努力都集中在评估和减轻生成内容中的毒性,但主要集中在英语上,而考虑其他语言也是至关重要的。为了解决这个问题,我们创建并发布了FrenchToxicityPrompts,这是一个包含50,000个自然发生的法语提示及其延续的数据集,并使用广泛使用的毒性分类器对其进行了标注。我们评估了来自四个流行的开源LLMs家族中的14种不同模型,以评估它们在我们的数据集上在各个维度上的潜在毒性。我们希望我们的贡献能促进未来对毒性检测和减轻的研究超越英语。

论文链接: https://arxiv.org/pdf/2406.17566

cs.CL: 大语言模型的多属性导向与动态激活组合

原标题: Multi-property Steering of Large Language Models with Dynamic Activation Composition

作者: Daniel Scalena, Gabriele Sarti, Malvina Nissim

机构: 米兰-比科卡大学 University of Milano-Bicocca 根廷大学 University of Groningen

摘要: 激活引导方法已被证明可以通过对模型的中间表示进行加法干预,有效地调节语言模型的生成。然而,迄今为止,对这些技术的评估仅限于单一调节属性和合成环境。在这项工作中,我们对各种激活引导策略进行了全面评估,突出了确保在整个生成过程中具有稳健效果的最佳参数的属性依赖性。为了解决这个问题,我们提出了动态激活组合,这是一种信息论方法,可以调节一个或多个属性在生成过程中的激活强度。我们在多属性激活引导的实验中发现,我们的方法成功地保持了高度的调节性,同时最大程度地减少了对生成流畅性的影响。

论文链接: https://arxiv.org/pdf/2406.17563

cs.CL: 检索增强代码生成用于情境动作生成:Minecraft案例研究

原标题: Retrieval-Augmented Code Generation for Situated Action Generation: A Case Study on Minecraft

作者: Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen

机构: 波茨坦大学 德国 德国人工智能研究中心(DFKI)

摘要: 在《Minecraft 合作建筑任务》中,两名玩家进行合作:一名建筑师(A)向一名建造者(B)提供指令,使用 3D 方块组装指定的结构。在这项工作中,我们研究了使用大语言模型(LLMs)来预测建造者采取的行动顺序。利用LLMs的上下文学习能力,我们使用了少样本提示技术,显著提高了性能,超过了基准方法。此外,我们对性能差距进行了详细分析,为未来的工作提出了建议。

论文链接: https://arxiv.org/pdf/2406.17553

cs.CL: FineWeb数据集:在规模上提取网络中最精细的文本数据

原标题: The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

作者: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf

机构: Hugging Face

摘要: 大语言模型(LLM)的性能严重依赖于其预训练数据集的质量和大小。然而,像Llama 3和Mixtral这样的最新开放式LLM的预训练数据集并不公开,并且对它们的创建方式了解甚少。在这项工作中,我们介绍了FineWeb,这是一个从96个Common Crawl快照中衍生出的15万亿标记数据集,可以产生比其他开放式预训练数据集性能更好的LLM。为了推动对如何最好地策划高质量的预训练数据集的理解,我们仔细记录并剔除了FineWeb中使用的所有设计选择,包括对去重和过滤策略的深入研究。此外,我们还介绍了FineWeb-Edu,这是从FineWeb中筛选出的1300亿标记的教育文本集合。在FineWeb-Edu上预训练的LLM在知识和推理密集型基准测试中表现出明显更好的性能,如MMLU和ARC。除了我们的数据集,我们还公开发布了我们的数据策划代码库以及在我们的剔除实验中训练的所有模型。

论文链接: https://arxiv.org/pdf/2406.17557

cs.CL: 检索式上下文学习用于少样本层次文本分类

原标题: Retrieval-style In-Context Learning for Few-shot Hierarchical Text Classification

作者: Huiyao Chen, Yu Zhao, Zulong Chen, Mengjia Wang, Liangyue Li, Meishan Zhang, Min Zhang

机构: 哈尔滨工业大学(深圳) 天津大学

摘要: 层次文本分类(HTC)是一项具有广泛应用的重要任务,而少样本HTC最近引起了越来越多的关注。虽然大语言模型(LLMs)的上下文学习(ICL)在少样本学习中取得了显著成功,但由于庞大的分层标签集和极其模糊的标签,它对HTC的效果并不理想。在这项工作中,我们引入了基于LLM的首个ICL框架,用于少样本HTC。我们利用检索数据库来识别相关的演示,并使用迭代策略来管理多层次的分层标签。特别地,我们为输入文本配备了HTC标签感知表示,这是通过对预训练语言模型进行持续训练,包括掩码语言建模(MLM)、逐层分类(CLS,特别适用于HTC)和新颖的发散对比学习(DCL,主要用于相邻的语义相似标签)目标来实现的。在三个基准数据集上的实验结果表明,我们的方法表现出了卓越的性能,并且在少样本HTC中可以实现最先进的结果。

论文链接: https://arxiv.org/pdf/2406.17534

cs.CL: 基于熵的解码用于检索增强的大语言模型

原标题: Entropy-Based Decoding for Retrieval-Augmented Large Language Models

作者: Zexuan Qiu, Zijing Ou, Bin Wu, Jingjing Li, Aiwei Liu, Irwin King

机构: 香港中文大学 伦敦帝国学院 伦敦大学学院 清华大学

摘要: 将大语言模型(LLMs)与检索的外部知识相结合已被证明可以有效提高生成响应的事实准确性。尽管取得了成功,但检索增强的LLMs仍然面临分散注意力的问题,即生成的响应受到外部和内部知识源的噪音负面影响。在本文中,我们介绍了一种新颖的、无需训练的解码方法,该方法受熵考虑指导,以减轻这一问题。我们的方法利用基于熵的文档并行集成解码,以优先考虑来自检索文档的低熵分布,从而增强上下文相关信息的提取。此外,它还结合了对比解码机制,将获得的低熵集成分布与模型内部知识跨层的高熵分布进行对比,从而确保更加强调可靠的外部信息。对开放域问答数据集的大量实验表明了我们方法的优越性。

论文链接: https://arxiv.org/pdf/2406.17519

cs.CL: LumberChunker:长篇叙事文档分割

原标题: LumberChunker: Long-Form Narrative Document Segmentation

作者: André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li, Arlindo L. Oliveira

机构: INESC-ID Instituto Superior Técnico NeuralShift AI Carnegie Mellon University

摘要: 现代自然语言处理任务越来越依赖于密集检索方法来获取最新和相关的上下文信息。我们的动机是认为检索受益于可以变化大小的段落,从而更好地捕捉内容的语义独立性。我们提出了LumberChunker,这是一种利用大语言模型动态分割文档的方法,它通过迭代提示大语言模型识别连续段落中内容开始转变的点。为了评估我们的方法,我们引入了GutenQA,这是一个基准测试,包含了来自Project Gutenberg上100本公共领域叙事书籍的3000个“大海捞针”类型的问答对。我们的实验表明,LumberChunker不仅在检索性能(DCG@20)上比最有竞争力的基准线高出7.37%,而且当集成到RAG管道中时,LumberChunker证明比其他分块方法和竞争基准线(如Gemini 1.5M Pro)更有效。我们的代码和数据可以在以下网址找到:[链接]

论文链接: https://arxiv.org/pdf/2406.17526

Github: https://github.com/joaodsmarques/LumberChunker

cs.CL: 在语言模型中对心理状态表示进行基准测试

原标题: Benchmarking Mental State Representations in Language Models

作者: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

摘要: 许多研究已经评估了语言模型(LMs)在需要心灵理论推理的任务中的生成性能,但对模型对心理状态的内部表示的研究仍然有限。最近的研究利用探测来证明LMs可以表示自己和他人的信念。然而,这些声明伴随着有限的评估,使得很难评估模型设计和训练选择对心理状态表示的影响。我们报告了一个广泛的基准测试,涉及不同模型大小、微调方法和提示设计的各种LM类型,以研究心理状态表示的稳健性和探测中的记忆问题。我们的结果表明,模型对他人信念的内部表示质量随着模型大小的增加而增加,并且更关键的是,随着微调的进行而增加。我们是第一个研究提示变化如何影响心灵理论任务探测性能的研究。我们证明,即使这些变化应该是有益的,模型的表示对提示变化敏感。最后,我们补充了以前在心灵理论任务上的激活编辑实验,并展示了通过引导它们的激活而无需训练任何探针就可以改善模型的推理性能的可能性。

论文链接: https://arxiv.org/pdf/2406.17513

cs.CL: MedCare:通过解耦临床对齐和知识聚合推进医学大语言模型

原标题: MedCare: Advancing Medical LLMs through Decoupling Clinical Alignment and Knowledge Aggregation

作者: Yusheng Liao, Shuyang Jiang, Yanfeng Wang, Yu Wang

机构: 上海交通大学 合作性中介创新中心 复旦大学 上海人工智能实验室

摘要: 大语言模型(LLMs)在自然语言理解和生成方面取得了实质性进展,尤其在医学领域表现出了巨大的价值。尽管取得了进展,由于医学任务固有的复杂性和多样性,挑战仍然存在,这些任务可以被归类为知识密集型任务和需要对齐的任务。先前的方法要么忽视后者的任务,要么专注于少数任务,因此失去了泛化能力。为了解决这些缺点,我们提出了一个渐进微调的流程。该流程采用了一个知识聚合器和一个噪声聚合器,在第一阶段编码多样化的知识,并过滤掉有害信息。在第二阶段,我们放弃了噪声聚合器,以避免次优表示的干扰,并利用一个额外的对齐模块,优化朝向知识空间的正交方向,以减轻知识遗忘。基于这种两阶段范式,我们提出了一个通过解耦临床对齐和知识聚合(MedCare)的医学LLM,旨在在20多个医学任务上实现最先进的性能,以及在特定医学对齐任务上的最先进结果。MedCare的各种模型规模(1.8B、7B、14B)都显示出与相似模型规模的现有模型相比的显著改进。

论文链接: https://arxiv.org/pdf/2406.17484

cs.CL: 利用大语言模型的迭代反馈来增强工具检索

原标题: Enhancing Tool Retrieval with Iterative Feedback from Large Language Models

作者: Qiancheng Xu, Yongqi Li, Heming Xia, Wenjie Li

机构: 香港理工大学

摘要: 工具学习旨在通过外部工具增强和扩展大语言模型(LLMs)的能力,最近引起了广泛关注。当前的方法表明,LLMs可以通过上下文学习或微调有效地处理一定数量的工具。然而,在现实场景中,工具的数量通常是庞大且不规则更新的,这凸显了需要专门的工具检索组件的必要性。工具检索并不容易,因为存在以下挑战:1)复杂的用户说明和工具描述;2)工具检索与工具使用模型之间的不匹配。为了解决上述问题,我们提出通过大语言模型的迭代反馈来增强工具检索。具体来说,我们促使工具使用模型,即LLM,在多轮中为工具检索模型提供反馈,这可以逐步改善工具检索器对说明和工具的理解,并减少两个独立组件之间的差距。我们建立了一个统一而全面的基准来评估工具检索模型。广泛的实验表明,我们提出的方法在领域内和领域外评估中均取得了先进的性能。

论文链接: https://arxiv.org/pdf/2406.17465

cs.CL: 基于Transformer的命名实体识别与组合数据表示

原标题: Transformer-based Named Entity Recognition with Combined Data Representation

作者: Michał Marcińczuk

机构: CodeNLP

摘要: 本研究探讨了基于Transformer的模型及其在命名实体识别任务中的有效性。研究调查了数据表示策略,包括单一、合并和上下文,分别使用一个句子、多个句子以及通过注意力上下文连接的句子来表示向量。分析表明,使用单一策略训练模型可能导致在不同数据表示上性能不佳。为解决这一局限性,研究提出了一种结合训练程序,利用所有三种策略来提高模型的稳定性和适应性。该方法的结果针对四种语言(英语、波兰语、捷克语和德语)在各种数据集上进行了展示和讨论,展示了结合策略的有效性。

论文链接: https://arxiv.org/pdf/2406.17474

cs.CL: 通过上下文数据增强改进语法错误校正

原标题: Improving Grammatical Error Correction via Contextual Data Augmentation

作者: Yixuan Wang, Baoxin Wang, Yijun Liu, Qingfu Zhu, Dayong Wu, Wanxiang Che

机构: 哈尔滨工业大学 中国 西安交通大学 中国科大讯飞研究院

摘要: 如今,通过合成数据进行数据增强在语法错误纠正(GEC)领域被广泛使用,以缓解数据稀缺的问题。然而,这些合成数据主要用于预训练阶段,而不是数据有限的微调阶段,因为存在不一致的错误分布和嘈杂的标签。在本文中,我们提出了一种基于上下文增强的合成数据构建方法,可以确保对原始数据进行高效增强,使错误分布更一致。具体来说,我们将基于规则的替换与基于模型的生成相结合,利用生成模型为提取的错误模式生成更丰富的上下文。此外,我们还提出了一种基于重新标记的数据清洗方法,以减轻合成数据中嘈杂标签的影响。在CoNLL14和BEA19-Test上的实验证明,我们提出的增强方法始终明显优于强基线,并且仅使用少量合成数据就达到了最先进水平。

论文链接: https://arxiv.org/pdf/2406.17456

cs.CL: 学习提出信息丰富的问题:通过偏好优化和期望信息增益增强大语言模型

原标题: Learning to Ask Informative Questions: Enhancing LLMs with Preference Optimization and Expected Information Gain

作者: Davide Mazzaccara, Alberto Testoni, Raffaella Bernardi

机构: 特伦托大学 阿姆斯特丹大学

摘要: 问题是获取完成信息搜索任务所需信息的基本工具。然而,大语言模型(LLMs),特别是开源模型,在生成具有信息增益期望(EIG)的信息性问题方面通常表现不佳。在本文中,我们提出了一种方法来增强LLM生成的问题在20问游戏对话中的信息性。我们从同一模型(LLAMA 2-CHAT 7B)中对每个游戏抽样多个问题,并创建低EIG和高EIG问题的配对,以应用直接偏好优化(DPO)算法。我们的结果表明,即使在与训练DPO模型所用领域不同的领域中,这种方法也能产生更有效的问题(就EIG而言)。

论文链接: https://arxiv.org/pdf/2406.17453

cs.CL: 不留下任何文件:使用扩展的多文档问答对长上下文大语言模型进行基准测试

原标题: Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

作者: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li

机构: 中国科学院自动化研究所 中国科学院深圳先进技术研究院 中国科学院大学 阿里巴巴集团

摘要: 长上下文建模能力引起了广泛关注,导致了具有超长上下文窗口的大语言模型(LLMs)的出现。与此同时,用于评估长上下文LLMs的基准测试逐渐在赶上。然而,现有的基准测试采用无关的噪音文本来人为扩展测试案例的长度,与长上下文应用的真实场景背道而驰。为了弥合这一差距,我们提出了一个新颖的长上下文基准测试Loong,通过扩展的多文档问答(QA)与现实场景相一致。与典型的文档问答不同,在Loong的测试案例中,每个文档都与最终答案相关,忽略任何文档都将导致答案失败。此外,Loong引入了四种类型的任务,涵盖了一系列上下文长度:焦点定位、比较、聚类和推理链,以促进对长上下文理解的更真实和全面的评估。大量实验证明,现有的长上下文语言模型仍然具有相当大的增强潜力。检索增强生成(RAG)表现不佳,表明Loong能够可靠地评估模型的长上下文建模能力。

论文链接: https://arxiv.org/pdf/2406.17419

cs.CL: 探索大型多模态模型中的语音特定风险:分类、基准和洞见

原标题: Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights

作者: Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari

机构: 莫纳什大学 Monash University

摘要: 大型多模态模型(LMMs)最近取得了巨大成功,展现出了强大的理解多模态信息并与人类用户交互的能力。尽管取得了进展,但在多模态环境下检测高风险交互的挑战,特别是在语音模态下,仍然是一个较少被探索的领域。传统的关于语音模态风险的研究主要强调内容(例如,作为转录捕获的内容)。然而,在基于语音的交互中,音频中的语用线索可以显著改变话语背后的预期含义。在这项工作中,我们提出了一个特定于语音的风险分类法,涵盖了敌意(恶意讽刺和威胁)、恶意模仿(年龄、性别、种族)和刻板偏见(年龄、性别、种族)下的8个风险类别。基于这个分类法,我们创建了一个小规模数据集,用于评估当前LMMs在检测这些风险类别方面的能力。我们观察到,即使是最新的模型在检测语音中各种语用特定风险方面仍然无效(例如,Gemini 1.5 Pro的表现仅略高于随机基线)。警告:本文包含有偏见和冒犯性的例子。

论文链接: https://arxiv.org/pdf/2406.17430

cs.CL: 变量逐层量化:一种简单有效的大语言模型量化方法

原标题: Variable Layer-Wise Quantization: A Simple and Effective Approach to Quantize LLMs

作者: Razvan-Gabriel Dumitru, Vikas Yadav, Rishabh Maheshwary, Paul-Ioan Clotan, Sathwik Tejaswi Madhusudhan, Mihai Surdeanu

机构: 亚利桑那大学 Università di Bologna ServiceNow Research

摘要: 我们提出了一种简单的可变量化方法,该方法在大语言模型(LLM)的不同层上使用不同的比特级别进行量化。具体来说,我们将最重要的层量化为更高的比特精度,将不太重要的层量化为较低的比特,以实现浮点量化水平。我们提出了两种有效的策略来衡量LLM中各层的重要性:第一种策略是基于层的输出嵌入与输入嵌入的差异来衡量层的重要性(差异越大越好);第二种策略是利用大于平均值的层权重数量来估计层的重要性(数量越少越好)。我们展示了根据我们的重要性评分以不同比特量化不同层会导致性能下降最小,同时模型大小大大压缩。最后,我们从可变层级量化实验中得出了几个实用的关键要点:(a) 在使用我们提出的排序时,LLM在可变量化情况下的性能保持接近原始模型,直到25-50%的层被移至较低的量化级别,但如果没有特定的排序,只能保持在5-10%;(b) 与修剪相比,将LLM量化为较低的比特性能要好得多,除非使用极端量化(2比特);© 与层数较少的较小LLM相比,对层数较多的较大LLM进行逐层量化至较低比特效果更好。用于运行实验的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.17415

Github: https://github.com/RazvanDu/LayerwiseQuant

cs.CL: 本土设计偏见:研究英语本土化对语言模型性能的影响

原标题: Native Design Bias: Studying the Impact of English Nativeness on Language Model Performance

作者: Manon Reusens, Philipp Borchert, Jochen De Weerdt, Bart Baesens

机构: 鲁汶大学 国立信息系统工程研究中心(LIRIS) 南安普敦大学 IESEG管理学院

摘要: 大语言模型(LLMs)擅长提供在大规模语料库预训练期间获取的信息,并根据用户提示遵循指令。本研究调查了LLM响应质量是否取决于用户的人口统计特征。考虑到英语作为全球通用语以及不同母语使用者之间方言的多样性,我们探讨非母语使用者是否更频繁地收到LLM的低质量甚至事实不准确的响应。我们的结果显示,在LLM受到母语和非母语使用者提示时存在性能差异,并且在比较西方国家的母语使用者与其他国家的母语使用者时这种差异仍然存在。此外,我们发现当模型识别或意识到用户的母语时存在强烈的锚定效应,这进一步降低了与非母语使用者互动时的响应质量。我们的分析基于一个新收集的数据集,包括来自124名注释者的超过12,000个独特注释,其中包括他们的母语和英语熟练程度信息。

论文链接: https://arxiv.org/pdf/2406.17385

cs.CL: 制造一些噪音:通过嘈杂训练解锁语言模型的并行推理能力

原标题: Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training

作者: Yixuan Wang, Xianzhen Luo, Fuxuan Wei, Yijun Liu, Qingfu Zhu, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che

机构: 哈尔滨工业大学 杜小满(北京)科技有限公司

摘要: 现有的推测解码方法通常需要额外的模型结构和训练过程来辅助模型进行草案标记生成。这使得加速方法向新模型的迁移成本更高,对设备内存的要求也更高。为了解决这个问题,我们提出了“制造一些噪音”(MSN)训练框架,作为大型语言模型监督微调阶段的替代方案。该训练方法简单地在模型输入中引入一些噪音,以便模型学习去噪任务。这显著增强了模型的并行解码能力,而不影响原始任务能力。此外,我们提出了一种基于树的检索增强雅可比(TR-Jacobi)解码策略,以进一步提高MSN模型的推理速度。在通用和代码领域的实验证明,MSN可以提高推理速度2.3-2.7倍,而不影响模型性能。MSN模型在Spec-Bench上也实现了与具有额外模型结构的SOTA模型相当的加速比。

论文链接: https://arxiv.org/pdf/2406.17404

cs.CL: 一段文本价值连城:LLM 秘密地将文本嵌入与关键 Token 很好地对齐

原标题: A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens

作者: Zhijie Nie, Richong Zhang, Zhanyu Wu

摘要: 大语言模型(LLMs)产生的文本嵌入在信息检索、语义文本相似度等任务中取得了出色的结果。在这项工作中,我们展示了一个有趣的发现:当将文本输入嵌入LLMs时,所获得的文本嵌入能够与输入文本中的关键标记对齐。我们首先对八个嵌入LLMs上的这一现象进行了全面分析,并表明这一现象是普遍的,不受模型架构、训练策略和嵌入方法的影响。通过深入分析,我们发现嵌入空间中嵌入LLMs和它们原始的生成LLMs之间的主要变化在于第一主成分。通过调整第一主成分,我们可以将文本嵌入与关键标记对齐。最后,我们给出了几个示例来展示这一发现的广泛应用潜力:(1)我们提出了一种基于对齐标记的简单实用的稀疏检索方法,可以在显著减少计算的同时实现与相同模型的密集检索效果的80%;(2)我们展示了我们的发现为帮助理解模糊概念(例如语义相关性与语义相似性)和这一领域中新兴技术(例如遵循指令的嵌入)提供了新的视角。

论文链接: https://arxiv.org/pdf/2406.17378

cs.CL: 跨语言适应的三管齐下方法:多语言大语言模型的跨语言适应

原标题: A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs

作者: Vaibhav Singh, Amrith Krishna, Karthika NJ, Ganesh Ramakrishnan

机构: 印度理工学院孟买分校 SML

摘要: 低资源语言根据其定义往往在大语言模型的预训练语料中代表不足。在这项工作中,我们研究了三种低资源跨语言方法,使大语言模型能够适应以前未见过的语言任务。Llama-2是一个大语言模型,其中印度语言等许多语言族仅占总共2万亿标记预训练语料的不到0.005%。在这项工作中,我们尝试使用以英语为主导的Llama-2进行跨语言转移,目标语言为孟加拉语、印地语和泰米尔语。我们研究了跨语言转移的三种方法,包括ICL和微调。首先,我们发现通过在大语言模型中添加额外的监督信号,可以改善上下文学习和微调的效果。其次,将目标语言适应到单词重新排序可能对ICL有益,但在微调中其影响会减弱。最后,持续在一个低资源语言中进行预训练可以提高模型对其他相关低资源语言的性能。

论文链接: https://arxiv.org/pdf/2406.17377

cs.CL: 利用合成音频数据进行端到端低资源语音翻译

原标题: Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation

作者: Yasmin Moslem

机构: Bering Lab

摘要: 本文描述了我们在2024年国际口语翻译大会(IWSLT 2024)上提交的爱尔兰语到英语语音翻译系统。我们基于Whisper构建了端到端系统,并采用了一些数据增强技术,如语音回译和噪声增强。我们研究了使用合成音频数据的效果,并讨论了丰富信号多样性的几种方法。

论文链接: https://arxiv.org/pdf/2406.17363

cs.CL: 一项关于孟加拉语上下文长度变化对偏见特征的实证研究

原标题: An Empirical Study on the Characteristics of Bias upon Context Length Variation for Bangla

作者: Jayanta Sadhu, Ayan Antik Khan, Abhik Bhattacharjee, Rifat Shahriyar

机构: 孟加拉国工程技术大学 (BUET)

摘要: 预训练语言模型固有地展现出各种社会偏见,由于它们被广泛使用,因此迫切需要对它们在各种语言环境中的社会影响进行重要的审查。先前的研究已经提供了许多方法来进行内在偏见的测量,主要集中在高资源语言上。在这项工作中,我们旨在将这些调查扩展到孟加拉语这种低资源语言。具体来说,在这项研究中,我们(1)创建了一个用于测量孟加拉语内在性别偏见的数据集,(2)讨论了应用现有偏见测量方法到孟加拉语所需的必要调整,以及(3)研究了上下文长度变化对偏见测量的影响,这是先前研究中被忽视的因素。通过我们的实验,我们展示了偏见度量指标对上下文长度的明显依赖,突显了在孟加拉语偏见分析中需要细致考虑的需求。我们认为我们的工作是孟加拉语偏见测量的一个基础,并公开提供我们所有的资源以支持未来的研究。

论文链接: https://arxiv.org/pdf/2406.17375

cs.CL: Disce aut Deficere: 评估大语言模型在INVALSI意大利基准测试中的能力

原标题: Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark

作者: Fabio Mercorio, Mario Mezzanzanica, Daniele Potertì, Antonio Serino, Andrea Seveso

机构: 米兰比科卡大学 意大利 经济管理与统计学院 crispresearch.eu

摘要: 最近大语言模型(LLMs)的进展显著增强了它们生成和操纵人类语言的能力,突显了它们在各种应用中的潜力。评估除英语以外的语言中的LLMs对于确保它们在语言上的多样性、文化相关性和在不同全球背景下的适用性至关重要,从而拓宽了它们的可用性和有效性。我们通过引入一个结构化基准来解决这一挑战,该基准使用了INVALSI测试,这是一组旨在衡量意大利教育能力的成熟评估。我们的研究主要有三个贡献:首先,我们为自动化LLM评估改编了INVALSI基准,这涉及严格地改编测试格式以适应自动处理,同时保留原始测试的本质。其次,我们提供了对当前LLMs的详细评估,为学术界提供了重要的参考点。最后,我们将这些模型的表现与人类结果进行了可视化比较。此外,研究人员被邀请提交他们的模型进行持续评估,以确保该基准保持为当前和有价值的资源。

论文链接: https://arxiv.org/pdf/2406.17535

cs.CL: 大语言模型的双空间知识蒸馏

原标题: Dual-Space Knowledge Distillation for Large Language Models

作者: Songming Zhang, Xue Zhang, Zengkui Sun, Yufeng Chen, Jinan Xu

机构: 北京交通大学

摘要: 知识蒸馏(KD)被认为是一种有希望的解决方案,可以通过将大语言模型(LLMs)的知识转移给较小的模型来压缩它们。在这个过程中,白盒知识蒸馏方法通常通过最小化两个模型的输出分布之间的距离来实现更多的知识转移。然而,在当前的白盒知识蒸馏框架中,输出分布来自两个模型的各自输出空间,使用它们自己的预测头。我们认为这种空间差异将导致教师模型和学生模型在表示和分布水平上的相似度较低。此外,这种差异也阻碍了具有不同词汇的模型之间的知识蒸馏过程,而这对于当前的大语言模型来说是很常见的。为了解决这些问题,我们提出了一个双空间知识蒸馏(DSKD)框架,用于统一两个模型的输出空间以进行知识蒸馏。基于DSKD,我们进一步开发了一个跨模型注意力机制,可以自动对齐具有不同词汇的两个模型的表示。因此,我们的框架不仅与当前框架一样兼容各种知识蒸馏的距离函数(例如KL散度),而且还支持任何两个具有不同词汇的大语言模型之间的知识蒸馏。在任务无关的指令遵循基准测试上的实验表明,DSKD在各种距离函数下明显优于当前的白盒知识蒸馏框架,并且也超过了现有的针对具有不同词汇的大语言模型的知识蒸馏方法。

论文链接: https://arxiv.org/pdf/2406.17328

cs.CL: 并非所有偏好对都是平等的:一种高效标注的迭代偏好学习方法

原标题: Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning

作者: Sen Yang, Leyang Cui, Deng Cai, Xinting Huang, Shuming Shi, Wai Lam

机构: 香港中文大学 腾讯人工智能实验室

摘要: 迭代式偏好学习虽然能够产生更优越的性能,但需要在线标注偏好标签。在这项工作中,我们研究了选择值得注释的响应对策略,以实现成本高效的注释,并在迭代式偏好学习中与随机选择基线相比实现竞争性甚至更好的性能。基于对不确定性和分布变化的假设,我们提出了一个比较视角,通过DPO预测的隐式奖励边际来排名,以选择产生更多好处的响应对。通过大量实验证明,注释那些具有较小边际的响应对通常比较大或随机的更好,在单次和多次迭代的情况下都是如此。此外,我们的实证结果表明,在多次迭代中更多地分配注释预算在较早的迭代中而不是后期是更好的。

论文链接: https://arxiv.org/pdf/2406.17312

cs.CL: 探究在天文科学出版物中利用 ChatGPT 的运用

原标题: Delving into the Utilisation of ChatGPT in Scientific Publications in Astronomy

作者: Simone Astarita, Sandor Kruk, Jan Reerink, Pablo Gómez

机构: 欧洲空间局(ESA)

摘要: 机器学习方法在自然语言处理方面的能力迅速提升,导致了大语言模型在过去两年中的崛起。最近的研究表明,这些模型在学术写作中得到了空前的应用,尤其是在某些领域,但它们在天文学中的普及程度尚未得到充分研究。为了弥补这一不足,我们提取了ChatGPT在生成学术文本时比人类更常用的单词,并对总共100万篇文章进行了搜索。通过这种方式,我们评估了自2000年以来由NASA天体物理数据系统跟踪的天文学出版作品中单词出现的频率。然后,我们对这些出现进行了统计分析。我们确定了ChatGPT青睐的单词列表,并发现这些单词在2024年与对照组相比出现了显著增加,这与其他学科的趋势相匹配。这些结果表明这些模型在天文论文写作中得到了广泛应用。我们鼓励组织、出版商和研究人员共同努力,制定道德和务实的指导方针,以最大限度地发挥这些系统的益处,同时保持科学严谨性。

论文链接: https://arxiv.org/pdf/2406.17324

cs.CL: 使用大语言模型进行检索增强指令调整,用于开放式命名实体识别

原标题: Retrieval Augmented Instruction Tuning for Open NER with Large Language Models

作者: Tingyu Xie, Jian Zhang, Yan Zhang, Yuanyuan Liang, Qi Li, Hongwei Wang

机构: 浙江大学 国立新加坡大学 华东师范大学

摘要: 大语言模型(LLMs)的强大能力已经被应用于信息提取(IE),通过检索增强提示或指令调整(IT)。然而,如何最好地将信息与LLMs结合以进行IE仍然是一个悬而未决的问题。在本文中,我们探讨了检索增强指令调整(RA-IT)用于IE,重点关注开放式命名实体识别(NER)任务。具体来说,对于每个训练样本,我们从训练数据集中检索语义相似的示例作为上下文,并将它们添加到原始指令的输入中。为了更全面地评估我们的RA-IT方法,我们为开放式NER构建了一个中文IT数据集,并在英文和中文场景下评估了RA-IT。实验结果验证了RA-IT在各种数据规模和英文、中文场景下的有效性。我们还进行了深入研究,探讨了提出的RA-IT框架中各种检索策略的影响。代码和数据可在以下链接获取:this https URL

论文链接: https://arxiv.org/pdf/2406.17305

Github: https://github.com/Emma1066/Retrieval-Augmented-IT-OpenNER

cs.CL: 利用大语言模型进行对话质量评估

原标题: Leveraging LLMs for Dialogue Quality Measurement

作者: Jinghan Jia, Abi Komma, Timothy Leffel, Xujun Peng, Ajay Nagesh, Tamer Soliman, Aram Galstyan, Anoop Kumar

机构: 密歇根州立大学 亚马逊 AGI基金会

摘要: 在面向任务的对话式人工智能评估中,无监督方法与人类判断之间的相关性较差,而监督方法缺乏泛化能力。最近大语言模型(LLMs)的进展显示出在自然语言处理任务中具有强大的零样本和少样本能力。本文探讨了使用LLMs进行自动对话质量评估,通过在公开和专有数据集上尝试不同配置进行实验。我们通过操纵模型大小、上下文示例和选择技术等因素,研究了“思维链”(CoT)推理和标签提取程序。我们的结果表明:(1)更大的模型能够产生更准确的对话标签;(2)算法选择上下文示例优于随机选择;(3)在LLM输出最终标签之前要求其提供理由的CoT推理可以提高性能;(4)精细调整的LLMs优于开箱即用的模型。我们的结果表明,经过适当调整并具有足够推理能力的LLMs可以用于自动对话评估。

论文链接: https://arxiv.org/pdf/2406.17304

cs.CL: Math-LLaVA: 为多模态大语言模型引入数学推理的引导程序

原标题: Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

作者: Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee

机构: 中国电子科技大学 新加坡科技与设计大学 同济大学 国立新加坡大学

摘要: 大语言模型(LLMs)已经展示了令人印象深刻的推理能力,特别是在文本数学问题求解方面。然而,现有的开源图像指令微调数据集,每个图像包含的问题-答案对有限,未能充分利用视觉信息来增强多模态语言模型(MLLMs)的数学推理能力。为了弥补这一差距,我们通过收集来自24个现有数据集的40K张高质量图像及其问题-答案对,并合成了320K个新的问题-答案对,创建了MathV360K数据集,从而增强了多模态数学问题的广度和深度。我们引入了Math-LLaVA,这是一个基于LLaVA-1.5的模型,通过MathV360K进行了微调。这种新颖的方法显著改进了LLaVA-1.5的多模态数学推理能力,在MathVista的minitest分割上实现了19点的提升,并且在MMMU基准测试上表现出与GPT-4V相当的性能。此外,Math-LLaVA展示了增强的泛化能力,在MMMU基准测试上显示出了显著的改进。我们的研究突出了数据集的多样性和合成在提升MLLMs的数学推理能力方面的重要性。代码和数据可在以下链接获取:\url{this https URL}。

论文链接: https://arxiv.org/pdf/2406.17294

Github: https://github.com/HZQ950419/Math-LLaVA

cs.CL: CausalScore:一种用于评估开放域对话系统中回复相关性的自动无参考度量标准

原标题: CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems

作者: Tao Feng, Lizhen Qu, Xiaoxi Kang, Gholamreza Haffari

机构: 莫纳什大学 澳大利亚

摘要: 自动评估开放领域对话系统中响应质量是一项具有挑战性但至关重要的任务。当前的评估指标在评估语法正确的响应时往往无法与人类判断保持一致。为了解决这个问题,我们提出了一种新颖的指标,称为CausalScore,通过衡量对话历史和响应之间的因果关系强度来评估响应的相关性。因果关系强度是通过利用对话历史到响应的无条件依赖和条件依赖来估计的。我们将我们的指标与现有的竞争性指标进行比较,以了解它们与人类判断的一致性。我们的实验结果表明,CausalScore在与人类判断的一致性方面明显优于现有的最先进指标。此外,我们收集了一个新的对话数据集CGDIALOG+,其中包含人类注释的因果关系和一组成对的人类判断,以促进未来自动指标的发展。

论文链接: https://arxiv.org/pdf/2406.17300

cs.CL: 利用大语言模型预测中国辅导对话中的大五人格特质

原标题: Predicting the Big Five Personality Traits in Chinese Counselling Dialogues Using Large Language Models

作者: Yang Yan, Lizhi Ma, Anqi Li, Jingsong Ma, Zhenzhong Lan

机构: 浙江大学 西湖大学 工程学院 未来产业研究中心 杭州工商职业技术学院

摘要: 准确评估个性特征对有效的心理咨询至关重要,然而传统的方法如自我报告问卷耗时且存在偏见。本研究检验了大语言模型(LLMs)是否能直接从咨询对话中预测大五人格特质,并引入了创新框架来执行这一任务。我们的框架应用角色扮演和基于问卷的提示来使LLMs在咨询会话中进行条件化,模拟客户对大五人格清单的回应。我们在853个真实世界的咨询会话中评估了我们的框架,发现LLM预测的大五特质与实际特质之间存在显著相关性,证明了框架的有效性。此外,消融研究突出了角色扮演模拟和通过问卷简化任务对提高预测准确性的重要性。与此同时,我们的经过精细调整的Llama3-8B模型,利用直接偏好优化与监督微调,取得了130.95%的改进,超过了现有技术Qwen1.5-110B的36.94%的人格预测有效性。总之,LLMs能够基于咨询对话预测个性。我们的代码和模型可在\url{this https URL}公开获取,为未来计算心理测量学研究提供了有价值的工具。

论文链接: https://arxiv.org/pdf/2406.17287

Github: https://github.com/kuri-leo/BigFive-LLM-Predictor

cs.CL: 楔形文字符号的递归编码

原标题: A Recursive Encoding for Cuneiform Signs

作者: Daniel M. Stelzer (University of Illinois at Urbana-Champaign)

机构: 伊利诺伊大学香槟分校

摘要: 楔形文字教学中最重要的问题之一是查找未知符号的过程,通常需要通过繁琐的逐页搜索符号列表来进行。本文提出了一种新的“递归编码”方法来表示符号的笔画排列,使计算机能够处理。随后提出了一系列新算法,为学生提供了一种通过任何独特组成部分查找符号的新方法,同时提供了电子化呈现符号和文板的新方式。

论文链接: https://arxiv.org/pdf/2406.17283

其他链接: https://bitbucket.org/dstelzer/hantatallas

cs.CL: BERT, 神经信息检索, 布尔检索, 否定检索

原标题: BERT, Neural Information Retrieval, Boolean Retrieval, Negation Retrieval

作者: Quan Mai, Susan Gauch, Douglas Adams

机构: 美国阿肯色大学

摘要: 我们介绍了SetBERT,这是一个经过微调的基于BERT的模型,旨在增强集合操作和布尔逻辑查询的查询嵌入,例如交集(AND)、差集(NOT)和并集(OR)。SetBERT显著改善了逻辑结构查询的检索性能,这是传统和神经检索方法通常表现不佳的领域。我们提出了一种创新的对比损失的使用方式,专注于识别负面句子,并使用通过prompt GPT生成的数据集对BERT进行微调。此外,我们证明,与其他基于BERT的模型不同,使用三元损失进行微调实际上会降低这一特定任务的性能。我们的实验表明,SetBERT-base不仅在召回率方面显著优于BERT-base(召回率提高了63%),而且性能也可与体积大得多的BERT-large模型相媲美,尽管其大小仅为BERT-large的三分之一。

论文链接: https://arxiv.org/pdf/2406.17282

cs.CL: 我们能相信文本摘要中不确定性估计方法的性能评估吗?

原标题: Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization?

作者: Jianfeng He, Runing Yang, Linlin Yu, Changbin Li, Ruoxi Jia, Feng Chen, Ming Jin, Chang-Tien Lu

机构: 弗吉尼亚理工大学 美国 德克萨斯大学达拉斯分校

摘要: 文本摘要是关键的自然语言生成(NLG)任务,在各个领域中至关重要。然而,在涉及人在决策中发挥作用的风险关键应用中,不准确摘要的高成本引发了对文本摘要中不确定性估计(UE-TS)评估方法可靠性的担忧。这种担忧源于不确定性模型指标对多样化且可能相互冲突的NLG指标的依赖。为解决这一问题,我们引入了一个全面的UE-TS基准,包括四个维度上的31个NLG指标。该基准评估了两个大型语言模型和一个预训练语言模型在三个数据集上的不确定性估计能力,并在适用的情况下纳入了人工注释分析。我们还评估了该基准中14种常见的不确定性估计方法的性能。我们的研究结果强调了考虑多个不相关的NLG指标和多样化的不确定性估计方法以确保可靠和高效的UE-TS技术评估的重要性。

论文链接: https://arxiv.org/pdf/2406.17274

cs.CL: OPT-Tree:具有自适应草案树结构的推测解码

原标题: OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure

作者: Jikai Wang, Yi Su, Juntao Li, Qinrong Xia, Zi Ye, Xinyu Duan, Zhefeng Wang, Min Zhang

机构: 苏州大学 华为集团

摘要: 自回归语言模型在各种场景中表现出卓越的性能。然而,推理效率受到其一步一词生成模式的限制,随着模型变得越来越大,这已成为一个迫切的问题。推测性解码采用“起草然后验证”的机制,允许在一步中生成多个标记,实现无损加速。现有方法主要采用固定的启发式起草结构,未能适应不同情况以最大化验证过程中的接受长度。为了缓解这一困境,我们提出了OPT-Tree,这是一种构建自适应可扩展起草树的算法。它搜索最大化每个解码步骤中接受长度的数学期望的最佳树结构。实验结果表明,OPT-Tree优于现有的起草结构,并与自回归解码相比实现了高达3.2倍的加速比。如果起草模型足够强大且节点预算足够,它可以在一步中生成超过十个标记。我们的代码可在此网址获取:https://这里是网址。

论文链接: https://arxiv.org/pdf/2406.17276

Github: https://github.com/Jikai0Wang/OPT-Tree

cs.CL: DARG: 通过自适应推理图动态评估大语言模型

原标题: DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph

作者: Zhehao Zhang, Jiaao Chen, Diyi Yang

机构: 达特茅斯学院 乔治亚理工学院 斯坦福大学

摘要: 当前通过静态基准评估大语言模型(LLMs)的范式存在显著局限,如易受数据污染的脆弱性以及对LLMs不断发展能力的适应性不足。因此,迫切需要能够自适应生成具有可控复杂性的评估数据的评估方法。在这项工作中,我们引入了通过自适应推理图演变(DARG)动态评估LLMs的方法,以动态扩展当前基准并增加可控复杂性和多样性。具体而言,我们首先提取当前基准中数据点的推理图,然后扰动推理图以生成新的测试数据。这些新生成的测试样本可以具有不同级别的复杂性,同时保持类似于原始基准的语言多样性。我们进一步使用增强代码的LLM来确保新生成数据的标签正确性。我们将我们的DARG框架应用于四个领域的多样化推理任务中,涉及15个最先进的LLMs。实验结果表明,几乎所有的LLMs在复杂性增加时性能下降,而某些LLMs表现出显著下降。此外,我们发现LLMs在通过DARG生成的具有更高复杂性级别的数据进行评估时表现出更多的偏见。这些观察结果为动态和自适应评估LLMs提供了有用的见解。代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.17271

Github: https://github.com/SALT-NLP/DARG

cs.CL: D2LLM:分解和精炼的大语言模型用于语义搜索

原标题: D2LLM: Decomposed and Distilled Large Language Models for Semantic Search

作者: Zihan Liao, Hang Yu, Jianguo Li, Jun Wang, Wei Zhang

机构: 华东师范大学 Ant Group

摘要: 语义搜索中的关键挑战是创建既准确又高效的模型,以精确定位查询的相关句子。虽然类似BERT风格的双编码器在使用预先计算的嵌入向量方面效率高,但它们经常错过搜索任务中的微妙细微差别。相反,GPT风格的大语言模型(LLM)采用交叉编码器设计捕捉这些微妙差别,但在计算上非常耗费资源,阻碍了实时应用。在本文中,我们提出了D2LLMs-Decomposed and Distilled LLMs for semantic search,结合了两者的优点。我们将交叉编码器分解为一个高效的双编码器,集成了多头注意力池化和交互仿真模块,实现了微妙理解和预先计算的能力。我们使用对比、排名和特征模仿技术将大语言模型的知识提炼到这个模型中。我们的实验表明,D2LLM在三个任务的所有指标上均超过了五个主流基准线,特别是将自然语言推理任务的性能提高了至少6.45%。源代码可在此网址获得:https://URL。

论文链接: https://arxiv.org/pdf/2406.17262

Github: https://github.com/codefuse-ai/D2LLM

cs.CL: TRAWL:大语言模型的张量减少和近似权重

原标题: TRAWL: Tensor Reduced and Approximated Weights for Large Language Models

作者: Yiran Luo, Het Patel, Yu Fu, Dawon Ahn, Jia Chen, Yue Dong, Evangelos E. Papalexakis

机构: 加州大学河滨分校

摘要: 大语言模型(LLMs)在根本上改变了人工智能,催生了最近的进展,同时也带来了重大的环境和计算负担。我们介绍了TRAWL(Tensor Reduced and Approximated Weights for Large Language Models),这是一种通过张量分解优化LLMs的新方法。TRAWL利用多种策略来利用基于Transformer的架构中的矩阵,实现了显著的性能提升,而无需重新训练。最显著的改进是通过逐层干预策略实现的,特别是当应用于最终层的全连接权重时,准确性提高了高达16%,而无需额外数据或微调。这些结果强调了有针对性和适应性技术在增加大语言模型优化效率和效果方面的重要性,从而促进更可持续和可访问的人工智能系统的发展。

论文链接: https://arxiv.org/pdf/2406.17261

cs.CL: 在虚构角色扮演中减轻幻觉

原标题: Mitigating Hallucination in Fictional Character Role-Play

作者: Nafis Sadeq, Zhouhang Xie, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

机构: 加州大学圣地亚哥分校 Intuit

摘要: 角色扮演在客户支持、具象代理、计算社会科学等领域有广泛的应用。大语言模型(LLMs)的参数世界知识往往会导致角色扮演角色行为失常,并产生超出其知识范围的幻觉。在这项工作中,我们专注于评估和减轻虚构角色扮演中的幻觉。我们引入了一个包含超过2,000个角色和72,000次访谈的数据集,其中包括18,000个对抗性问题。我们提出了RoleFact,一种通过调节预校准置信阈值来减轻幻觉的角色扮演方法。实验证明,该方法使生成的回答在对抗性问题的事实准确性提高了18%,时间敏感访谈的时间幻觉减少了44%。代码和数据集将在此 https URL 上提供。

论文链接: https://arxiv.org/pdf/2406.17260

Github: https://github.com/NafisSadeq/rolefact.git

cs.CL: 利用参数高效的迁移学习进行多语言文本转语音适应

原标题: Leveraging Parameter-Efficient Transfer Learning for Multi-Lingual Text-to-Speech Adaptation

作者: Yingting Li, Ambuj Mehrish, Bryan Chew, Bo Cheng, Soujanya Poria

机构: 北京邮电大学 新加坡科技与设计大学

摘要: 不同语言具有独特的语音系统,并在韵律特征上存在差异,这使得开发能够在多语言环境中有效合成语音的文本到语音(TTS)模型具有挑战性。此外,TTS 架构需要足够高效,能够捕捉多种语言的细微差别,并且足够高效,以便实际部署。标准方法是构建基于 Transformer 的模型,如 SpeechT5,并在大型多语言数据集上对其进行训练。随着这些模型的规模增长,由于计算成本过高,传统的微调方法变得不切实际。在本文中,我们提出将参数高效的迁移学习(PETL)方法,如适配器和超网络,与 TTS 架构集成,用于多语言语音合成。值得注意的是,在我们的实验中,PETL 方法能够以仅约 2.5% 的可调参数实现与完全微调相当甚至更好的性能。代码和样本可在以下链接找到:https://anonymous.4open.science/r/multilingualTTS-BA4C。

论文链接: https://arxiv.org/pdf/2406.17257

cs.CL: MPCODER:具有显式和隐式风格表示学习的多用户个性化代码生成器

原标题: MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning

作者: Zhenlong Dai, Chang Yao, WenKang Han, Ying Yuan, Zhipeng Gao, Jingyuan Chen

机构: 浙江大学 浙江警察学院

摘要: 大语言模型(LLMs)已经展示了在日常开发中协助开发人员的巨大潜力。然而,大多数研究都集中在生成正确的代码上,如何利用LLMs生成个性化代码的研究却很少。为了弥补这一差距,我们提出了MPCoder(多用户个性化代码生成器),用于为多个用户生成个性化代码。为了更好地学习编码风格特征,我们利用显式编码风格残差学习来捕捉语法代码风格标准,利用隐式风格学习来捕捉语义代码风格约定。我们训练了一个多用户风格适配器,通过对比学习更好地区分不同用户的隐式特征表示,最终实现了多用户的个性化代码生成。我们进一步提出了一个用于估计不同编码风格代码之间相似性的新颖评估指标。实验结果显示了我们的方法在这一新颖任务中的有效性。

论文链接: https://arxiv.org/pdf/2406.17255

cs.CL: 知识编辑方法能够有效编辑令人困惑的知识吗?

原标题: How Well Can Knowledge Edit Methods Edit Perplexing Knowledge?

作者: Huaizhi Ge, Frank Rudzicz, Zining Zhu

摘要: 随着大型语言模型(LLMs)的广泛部署,有针对性地编辑它们的知识已成为一个关键挑战。最近,模型编辑技术的进展,如一级模型编辑(ROME),为更新LLMs提供了新知识的途径。然而,这些方法的有效性在不同类型的知识中存在差异。本研究调查了知识编辑方法在吸收不同程度“困惑性”新知识的能力,我们用这个术语来描述LLMs在理解新概念时的初始困难。我们首先利用预编辑条件概率量化目标知识的“困惑性”,并通过后编辑条件概率评估编辑的有效性。利用广泛使用的CounterFact数据集,我们发现在所有12个场景中,“困惑性”与编辑有效性之间存在显著的负相关。为了更深入地研究这一现象,我们引入了一个新的数据集,HierarchyData,其中包含99个跨不同类别的下义词-上义词对。我们的分析表明,更抽象的概念(上义词)往往比它们的具体对应(下义词)更令人困惑。对知识层次结构对编辑结果的影响进行进一步探索表明,在某些情况下,处于更高层次的知识更具挑战性。我们的研究突出了LLM编辑的一个先前被忽视的方面:编辑方法在处理困惑性知识方面的可变有效性。通过揭示层次关系如何影响编辑结果,我们的发现为更新LLMs的挑战提供了新的见解,并为未来更细致的模型编辑方法铺平了道路。

论文链接: https://arxiv.org/pdf/2406.17253

cs.CL: 这些电路代表什么?知识编辑视图

原标题: What Do the Circuits Mean? A Knowledge Edit View

作者: Huaizhi Ge, Frank Rudzicz, Zining Zhu

机构: 哥怀志:哥怀志:哥伦比亚大学 达尔豪斯大学 史蒂文斯理工学院

摘要: 在语言模型可解释性领域,电路发现正变得越来越受欢迎。尽管如此,这些电路的真正含义仍然大部分没有得到解答。我们引入了一种新颖的方法,通过知识编辑的视角来学习它们作为一个整体对象的含义。我们利用多样的文本分类数据集从GPT2-XL模型中提取电路,并利用层次关系数据集来探索电路中的知识编辑。我们的研究结果表明,这些电路包含实体知识,但在知识编辑过程中对新知识的抵抗力要大于互补电路。此外,我们还研究了电路大小的影响,发现理想的“理论电路”,即关键知识集中的电路,很可能包含模型参数的5%至50%。我们还评估了来自不同数据集的电路之间的重叠情况,发现它们之间存在适度的相似性。那么,这些电路构成了什么呢?我们发现高达60%的电路由层归一化模块而非注意力或MLP模块组成,这为关于知识定位的持续争论增添了证据。总之,我们的研究结果为电路的功能提供了新的见解,并为进一步解释和安全研究语言模型提供了研究方向。

论文链接: https://arxiv.org/pdf/2406.17241

cs.CL: CogMG:大语言模型和知识图谱之间的协作增强

原标题: CogMG: Collaborative Augmentation Between Large Language Model and Knowledge Graph

作者: Tong Zhou, Yubo Chen, Kang Liu, Jun Zhao

机构: 中国科学院自动化研究所 西安交通大学 上海人工智能实验室

摘要: 大语言模型已经成为问答应用中不可或缺的部分,尽管它们倾向于生成幻觉和事实不准确的内容。在大语言模型中查询知识图以减少幻觉,面临着知识图覆盖不完整的挑战。另一方面,通过信息提取和知识图补全来更新知识图则面临知识更新不一致的问题。在这项工作中,我们引入了一个协作增强框架 CogMG,利用知识图来解决大语言模型在问答场景中的局限性,明确针对知识覆盖不完整和知识更新不一致的问题。大语言模型识别和分解知识三元组,这些三元组在知识图中不存在,丰富它们并使更新与现实需求对齐。我们通过一个受监督的精细调整的大语言模型在智能体框架内展示了这种方法的有效性,显示在问答响应中减少幻觉和增强事实准确性方面取得了显著改进。我们的代码和视频已公开可用。

论文链接: https://arxiv.org/pdf/2406.17231

cs.CL: 超越人口统计学:利用人类信念网络对齐基于角色扮演的大语言模型代理

原标题: Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks

作者: Yun-Shiuan Chuang, Zach Studdiford, Krirk Nirunwiroj, Agam Goyal, Vincent V. Frigo, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers

机构: 威斯康星大学麦迪逊分校

摘要: 创建类人大语言模型(LLM)智能体对于忠实的社会模拟至关重要。基于人口统计信息进行LLM角色扮演有时可以提高类人性,但通常并不总是有效。本研究评估了通过整合来自实证人类信念网络的信息是否可以改善LLM与人类行为的一致性。利用人类调查数据,我们估计了一个包含18个主题的信念网络,这些主题加载在两个不重叠的潜在因素上。然后,我们在基于LLM的智能体中种植了一个关于一个主题的观点,并评估了其对其余测试主题的表达观点与相应人类数据的一致性。仅基于人口统计信息进行角色扮演并不能使LLM与人类观点一致,但在信念网络中种植一个单一信念大大提高了与信念网络相关主题的一致性,而对于网络之外的主题则没有改善。这些结果为寻求模拟和理解社会信念分布模式的工作提供了一条新的人类-LLM信念一致性的路径。

论文链接: https://arxiv.org/pdf/2406.17232

cs.CL: 在美国枪支暴力报道中检测新闻标题和主要图片中的框架

原标题: Detecting Frames in News Headlines and Lead Images in U.S. Gun Violence Coverage

作者: Isidora Chara Tourni, Lei Guo, Hengchang Hu, Edward Halim, Prakash Ishwar, Taufiq Daryanto, Mona Jalal, Boqi Chen, Margrit Betke, Fabian Zhafransyah, Sha Lai, Derry Tanti Wijaya

机构: 波士顿大学

摘要: 新闻媒体在报道事件或问题时会运用特定的视角结构。
例如,在描述涉及枪支暴力的事件时,一些记者可能会关注心理健康或枪支监管,而其他人可能会强调对枪支权利的讨论。这些视角在传播研究中被称为“框架”。我们首次研究了将主要图片及其背景信息与文本相结合,以识别给定新闻文章的框架的价值。我们观察到,在图片与标题框架相关时,使用多种信息模式(文章和图片衍生特征)可以提高新闻框架的预测能力,而任何单一信息模式都无法做到这一点。我们还观察到,框架图片相关性与通过图片传达框架的便利性有关,我们称之为框架具体性。此外,我们发布了第一个与美国枪支暴力相关的多模态新闻框架数据集,由传播研究人员策划和注释。该数据集将使研究人员能够进一步研究利用多种信息模态来研究媒体框架的使用。

论文链接: https://arxiv.org/pdf/2406.17213

cs.CL: FedBiOT:在联邦学习中进行大语言模型的本地微调,无需完整模型

原标题: FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model

作者: Feijie Wu, Zitao Li, Yaliang Li, Bolin Ding, Jing Gao

机构: 普渡大学 阿里巴巴集团

摘要: 大语言模型(LLMs)在经过一些适当数据的微调后,在许多特定领域的任务上表现出惊人的性能。然而,许多特定领域的数据是分布在多个所有者之间的私有数据。因此,这一困境引起了人们对如何在联邦学习(FL)中进行LLM微调的兴趣。然而,面对有限的计算和通信能力,FL客户端很难有效地对LLM进行微调。为此,我们引入了FedBiOT,这是一种资源高效的LLM微调方法,适用于FL。具体而言,我们的方法涉及服务器生成一个压缩的LLM,并使其性能与完整模型保持一致。随后,客户端对压缩模型的一个轻量但重要的部分进行微调,称为适配器。需要注意的是,由于服务器无法访问客户拥有的私有数据,因此服务器用于性能对齐的数据与客户端用于微调的数据具有不同的分布。我们将问题形式化为一个双层优化问题,以最小化数据差异的负面影响,并推导出服务器和客户端的更新规则。我们在LLaMA-2上进行了大量实验,实验证明当适配器重新整合到全局LLM时,其性能异常出色。结果还表明,所提出的FedBiOT相对于现有基准显著减少了资源消耗,同时实现了可比较的性能水平。

论文链接: https://arxiv.org/pdf/2406.17706

cs.CL: 这篇论文有最聪明的审稿人——利用音频文本Transformer的方法进行阿谀检测

原标题: This Paper Had the Smartest Reviewers – Flattery Detection Utilising an Audio-Textual Transformer-Based Approach

作者: Lukas Christ, Shahin Amiriparian, Friederike Hawighorst, Ann-Kathrin Schill, Angelo Boutalikakis, Lorenz Graf-Vlachy, Andreas König, Björn W. Schuller

机构: 奥格斯堡大学 德国 慕尼黑工业大学 德国 帕绍大学 德国 多特蒙德工业大学 德国 伦敦帝国学院 英国

摘要: 奉承是人类交流中的重要方面,有助于社交联系,塑造感知,并通过策略性的恭维和赞美影响行为,利用语言的力量有效建立融洽关系。其自动检测可以增强人机交互的自然性。为满足这一需求,我们提出了一个新颖的音频文本数据集,包括20小时的语音,并训练了用于自动检测奉承的机器学习模型。具体而言,我们采用了预训练的AST、Wav2Vec2和Whisper模型用于语音模态,以及Whisper TTS模型结合RoBERTa文本分类器用于文本模态。随后,我们通过结合文本和音频表示构建了一个多模态分类器。对未见测试数据的评估显示出有希望的结果,仅音频实验中未加权平均召回率达到82.46%,仅文本实验中为85.97%,而采用多模态方法时为87.16%。

论文链接: https://arxiv.org/pdf/2406.17667

cs.CL: ELIZA重新诠释:世界上第一个聊天机器人最初并不是作为聊天机器人而设计的。

原标题: ELIZA Reinterpreted: The world’s first chatbot was not intended as a chatbot at all

作者: Jeff Shrager

机构: 斯坦福大学 蓝点变革

摘要: ELIZA,通常被认为是世界上第一个聊天机器人,是由Joseph Weizenbaum在1960年代初编写的。Weizenbaum并不打算发明聊天机器人,而是建立一个用于研究人机对话和重要的认知过程(包括解释和误解)的平台。ELIZA的目的被其知名度所掩盖,这在很大程度上是由于它的创造时机巧合,并且它逃逸到了野外。在本文中,我为ELIZA的创造提供了丰富的历史背景,展示了ELIZA是如何从技术史上的一些核心线索的交汇处产生的。我还简要讨论了ELIZA如何逃逸到世界,并且它的意外逃逸,以及几次编程语言转折的巧合,导致人们错误地认为ELIZA是作为聊天机器人而设计的,并且导致原始ELIZA在50多年的时间里失落于历史之中。

论文链接: https://arxiv.org/pdf/2406.17650

cs.CL: 缩小差距:探讨改进 CLIP 中跨模态对齐的方法

原标题: Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

作者: Sedigheh Eslami, Gerard de Melo

机构: 哈索普拉特纳研究所

摘要: 对比语言-图像预训练(CLIP)在零样本分类和跨模态视觉-语言任务中表现出显著的改进。然而,从几何角度来看,发现CLIP嵌入空间存在明显的模态差距。这种差距使嵌入空间过于稀疏和不连贯,不同的模态在超球面的不同子区域中密集分布。在这项工作中,我们旨在回答两个主要问题:1. 在多模态编码器之间共享参数空间是否能减少模态差距?2. 通过推开单模态嵌入来减轻差距是否可行?我们设计了AlignCLIP,以回答这些问题,并表明两个问题的答案都是积极的。通过大量实验,我们展示了AlignCLIP在嵌入的跨模态对齐方面取得了显著的改进,从而减少了模态差距,同时在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

论文链接: https://arxiv.org/pdf/2406.17639

cs.CL: 构建端到端多语言自动歌词转录模型

原标题: Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model

作者: Jiawen Huang, Emmanouil Benetos

机构: 伦敦大学玛丽皇后学院

摘要: 多语种自动歌词转录(ALT)是一项具有挑战性的任务,这是由于标注数据的有限可用性以及由于歌唱而引入的挑战,与多语种自动语音识别相比。尽管最近发布了一些多语种歌唱数据集,但英语仍然主导着这些收集。由于数据规模和注释质量的原因,多语种ALT仍然未被充分探索。在本文中,我们旨在利用现有数据集创建一个多语种ALT系统。受到已被证明对英语ALT有效的架构的启发,我们通过扩展目标词汇集,将这些技术调整到多语种情景中。然后,我们评估多语种模型的性能,与其单语种对应模型进行比较。此外,我们探索各种条件方法,将语言信息纳入模型中。我们应用语言分析并将其与语言分类性能相结合。我们的研究结果表明,多语种模型的性能始终优于在语言子集上训练的单语种模型。此外,我们证明了纳入语言信息显著增强了性能。

论文链接: https://arxiv.org/pdf/2406.17618

cs.CL: CDQuant:使用贪婪坐标下降进行准确的大型预训练模型后训练权重量化

原标题: CDQuant: Accurate Post-training Weight Quantization of Large Pre-trained Models using Greedy Coordinate Descent

作者: Pranav Ajit Nair, Arun Sai Suggala

机构: 谷歌DeepMind

摘要: 大语言模型(LLMs)最近在各种语言任务中展现出了卓越的性能。但它们的部署通常受到了大量的计算和存储需求的限制。量化已经成为解决这一挑战的关键技术,能够在最小程度上影响性能的情况下压缩大型模型。最近的GPTQ算法,一种后训练量化(PTQ)方法,已被证明对于压缩LLMs非常有效,引发了一波利用GPTQ作为核心组件的研究。鉴于GPTQ在PTQ领域中的关键作用,我们介绍了CDQuant,这是一种简单且可扩展的替代GPTQ的方法,具有改进的性能。CDQuant使用坐标下降来最小化逐层重构损失,以实现高质量的量化权重。我们的算法易于实现,并且能够高效地扩展到拥有数千亿参数的模型。通过对PaLM2模型系列进行广泛评估,我们证明了CDQuant在各种模型大小和量化水平上始终优于GPTQ。特别是对于PaLM2-Otter的INT2量化,CDQuant相比GPTQ实现了10%的困惑度降低。

论文链接: https://arxiv.org/pdf/2406.17542

cs.CL: 大语言模型能理解 DL-Lite 本体吗?一项实证研究

原标题: Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study

作者: Keyu Wang, Guilin Qi, Jiaqi Li, Songlin Zhai

机构: 东南大学 计算机科学与工程学院

摘要: 大语言模型(LLMs)已经在解决各种任务方面取得了显著的成就。最近,LLMs存储、检索和推理符号知识的能力引起了极大关注,显示出它们理解结构化信息的潜力。然而,目前尚不清楚LLMs是否能理解描述逻辑(DL)本体论。在这项工作中,我们通过实证分析LLMs理解DL-Lite本体论的能力,涵盖了从句法和语义方面的6个代表性任务。通过大量实验,我们展示了LLMs在理解DL-Lite本体论方面的有效性和局限性。我们发现LLMs能够理解概念和角色的形式语法和模型论语义。然而,LLMs在理解TBox NI的传递性和处理具有大型ABoxes的本体论方面存在困难。我们希望我们的实验和分析能够更深入地了解LLMs,并激发建立更忠实的知识工程解决方案的灵感。

论文链接: https://arxiv.org/pdf/2406.17532

cs.CL: AG-LSEC:基于音频的词汇发音错误修正

原标题: AG-LSEC: Audio Grounded Lexical Speaker Error Correction

作者: Rohit Paturi, Xiang Li, Sundararajan Srinivasan

机构: 亚马逊AI实验室

摘要: 说话人分离(SD)系统通常基于音频,并独立于传统语音转录流水线中的ASR系统运行,可能由于SD和/或ASR的协调而出现说话人错误,特别是在说话人转换和语音重叠区域。为了减少这些错误,最近提出了一种词汇说话人错误校正(LSEC)方法,其中外部语言模型提供词汇信息来纠正说话人错误。尽管该方法实现了良好的词分离错误率(WDER)改进,但它不使用任何额外的声学信息,容易发生错误校正。在本文中,我们提出通过直接从现有SD流水线中导出的说话人分数来增强和声学基础LSEC系统。这种方法在RT03-CTS、Callhome美式英语和Fisher数据集上实现了相对WDER降低25-40%的显著效果,超过了基于音频的SD、ASR系统,并相对于LSEC系统在15-25%的范围内取得了优势。

论文链接: https://arxiv.org/pdf/2406.17266

cs.CL: 自构建上下文反编译与细粒度对齐增强

原标题: Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement

作者: Yunlong Feng, Yang Xu, Dechuan Teng, Honglin Mu, Xiao Xu, Libo Qin, Wanxiang Che, Qingfu Zhu

机构: 哈尔滨工业大学

摘要: 反编译将编译后的代码转换回高级编程语言,以便在源代码不可用时进行分析。先前的工作主要集中在通过增加模型参数的规模或训练数据进行预训练来提高反编译性能。基于反编译任务的特点,我们提出了两种方法:(1) 在不进行微调的情况下,Self-Constructed Context Decompilation (sc 2 ^2 2dec) 方法重新编译LLM的反编译结果,构建成对进行上下文学习,帮助模型提高反编译性能。(2) Fine-grained Alignment Enhancement (FAE) 在微调阶段通过利用调试信息,精细地在语句级别对齐汇编代码和源代码,以实现进一步提高反编译性能。通过整合这两种方法,我们在Decompile-Eval基准测试中实现了约7.35%的Re-Executability性能提升,建立了55.03%的新的最先进性能水平。

论文链接: https://arxiv.org/pdf/2406.17233

cs.CL: 大语言模型是可解释的学习者

原标题: Large Language Models are Interpretable Learners

作者: Ruochen Wang, Si Si, Felix Yu, Dorothea Wiesmann, Cho-Jui Hsieh, Inderjit Dhillon

机构: 加州大学洛杉矶分校 谷歌研究

摘要: 在构建以人为中心的预测模型进行分类和决策时,表达能力和可解释性之间的权衡仍然是一个核心挑战。虽然符号规则提供了可解释性,但它们通常缺乏表达能力,而神经网络在性能上表现出色,但被认为是黑盒子。在本文中,我们展示了大语言模型(LLMs)和符号程序的组合可以弥合这一差距。在提出的基于LLM的符号程序(LSPs)中,预训练的LLM通过自然语言提示提供了大量可解释的模块,可以将原始输入转换为自然语言概念。符号程序然后将这些模块集成到可解释的决策规则中。为了训练LSPs,我们采用了一种分而治之的方法,逐步从头开始构建程序,其中每个步骤的学习过程都由LLMs指导。为了评估LSPs从数据中提取可解释和准确知识的有效性,我们引入了IL-Bench,这是一个包含各种任务的集合,包括不同模态的合成和真实世界场景。实证结果表明,与传统的神经符号程序和普通的自动提示调整方法相比,LSP表现出更优越的性能。此外,由于LSP学习的知识是自然语言描述和符号规则的结合,因此易于转移给人类(可解释),其他LLMs,并且对分布之外的样本具有良好的泛化能力。

论文链接: https://arxiv.org/pdf/2406.17224

cs.CL: 在语言模型中解锁持续学习能力

原标题: Unlocking Continual Learning Abilities in Language Models

作者: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu

机构: 香港大学 中国科学院信息通信技术研究所 香港中文大学深圳研究院 清华大学 爱丁堡大学 NVIDIA 香港科技大学

摘要: 语言模型(LMs)表现出令人印象深刻的性能和泛化能力。然而,LMs在持续学习(CL)中面临着灾难性遗忘的持久挑战,这削弱了它们在长期可持续性方面的表现。现有方法通常通过将旧任务数据或任务特定的归纳偏差纳入LMs来解决这个问题。然而,旧数据和准确的任务信息通常难以获取或成本高昂,这阻碍了当前CL方法对LMs的可用性。为了解决这一局限性,我们引入了 MIGU \textbf{MIGU} MIGU M \textbf{M} Magn I \textbf{I} Itude-based G \textbf{G} Gradient U \textbf{U} Updating for continual learning),这是一种无需排练和无需任务标签的方法,它仅使用LMs线性层输出的大幅度梯度更新模型参数。MIGU基于我们的观察,即LMs线性层输出的L1归一化幅度分布在LM模型处理不同任务数据时是不同的。通过对梯度更新过程施加这一简单约束,我们可以利用LMs的固有行为,从而释放它们内在的CL能力。我们的实验表明,MIGU普遍适用于所有三种LM架构(T5、RoBERTa和Llama2),在四个CL基准测试中,在持续微调和持续预训练设置中提供了最先进或与之相媲美的性能。例如,在一个15个任务的CL基准测试中,MIGU相比传统的参数高效微调基线带来了15.2%的平均准确率提升。MIGU还可以与所有三种现有的CL类型无缝集成,以进一步提升性能。代码可在\href{this https URL}{this https URL}获取。

论文链接: https://arxiv.org/pdf/2406.17245

Github: https://github.com/wenyudu/MIGU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值