2024年7月10日Arxiv语言模型相关论文

FBI-LLM:通过自回归蒸馏从零开始扩展完全二值化的大语言模型

原标题: FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

作者: Liqun Ma, Mingjie Sun, Zhiqiang Shen

机构: 穆罕默德·本·扎耶德人工智能大学 卡内基梅隆大学

摘要: 这项工作提出了一个完全二值化的大语言模型(FBI-LLM),首次展示了如何从头开始训练一个大规模的二值化语言模型(而不是像BitNet b1.58那样部分二值化或三值化LLM),以匹配其全精度对应物(例如FP16或BF16)在基于Transformer的LLM中的表现。它通过采用自回归蒸馏(AD)损失来实现这一点,同时保持等效的模型维度(130M、1.3B、7B)和训练数据量,与常规LLM预训练相比,取得了竞争性的困惑度和任务特定有效性结果。有趣的是,通过分析训练轨迹,我们发现预训练权重对于从头开始训练二值化LLM并不是必要的。这项研究鼓励了一个新的计算框架,并可能促进未来专门为完全1位LLM量身定制的专用硬件的设计。我们将所有模型、代码和训练数据集完全开放和透明,以支持进一步的研究(代码:此处的https网址。模型:此处的https网址)。

论文链接: https://arxiv.org/pdf/2407.07093

Github: https://github.com/LiqunMa/FBI-LLM

回顾镜头:仅使用注意力图在大语言模型中检测和减轻上下文幻觉

原标题: Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

作者: Yung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass

机构: 麻省理工学院 华盛顿大学

摘要: 当被要求总结文章或回答问题时,大语言模型(LLMs)可能会产生幻觉细节,并以与输入上下文不符的不准确答案做出回应。本文描述了一种简单方法来检测这种上下文幻觉。我们假设上下文幻觉与LLM关注所提供上下文信息与其自身生成信息的程度有关。基于这种直觉,我们提出了一个简单的幻觉检测模型,其输入特征由上下文与新生成的标记的注意力权重比(对于每个注意力头)给出。我们发现,基于这些回顾比特征的线性分类器与利用LLM的整个隐藏状态或基于文本的蕴涵模型的更丰富的检测器一样有效。基于回顾比的检测器——回顾镜头——被发现可以在任务之间甚至模型之间进行转移,使得一个在7B模型上训练的检测器可以应用(无需重新训练)到一个更大的13B模型上。我们进一步将这个检测器应用于减轻上下文幻觉,并发现一个简单的分类器引导解码方法能够减少幻觉的数量,例如在XSum总结任务中减少了9.6%。

论文链接: https://arxiv.org/pdf/2407.07071

AnyTaskTune:通过任务微调实现高级领域特定解决方案

原标题: AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning

作者: Jiaxi Cui, Wentao Zhang, Jing Tang, Xudong Tong, Zhenwei Zhang, Amie, Jing Wen, Rongsheng Wang, Pengfei Wu

机构: DataTager

摘要: 在各个领域普遍部署大语言模型(LLMs)往往忽视了个人和小型组织的微妙需求,后者更需要精心定制的模型,以适应其特定业务背景,而不是具有广泛优越通用能力的模型。本文介绍了一种名为\textbf{AnyTaskTune}的新颖微调方法,被称为\textbf{Task-Fine-Tune},专门设计用于提升模型在各种领域特定任务上的性能。该方法涉及一个细致的过程,用于识别和定义领域内的目标子任务,然后创建专门的增强数据集进行微调,从而优化任务特定的模型性能。我们进行了全面的微调实验,不仅在法律领域进行了关键词提取和句子预测等任务,还跨越了金融、医疗保健、法律、心理学、消费服务和人力资源等领域的二十多个不同子任务。为了证实我们的方法并促进社区参与,我们将开源这些双语任务数据集。我们的研究结果表明,使用\textbf{Task-Fine-Tune}方法进行微调的模型不仅在这些特定任务上表现出色,而且在各自领域明显优于具有更高通用能力的模型。我们的工作可在\url{this https URL}上公开获取。

论文链接: https://arxiv.org/pdf/2407.07094

Github: https://github.com/PandaVT/DataTager

CopyBench:测量语言模型生成中受版权保护文本的字面和非字面复制

原标题: CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation

作者: Tong Chen, Akari Asai, Niloofar Mireshghallah, Sewon Min, James Grimmelmann, Yejin Choi, Hannaneh Hajishirzi, Luke Zettlemoyer, Pang Wei Koh

机构: 华盛顿大学 康奈尔大学 AI艾伦研究所

摘要: 评估语言模型(LMs)对受版权保护内容的复制程度对人工智能和法律界具有重要意义。法院在评估复制程度时会考虑文字和非文字相似之处,但先前的研究仅关注文字相似之处。为弥补这一差距,我们引入了CopyBench,这是一个旨在衡量LM生成中文字和非文字复制的基准。我们利用受版权保护的小说作为文本来源,提供了自动评估协议,以评估文字和非文字复制,同时平衡模型在从受版权作品中召回事实和生成流畅完成方面的效用。我们发现,尽管文字复制相对较少,但两种非文字复制——事件复制和角色复制——甚至在参数仅为7B的模型中也会发生。较大的模型表现出更多的复制,当比较Llama3-8B和70B模型时,文字复制率从0.2%增加到10.5%,非文字复制从2.3%增加到6.9%。我们进一步评估了当前减少复制的策略的有效性,并表明(1)训练时对齐可以减少文字复制,但可能增加非文字复制,(2)当前的推理时减少方法主要减少文字而不是非文字复制。

论文链接: https://arxiv.org/pdf/2407.07087

视觉与语言导航的今天与明天:基础模型时代的调查

原标题: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

作者: Yue Zhang, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang, Joyce Chai, Qi Wu, Mohit Bansal, Parisa Kordjamshidi

机构: 密歇根州立大学 密歇根大学 北卡罗来纳大学教堂山分校 阿德莱德大学

摘要: 在过去几年中,视觉与语言导航(VLN)受到越来越多的关注,许多方法已经出现以推动其发展。基础模型的显著成就塑造了VLN研究的挑战和提出的方法。在这项调查中,我们提供了一个自上而下的审查,采用了一个有原则的框架来进行具身规划和推理,并强调了利用基础模型来解决VLN挑战的当前方法和未来机会。我们希望我们深入的讨论可以提供有价值的资源和见解:一方面,里程碑式地记录进展并探索基础模型在这一领域中的机会和潜在角色,另一方面,将VLN中的不同挑战和解决方案组织给基础模型研究人员。

论文链接: https://arxiv.org/pdf/2407.07035

智能体互联网:编织异构智能体的协作智能网络

原标题: Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

作者: Weize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun

机构: 清华大学 北京大学 北京邮电大学 腾讯

摘要: 大语言模型(LLMs)的快速发展为高度能力的自主智能体的发展铺平了道路。然而,现有的多智能体框架通常在整合不同能力的第三方智能体方面遇到困难,因为它们依赖于在其自身生态系统中定义的智能体。它们还面临着在模拟分布式环境方面的挑战,因为大多数框架仅限于单设备设置。此外,这些框架通常依赖于硬编码的通信管道,限制了它们对动态任务需求的适应能力。受互联网概念启发,我们提出了智能体互联网(IoA),这是一个新颖的框架,通过为基于LLM的多智能体协作提供灵活且可扩展的平台来解决这些限制。IoA引入了智能体集成协议、类似即时通讯的架构设计以及智能体组建和对话流控制的动态机制。通过对通用助理任务、具身人工智能任务和检索增强生成基准的广泛实验,我们证明了IoA始终优于最先进的基线,展示了它促进异构智能体之间有效协作的能力。IoA代表了朝着在类似互联网环境中连接不同智能体的一步,其中智能体可以无缝协作以实现更大的智能和能力。我们的代码库已发布在\url{this https URL}。

论文链接: https://arxiv.org/pdf/2407.07061

Github: https://github.com/OpenBMB/IoA

解码气候分歧:基于图神经网络的方法来理解社交媒体动态

原标题: Decoding Climate Disagreement: A Graph Neural Network-Based Approach to Understanding Social Media Dynamics

作者: Ruiran Su, Janet B. Pierrehumbert

机构: 牛津大学 工程科学系 牛津大学 牛津大学电子研究中心

摘要: 这项工作介绍了ClimateSent-GAT模型,这是一种创新方法,将图注意力网络(GATs)与自然语言处理技术相结合,准确识别和预测Reddit评论-回复对中的分歧。我们的模型将分歧分类为三类:同意、不同意和中立。利用Reddit评论-回复对的固有图结构,该模型通过捕捉复杂的交互模式和情感动态,显著优于现有基准。这项研究推动了基于图的自然语言处理方法,并为气候科学传播中的决策者和教育工作者提供了可操作的见解。

论文链接: https://arxiv.org/pdf/2407.07038

感知头作为上下文学习中模式匹配的基本机制

原标题: Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning

作者: J. Crosbie, E. Shutova

机构: 阿姆斯特丹大学

摘要: 大语言模型(LLMs)已经展示出通过上下文学习(ICL)学习和执行复杂任务的显著能力。然而,对其内部机制的全面理解仍然缺乏。本文探讨了感应头在少样本ICL设置中的作用。我们分析了两种最先进的模型,Llama-3-8B和InternLM2-20B,在抽象模式识别和自然语言处理任务上的表现。我们的结果显示,即使对感应头进行最小的消融,也会导致抽象模式识别任务的ICL性能下降高达约32%,使性能接近随机水平。对于自然语言处理任务,这种消融显著降低了模型从示例中受益的能力,使少样本ICL性能接近零样本提示的性能。我们进一步使用注意力排除来禁用特定的感应模式,并提供了感应机制在ICL中发挥作用的细致证据。

论文链接: https://arxiv.org/pdf/2407.07011

利用大语言模型从文本政策生成健康保险智能合同

原标题: Using Large Language Models for Generating Smart Contracts for Health Insurance from Textual Policies

作者: Inwon Kang, William Van Woensel, Oshani Seneviratne

机构: 清华大学 荷兰代尔夫特理工大学

摘要: 我们探讨使用大语言模型(LLMs)从基于文本的政策中生成应用程序代码,以自动化健康保险流程。我们针对基于区块链的智能合约,因为它们提供了不可变性、可验证性、可扩展性和无信任设置:任意数量的参与方可以使用智能合约,它们无需先前建立互相信任关系。我们的方法在逐渐增加的技术细节级别上生成输出:(1)文本摘要,(2)声明性决策逻辑,和(3)带有单元测试的智能合约代码。我们确认LLMs在任务(1)上表现良好,结构化输出对验证任务(2)和(3)很有用。声明性语言(任务2)通常用于规范化医疗保健政策,但在区块链上执行并不简单。因此,任务(3)试图直接使用智能合约自动化流程。为了评估LLM的输出,我们提出完整性、正确性、清晰度、语法和功能代码作为度量标准。我们的评估使用了三个健康保险政策(场景),难度逐渐增加,来自Medicare官方手册。我们的评估使用了GPT-3.5 Turbo、GPT-3.5 Turbo 16K、GPT-4、GPT-4 Turbo和CodeLLaMA。我们的研究结果证实LLMs在生成文本摘要方面表现相当不错。尽管任务(2)-(3)的输出是有用的起点,但它们需要人类监督:在多种情况下,即使是“可运行”的代码也不会产生良好的结果;目标语言的流行程度会影响输出质量;而更复杂的场景似乎仍然是一个难以逾越的障碍。然而,我们的实验显示了LLMs将文本流程描述转化为智能合约的潜力。

论文链接: https://arxiv.org/pdf/2407.07019

通过类似案例检索对巴西最高法院的先例效率进行实证分析

原标题: Empirical analysis of Biding Precedent efficiency in the Brazilian Supreme Court via Similar Case Retrieval

作者: Raphaël Tinarrage, Henrique Ennes, Lucas E. Resck, Lucas T. Gomes, Jean R. Ponciano, Jorge Poco

机构: EMAp Fundação Getulio Vargas Direito Rio Universidade de São Paulo INRIA Université Côte d’Azur

摘要: Súmulas Vinculantes(约束性先例)是巴西法律体系中独特的司法工具,其目标包括保护联邦最高法院免受重复诉求的困扰。然而,对这些工具在减少法院面对类似案件方面的有效性的研究表明,它们往往未能实现这一目标,一些约束性先例似乎反而导致了新的诉求。我们通过实证评估了五个约束性先例(第11、14、17、26和37号)在最高法院层面对其涉及的法律主体产生的影响。这种分析只有通过在这些先例被创建之前对法院关于这些主题的裁决进行比较才能实现,这意味着这些决定应该通过类似案例检索技术来检测。因此,本文的贡献是双重的:在数学方面,我们比较了不同自然语言处理方法(TF-IDF、LSTM、BERT和正则表达式)在类似案例检索中的应用,而在法律方面,我们对这些约束性先例的低效性进行了对比,并提出了一组可能解释它们重复使用的假设。我们观察到深度学习模型在特定类似案例检索任务中表现明显较差,而约束性先例未能应对重复诉求的原因是多样的且依赖于具体案例,因此无法单独确定特定原因。

论文链接: https://arxiv.org/pdf/2407.07004

基于分段的互动式预训练模型机器翻译

原标题: Segment-Based Interactive Machine Translation for Pre-trained Models

作者: Angel Navarro, Francisco Casacuberta

机构: 西班牙瓦伦西亚理工大学PRHLT 瓦伦西亚人工智能研究网络ValgrAI

摘要: 预训练的大型语言模型(LLM)开始在许多应用中被广泛使用。在这项工作中,我们探索了这些模型在交互式机器翻译(IMT)环境中的应用。特别地,我们选择了mBART(多语双向自回归Transformer)和mT5(多语文本对文本转换Transformer)作为我们实验的LLM。该系统通过用户在每次迭代中提供的反馈生成完美的翻译。神经机器翻译(NMT)模型使用反馈生成初步假设,用户验证新的正确段落并进行单词校正,重复这个过程直到句子被正确翻译。我们在基准数据集上比较了mBART、mT5和最先进的机器翻译模型在用户努力、单词击键比(WSR)、关键击键比(KSR)和鼠标操作比(MAR)方面的表现。实验结果表明,mBART的表现与最先进模型相当,表明它是IMT领域的一个可行选择。这一发现的影响延伸到为交互式环境开发新的机器翻译模型,因为它表明一些新颖的预训练模型在该领域表现出最先进的性能,突显了将这些模型适应特定需求的潜在好处。

论文链接: https://arxiv.org/pdf/2407.06990

Raply:一个减少粗口的说唱生成器

原标题: Raply: A profanity-mitigated rap generator

作者: Omar Manil Bendali, Samir Ferroum, Ekaterina Kozachenko, Youssef Parviz, Hanna Shcharbakova, Anna Tokareva, Shemair Williams

机构: BENDALI FERROUM KOZACHENKO PARVIZ SHCHARBAKOVA TOKAREVA WILLIAMS

摘要: 写说唱歌曲的任务具有挑战性,需要产生复杂的押韵方案,同时又要有意义的歌词。在这项工作中,我们提出了Raply,这是一个经过微调的 GPT-2 模型,能够以说唱风格生成有意义的押韵文本。除了具备押韵能力外,该模型还能生成较少冒犯性的内容。这是通过在新数据集 Mitislurs 上对模型进行微调实现的,这是一个经过语言粗鲁词汇缓解处理的语料库。我们根据两个标准评估了模型的输出:1)基于押韵密度指标的押韵能力;2)使用英语语言粗鲁词汇列表的粗鲁内容。据我们所知,这是对说唱歌词生成进行粗鲁内容缓解的首次尝试。

论文链接: https://arxiv.org/pdf/2407.06941

语言模型中的自我识别

原标题: Self-Recognition in Language Models

作者: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre

机构: EPFL

摘要: 越来越多的应用程序依赖于一小部分闭源语言模型(LMs)。如果LMs发展出自我识别能力,这种依赖可能会引入新的安全风险。受人类身份验证方法启发,我们提出了一种新颖的方法,通过模型生成的“安全问题”来评估LMs中的自我识别。我们的测试可以在外部进行,以跟踪最前沿的模型,因为它不需要访问内部模型参数或输出概率。我们使用这一测试来检查当前公开的十个最有能力的开源和闭源LMs中的自我识别。我们的广泛实验并未发现任何被检测的LM中存在普遍或一致的自我识别的经验证据。相反,我们的结果表明,LMs在给定一组备选方案时,会寻求选择“最佳”答案,而不考虑其来源。此外,我们发现迹象表明,关于哪些模型产生最佳答案的偏好在各个LM之间是一致的。我们还发现了关于在多项选择设置中考虑位置偏见的新颖见解。

论文链接: https://arxiv.org/pdf/2407.06946

谁在数学上更擅长,珍妮还是静真?揭示大语言模型中的刻板印象

原标题: Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models

作者: Zara Siddique, Liam D. Turner, Luis Espinosa-Anke

机构: 加的夫大学 计算机科学与信息学院 AMPLYFI

摘要: 大语言模型(LLMs)已被证明会传播和放大有害的刻板印象,特别是那些对边缘化社区产生不成比例影响的刻板印象。为了更全面地了解这些刻板印象的影响,我们引入了GlobalBias,这是一个包含40个不同性别和种族群体的876k个句子数据集,其中还包括了通常在偏见文献中使用的描述词,这使我们能够研究来自世界各地的广泛刻板印象。我们使用GlobalBias直接通过困惑度来探究一系列大语言模型,我们将其用作确定模型内部表示中某些刻板印象如何呈现的代理。在此之后,我们基于给定的姓名生成角色概况,并评估模型输出中刻板印象的普遍程度。我们发现,与各种刻板印象相关联的人口群体在模型可能性和模型输出中保持一致。此外,即使明确指示不要这样做,更大的模型也始终显示出更高水平的刻板印象输出。

论文链接: https://arxiv.org/pdf/2407.06917

ChatGPT 不信任充电器球迷:上下文中的护栏敏感性

原标题: ChatGPT Doesn’t Trust Chargers Fans: Guardrail Sensitivity in Context

作者: Victoria R. Li, Yida Chen, Naomi Saphra

机构: 哈佛大学 肯普纳自然与人工智能研究所

摘要: 尽管生产中的语言模型的偏见已被广泛记录,但它们的防护栏的偏见却被忽视了。本文研究了关于用户的上下文信息如何影响大语言模型拒绝执行请求的可能性。通过生成提供意识形态和人口统计信息的用户传记,我们发现在 GPT-3.5 上的防护栏敏感性存在多种偏见。年轻、女性和亚裔美国人角色在请求被审查或非法信息时更有可能触发拒绝防护栏。防护栏也是阿谀奉承的,拒绝遵守用户可能不同意的政治立场的请求。我们发现某些身份群体和看似无害的信息,例如体育迷,可能引发防护栏敏感性的变化,类似于直接陈述政治意识形态。对于每个人口统计类别,甚至对于美式橄榄球队的迷,我们发现 ChatGPT 似乎推断出可能的政治意识形态,并相应地修改防护栏行为。

论文链接: https://arxiv.org/pdf/2407.06866

利用预训练的大语言模型结合提示工程来回答生物医学问题

原标题: Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions

作者: Wenxin Zhou, Thuy Hang Ngo

机构: 乔治亚理工学院 DS@GT

摘要: 我们的团队参加了BioASQ 2024 Task12b和Synergy任务,构建了一个系统,可以通过从PubMed数据库中检索相关文章和摘录,并生成确切和理想答案来回答生物医学问题。我们提出了一个基于预训练大语言模型(LLM)的两级信息检索和问答系统,侧重于LLM提示工程和响应后处理。我们使用上下文中的少样本示例构建提示,并利用重新取样和异常响应检测等后处理技术。我们比较了在这一挑战中各种预训练LLM模型的性能,包括Mixtral、OpenAI GPT和Llama2。我们表现最佳的系统在文档检索上达到了0.14的MAP分数,在摘录检索上达到了0.05的MAP分数,在是/否问题上达到了0.96的F1分数,在事实性问题上达到了0.38的MRR分数,在列表问题上达到了0.50的F1分数在Task 12b中。

论文链接: https://arxiv.org/pdf/2407.06779

神圣的大语言模型:大语言模型中宗教的偏见、刻板印象、污名化和情感表达

原标题: Divine LLaMAs: Bias, Stereotypes, Stigmatization, and Emotion Representation of Religion in Large Language Models

作者: Flor Miriam Plaza-del-Arco, Amanda Cercas Curry, Susanna Paoli, Alba Curry, Dirk Hovy

机构: 博科尼大学 利兹大学

摘要: 情绪在我们的生活中发挥着重要的认识论和认知作用,揭示了我们的价值观并指导我们的行动。先前的研究表明,大语言模型在情绪归因方面存在着沿着性别线显示偏见的情况。然而,与性别不同,性别对我们的价值观、宗教等社会文化系统所规定的信仰和价值观说得很少。因此,宗教培养了某些情绪。此外,这些规则是由宗教领袖明确规定和解释的。通过情绪归因,我们探讨了大语言模型中不同宗教的表现。我们发现:美国和欧洲国家的主要宗教被描绘得更加细致入微,展示了对其信仰的更加阴影化的模型。印度教和佛教等东方宗教则被强烈地刻板化。犹太教和伊斯兰教受到污名化–模型的拒绝率激增。我们将这些归因于大语言模型中的文化偏见以及关于宗教的自然语言处理文献的稀缺性。在宗教被讨论的罕见情况中,通常是在有毒语言的背景下,使人们认为这些宗教本质上是有毒的。这一发现强调了迫切需要解决和纠正这些偏见的重要性。我们的研究强调了情绪在我们生活中发挥的关键作用,以及我们的价值观如何影响它们。

论文链接: https://arxiv.org/pdf/2407.06908

Safe-Embed: 揭示句子编码器的安全关键知识

原标题: Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

作者: Jinseok Kim, Jaewon Jung, Sangyeop Kim, Sohyung Park, Sungzoon Cho

机构: 首尔国立大学

摘要: 尽管大语言模型(LLMs)在各种任务中展现出令人印象深刻的能力,但它们对不安全提示的脆弱性仍然是一个关键问题。这些提示可能导致LLMs生成涉及非法或敏感主题的回复,对它们的安全和道德使用构成重大威胁。现有方法尝试使用分类模型来解决这个问题,但它们存在一些缺点。随着不安全提示复杂性的增加,基于相似性搜索的技术可以识别不安全提示的特定特征,为这一不断发展的问题提供更健壮和有效的解决方案。本文研究了句子编码器区分安全和不安全提示的潜力,以及根据安全分类法对各种不安全提示进行分类的能力。我们引入了新的成对数据集和分类纯度(CP)指标来衡量这种能力。我们的研究结果揭示了现有句子编码器的有效性和局限性,提出了改进句子编码器以作为更健壮安全检测器运行的方向。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.06851

Github: https://github.com/JwdanielJung/Safe-Embed

通过反事实来实现一致的文档级关系抽取

原标题: Consistent Document-Level Relation Extraction via Counterfactuals

作者: Ali Modarressi, Abdullatif Köksal, Hinrich Schütze

机构: 慕尼黑大学LMU 德国 慕尼黑机器学习中心

摘要: 许多数据集已经被开发用于训练和评估文档级关系抽取(RE)模型。其中大多数是使用真实世界数据构建的。已经表明,使用真实世界数据训练的RE模型存在事实偏见。为了评估和解决这个问题,我们提出了CovEReD,一种使用实体替换的文档级关系抽取数据生成方法。我们首先证明,训练在事实数据上的模型表现出不一致的行为:虽然它们可以准确地从事实数据中提取三元组,但在对事实进行反事实修改后,它们无法提取相同的三元组。这种不一致表明,训练在事实数据上的模型依赖于虚假信号,如特定实体和外部知识,而不是依赖于输入上下文来提取三元组。我们展示通过使用CovEReD生成文档级反事实数据并在其上训练模型,可以在对RE性能的影响最小的情况下保持一致性。我们发布了我们的CovEReD流程以及Re-DocRED-CF,一个反事实RE文档数据集,以帮助评估和解决文档级RE中的不一致性。

论文链接: https://arxiv.org/pdf/2407.06699

SoftDedup:一种用于加速语言模型预训练的高效数据重新加权方法

原标题: SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

作者: Nan He, Weichen Xiong, Hanwen Liu, Yi Liao, Lei Ding, Kai Zhang, Guohua Tang, Xiao Han, Wei Yang

机构: 腾讯 AI Lab

摘要: 大语言模型(LLMs)的有效性通常受其广泛预训练数据中重复数据的影响。当前的方法主要集中在检测和移除重复数据,这会导致有价值信息的丢失,并忽视了不同程度的重复。为了解决这个问题,我们提出了一种软去重方法,该方法在保持数据集完整性的同时,有选择性地减少具有高共现性的数据的采样权重。我们方法的核心是“数据共现性”概念,我们引入了这一度量标准,通过使用 n-gram 模型测量样本的出现概率来量化重复程度。实证分析表明,这种方法显著提高了训练效率,实现了与所需训练步骤至少减少 26% 的可比困惑度分数。此外,当以相同持续时间进行训练时,它提高了平均少样本下游准确性 1.77%。重要的是,这种方法始终提高性能,即使在严格去重的数据集上,也表明了它在补充现有方法并成为大语言模型标准预训练过程的潜力。

论文链接: https://arxiv.org/pdf/2407.06654

模块混合:将Transformer重新定义为动态模块组装

原标题: Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules

作者: Zhuocheng Gong, Ang Lv, Jian Guan, Junxi Yan, Wei Wu, Huishuai Zhang, Minlie Huang, Dongyan Zhao, Rui Yan

机构: 北京大学 人民大学 清华大学 Ant Group

摘要: 在Transformer中,是否总是需要从浅层到深层逐层计算token?传统Transformer及其变种的持续成功表明了肯定的答案。然而,在这项工作中,我们尝试打破深度顺序的惯例,提出了一种名为模块混合(MoM)的新型架构,其灵感来源于这样一种直觉:只要具备所需的处理能力,任何层都可以用于计算token。MoM的构建始于由多头注意力和前馈网络定义的有限模块集合,每个模块通过其独特的参数化而独具特色。然后,两个路由器迭代地从集合中选择注意力模块和前馈模块来处理一个token。这种选择在token的前向传播中动态扩展计算图,最终形成一个模块组合。我们展示了MoM不仅为Transformer及其众多变种提供了统一的框架,还为减少Transformer参数化中的冗余提供了灵活且可学习的方法。我们使用OpenWebText对各种MoM进行了预训练。实证结果表明,不同参数数量的MoM在GLUE和XSUM基准测试中始终优于传统的Transformer。更有趣的是,在固定的参数预算下,MoM-large相比GPT-2-large使计算图的深度增加了超过38%,在GLUE上增益为1.4,在XSUM上增益为1。另一方面,MoM-large还使深度减少了超过60%,同时每层涉及更多模块,导致TFLOPs减少了16%,内存使用减少了43%,同时保持了可比较的性能。

论文链接: https://arxiv.org/pdf/2407.06677

用于评估同声传译和翻译的词序同步度量

原标题: A Word Order Synchronization Metric for Evaluating Simultaneous Interpretation and Translation

作者: Mana Makinae, Katsuhito Sudoh, Mararu Yamada, Satoshi Nakamura

机构: 奈良科学技术大学 立教大学

摘要: 同声传译(SI),即实时将一种语言翻译成另一种语言,在原始演讲结束之前开始翻译。其评估需要考虑延迟和质量两个方面。这种权衡在英语和日语等远距离语序语言对之间尤为具有挑战性。为了处理这种语序差异,译员尽可能保持源语言的语序,以跟上原始语言以最小化延迟的同时保持质量,而在翻译中会重新排序以保持目标语言的流畅性。这意味着基于真实的同声传译情况,与源语言同步的输出是可取的,这对于计算同声传译和同时机器翻译(SiMT)的进一步发展至关重要。在这项工作中,我们提出了一个关于同声传译和SiMT的自动评估指标,重点关注词序同步。我们的评估指标基于秩相关系数,利用跨语言预训练语言模型。我们在NAIST-SIC-Aligned和JNPC上的实验结果显示了我们指标在衡量源语言和目标语言之间的词序同步方面的有效性。

论文链接: https://arxiv.org/pdf/2407.06650

利用少样本学习测量ESG基金披露的可持续性意图

原标题: Measuring Sustainability Intention of ESG Fund Disclosure using Few-Shot Learning

作者: Mayank Singh, Nazia Nafis, Abhijeet Kumar, Mridul Mishra

机构: 印度理工信息技术学院 摩根大通投资

摘要: 全球可持续基金宇宙包括根据招股说明书或其他监管文件声称专注于环境、社会和治理(ESG)的开放式基金和交易所交易基金(ETF)。具有挑战性的是,这些声明只能通过检查文本披露来确认其投资策略中是否存在意图和ESG重点。目前,在ESG产品领域没有强制可持续性的法规。本文提出了一种独特的方法和系统,用于分类和评分可持续基金宇宙中基金的招股说明书,评估其语言的具体性和透明度。我们旨在利用少样本学习器识别特定的、模糊的和通用的可持续投资相关语言。此外,我们构建了一个比率指标来确定语言评分和评级,以对美国可持续基金宇宙中的产品进行排名和量化可持续性声明。作为副产品,我们在Hugging Face上发布了一个手动注释的高质量训练数据集(ESG-Prospectus-Clarity-Category,采用cc-by-nc-sa-4.0许可),包含1000多个ESG文本声明。我们比较了少样本微调方法与零样本模型(如Llama-13B、GPT 3.5 Turbo等)的性能。我们发现,由于不对齐问题,提示大型语言模型在领域特定任务中并不准确。在完全未见过的ESG语言(测试集)上,少样本微调技术在精确度、召回率和F1指标上显著优于零样本模型,优势绝对达到约30%。总体而言,本文试图建立一种系统化和可扩展的方法,通过招股说明书中的文本量化地衡量和评价可持续基金的可持续性意图。监管机构、投资者和顾问可以利用本研究的发现,减少在调查或筛选真实反映ESG意图的ESG基金时的认知负荷。

论文链接: https://arxiv.org/pdf/2407.06893

NoisyAG-News:一个用于解决文本分类中实例相关噪声的基准测试。

原标题: NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification

作者: Hongfei Huang, Tingting Liang, Xixi Sun, Zikang Jin, Yuyu Yin

机构: 杭州电子科技大学

摘要: 现有关于学习带有嘈杂标签的研究主要集中在合成标签噪声上。尽管合成噪声具有明确定义的结构特性,但往往无法准确复制真实世界的噪声模式。近年来,人们一直在努力构建适用于图像分类的可泛化和可控的实例相关噪声数据集,显著推动了这一领域噪声鲁棒学习的发展。然而,关于文本分类的嘈杂标签学习的研究仍然很少。为了更好地理解真实世界文本分类环境中的标签噪声,我们通过手动注释构建了基准数据集NoisyAG-News。最初,我们分析了注释数据,以收集关于真实世界噪声的观察。我们定性和定量地证明了真实世界的嘈杂标签遵循实例相关模式。随后,我们利用预训练语言模型和噪声处理技术,在NoisyAG-News及其对应的合成噪声数据集上进行了全面的学习实验。我们的研究结果表明,虽然预训练模型对合成噪声具有韧性,但在面对实例相关噪声时表现不佳,不同混淆级别的样本在训练和测试过程中表现不一致。这些真实世界的噪声模式带来了新的重大挑战,促使重新评估嘈杂标签处理方法。我们希望NoisyAG-News能促进未来学习带有嘈杂标签的解决方案的开发和评估。

论文链接: https://arxiv.org/pdf/2407.06579

通过一系列背景故事为语言模型创建虚拟人物形象

原标题: Virtual Personas for Language Models via an Anthology of Backstories

作者: Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David M. Chan

机构: 加利福尼亚大学伯克利分校

摘要: 大语言模型(LLMs)是从数百万不同作者创作的大量文本库中进行训练的,反映了巨大多样性的人类特征。虽然这些模型有潜力被用作行为研究中人类主体的近似,但先前的努力在引导模型响应以匹配个别人类用户方面存在局限。在这项工作中,我们介绍了“Anthology”,一种通过利用开放式人生叙事(我们称之为“背景故事”)来使LLMs适应特定虚拟人物的方法。我们展示了我们的方法提高了实验结果的一致性和可靠性,同时确保更好地代表多样化的亚群体。在作为皮尤研究中心美国趋势小组(ATP)一部分进行的三项全国代表性人类调查中,我们展示了Anthology在匹配人类受访者响应分布方面达到了高达18%的改进,一致性指标提高了27%。我们的代码和生成的背景故事可以在此https URL找到。

论文链接: https://arxiv.org/pdf/2407.06576

Github: https://github.com/CannyLab/anthology

FinCon:具有概念性口头强化的合成LLM多智能体系统,用于增强金融决策

原标题: FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making

作者: Yangyang Yu, Zhiyuan Yao, Haohang Li, Zhiyang Deng, Yupeng Cao, Zhi Chen, Jordan W. Suchow, Rong Liu, Zhenyu Cui, Denghui Zhang, Zhaozhuo Xu, Koduvayur Subbalakshmi, Guojun Xiong, Yueru He, Jimin Huang, Dong Li, Qianqian Xie

机构: 史蒂文斯理工学院 纽约州立大学石溪分校 金融AI 武汉大学 耶鲁大学

摘要: 大语言模型(LLMs)已经展示出在进行复杂任务方面的显著潜力,并在各种金融应用中得到越来越广泛的利用。然而,高质量的顺序金融投资决策仍然具有挑战性。这些任务需要在每次决策中与波动环境进行多次交互,要求足够的智能来最大化回报并管理风险。尽管LLMs已被用于开发超越人类团队并产生令人印象深刻的投资回报的智能系统,但通过及时经验改进来增强多源信息综合和优化决策结果的机会尚未被探索。在这里,我们介绍了FinCon,这是一个基于LLM的多智能体框架,具有为各种金融任务量身定制的概念性口头强化。受到有效的现实世界投资公司组织结构的启发,FinCon利用了经理-分析师沟通层级结构。这种结构允许通过自然语言交互实现跨功能智能体协作朝着统一目标前进,并为每个智能体提供比人类更大的记忆容量。此外,FinCon中的风险控制组件通过周期性地启动自我批判机制来提高决策质量,更新系统性投资信念。构想的信念作为未来智能体行为的口头强化,并可以有选择地传播到需要知识更新的适当节点。这一特性显著提高了性能,同时减少了不必要的点对点通信成本。此外,FinCon在各种金融任务中展现出强大的泛化能力,包括单只股票交易和投资组合管理。

论文链接: https://arxiv.org/pdf/2407.06567

结合知识图谱和大语言模型

原标题: Combining Knowledge Graphs and Large Language Models

作者: Amanda Kau, Xuzeng He, Aishwarya Nambissan, Aland Astudillo, Hui Yin, Amir Aryani

机构: 澳大利亚国立大学 斯威本科技大学

摘要: 近年来,自然语言处理(NLP)在各种人工智能(AI)应用中发挥了重要作用,如聊天机器人、文本生成和语言翻译。大语言模型(LLMs)的出现极大地提高了这些应用的性能,在语言理解和生成方面展现出惊人的结果。然而,它们仍然存在一些缺点,如幻觉和缺乏领域特定知识,影响了它们在实际任务中的表现。这些问题可以通过整合知识图谱(KGs)来有效缓解,知识图谱以捕捉实体之间关系的结构化格式组织信息,具有多功能和可解释的特点。同样,知识图谱的构建和验证提出了LLMs可以帮助解决的挑战。LLMs和知识图谱之间的互补关系导致了一种趋势,即结合这些技术以实现可信赖的结果。这项工作收集了28篇论文,概述了基于知识图谱的LLM方法、基于LLM的知识图谱以及LLM-KG混合方法。我们系统地分析和比较这些方法,提供了一个全面的概述,突出了关键趋势、创新技术和常见挑战。这种综合将使新手研究人员受益,也将帮助那些希望加深对知识图谱和LLMs如何有效结合以增强AI应用能力的理解的人。

论文链接: https://arxiv.org/pdf/2407.06564

使用特征信息波GAN解读阿萨姆语元音和谐特征

原标题: Deciphering Assamese Vowel Harmony with Featural InfoWaveGAN

作者: Sneha Ray Barman, Shakuntala Mahanta, Neeraj Kumar Sharma

机构: 印度古瓦哈蒂理工学院 Mehta Family School of Data Science and Artificial Intelligence

摘要: 传统的语音学习方法主要依赖于精心筛选的文本数据。尽管具有洞察力,但这些方法限制了对口语语言文本表示中所捕捉知识的范围。为了克服这一局限性,我们研究了Featural InfoWaveGAN模型利用原始语音数据学习迭代长距离元音和谐的潜力。我们专注于阿萨姆语,这是一种以其语音上的回退性和词汇内元音和谐而闻名的语言。我们展示了该模型擅长把握阿萨姆语音韵律的复杂性,特别是具有回退方向的迭代长距离和谐。它还产生了类似于人类语言习得过程中的语音错误的非迭代非法形式。我们的统计分析显示,跨新项目存在对特定的[+高,+ATR]元音作为触发器的偏好,这表明了特征学习。更多数据和控制可能会提高模型的熟练程度,与学习的普遍性形成对比。

论文链接: https://arxiv.org/pdf/2407.06547

OffsetBias:利用去偏数据来调整评估器

原标题: OffsetBias: Leveraging Debiased Data for Tuning Evaluators

作者: Junsoo Park, Seungyeon Jwa, Meiying Ren, Daeyoung Kim, Sanghyuk Choi

机构: NC Research

摘要: 利用大语言模型(LLMs)来评估生成响应的质量,例如提示调整模型或微调评判模型,已成为一种广泛采用的评估方法。众所周知,这种评估方法容易受到偏见的影响,比如偏爱较长的响应。虽然克服这一问题很重要,但这些偏见的具体细节仍未得到充分探讨。在这项工作中,我们定性地确定了各种评判模型中固有的六种偏见类型。我们提出EvalBiasBench作为一个元评估集合,其中包含为每种偏见类型手工制作的测试用例。此外,我们提出了去偏差数据集构建方法以及相关的偏差偏好数据集OffsetBias。实验结果表明,在我们的数据集上进行微调显著增强了评判模型对偏见的鲁棒性,并改善了大多数评估场景下的性能。我们向公众发布了我们的数据集和微调后的评判模型。

论文链接: https://arxiv.org/pdf/2407.06551

LIONs:一种经验优化的语言模型对齐方法

原标题: LIONs: An Empirically Optimized Approach to Align Language Models

作者: Xiao Yu, Qingyang Wu, Yu Li, Zhou Yu

机构: 哥伦比亚大学 Columbia University

摘要: 对齐是增强语言模型的指令遵循和对话能力的关键步骤。尽管最近有许多工作提出了新的算法、数据集和训练流程,但缺乏全面研究来衡量整个训练过程中各种设计选择的影响。我们首先对由监督微调、离线偏好学习和在线偏好学习组成的三阶段训练流程进行了严格分析。我们发现,使用诸如序列打包、SFT中的损失屏蔽、DPO中增加偏好数据集大小以及在线DPO训练等技术可以显著提高语言模型的性能。然后我们从Gemma-2b-base和LLama-3-8b-base进行训练,发现我们的最佳模型的性能超过了使用闭源数据和算法调整的官方指导模型。我们的代码和模型可以在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2407.06542

Github: https://github.com/Columbia-NLP-Lab/LionAlignment

利用多语言编码器和知识蒸馏增强低资源 NMT:案例研究

原标题: Enhancing Low-Resource NMT with a Multilingual Encoder and Knowledge Distillation: A Case Study

作者: Aniruddha Roy, Pretam Ray, Ayush Maheshwari, Sudeshna Sarkar, Pawan Goyal

机构: 印度理工学院 哈拉格普分校 Vizzhy 公司 恩斯海纳私人有限公司

摘要: 神经机器翻译(NMT)仍然是一个巨大挑战,特别是在处理资源稀缺语言时。预训练的序列到序列(seq2seq)多语言模型,如mBART-50,已经在各种资源稀缺的NMT任务中展现出令人印象深刻的性能。然而,它们的预训练仅限于50种语言,未支持许多资源稀缺语言,特别是印度次大陆地区的语言。扩展mBART-50的语言支持需要复杂的预训练,可能由于灾难性遗忘而导致性能下降。考虑到这些不断扩大的挑战,本文探讨了一个框架,利用预训练语言模型的优势以及在seq2seq架构中使用知识蒸馏,以促进对资源稀缺语言的翻译,包括那些mBART-50未覆盖的语言。所提出的框架采用多语言编码器为基础架构的seq2seq模型,随后使用互补的知识蒸馏技术来减轻训练不平衡的影响。我们的框架在四个Indic到Indic方向上评估了三种资源稀缺的Indic语言,在BLEU-4和chrF方面相对于基线取得了显著的改进。此外,我们进行了人工评估以确认我们方法的有效性。我们的代码可以在此https网址公开获取。

论文链接: https://arxiv.org/pdf/2407.06538

Github: https://github.com/raypretam/Two-step-low-res-NMT

通过检测和探索任务特定神经元来理解LLMs的多任务学习(泛化)

原标题: Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons

作者: Yongqi Leng, Deyi Xiong

机构: 天津大学

摘要: 尽管大语言模型(LLMs)展示了出色的多任务能力,但理解其背后的学习机制仍然是一个具有挑战性的问题。在这篇论文中,我们尝试从神经元的角度理解这样的机制。具体来说,我们通过在特定任务数据上进行梯度归因来检测LLMs中的任务敏感神经元。通过大量的去激活和微调实验,我们证明了检测到的神经元与给定任务高度相关,我们将其称为任务特定神经元。通过识别这些确定的任务特定神经元,我们深入探讨了多任务学习和持续学习中的两个常见问题:泛化和灾难性遗忘。我们发现任务特定神经元的重叠与跨任务的泛化和专业化密切相关。有趣的是,在LLMs的某些层中,不同任务特定神经元的参数具有很高的相似性,这种相似性与泛化性能高度相关。受到这些发现的启发,我们提出了一种神经元级别的持续微调方法,在持续学习过程中仅对当前任务特定神经元进行微调,并通过大量实验证明了所提方法的有效性。我们的研究为多任务学习中LLMs的可解释性提供了见解。

论文链接: https://arxiv.org/pdf/2407.06488

基于 sLLM 的 DPO 的高效准确可记忆对话模型

原标题: Efficient and Accurate Memorable Conversation Model using DPO based on sLLM

作者: Youngkyung Seo, Yoonseok Heo, Jun-Seok Koh, Du-Seoung Chang

摘要: 在多轮对话系统中,随着对话的进行,持续更新记忆是至关重要的。简单地累积记忆可能会使推理过程中难以专注于对话内容,因为输入句子的长度有限。因此,需要一种能够有效且准确地管理记忆以持续反映对话历史的对话模型。本文提出了一种对话模型,能够在对话进行过程中高效地管理记忆,并将其融入模型中以准确反映对话历史,采用了 SFT、DPO 和带有 SFT 模型的 DPO 三种方法。我们的模型使用 DPO 算法,在记忆准确性方面BERTScore提升约0.0591,反映记忆的回复比例也增加了。此外,响应生成性能在流畅度提高约4.292,在连贯性方面提高约3.935,在一致性方面提高约2.896。本文描述了一种训练方法,其性能优于参数大小超过两倍的模型,即使模型大小较小也是如此。因此,我们的模型不仅在准确性方面表现出效率,而且在资源利用方面也表现出效率。

论文链接: https://arxiv.org/pdf/2407.06537

互动至关重要:针对英语第二语言对话的互动评估框架

原标题: Interaction Matters: An Evaluation Framework for Interactive Dialogue Assessment on English Second Language Conversations

作者: Rena Gao, Carsten Roever, Jey Han Lau

机构: 墨尔本大学 澳大利亚

摘要: 我们提出了一个评估框架,用于在英语作为第二语言(ESL)者背景下进行交互式对话评估。我们的框架收集对话级别的互动标签(例如,话题管理;总共4个标签)和微观级别的跨度特征(例如,反馈;总共17个特征)。根据我们的标注数据,我们研究了微观级别特征如何影响ESL对话的(更高级别的)互动质量,通过构建各种基于机器学习的模型。我们的结果表明,某些微观级别特征与互动质量强相关,例如参考词(例如,她,他),揭示了关于更高级别对话质量和更低级别语言信号之间互动的新见解。我们的框架还提供了一种评估ESL交流的方法,这对语言评估很有用。

论文链接: https://arxiv.org/pdf/2407.06479

通过语义完成和分解解决多模态情感检测的情感差异

原标题: Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition

作者: Daiqing Wu, Dongbao Yang, Huawen Shen, Can Ma, Yu Zhou

机构: 中国科学院信息工程研究所 中国科学院大学 南开大学计算机学院

摘要: 近年来,随着社交媒体帖子的大量涌现,检测多模态(图像-文本)内容中的情感需求迅速增长。由于帖子是用户生成的,同一帖子中的图像和文本可能表达不同甚至矛盾的情感,导致潜在的情感差异。然而,现有作品主要采用单分支融合结构,主要捕捉图像和文本之间一致的情感。对于差异情感的忽视或隐式建模导致了受损的单模态编码和有限的性能。在本文中,我们提出了一种语义完成和分解(CoDe)网络来解决上述问题。在语义完成模块中,我们利用嵌入在图像中的OCR文本的语义来补充图像和文本表示,有助于弥合情感差距。在语义分解模块中,我们通过独占投影和对比学习来分解图像和文本表示,从而明确捕捉模态之间的差异情感。最后,我们通过交叉注意力融合图像和文本表示,并将它们与学习到的差异情感结合进行最终分类。对四个多模态情感数据集进行的大量实验表明,CoDe相对于SOTA方法具有显著优势。

论文链接: https://arxiv.org/pdf/2407.07026

Metron:LLM推理系统的整体性能评估框架

原标题: Metron: Holistic Performance Evaluation Framework for LLM Inference Systems

作者: Amey Agrawal, Anmol Agarwal, Nitin Kedia, Jayashree Mohan, Souvik Kundu, Nipun Kwatra, Ramachandran Ramjee, Alexey Tumanov

机构: 乔治亚理工学院 微软研究院印度 英特尔人工智能实验室

摘要: 在生产环境中提供大型语言模型(LLMs)可能会产生相当大的成本,这促使了最近推动推理系统优化的进展。如今,这些系统根据传统的延迟和吞吐量指标(例如 TTFT、TBT、标准化延迟和 TPOT)进行评估。然而,这些指标未能充分捕捉LLM推理的微妙之处,导致对于实时应用(如聊天和翻译)至关重要的用户体验性能的评估不完整。在本文中,我们首先确定了当前性能指标在评估LLM推理系统时存在的缺陷。然后,我们提出了Metron,一个全面的性能评估框架,其中包括流畅度指数——一种旨在反映LLM推理过程的复杂性及其对实时用户体验的影响的新颖指标。最后,我们使用Metron评估了各种现有的开源平台和模型即服务(model-as-a-service)提供,讨论它们的优势和劣势。Metron 可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.07000

Github: https://github.com/project-metron/metron

公平倾听与公平表达:关于语音集成大型语言模型中语义性别偏见的研究

原标题: Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models

作者: Yi-Cheng Lin, Tzu-Quan Lin, Chih-Kai Yang, Ke-Han Lu, Wei-Chih Chen, Chun-Yi Kuan, Hung-yi Lee

机构: 国立台湾大学

摘要: 语音集成大语言模型(SILLMs)将大语言模型与语音感知结合,执行各种任务,如情感识别到说话者验证,展示了通用音频理解能力。然而,这些模型可能会放大训练数据中存在的偏见,潜在地导致边缘化群体对信息的偏见访问。本研究引入了一个经过策划的口语偏见评估工具包和相应的数据集。我们评估了SILLMs中性别偏见在四个语义相关任务中的表现:语音转文本翻译(STT)、口语指代消解(SCR)、口语句子延续(SSC)和口语问答(SQA)。我们的分析显示,偏见水平取决于语言,并随着不同评估方法而变化。我们的发现强调了采用多种方法全面评估SILLMs中偏见的必要性,为开发更公平的SILLM系统提供了见解。

论文链接: https://arxiv.org/pdf/2407.06957

Github: https://github.com/dlion168/Listen-and-Speak-Fairly

从非结构化自然语言数据中进行端到端因果效应估计

原标题: End-To-End Causal Effect Estimation from Unstructured Natural Language Data

作者: Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul G. Krishnan, Chris J. Maddison

机构: 多伦多大学 矢量研究所 Meta AI

摘要: 了解干预效果对人类决策至关重要,但当前用于因果效应估计的方法依赖于手动数据收集和结构化,而不考虑因果假设。这增加了研究的成本和完成时间。我们展示了如何利用大规模、多样化的观察性文本数据,通过大语言模型(LLMs)进行挖掘,以在适当的因果假设下产生廉价的因果效应估计。我们引入了NATURAL,这是一种新颖的因果效应估计器系列,利用LLMs构建,可在非结构化文本数据集上运行。我们的估计器使用LLM条件分布(在给定文本数据的感兴趣变量上)来辅助计算因果效应的经典估计器。我们克服了许多技术挑战来实现这一想法,例如自动化数据整理和使用LLMs来填补缺失信息。我们准备了六个(两个合成和四个真实)观察性数据集,配对相应的随机试验形式的基本事实,用于系统评估我们流程的每个步骤。NATURAL 估计器表现出色,产生的因果效应估计与其基本事实对应物相差不到3个百分点,包括在现实世界的第3/4期临床试验中。我们的结果表明,非结构化文本数据是因果效应信息的丰富来源,而NATURAL 是利用这一资源的自动化流程的第一步。

论文链接: https://arxiv.org/pdf/2407.07018

强大的神经信息检索:对抗性和超出分布的视角

原标题: Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective

作者: Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng

机构: 中国科学院网络数据科学与技术重点实验室,计算技术研究所,中国科学院大学,荷兰阿姆斯特丹大学

摘要: 神经信息检索(IR)模型的最新进展显著提高了它们在各种IR任务中的有效性。这些模型的鲁棒性对于确保它们在实践中的可靠性至关重要,也引起了广泛关注。随着对鲁棒IR的广泛研究提出,我们认为现在是整合当前状况、从现有方法中获取见解并为未来发展奠定基础的时机。我们认为IR的鲁棒性是一个多方面的概念,强调其对抗攻击、超出分布(OOD)情景和性能变化的必要性。我们着重讨论对密集检索模型(DRMs)和神经排名模型(NRMs)的对抗性和OOD鲁棒性解决方案,将它们视为神经IR流程的关键组成部分。我们深入讨论了现有方法、数据集和评估指标,阐明了在大语言模型时代的挑战和未来方向。据我们所知,这是对神经IR模型鲁棒性的首个全面调查,我们还将在SIGIR 2024年首次进行教程演示。除了整理现有工作,我们还介绍了用于鲁棒神经信息检索的基准(BestIR),这是一个公开可用的鲁棒性评估基准。我们希望这项研究为未来对IR模型鲁棒性的研究提供有用线索,并有助于开发可信赖的搜索引擎。

论文链接: https://arxiv.org/pdf/2407.06992

Github: https://sigir2024-robust-information-retrieval.github.io

ICLGuard:控制上下文学习行为以进行适用性授权

原标题: ICLGuard: Controlling In-Context Learning Behavior for Applicability Authorization

作者: Wai Man Si, Michael Backes, Yang Zhang

机构: CISPA Helmholtz Center for Information Security

摘要: 在大语言模型(LLMs)能力的最新进展中,基于上下文的学习(ICL)是一项重要的特性。这一特性允许用户在不更新模型的情况下执行新任务。具体而言,用户可以在推理时通过在少量输入-标签对演示和测试输入的条件下解决任务。这与传统的微调范式不同,提供了更多的灵活性。然而,这一能力也带来了潜在的问题。例如,用户可能在没有限制的情况下在任何数据上使用模型,比如执行包含不当或敏感内容的任务,这可能违反模型政策或与模型所有者的利益相冲突。作为模型所有者,建立一个机制来控制ICL下模型的行为是至关重要的,这取决于模型所有者对各种内容的要求。为此,我们引入了专为LLMs量身定制的“适用授权”概念,特别针对ICL行为,并提出了一种简单的方法ICLGuard。这是一个微调框架,旨在允许模型所有者调节不同数据上的ICL行为。ICLGuard保留了原始LLM,仅微调了一小组额外的可训练参数来“保护”LLM。实证结果表明,经过保护的LLM可以在目标数据上停用其ICL能力,而不影响其在其他数据上的ICL能力以及在所有数据上的一般功能性。

论文链接: https://arxiv.org/pdf/2407.06955

西班牙语TrOCR:利用迁移学习进行语言适应

原标题: Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation

作者: Filipe Lauar, Valentin Laurent

机构: 瑞典皇家理工学院 中央苏佩雷克 巴黎-萨克雷大学 Qantev

摘要: 这项研究探讨了TrOCR架构在西班牙语上的迁移学习能力。TrOCR是基于Transformer的光学字符识别(OCR)模型,以其在英语基准测试中表现卓越而闻名。受Li等人关于其适应多语言文本识别能力的说法启发,我们研究了两种不同的方法来使该模型适应新语言:一种是将英语TrOCR编码器与特定语言解码器集成,并在该特定语言上训练模型;另一种是在新语言数据上微调英语基础TrOCR模型。由于公开可用数据集的稀缺性,我们提出了一个资源高效的流程,用于在任何语言中创建OCR数据集,并重点关注了不同图像生成方法在视觉丰富文档(VRDs)上的综合基准。此外,我们针对西班牙语提供了两种方法的比较分析,结果表明,将英语TrOCR在西班牙语上进行微调比使用特定语言解码器在固定数据集大小下具有更优越的识别能力。我们使用字符和单词错误率指标对我们的模型进行评估,使用公开可用的印刷数据集,将性能与其他开源和云OCR西班牙语模型进行比较。据我们所知,这些资源代表了西班牙语OCR中最佳的开源模型。西班牙语TrOCR模型可以在HuggingFace [20]上公开获取,生成数据集的代码可以在Github [25]上找到。

论文链接: https://arxiv.org/pdf/2407.06950

学习并不要忘记:向 ASR 基础模型添加新语言

原标题: Learn and Don’t Forget: Adding a New Language to ASR Foundation Models

作者: Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales

机构: 剑桥大学 ALTA研究所 机器智能实验室

摘要: 基础 ASR 模型通常支持多种语言,例如 Whisper 中的 100 种语言。然而,在集成额外的、通常是低资源的语言时,相关工作却有限,同时要保持对原始语言集的性能。微调虽然简单,但可能会降低原始集的准确性。我们比较了三种利用适应参数的方法:软语言代码调整,仅训练语言代码;软提示调整,训练预置的标记;以及 LoRA,其中优化了一小组额外参数。弹性权重整合(EWC)提供了一个替代方案,有潜力在特定目标语言中保持性能。结果显示,直接微调对新语言的性能效果最好,但会降低现有语言的能力。EWC 可以解决特定语言的这一问题。如果只使用适应参数,则可以保持语言能力,但会以牺牲新语言性能为代价。

论文链接: https://arxiv.org/pdf/2407.06800

熵定律:数据压缩和大语言模型性能背后的故事

原标题: Entropy Law: The Story Behind Data Compression and LLM Performance

作者: Mingjia Yin, Chuhan Wu, Yufei Wang, Hao Wang, Wei Guo, Yasheng Wang, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen

机构: 中国科学技术大学 华为 Noah’s Ark Lab

摘要: 数据是大语言模型(LLMs)的基石,但并非所有数据对模型学习都有用。精心选择的数据可以更好地引发LLMs的能力,而计算开销则大大减少。大多数方法集中于评估数据选择中单个样本的质量,而忽略了样本之间的组合效应。即使每个样本的质量都很好,它们的组合可能由于固有的同质性或矛盾而无法最优地教导LLMs。本文旨在揭示LLM性能与数据选择之间的潜在关系。受LLMs信息压缩特性的启发,我们揭示了一种将LLM性能与数据压缩比和首轮训练损失相连接的“熵定律”,这反映了数据集的信息冗余和编码在数据集中的内在知识的掌握程度。通过理论推导和实证评估,我们发现模型性能与训练数据的压缩比呈负相关,通常会产生较低的训练损失。基于熵定律的发现,我们提出了一种名为\textbf{ZIP}的相当高效和通用的数据选择方法,用于训练LLMs,旨在优先考虑展现低压缩比的数据子集。通过以贪婪方式选择多样化数据的多阶段算法,我们可以获得一个具有令人满意多样性的良好数据子集。已进行了大量实验来验证熵定律以及ZIP在不同LLM骨干和对齐阶段上的优越性。我们还提出了熵定律的一个有趣应用,可以在模型训练开始时检测潜在的性能风险。

论文链接: https://arxiv.org/pdf/2407.06645

使用Branchformers定制设计音视频语音识别模型

原标题: Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

作者: David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos

摘要: 近年来在音视频语音识别(AVSR)领域取得了前所未有的成就,提高了这种类型系统在恶劣、嘈杂环境下的稳健性。在大多数情况下,这一任务通过设计由两个独立编码器组成的模型来解决,每个编码器专门用于特定的模态。然而,尽管最近的研究已经探索了统一的音视频编码器,确定最佳的跨模态架构仍然是一个持续挑战。此外,这种方法通常依赖于包含大量参数和高计算成本训练过程的模型。在本文中,我们旨在通过引入一种新颖的音视频框架来弥合这一研究差距。据我们所知,我们提出的方法是利用诸如Branchformer之类的编码器架构在设计参数高效的AVSR系统方面的首次尝试,以发挥其灵活性和可解释性。更准确地说,所提出的框架包括两个步骤:首先,估计音频和视频系统,然后基于模态特定模型提供的层级分支分数设计定制的音视频统一编码器。对涵盖多种数据条件和场景的英语和西班牙语AVSR基准进行了大量实验,证明了我们提出的方法的有效性。结果反映了我们定制的AVSR系统能够达到最先进的识别率,同时显著减少了模型复杂性,相对于该领域中普遍的方法。代码和预训练模型可在此https网址获得。

论文链接: https://arxiv.org/pdf/2407.06606

Github: https://github.com/david-gimeno/tailored-avsr

AutoTask:针对多任务广告相关性的任务感知多方面单模型

原标题: AutoTask: Task Aware Multi-Faceted Single Model for Multi-Task Ads Relevance

作者: Shouchang Guo, Sonam Damani, Keng-hao Chang

机构: 微软AI

摘要: 广告相关性模型在确定用户搜索查询和广告推广之间的相关性方面至关重要,通常被构建为一个分类问题。随着多种广告类型和展示相似性和差异性的不同场景的增加,建模的复杂性显著增加。在这项工作中,我们引入了一种新颖的多方面注意力模型,执行任务感知特征组合和跨任务交互建模。我们的技术将特征组合问题形式化为跨特征和任务维度的自回归注意力下的“语言”建模。具体而言,我们引入了一个新的任务ID编码维度用于任务表示,从而实现了在各种广告场景中精确相关性建模,大幅提高了对未知任务的泛化能力。我们展示了我们的模型不仅有效处理了随着场景增多而增加的计算和维护需求,而且在一系列广告应用中,使用单一统一模型胜过了通用DNN模型甚至特定任务模型。

论文链接: https://arxiv.org/pdf/2407.06549

STORYSUMM:评估故事摘要中的忠实度

原标题: STORYSUMM: Evaluating Faithfulness in Story Summarization

作者: Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen McKeown

机构: 哥伦比亚大学 Answer.AI

摘要: 人类评估一直是检查抽象摘要的忠实度的黄金标准。然而,在像叙述这样具有挑战性的源领域中,多个注释者可能会同意摘要是忠实的,同时忽略了一旦指出就显而易见的错误细节。因此,我们引入了一个新的数据集,名为STORYSUMM,其中包括了大语言模型对短篇故事的摘要,以及局部忠实度标签和错误解释。这一基准用于评估方法,测试一个给定方法是否能够检测到具有挑战性的不一致之处。利用这个数据集,我们首先展示任何一个人类注释协议很可能会忽略不一致之处,并倡导在建立摘要数据集的基本事实时追求一系列方法。最后,我们测试了最近的自动评估指标,发现它们在这一任务上的平衡准确率都不超过70%,表明这是一个具有挑战性的基准,适用于未来在忠实度评估方面的工作。

论文链接: https://arxiv.org/pdf/2407.06501

LETS-C: 利用语言嵌入进行时间序列分类

原标题: LETS-C: Leveraging Language Embedding for Time Series Classification

作者: Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso

机构: 摩根大通AI研究

摘要: 最近在语言建模方面取得的进展显示,当应用于时间序列数据时表现出了令人期待的结果。特别是,对预训练的大语言模型(LLMs)进行微调,用于时间序列分类任务,在标准基准测试中取得了最先进的性能。然而,这些基于LLM的模型由于模型规模庞大,在可训练参数数量达到百万级别,存在显著缺点。在本文中,我们提出了一种利用语言建模成功经验的替代方法,用于时间序列领域。我们并未对LLMs进行微调,而是利用语言嵌入模型来嵌入时间序列,然后将嵌入与由卷积神经网络(CNN)和多层感知器(MLP)组成的简单分类头配对。我们在已建立的时间序列分类基准数据集上进行了大量实验。我们展示了LETS-C不仅在分类准确性上优于当前的SOTA,而且提供了一种轻量级解决方案,与SOTA模型相比,平均仅使用了14.5%的可训练参数。我们的研究结果表明,利用语言编码器来嵌入时间序列数据,结合简单而有效的分类头,为实现高性能时间序列分类提供了一个有前途的方向,同时保持了轻量级模型架构。

论文链接: https://arxiv.org/pdf/2407.06533

可组合的干预方法用于语言模型

原标题: Composable Interventions for Language Models

作者: Arinbjorn Kolbeinsson, Kyle O’Brien, Tianjin Huang, Shanghua Gao, Shiwei Liu, Jonathan Richard Schwarz, Anurag Vaidya, Faisal Mahmood, Marinka Zitnik, Tianlong Chen, Thomas Hartvigsen

机构: 弗吉尼亚大学 EleutherAI 微软埃克塞特大学 鹿特丹理工大学 哈佛医学院 牛津大学 麻省总医院 东北大学教堂山分校

摘要: 测试时对语言模型进行干预可以增强事实准确性,减轻有害输出,并提高模型效率,而无需昂贵的重新训练。但尽管涌现了大量新方法,不同类型的干预仍在相对独立地发展。在实践中,必须将多种干预依次应用于同一模型,然而我们缺乏标准化的研究方法来研究干预之间的相互作用。我们通过引入可组合干预来填补这一空白,这是一个研究在同一语言模型上使用多种干预效果的框架,具有新的度量标准和统一的代码库。利用我们的框架,我们进行了大量实验,并组合了来自三个新兴干预类别的流行方法——知识编辑、模型压缩和机器遗忘。我们从310种不同的组合中得出的结果揭示了有意义的相互作用:压缩阻碍了编辑和遗忘,组合干预取决于它们的应用顺序,流行的通用度量标准不足以评估可组合性。总的来说,我们的研究结果展示了可组合性方面的明显差距,表明需要新的多目标干预。我们所有的代码都是公开的:这里是链接。

论文链接: https://arxiv.org/pdf/2407.06483

Github: https://github.com/hartvigsen-group/composable-interventions

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值