2024年7月11日Arxiv语言模型相关论文

属性或弃权:大语言模型作为长文档助手

原标题: Attribute or Abstain: Large Language Models as Long Document Assistants

作者: Jan Buchmann, Xiao Liu, Iryna Gurevych

机构: 德国达姆施塔特工业大学

摘要: 大语言模型可以帮助处理长文档的人类工作,但已知存在幻觉现象。归因可以增加对大语言模型响应的信任:大语言模型提供支持其响应的证据,从而增强了可验证性。现有的归因方法仅在 RAG 设置中进行了评估,在那里初始检索会影响大语言模型的性能。这与长文档设置有关,长文档设置中不需要检索,但检索可能会有所帮助。因此,缺少针对长文档的归因特定评估。为了填补这一空白,我们提出 LAB,这是一个包含6个不同长文档任务的基准测试,具有归因功能,并尝试在4个不同大小的大语言模型上使用不同的归因方法,包括提示和微调。我们发现引文,即一步生成响应和提取证据,大多数情况下表现最佳。我们调查了是否存在用于归因的“中间迷失”现象,但没有发现这一点。我们还发现证据质量可以预测简单响应数据集上的响应质量,但对于复杂响应来说并非如此,因为模型难以为复杂主张提供证据。我们发布了代码和数据以供进一步研究。

论文链接: https://arxiv.org/abs/2407.07799

社交媒体内容生成的多任务提示词学习

原标题: Multi-task Prompt Words Learning for Social Media Content Generation

作者: Haochen Xue, Chong Zhang, Chengzhi Liu, Fangyu Wu, Xiaobo Jin

机构: 西交利物浦大学 江苏 苏州

摘要: 互联网的快速发展深刻改变了人类生活。人们越来越多地在社交媒体平台上表达自己并与他人互动。然而,尽管人工智能技术已被广泛运用于生活的许多方面,但其在社交媒体内容创作中的应用仍然空白。为了解决这一问题,我们提出了一种基于多模态信息融合的新提示词生成框架,结合主题分类、情感分析、场景识别和关键词提取等多个任务,生成更全面的提示词。随后,我们使用包含一组提示词的模板来引导 ChatGPT 生成高质量的推文。此外,在内容生成领域缺乏有效和客观的评估标准的情况下,我们使用 ChatGPT 工具来评估算法生成的结果,使得对内容生成算法进行大规模评估成为可能。广泛内容生成的评估结果表明,我们的提示词生成框架相比手动方法和其他提示技术生成了更高质量的内容,同时主题分类、情感分析和场景识别显著提升了内容的清晰度及其与图像的一致性。

论文链接: https://arxiv.org/abs/2407.07771

在测试任务上进行训练会混淆评估和出现

原标题: Training on the Test Task Confounds Evaluation and Emergence

作者: Ricardo Dominguez-Olmedo, Florian E. Dorner, Moritz Hardt

机构: 马克思·普朗克智能系统研究所, 图宾根 图宾根人工智能中心 苏黎世联邦理工学院

摘要: 我们研究了大语言模型评估中的一个基本问题,我们称之为在测试任务上训练。与错误的做法如在测试数据上训练、泄漏或数据污染不同,在测试任务上训练并不是一种不端行为。相反,这个术语描述了一系列技术,用于在语言模型的预训练阶段包含与任务相关的数据。我们证明,在测试任务上训练会混淆相对模型评估和对新兴能力的声明。我们认为,一个模型系列看似优于另一个可能是由于在测试任务上训练程度不同所致。为此,我们提出了一种有效的方法,通过在评估之前在相同的任务相关数据上微调比较的每个模型来调整在测试任务上的训练。然后我们展示,一旦我们调整了在测试任务上的训练,新兴行为的实例大部分会消失。这也适用于那些无法通过评估指标选择来解释的新兴行为的报告实例。我们的工作促进了对大语言模型评估的新视角,对基准测试和新兴能力研究具有广泛的影响。

论文链接: https://arxiv.org/abs/2407.07890

WorldAPIs:世界价值多少个API?一个思维实验

原标题: WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment

作者: Jiefu Ou, Arda Uzunoglu, Benjamin Van Durme, Daniel Khashabi

机构: 约翰霍普金斯大学

摘要: AI系统通过通过API调用访问的原始动作或功能来在物理环境中做出决策。尽管在现实世界中部署AI智能体涉及许多高级动作,但现有的具身模拟器提供了有限的领域显著API集。这自然引出了一个问题:一个多才多艺的具身智能体需要多少个原始动作(API),它们应该是什么样子?我们通过一个思想实验来探讨这个问题:假设wikiHow教程涵盖了各种人类编写的任务,那么覆盖这些说明所需的API空间是什么样的?我们提出了一个框架,通过将wikiHow指导与具体智能体策略相结合,迭代诱导新的API。受到大型语言模型(LLMs)在具身规划方面取得的最新成功的启发,我们提出了少样本提示,以引导GPT-4生成Python程序作为智能体策略,并通过重新使用一组种子API来引导一个API宇宙,然后在必要时制造新的API调用。这个思想实验的重点在于定义这些API,而不是它们的可执行性。我们将提出的流程应用于来自wikiHow教程的说明。在一小部分(0.5%)教程中,我们诱导出一个包含300多个API的动作空间,这些API对捕捉物理世界中丰富多样的任务是必要的。对诱导输出进行的详细自动和人工分析表明,提出的流程实现了API的有效重用和创建。此外,手动审查显示,现有的模拟器仅支持诱导API的一个小子集(前50个常用API中的9个),这促使开发富有行动性的具身环境。

论文链接: https://arxiv.org/abs/2407.07778

LLM-Based Multi-Agent Communities 中操纵知识的泛滥传播

原标题: Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities

作者: Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu

机构: 上海交通大学 百川智能技术

摘要: 大语言模型(LLMs)在多智能体系统中的快速应用凸显了它们在各种应用中的印象深刻的能力,例如协作问题解决和自主谈判。然而,这些基于LLM的多智能体系统的安全影响尚未得到彻底调查,特别是涉及操纵知识传播的问题。在本文中,我们通过构建一个详细的威胁模型和一个模拟真实多智能体部署的可信平台环境来调查这一关键问题。随后,我们提出了一种新颖的两阶段攻击方法,涉及说服注入和操纵知识注入,以系统地探索操纵知识(即反事实和有毒知识)在没有明确提示操纵的情况下传播的潜力。
我们的方法利用了LLMs在处理世界知识方面的固有漏洞,攻击者可以利用这些漏洞不知不觉地传播捏造的信息。通过大量实验,我们证明我们的攻击方法可以成功地诱使基于LLM的智能体传播反事实和有毒知识,而不会在智能体通信过程中降低它们的基本能力。此外,我们展示这些操纵可以通过流行的检索增强生成框架持续存在,其中几个良性智能体存储和检索被操纵的聊天历史以供未来交互使用。这种持久性表明,即使交互结束,良性智能体仍可能继续受到操纵知识的影响。我们的发现揭示了基于LLM的多智能体系统中存在重大的安全风险,强调了对抗操纵知识传播的强大防御措施的迫切需求,例如引入“守护”智能体和先进的事实核查工具。

论文链接: https://arxiv.org/abs/2407.07791

关于言语幽默通用语义组件的心理语言学实验:系统描述和注释

原标题: Psycho-linguistic Experiment on Universal Semantic Components of Verbal Humor: System Description and Annotation

作者: Elena Mikhalkova, Nadezhda Ganzherli, Julia Murzina

摘要: 目前,关于区分幽默话语和非幽默话语的通用语义组件的客观标准正在进行讨论。在本文中,我们对我们的自主阅读系统进行了深入观察,用于幽默注释,该系统在读者逐字打开文本时收集读者的注释。该系统记录读者按下以打开下一个单词、选择类别(幽默与非幽默文本)、更改选择的按键。我们还提及了我们使用该系统进行的心理语言学实验以及在实验过程中收集的数据。

论文链接: https://arxiv.org/abs/2407.07617

一个提议的大语言模型 S.C.O.R.E. 评估框架:安全性,一致性,客观性,可复现性和可解释性

原标题: A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability

作者: Ting Fang Tan, Kabilan Elangovan, Jasmine Ong, Nigam Shah, Joseph Sung, Tien Yin Wong, Lan Xue, Nan Liu, Haibo Wang, Chang Fu Kuo, Simon Chesterman, Zee Kin Yeong, Daniel SW Ting

机构: 清华大学 剑桥大学 斯坦福大学

摘要: 一个全面的定性评估框架,用于在医疗保健领域对大语言模型(LLM)进行评估,超越传统准确性和数量指标的需要。我们提出了LLM评估的5个关键方面:安全性、一致性、客观性、可复现性和可解释性(S.C.O.R.E.)。我们建议S.C.O.R.E.可能成为未来基于LLM的模型的评估框架的基础,这些模型在医疗保健和临床应用中是安全、可靠、值得信赖和符合伦理的。

论文链接: https://arxiv.org/abs/2407.07666

大语言模型预训练中使用的大规模网络挖掘语料库所面临的挑战综述

原标题: A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training

作者: Michał Perełkiewicz, Rafał Poświata

机构: 国家信息处理研究所

摘要: 本文全面审查了使用大规模网络挖掘语料库进行大语言模型(LLMs)的预训练所面临的挑战。该审查确定了该领域的关键挑战,包括噪音(不相关或误导性信息)、内容重复、低质量或不正确信息的存在、偏见以及网络挖掘语料库中包含的敏感或个人信息。解决这些问题对于开发准确、可靠和道德负责的语言模型至关重要。通过对数据清理、预处理、偏见检测和缓解的当前方法进行审查,我们突出了现有方法的差距,并提出了未来研究的方向。我们的讨论旨在推动开发更复杂和道德负责的LLMs的进展。

论文链接: https://arxiv.org/abs/2407.07630

计算学习建构语法:现状与展望路线图

原标题: The Computational Learning of Construction Grammars: State of the Art and Prospective Roadmap

作者: Jonas Doumen, Veronica Juliana Schmalz, Katrien Beuls, Paul Van Eecke

摘要: 本文记录并审查了有关建构语法学习计算模型的最新进展。它汇集了先前关于形式-含义配对计算学习的研究成果,这方面的研究迄今已在几个不同的研究领域中进行。本文的目标有三个。首先,旨在综合迄今提出的各种方法论和已取得的结果。其次,旨在确定已成功解决的挑战部分,并揭示需要进一步研究的部分。最后,旨在提供一份路线图,可帮助推动和简化未来关于大规模、基于使用的建构语法计算学习的研究工作。

论文链接: https://arxiv.org/abs/2407.07606

关于代码生成评估数据集泄漏

原标题: On Leakage of Code Generation Evaluation Datasets

作者: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé

机构: Cohere

摘要: 在这篇论文中,我们考虑了代码生成测试集的污染问题,特别是它们在现代大型语言模型中的使用。我们讨论了三种可能导致这种污染的来源,并展示了支持每种来源的发现:(i) 直接数据泄漏,(ii) 通过使用合成数据间接数据泄漏,以及 (iii) 在模型选择过程中对评估集过拟合。
我们的发现的关键是一个包含161个提示及其对应的Python解决方案的新数据集,该数据集已经在此网址发布。

论文链接: https://arxiv.org/abs/2407.07565

其他链接: https://huggingface.co/datasets/CohereForAI/lbpp

超越基准测试:大语言模型评估和评估的新范式

原标题: Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models

作者: Jin Liu, Qingquan Li, Wenlong Du

机构: 独立研究者

摘要: 在当前用于评估大语言模型(LLMs)的基准测试中,存在诸如评估内容限制、更新不及时和缺乏优化指导等问题。在本文中,我们提出了一种衡量LLMs的新范式:基准测试-评估-评估。我们的范式将LLM评估的“位置”从“考场”转移到“医院”。通过对LLMs进行“体格检查”,它利用特定任务解决作为评估内容,对LLMs内部问题进行深入归因,并提供优化建议。

论文链接: https://arxiv.org/abs/2407.07531

桶预训练就是你所需要的。

原标题: Bucket Pre-training is All You Need

作者: Hongtao Liu, Qiyao Peng, Qing Yang, Kai Liu, Hongyan Xu

机构: 度小满金融 天津大学 智能与计算学院

摘要: 大语言模型(LLMs)在各种自然语言处理任务中展现出了出色的性能。然而,传统的固定长度数据组合策略用于预训练,涉及连接和拆分文档,可能会引入噪音并限制模型捕获长距离依赖性的能力。为了解决这个问题,我们首先引入了三个评估数据组合质量的指标:填充比率、截断比率和连接比率。我们进一步提出了一种多桶数据组合方法,超越了固定长度的范式,提供了一种更灵活和高效的预训练方法。大量实验证明,我们提出的方法可以显著提高LLMs预训练的效率和功效。我们的方法不仅减少了噪音并保留了上下文,还加快了训练速度,使其成为LLMs预训练的一个有前途的解决方案。

论文链接: https://arxiv.org/abs/2407.07495

使用大语言模型进行阿拉伯语自动生成故事

原标题: Arabic Automatic Story Generation with Large Language Models

作者: Ahmed Oumar El-Shangiti, Fakhraddin Alwajih, Muhammad Abdul-Mageed

机构: 不列颠哥伦比亚大学 阿布扎比人工智能大学 (MBZUAI) Invertible AI

摘要: 大语言模型(LLMs)最近已经成为各种语言生成任务中强大的工具。然而,在阿拉伯语领域,这一进展较慢。在这项工作中,我们专注于从大语言模型生成故事的任务。对于我们的训练,我们使用通过机器翻译(MT)和 GPT-4 获得的故事。对于机器翻译数据,我们开发了一个细致的流程,确保获取高质量的故事。对于我们的 GPT-41 数据,我们引入了精心设计的提示,使我们能够生成适合阿拉伯语境的数据,包括现代标准阿拉伯语(MSA)和两种阿拉伯方言(埃及和摩洛哥)。例如,我们生成了针对各个阿拉伯国家、涵盖各种主题的故事。我们的手动评估显示,我们在这些训练数据集上微调的模型可以生成符合我们指示的连贯故事。我们还进行了广泛的自动和人工评估,将我们的模型与最先进的专有模型和开源模型进行了比较。我们的数据集和模型将在 https://github.com/UBC-NLP/arastories 上公开提供。

论文链接: https://arxiv.org/abs/2407.07551

审查-大语言模型:利用大语言模型进行个性化评论生成

原标题: Review-LLM: Harnessing Large Language Models for Personalized Review Generation

作者: Qiyao Peng, Hongtao Liu, Hongyan Xu, Qing Yang, Minglai Shao, Wenjun Wang

机构: 天津大学 新媒体传播学院 中国 多财智能金融 北京 中国 天津大学 情报与计算学院 中国

摘要: 产品评论生成是推荐系统中的重要任务,可以为推荐提供解释和说服力。最近,大语言模型(LLMs,例如ChatGPT)展示了出色的文本建模和生成能力,可以应用于评论生成。然而,直接应用LLMs生成评论可能会受到LLMs的“客气”现象的困扰,无法生成个性化评论(例如负面评论)。在本文中,我们提出了Review-LLM,为个性化评论生成定制了LLMs。首先,我们通过汇总用户历史行为构建提示输入,其中包括相应的物品标题和评论。这使LLMs能够捕捉用户兴趣特征和评论写作风格。其次,我们将评分作为满意度指标纳入提示,这可以进一步提高模型对用户偏好和生成评论的情感倾向控制的理解。最后,我们将提示文本馈送到LLMs,并使用监督微调(SFT)使模型为给定用户和目标物品生成个性化评论。对真实数据集的实验结果表明,我们微调的模型可以比现有的封闭源LLMs实现更好的评论生成性能。

论文链接: https://arxiv.org/abs/2407.07487

口语理解中的跨分布泛化

原标题: Out-of-distribution generalisation in spoken language understanding

作者: Dejan Porjazovski, Anssi Moisio, Mikko Kurimo

机构: 阿尔托大学

摘要: 测试数据被称为“分布外(OOD)”,当它与训练数据出现意外差异时,在机器学习的实际应用中是一个常见挑战。尽管近年来OOD泛化引起了人们的兴趣,但很少有研究关注口语理解(SLU)任务中的OOD泛化。为了促进这一主题的研究,我们介绍了流行的SLU数据集SLURP的修改版本,其中包括用于测试SLU任务中OOD泛化的数据拆分。我们将我们修改后的数据集称为SLURP For OOD generalisation,或称为SLURPFOOD。利用我们的OOD数据拆分,我们发现端到端的SLU模型在泛化方面具有有限的能力。此外,通过采用模型可解释性技术,我们揭示了导致模型泛化困难的因素。为了改善泛化能力,我们尝试了两种技术,这些技术在一些拆分上改善了结果,但并非所有拆分,强调了对新技术的需求。

论文链接: https://arxiv.org/abs/2407.07425

LokiLM:技术报告

原标题: LokiLM: Technical Report

作者: Justin Kiefel, Shrey Shah

机构: 威斯康星大学麦迪逊分校 微软

摘要: 在这项工作中,我们介绍了 LokiLM,这是一个拥有 14 亿参数、在 5000 亿 Token 上训练的大语言模型。我们的模型在自然语言推理任务中表现出色,并在拥有 15 亿参数或更少的模型中取得了最先进的性能。LokiLM 使用多教师知识蒸馏和高质量训练数据进行训练,以实现与在更多 Token 上训练的更大模型竞争的基准结果。我们通过引入避免基准污染和过拟合的步骤来支持这些发现,贯穿我们的开发过程。尽管 LokiLM 的性能令人鼓舞,但存在大量幻觉,并在 TruthfulQA 基准测试中得分较低,因此我们不会公开发布该模型。

论文链接: https://arxiv.org/abs/2407.07370

KpopMT:Kpop 粉丝团词汇翻译数据集

原标题: KpopMT: Translation Dataset with Terminology for Kpop Fandom

作者: JiWoo Kim, Yunsu Kim, JinYeong Bak

机构: 成均馆大学 aiXplain公司 Los Gatos Sungkyunkwan University

摘要: 尽管机器是从现有语料库中学习的,但人类具有建立和接受新语言系统的独特能力。这使得人类在社会群体内形成独特的语言系统。与此相符,我们关注在社会群体内解决翻译挑战中仍存在的差距,其中群内成员使用独特术语。我们提出了KpopMT数据集,旨在通过实现精确的术语翻译来填补这一差距,选择Kpop粉丝群作为社会群体的初始项目,鉴于其全球知名度。专业翻译人员为韩文帖子和评论提供了1k英文翻译,每个翻译都附带了社会群体语言系统中特定术语的注释。我们评估了包括GPT模型在内的现有翻译系统在KpopMT上的表现,以识别它们的失败案例。结果显示整体得分较低,突显了在翻译中反映群体特定术语和风格的挑战。我们已将KpopMT公开提供。

论文链接: https://arxiv.org/abs/2407.07413

从医学出版物中自动提取疾病风险因素

原标题: Automatic Extraction of Disease Risk Factors from Medical Publications

作者: Maxim Rubchinsky, Ella Rabinovich, Adi Shraibman, Netanel Golan, Tali Sahar, Dorit Shweiki

机构: 特拉维夫-雅法学术学院 计算机科学学院 以色列 耶路撒冷希伯来大学 医学院 以色列 特拉维夫-雅法学术学院 生物信息学 以色列 特拉维夫-雅法学术学院 心脏病学部 以色列

摘要: 我们提出了一种新颖的方法,通过利用生物医学领域的预训练模型,并对其进行调整以自动识别医学文献中的疾病风险因素。面对医学文章多样化和非结构化的挑战,我们的研究引入了一个多步系统,首先识别相关文章,然后根据风险因素讨论的存在对其进行分类,最后通过问答模型提取特定疾病的风险因素信息。

我们的贡献包括开发了一个全面的管道,用于自动提取风险因素,并编制了几个数据集,这些数据集可以作为这一领域进一步研究的宝贵资源。这些数据集涵盖了广泛的疾病以及它们相关的风险因素,通过精细的评估方案进行了认真的识别和验证。我们进行了自动和彻底的手动评估,展示了令人鼓舞的结果。我们还强调了改进模型和扩展数据集的全面性的重要性,以跟上医学研究领域的快速发展。

论文链接: https://arxiv.org/abs/2407.07373

MixSumm:使用大语言模型基于主题的数据增强技术进行低资源抽取式文本摘要

原标题: MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization

作者: Gaurav Sahu, Issam H. Laradji

摘要: 低资源抽取式文本摘要是一项重要但鲜为人知的研究领域。先前的文献要么专注于生成式文本摘要,要么直接促使像GPT-3这样的大语言模型(LLM)生成摘要。在这项工作中,我们提出了用于低资源抽取式文本摘要的MixSumm。具体来说,MixSumm促使一个开源的LLM,LLaMA-3-70b,生成混合多个主题信息的文档,而不是生成没有混合的文档,然后在生成的数据集上训练一个摘要模型。我们使用ROUGE分数和L-Eval,一个基于LLaMA-3的无参考评估方法来衡量生成摘要的质量。我们在一个具有挑战性的文本摘要基准测试上进行了大量实验,包括TweetSumm、WikiHow和ArXiv/PubMed数据集,并展示了我们基于LLM的数据增强框架胜过了最近针对低资源抽取式摘要的基于提示的方法。此外,我们的结果还展示了从LLaMA-3-70b到一个小型基于BERT的抽取式摘要器的有效知识蒸馏。

论文链接: https://arxiv.org/abs/2407.07341

可解释的双推理大语言模型进行不同诊断

原标题: Interpretable Differential Diagnosis with Dual-Inference Large Language Models

作者: Shuang Zhou, Sirui Ding, Jiashuo Wang, Mingquan Lin, Genevieve B. Melton, Rui Zhang

机构: 明尼苏达大学 香港理工大学 加利福尼亚大学旧金山分校

摘要: 自动化生成差异诊断(DDx)以预测潜在疾病列表作为不同症状描述的患者的关键方法论进展对于临床推理和决策支持等应用至关重要。然而,为这些差异诊断提供推理或解释更有意义。幸运的是,大语言模型(LLMs)具有强大的语言处理能力,并已被证明在各种相关任务中有效。受到这一潜力的启发,我们研究了LLMs用于可解释的DDx的应用。首先,我们使用专家推导的解释在570个公共临床记录上开发了一个新的DDx数据集。其次,我们提出了一个名为Dual-Inf的新框架,使LLMs能够进行双向推理以进行解释。人工和自动评估均证明了Dual-Inf在预测差异和诊断解释方面的有效性。具体而言,Dual-Inf相对于基线方法在DDx解释方面的BERTScore性能提升超过32%。此外,实验证实Dual-Inf(1)在解释方面出错较少,(2)具有很强的泛化能力,(3)对于罕见疾病的诊断和解释具有潜力。

论文链接: https://arxiv.org/abs/2407.07330

多语言混合:使用语言混合评估LLM安全对齐

原标题: Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture

作者: Jiayang Song, Yuheng Huang, Zhehua Zhou, Lei Ma

机构: 阿尔伯塔大学 加拿大 东京大学 日本

摘要: 由于安全性在大语言模型(LLMs)的开发生命周期中仍然是一个关键关注点,研究人员和工业从业者越来越专注于保护和调整LLM行为,使其符合人类偏好和道德标准。在广泛的多语言语料库上训练的LLMs表现出在不同语言和领域之间强大的泛化能力。然而,当前的安全调整实践主要集中在单一语言场景上,这使它们在复杂的多语言环境中的有效性,特别是对于那些复杂的混合语言格式,基本上是未被探索的。在这项研究中,我们介绍了多语言混合(Multilingual Blending),这是一种设计用于评估各种最先进LLMs(例如GPT-4o,GPT-3.5,Llama3)在复杂的多语言条件下安全调整的混合语言查询-响应方案。我们进一步研究了语言可用性、形态和语言家族等语言模式可能影响多语言混合在破坏LLMs保障方面的有效性。我们的实验结果表明,如果没有精心设计的提示模板,多语言混合会显著增加恶意查询的危害,导致LLM安全调整中绕过率显著增加(GPT-3.5为67.23%,GPT-4o为40.34%),远远超过单一语言基线。此外,多语言混合的性能根据固有的语言属性有明显差异,不同形态和来自不同语言家族的语言更容易规避安全调整。这些发现强调了在复杂的多语言环境中评估LLMs并制定相应的安全调整策略的必要性,以与它们卓越的跨语言泛化能力相一致。

论文链接: https://arxiv.org/abs/2407.07342

不同差异性的概率揭示了大语言模型中同质性偏见的脆弱性

原标题: Probability of Differentiation Reveals Brittleness of Homogeneity Bias in Large Language Models

作者: Messi H.J. Lee, Calvin K. Lai

机构: 华盛顿大学圣路易斯分校 罗格斯大学

摘要: 大语言模型(LLMs)中的同质性偏见指的是它们倾向于使某些群体的表征同质化,而不同于其他群体。先前记录这种偏见的研究主要使用了编码器模型,这可能无意中引入了偏见。为了解决这一局限性,我们促使 GPT-4 生成与18种情境提示相关的单词/表达式完成,这些提示是影响个体感知情境的具体、可衡量的环境要素,并使用差异概率比较这些完成的变异性。这种方法直接评估了模型输出中的同质性偏见,绕过了编码器模型。在五项研究中,我们发现同质性偏见在情境提示和写作提示中高度不稳定,这表明过去工作中观察到的偏见可能反映了编码器模型而不是LLMs中的偏见。此外,这些结果表明LLMs中的同质性偏见是脆弱的,因为即使在提示中进行轻微和任意的更改也可以显著改变偏见的表达。未来的工作应进一步探讨在长文本生成中句法特征和主题选择的变化如何影响LLMs中的同质性偏见。

论文链接: https://arxiv.org/abs/2407.07329

RAG 对比长上下文:研究前沿大语言模型在环境审查文件理解中的应用

原标题: RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

作者: Hung Phan, Anurag Acharya, Sarthak Chaturvedi, Shivam Sharma, Mike Parker, Dan Nally, Ali Jannesari, Karl Pazdernik, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana

机构: 爱荷华州立大学 太平洋西北国家实验室

摘要: 大语言模型(LLMs)已被应用于各个领域的许多研究问题。LLMs的一个应用是提供问答系统,以满足来自不同领域的用户的需求。基于LLM的问答系统的有效性已经在流行和公共领域(如琐事和文学)中得到了认可水平的建立。然而,在传统上需要专业知识的利基领域中,这种有效性并不经常被建立。为此,我们构建了NEPAQuAD1.0基准来评估三个前沿LLM(Claude Sonnet、Gemini和GPT-4)在回答源自美国联邦政府机构根据《国家环境法》准备的环境影响声明的问题时的表现。我们特别衡量LLMs理解NEPA文件中法律、技术和合规相关信息的细微差别的能力在不同的情境场景中。例如,我们通过提供没有任何上下文的问题来测试LLMs对NEPA知识的内部先验了解,同时评估LLMs如何综合长篇NEPA文件中的上下文信息以促进问答任务。我们比较长篇上下文LLMs和RAG动力模型在处理不同类型问题(如问题解决、分歧)时的表现。我们的结果表明,无论选择哪个前沿LLM,RAG动力模型在回答准确性方面明显优于长篇上下文模型。我们的进一步分析显示,许多模型在回答封闭问题方面的表现要优于分歧和问题解决问题。

论文链接: https://arxiv.org/abs/2407.07321

ESM+: 在大语言模型时代对文本到SQL评估视角的现代见解

原标题: ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models

作者: Benjamin Ascoli, Ram Kandikonda, Jinho D. Choi

机构: 埃默里大学

摘要: 文本到SQL的任务使任何人都能使用自然语言从SQL数据库中检索信息。尽管存在一些挑战,但最近的模型在这一任务中使用大语言模型(LLMs)取得了显著进展。有趣的是,我们发现,没有进行微调的基于LLM的模型与经过微调的模型相比具有不同的特性,导致当前评估指标无法准确传达它们的性能。因此,我们分析了两个主要指标,即测试套件执行准确率(EXE)和精确集匹配准确率(ESM),以检查它们在这一任务中的稳健性并解决不足之处。我们使用EXE、原始ESM和我们改进的ESM(称为ESM+)比较了9个基于LLM的模型的性能。我们的结果显示,EXE和ESM的假阳性和假阴性率分别为11.3%和13.9%,而ESM+分别为0.1%和2.6%,提供了一个显著更稳定的评估。我们将ESM+脚本作为开源发布给社区,以便贡献者为文本到SQL提供更可靠的评估。

论文链接: https://arxiv.org/abs/2407.07313

LLaVA-NeXT-Interleave: 大型多模态模型中处理多图像、视频和3D数据

原标题: LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

作者: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

机构: 字节跳动 港科大 中文大学 台湾大学

摘要: 视觉指令调整在增强大型多模态模型(LMMs)的能力方面取得了可观进展。然而,现有的开放式LMMs主要侧重于单图像任务,它们在多图像场景中的应用仍未得到充分探索。此外,先前的LMM研究分别处理不同场景,导致无法将新兴能力泛化到跨场景中。为此,我们引入了LLaVA-NeXT-Interleave,它同时处理LMMs中的多图像、多帧(视频)、多视角(3D)和多补丁(单图像)场景。为了实现这些能力,我们将交错数据格式视为通用模板,并编制了包含1,177.6k个样本的M4-Instruct数据集,涵盖了4个主要领域、14个任务和41个数据集。我们还策划了LLaVA-Interleave Bench来全面评估LMMs的多图像性能。通过大量实验,LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先的结果,同时保持了单图像任务的性能。此外,我们的模型还展示了几种新兴能力,例如在不同设置和模态之间转移任务。代码可在此网址找到:https://URL。

论文链接: https://arxiv.org/abs/2407.07895

Github: https://github.com/LLaVA-VL/LLaVA-NeXT

朝向语言模型的稳健对齐:分布稳健化直接偏好优化

原标题: Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization

作者: Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jiawei Chen, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

机构: 中国科学技术大学 阿里巴巴集团 浙江大学

摘要: 这项研究解决了直接偏好优化(DPO)训练数据集中噪声的挑战,这是一种用于将大语言模型(LLMs)与人类偏好对齐的方法。我们将噪声分为逐点噪声,其中包括低质量数据点,以及成对噪声,它涵盖了影响偏好排序的错误数据对关联。利用分布鲁棒优化(DRO),我们增强了DPO对这些类型噪声的韧性。我们的理论洞察揭示了DPO固有地嵌入了DRO原则,赋予了逐点噪声鲁棒性,其中正则化系数 β \beta β 在其抗噪声性中发挥了关键作用。扩展这一框架,我们引入了分布鲁棒化DPO(Dr. DPO),通过针对最坏情况的成对场景进行优化,整合了成对鲁棒性。Dr. DPO中的新型超参数 β ′ \beta' β 允许对数据对可靠性进行精细控制,在嘈杂的训练环境中提供了探索和开发之间的战略平衡。实证评估表明,Dr. DPO显着提高了生成文本的质量和偏好数据集中响应准确性,展示了在嘈杂和无噪声设置中性能的提升。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.07880

Github: https://github.com/junkangwu/Dr_DPO

构建检索增强生成式聊天机器人的事实

原标题: FACTS About Building Retrieval Augmented Generation-based Chatbots

作者: Rama Akkiraju, Anbang Xu, Deepak Bora, Tan Yu, Lu An, Vishal Seth, Aaditya Shukla, Pritam Gundecha, Hridhay Mehta, Ashwin Jha, Prithvi Raj, Abhinav Balasubramanian, Murali Maram, Guru Muthusamy, Shivakesh Reddy Annepally, Sidney Knowles, Min Du, Nick Burnett, Sean Javiya, Ashok Marannan, Mamta Kumari, Surbhi Jha, Ethan Dereszenski, Anupam Chakraborty, Subhash Ranjan, Amina Terfai, Anoop Surya, Tracey Mercer, Vinodh Kumar Thanigachalam, Tamar Bar, Sanjana Krishnan, Samy Kilaru, Jasmine Jaksic, Nave Algarici, Jacob Liberman, Joey Conway, Sonu Nayyar, Justin Boitano

机构: 英伟达 NVIDIA

摘要: 由生成式人工智能驱动的企业聊天机器人正成为提高员工生产力的关键应用。检索增强生成(RAG)、大语言模型(LLM)以及诸如Langchain和Llamaindex之类的编排框架对于构建这些聊天机器人至关重要。然而,创建有效的企业聊天机器人具有挑战性,需要细致的RAG管道工程。这包括微调嵌入和LLM、从向量数据库中提取文档、重新表达查询、重新排列结果、设计提示、遵守文档访问控制、提供简洁回复、包括参考资料、保护个人信息以及构建编排智能体。我们提出了一个基于我们在三个NVIDIA聊天机器人(IT/HR福利、财务收益和一般内容)上的经验构建RAG聊天机器人的框架。我们的贡献有三个方面:引入了FACTS框架(新鲜度、架构、成本、测试、安全性)、提出了十五个RAG管道控制点,并提供了大型和小型LLM之间准确性和延迟之间的实证结果。据我们所知,这是第一篇提供了构建安全企业级聊天机器人因素以及解决方案的综合性论文。

论文链接: https://arxiv.org/abs/2407.07858

分解和比较一致性:通过任务分解一致性比较来衡量 VLMs 的答案可靠性

原标题: Decompose and Compare Consistency: Measuring VLMs’ Answer Reliability via Task-Decomposition Consistency Comparison

作者: Qian Yang, Weixiang Yan, Aishwarya Agrawal

机构: Mila - 魁北克人工智能研究所 Université de Montréal 加利福尼亚大学圣巴巴拉分校 Canada CIFAR AI Chair

摘要: 尽管取得了巨大的进步,但当前最先进的视觉语言模型(VLMs)仍然远非完美。它们往往会产生幻觉,并可能生成带有偏见的回应。在这种情况下,有一种评估 VLM 生成的给定回应可靠性的方法是非常有用的。现有方法,如使用答案可能性来估计不确定性或基于提示生成信心,往往存在过度自信的问题。其他方法使用自一致性比较,但受到确认偏见的影响。为了缓解这些问题,我们提出了\textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency(\texttt{DeCC})用于可靠性测量。通过比较使用 VLM 内部推理过程生成的直接答案与将问题分解为子问题并对 VLM 生成的子答案进行推理得到的间接答案之间的一致性,\texttt{DeCC} 评估了 VLM 直接答案的可靠性。在三个 VLM 上进行的六个视觉语言任务实验显示,\texttt{DeCC} 的可靠性估计与任务准确性的相关性优于现有方法。

论文链接: https://arxiv.org/abs/2407.07840

生成图像作为动作模型

原标题: Generative Image as Action Models

作者: Mohit Shridhar, Yat Long Lo, Stephen James

机构: 戴森机器人学习实验室

摘要: 图像生成扩散模型已经被微调以解锁诸如图像编辑和新颖视角合成等新功能。我们是否可以类似地解锁用于视觉运动控制的图像生成模型?我们提出了GENIMA,一个行为克隆智能体,它通过将稳定扩散微调为在RGB图像上“绘制联合动作”作为目标。这些图像被馈送到一个控制器,将视觉目标映射为一系列联合位置。我们在25个RLBench和9个真实世界操纵任务上研究了GENIMA。我们发现,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于最先进的视觉运动方法的策略,特别是在对场景扰动的鲁棒性和泛化到新对象方面。尽管缺乏深度、关键点或运动规划器等先验知识,我们的方法在与3D智能体的竞争中也表现出色。

论文链接: https://arxiv.org/abs/2407.07875

大语言模型中的Transformer对齐任务

原标题: Transformer Alignment in Large Language Models

作者: Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan

机构: 多伦多大学

摘要: 大语言模型(LLMs)在自然语言处理领域取得了重大进展,对驱动其成功的内部机制进行精确理解至关重要。我们将LLMs视为通过高维离散、耦合、非线性、动力系统转换嵌入的方式。这种观点激发了追踪个别标记通过Transformer块时的轨迹,并通过它们的Jacobian矩阵沿着这些轨迹线性化系统。在我们对38个公开可用的LLMs进行的分析中,我们揭示了残差Jacobian的最左和最右奇异向量的对齐,以及线性性和逐层指数增长的出现。值得注意的是,我们发现增加的对齐与模型性能呈 正相关 \textit{正相关} 正相关。训练后评估的指标显示,与随机初始化权重进行的测量相比,有显著改善,突出了在transformers中训练的显著影响。这些发现揭示了一个以前被忽视的显著规律水平,加强了动态解释,并为更深入理解和优化LLM架构铺平了道路。

论文链接: https://arxiv.org/abs/2407.07810

ROSA:用于高效微调的随机子空间适应

原标题: ROSA: Random Subspace Adaptation for Efficient Fine-Tuning

作者: Marawan Gamal Abdel Hameed, Aristides Milios, Siva Reddy, Guillaume Rabusseau

机构: 阿里斯提德斯·米利奥斯(Aristides Milios) 加拿大魁北克大学(Université du Québec) 西瓦·雷迪(Siva Reddy) 谷歌(Google) 吉约姆·拉布索(Guillaume Rabusseau) 法国国家科学研究中心(CNRS)

摘要: 模型训练相比推理需要更多的内存。参数高效微调(PEFT)方法提供了一种使用更少内存来调整大模型以适应下游任务的手段。然而,现有的方法如适配器、提示微调或低秩适应(LoRA)在推理时要么引入延迟开销,要么与完全微调相比在下游性能上表现不佳。在这项工作中,我们提出了随机子空间适应(ROSA)方法,该方法在推理时保持零延迟开销的同时,明显优于先前的PEFT方法。与以往方法相比,ROSA能够适应任意大维度的子空间,更好地逼近完全微调。我们在理论上和实验上都证明了这使得ROSA比LoRA更具表现力,而在运行时不会消耗额外内存。由于PEFT方法在自然语言处理领域特别有用,其中模型操作的规模使得完全微调非常昂贵,我们在两种常见的NLP场景中评估了ROSA:自然语言生成(NLG)和自然语言理解(NLU),分别使用GPT-2和RoBERTa。我们展示了在几乎每个GLUE任务上,ROSA都明显优于LoRA,同时在NLG任务上也优于LoRA。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.07802

Github: https://github.com/rosa-paper/rosa

AVCap:利用音频-视觉特征作为文本标记进行字幕生成

原标题: AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning

作者: Jongsuk Kim, Jiwon Shin, Junmo Kim

机构: 韩国科学技术院(Korea Advanced Institute of Science and Technology)

摘要: 近年来,表示学习和语言模型的进展推动了自动字幕(AC)技术迈向新的高度,实现了生成人类级别的描述。利用这些进展,我们提出了\textbf{AVCap},一种\textbf{A}udio-\textbf{V}isual \textbf{Cap}tioning 框架,这是一种简单但功能强大的基线方法,适用于音频-视觉字幕。AVCap利用音频-视觉特征作为文本标记,这不仅在性能上具有许多优势,而且在模型的可扩展性和可伸缩性方面也有优势。AVCap围绕三个关键维度设计:探索最佳的音频-视觉编码器架构,根据生成文本的特征调整预训练模型,以及研究在字幕生成中模态融合的有效性。我们的方法在所有指标上均优于现有的音频-视觉字幕方法,代码可在此 https URL 上获得。

论文链接: https://arxiv.org/abs/2407.07801

Github: https://github.com/JongSuk1/AVCap

利用基于网格的游戏竞赛评估大语言模型:一种可扩展的LLM基准和排行榜

原标题: Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

作者: Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper

机构: 谷歌 OpenAI Meta

摘要: 我们通过基于网格的游戏(如井字棋、四子棋和五子棋)引入了一个新颖且可扩展的大语言模型(LLMs)基准测试。这个开源游戏模拟代码可以让LLMs进行竞争,并生成详细的JSON、CSV、TXT和PNG格式的数据文件,用于排行榜排名和进一步分析。我们展示了领先的LLMs之间的比赛结果,包括Anthropic的Claude 3.5 Sonnet和Claude 3 Sonnet,Google的Gemini 1.5 Pro和Gemini 1.5 Flash,OpenAI的GPT-4 Turbo和GPT-4o,以及Meta的Llama3-70B。我们还鼓励其他LLMs提交比赛结果。总共,我们在三种类型的游戏中模拟了2,310场比赛(7个LLMs和一个随机玩家之间的每对比赛进行5个会话),使用了三种不同的提示类型:列表、插图和图像。结果显示,LLMs在不同游戏和提示类型下的表现存在显著差异,分析涵盖了胜率和取消资格率、错失机会分析以及无效移动分析。排行榜和结果矩阵数据的详细信息可作为开放获取数据在GitHub上获取。这项研究增进了我们对LLMs在玩并非专门训练过的游戏中的能力的理解,有助于评估它们对规则理解和战略思维的能力。在通用人工智能(AGI)的道路上,这项研究为未来探索它们在复杂决策场景中的实用性奠定了基础,阐明了它们的战略思维能力,并为进一步探讨LLMs在基于游戏的框架内的局限性提供了方向。

论文链接: https://arxiv.org/abs/2407.07796

天气语言:社交媒体对天气的反应,考虑气候和语言基线。

原标题: The Language of Weather: Social Media Reactions to Weather Accounting for Climatic and Linguistic Baselines

作者: James C. Young, Rudy Arthur, Hywel T.P. Williams

机构: 埃克塞特大学

摘要: 这项研究探讨了不同天气条件如何影响社交媒体上的公众情绪,重点关注来自英国的 Twitter 数据。通过考虑气候和语言基线,我们提高了与天气相关的情绪分析的准确性。我们的研究结果显示,对天气的情绪反应是复杂的,受到天气变量和地区语言差异的影响。结果突显了针对天气公众情绪更好理解的情境敏感方法的重要性,这可以增强基于影响的预测和在气候变化背景下的风险沟通。

论文链接: https://arxiv.org/abs/2407.07683

PaliGemma:用于迁移的多功能 3B VLM

原标题: PaliGemma: A versatile 3B VLM for transfer

作者: Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai

机构: 瑞士苏黎世联邦理工学院(ETH Zurich)

摘要: PaliGemma是一个基于SigLIP-So400m视觉编码器和Gemma-2B语言模型的开放式视觉语言模型(VLM)。它经过训练,是一个多才多艺、广泛知识的基础模型,能够有效进行迁移学习。它在各种开放世界任务中表现出色。我们对PaliGemma进行了近40个不同任务的评估,包括标准的VLM基准测试,以及更专业的遥感和分割任务。

论文链接: https://arxiv.org/abs/2407.07726

使用用户级差分隐私对大语言模型进行微调

原标题: Fine-Tuning Large Language Models with User-Level Differential Privacy

作者: Zachary Charles, Arun Ganesh, Ryan McKenna, H. Brendan McMahan, Nicole Mitchell, Krishna Pillutla, Keith Rush

机构: 谷歌研究Seattle IIT马德拉斯

摘要: 我们研究了针对大型语言模型(LLMs)使用用户级差分隐私(DP)进行训练的实用且可扩展的算法,以便可证明地保护每个用户贡献的所有示例。我们研究了两种DP-SGD的变体:(1)示例级抽样(ELS)和每个示例的梯度剪切,以及(2)用户级抽样(ULS)和每个用户的梯度剪切。我们推导出一种新颖的用户级DP账户,使我们能够为ELS计算出可证明紧密的隐私保证。利用这一点,我们表明,虽然在特定情况下ELS可能优于ULS,但当每个用户拥有多样化的示例集时,ULS通常会产生更好的结果。我们通过在固定计算预算下进行的合成均值估计和LLM微调任务的实验验证了我们的发现。我们发现,在需要强隐私保证或计算预算较大的情况下,ULS在性能上明显更好。值得注意的是,我们专注于LLM兼容的训练算法,使我们能够扩展到具有数亿参数和数十万用户数据集的模型。

论文链接: https://arxiv.org/abs/2407.07737

HiLight:Motern AI 视频语言模型技术报告

原标题: HiLight: Technical Report on the Motern AI Video Language Model

作者: Zhiting Wang, Qiangong Zhou, Kangjie Yang, Zongyang Liu. Xin Mao

机构: 深圳摩特恩科技有限公司

摘要: 这份技术报告介绍了一种最先进的视频编码器,用于视频文本模态对齐,以及一个名为HiLight的视频对话框架,其中包含双视觉塔。该工作分为两个主要部分:1.视频和文本模态的对齐;2.与用户交互的便捷高效方式。我们的目标是在台球的背景下解决视频理解任务。报告包括对概念和在任务实施过程中开发的最终解决方案的讨论。

论文链接: https://arxiv.org/abs/2407.07325

GLBench:一个针对大语言模型图的全面基准测试

原标题: GLBench: A Comprehensive Benchmark for Graph with Large Language Models

作者: Yuhan Li, Peisong Wang, Xiao Zhu, Aochuan Chen, Haiyun Jiang, Deng Cai, Victor Wai Kin Chan, Jia Li

机构: 香港科技大学(广州) 清华大学 中山大学 腾讯 AI Lab

摘要: 大语言模型(LLMs)的出现彻底改变了我们与图形互动的方式,引领了一种称为GraphLLM的新范式。尽管近年来GraphLLM方法迅速发展,但由于缺乏具有一致实验协议的基准,这一领域的进展和理解仍不清晰。为了弥合这一差距,我们推出了GLBench,这是第一个全面评估GraphLLM方法在监督和零样本场景下的基准。GLBench公平而全面地评估了不同类别的GraphLLM方法,以及诸如图神经网络等传统基线。通过在一系列真实数据集上进行广泛实验,并采用一致的数据处理和拆分策略,我们发现了几个关键发现。首先,在监督设置中,GraphLLM方法胜过传统基线,LLM作为增强器表现最为稳健。然而,使用LLMs作为预测器效果较差,通常会导致无法控制的输出问题。我们还注意到当前GraphLLM方法不存在明确的扩展规律。此外,结构和语义对于有效的零样本迁移至关重要,我们提出的简单基线甚至可以胜过几个专为零样本场景量身定制的模型。该基准的数据和代码可以在此https URL找到。

论文链接: https://arxiv.org/abs/2407.07457

Github: https://github.com/NineAbyss/GLBench

通过公理训练教授Transformer因果推理

原标题: Teaching Transformers Causal Reasoning through Axiomatic Training

作者: Aniket Vashishtha, Abhinav Kumar, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian, Amit Sharma

机构: 微软研究院 印度 麻省理工学院 美国 印度理工学院海得拉巴分校 印度

摘要: 对于基于文本的人工智能系统在现实世界中进行交互,因果推理是一项必不可少的技能。由于干预数据的生成成本很高,我们研究代理能够从被动数据中学习因果推理的程度。具体而言,我们考虑了一个公理化的训练设置,代理从多个因果公理(或规则)的演示中学习,而不是将公理作为归纳偏差或从数据值中推断出来。一个关键问题是代理是否能够从公理演示中学习推广到新的场景。例如,如果一个 Transformer 模型在小图上的因果传递公理演示上进行训练,它是否能推广到在大图上应用传递公理?我们的结果基于一种新颖的公理化训练方案,表明这种推广是可能的。我们考虑推断一个变量是否导致另一个变量的任务,给定一个因果图结构。我们发现,当一个拥有 6700 万参数的 Transformer 模型在线性因果链上进行训练(以及一些嘈杂的变化)时,它可以很好地推广到新类型的图,包括更长的因果链、顺序颠倒的因果链和具有分支的图;即使它没有明确针对这种设置进行训练。我们的模型表现与许多更大的语言模型(如 GPT-4、Gemini Pro 和 Phi-3)相当(甚至更好)。总的来说,我们的公理化训练框架提供了一种从被动数据中学习因果推理的新范式,可以用来学习任意公理,只要能够生成足够的演示。

论文链接: https://arxiv.org/abs/2407.07612

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值