2024年7月16日Arxiv语言模型相关论文

从自然反馈中学习

原标题: Learning from Naturally Occurring Feedback

作者: Shachar Don-Yehiya, Leshem Choshen, Omri Abend

机构: 希伯来大学 麻省理工学院 麻省理工学院-IBM沃森人工智能实验室

摘要: 人类反馈数据是开发语言模型的关键组成部分。然而,收集这些反馈是昂贵的,最终也不可扩展。我们提出了一种可扩展的方法,用于提取用户在与聊天模型交互时自然包含的反馈,并利用它进行模型训练。我们进一步受到先前工作的启发,该工作表明使用自然反馈(而不是自动生成的反馈)也具有定性优势,例如减少幻觉和偏见。我们手动注释了对话数据,以确认标准语料库中自然发生的反馈的存在,发现多达30%的聊天包含明确的反馈。我们将我们的方法应用于超过100万个对话,以获得数十万个反馈样本。使用提取的反馈进行训练显示出明显的性能改进,证明了我们的方法在增强模型与人类偏好之间的对齐方面的有效性。

论文链接: https://arxiv.org/abs/2407.10944

用Transformer表示基于规则的聊天机器人

原标题: Representing Rule-based Chatbots with Transformers

作者: Dan Friedman, Abhishek Panigrahi, Danqi Chen

机构: 普林斯顿大学

摘要: 基于Transformer的聊天机器人可以进行流畅、自然的对话,但我们对其行为机制的理解有限。先前的研究采用了自底向上的方法来理解Transformer,通过为各种合成和形式语言任务构建Transformer,如正则表达式和Dyck语言。然而,如何将这种方法扩展到理解更自然的对话代理并不明显。在这项工作中,我们朝着这个方向迈出了一步,通过构建一个实现ELIZA程序的Transformer,这是一个经典的基于规则的聊天机器人。ELIZA展示了对话环境中的一些独特挑战,包括本地模式匹配和长期对话状态跟踪。我们借鉴了先前工作中的构建方法,特别是用于模拟有限状态自动机的方法,展示了如何将更简单的构建组合和扩展,从而产生更复杂的行为。接下来,我们在一个合成生成的ELIZA对话数据集上训练Transformer,并研究模型学习的机制。我们的分析展示了这些模型倾向于偏好的机制类型,例如,模型更倾向于使用归纳头机制而不是更精确的基于位置的复制机制;并使用中间生成来模拟循环数据结构,如ELIZA的记忆机制。总的来说,通过明确将神经聊天机器人与可解释的符号机制联系起来,我们的结果为对话代理的机械分析提供了一个新的环境。

论文链接: https://arxiv.org/abs/2407.10949

Github: https://github.com/princeton-nlp/eliza-transformer

Q-稀疏:所有大语言模型都可以完全稀疏激活

原标题: Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

作者: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei

机构: 清华大学 北京大学 微软公司

摘要: 我们介绍了 Q-Sparse,这是一种简单而有效的方法,用于训练稀疏激活的大型语言模型(LLMs)。Q-Sparse 可以实现LLMs中激活的完全稀疏,从而在推理中带来显著的效率提升。这是通过将 top-K 稀疏化应用于激活和应用直通估计器进行训练来实现的。这项工作的关键结果是,(1)Q-Sparse 可以在推理时间效率上实现与基线LLMs相媲美的结果;(2)我们提出了适用于稀疏激活LLMs的推理最优缩放定律;(3)Q-Sparse 在不同设置下都很有效,包括从头开始训练、继续训练现成的LLMs和微调;(4)Q-Sparse 适用于完整精度和1位LLMs(例如,BitNet b1.58)。特别是,BitNet b1.58和Q-Sparse的协同作用(可以配备MoE)为未来LLMs的效率革新提供了基石和明确路径,包括成本和能源消耗。

论文链接: https://arxiv.org/abs/2407.10969

微调和提示优化:两个更好地结合在一起的重要步骤。

原标题: Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together

作者: Dilara Soylu, Christopher Potts, Omar Khattab

机构: 斯坦福大学

摘要: 自然语言处理(NLP)系统越来越多地采用多阶段管道的形式,涉及多个不同的语言模型(LMs)和提示策略。在这里,我们讨论如何微调这些系统以提高它们的性能。我们将这视为一个优化基础LM权重和提示策略的问题,并考虑一个具有挑战性但高度现实的场景,即在管道的任何中间阶段都没有金标签。为了解决这一挑战,我们评估了近似优化策略,其中我们为所有管道阶段引导训练标签,并使用这些标签交替优化管道的提示和微调其权重。在多跳QA、数学推理和基于特征的分类实验中,我们发现简单的优化提示和权重的方法在LMs和任务之间平均表现优于直接优化权重和单独优化提示,分别高出65%和5%。我们将在此http URL中发布我们的新优化器DSPy。

论文链接: https://arxiv.org/abs/2407.10930

其他链接: http://dspy.ai

MMM:多语言相互增强效应混合数据集,并使用开放域信息提取大语言模型进行测试

原标题: MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

作者: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori

机构: 横滨国立大学 浙江大学 中国科学院大学 中国科学院成都计算技术研究所 东南大学 筑波大学 釜山国立大学 中国科学院深圳先进技术研究院

摘要: 相互强化效应(MRE)代表了信息提取和多任务研究中一个有前途的途径。然而,由于日语中仅有 MRE 混合数据集的独占性可用性,其适用性受到限制,从而限制了全球研究社区对其进行全面探索。为了解决这一限制,我们引入了一个跨语言的 MRE 混合数据集(MMM),包括英语、日语和中文的 21 个子数据集。在本文中,我们还提出了一种借助大型语言模型(LLMs)辅助数据集翻译的方法,通过利用LLMs来翻译原始的日语数据集,显著减少了数据集构建所需的手动注释时间。此外,我们通过加入开放域命名实体识别(NER)和句子分类任务来丰富数据集。利用这个扩展的数据集,我们开发了一个统一的输入-输出框架来训练一个开放域信息提取大型语言模型(OIELLM)。OIELLM 模型展示了有效处理新的 MMM 数据集的能力,表现出显著的性能提升。

论文链接: https://arxiv.org/abs/2407.10953

在Transformer中的加权分组查询注意力

原标题: Weighted Grouped Query Attention in Transformers

作者: Sai Sena Chinnakonduru, Astarag Mohapatra

机构: 印第安纳大学布卢明顿

摘要: 注意机制构成了Transformer语言模型的基础模块。最近的方法表明,通过扩大模型规模可以实现人类水平的性能。然而,随着对扩展的需求增加和硬件内存的限制,这些模型的推理成本仍然很高。为了减少推理时间,分别在2019年的Shazeer和2023年的Ainslie等人提出了多查询注意力(MQA)和分组查询注意力(GQA)。在本文中,我们提出了分组查询注意力的一种变体,称为加权分组查询注意力(WGQA)。我们为T5解码器注意力块中的每个键和值头引入了新的可学习参数,使模型在微调期间进行加权平均。我们的模型在GQA上实现了平均0.53%的改进,并且性能在推理过程中没有额外开销的情况下收敛到传统的多头注意力(MHA)。我们评估了这些参数的引入以及随后的微调如何在训练过程中通知模型有关分组机制,从而提高性能。此外,通过比较T5-small和T5-base架构之间的结果,我们展示了我们分析中的扩展规律。

论文链接: https://arxiv.org/abs/2407.10855

利用句子空间嵌入对来自虚假新闻领域的数据流进行分类

原标题: Employing Sentence Space Embedding for Classification of Data Stream from Fake News Domain

作者: Paweł Zyblewski, Jakub Klikowski, Weronika Borek-Marciniec, Paweł Ksieniewicz

机构: 弗罗茨瓦夫理工大学

摘要: 表格数据被认为是深度学习的最后一座未被征服的城堡,然而数据流分类任务被认为是同样重要且具有挑战性的研究领域。由于时间约束,深度学习方法被认为不是在这一领域应用的最佳解决方案。然而,鉴于近年来在该领域取得的进展,排除整个(并且普遍存在的)方法组似乎相当草率。因此,以下论文是第一篇提出利用句子空间方法进行自然语言数据流分类的方法,该方法允许将文本编码为离散数字信号的形式。这使得可以利用专门用于图像分类的卷积深度网络来解决基于文本数据识别假新闻的任务。基于真实的Fakeddit数据集,所提出的方法与基于泛化能力和时间复杂度的数据流分类的最新算法进行了比较。

论文链接: https://arxiv.org/abs/2407.10807

在大语言模型使用案例中评估偏见和公平性的可操作框架

原标题: An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases

作者: Dylan Bouchard

机构: CVS Health®

摘要: 大语言模型(LLMs)可能以各种方式表现出偏见。这种偏见可能会对受保护属性内的某些群体(包括但不限于性别、种族、性取向或年龄)造成或加剧不公平结果。本文旨在为从业者提供一个技术指南,以评估LLM使用案例中的偏见和公平风险。这项工作的主要贡献是提供一个决策框架,使从业者能够确定针对特定LLM使用案例使用哪些指标。为实现这一目标,本研究对LLM偏见和公平风险进行分类,将这些风险映射到LLM使用案例的分类法中,然后正式定义用于评估每种风险类型的各种指标。作为这项工作的一部分,引入了几种新的偏见和公平指标,包括创新的反事实指标以及基于刻板印象分类器的指标。与仅关注模型本身不同,通过定义在LLM使用案例级别进行评估,考虑了提示风险和模型风险的敏感性,该级别由一个模型和一组提示组成。此外,由于所有评估指标仅使用LLM输出计算,所提出的框架对从业者来说非常实用且易于操作。

论文链接: https://arxiv.org/abs/2407.10853

BiasScanner:自动检测和分类新闻偏见以加强民主

原标题: BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy

作者: Tim Menzner, Jochen L. Leidner

机构: 科堡应用科学大学 谢菲尔德大学

摘要: 21世纪在线新闻消费的增加与虚假信息、偏见报道、仇恨言论和其他不良网络内容的增加相吻合。我们描述了BiasScanner,这是一个旨在通过支持在线新闻消费者审查他们正在阅读的新闻文章来加强民主的应用程序。BiasScanner包含一个服务器端预训练的大型语言模型,用于识别新闻文章中的偏见句子,以及一个前端Web浏览器插件。截至撰写本文时,BiasScanner可以识别和分类两打种媒体偏见类型,使其成为最精细的模型和唯一部署的应用程序(正在使用的自动系统)。它以轻量级和尊重隐私的方式实施,并除了突出可能存在偏见的句子外,还为每个分类决策提供解释,以及为每篇新闻文章提供摘要分析。尽管先前的研究已经解决了新闻偏见检测的问题,但我们不知道任何导致部署的浏览器插件的工作(另见此http URL进行Web演示)。

论文链接: https://arxiv.org/abs/2407.10829

其他链接: http://biasscanner.org

基础自动评估器:驯服大语言模型以获得更好的自动评估

原标题: Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

作者: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung

机构: Google DeepMind Google UMass Amherst

摘要: 随着大型语言模型(LLMs)的进步,由于人工评估的高成本,对它们的输出进行可靠评估变得更具挑战性。为了朝着更好的LLM自动评分器迈进,我们引入了FLAMe,一系列基础大型评分模型。FLAMe经过训练,使用我们的100多个质量评估任务的大型和多样化集合,包括500万以上的人类判断,这些任务是通过公开发布的以前研究的人类评估进行策划和标准化的。FLAMe显著提高了对各种未知任务的泛化能力,在许多任务上优于使用专有数据(如GPT-4和Claude-3)训练的LLMs。我们展示了FLAMe也可以作为进一步下游微调的强大起点,以奖励建模评估作为一个案例研究(FLAMe-RM)。值得注意的是,在RewardBench上,我们的FLAMe-RM-24B模型(准确率为87.8%)是在仅使用许可数据训练的顶尖生成模型,在性能上优于GPT-4-0125(85.9%)和GPT-4o(84.7%)。此外,我们探索了一种更具计算效率的方法,使用一种新颖的尾部补丁微调策略来优化我们的FLAMe多任务混合以进行奖励建模评估(FLAMe-Opt-RM),在要求大约25倍更少的训练数据点的情况下,提供具有竞争力的RewardBench性能。总的来说,我们的FLAMe变体在我们考虑的12个自动评分器评估基准中的8个中胜过所有流行的专有LLM作为评判者模型,包括53个质量评估任务,包括RewardBench和LLM-AggreFact。最后,我们的分析显示,FLAMe在CoBBLEr自动评分器偏见基准上明显比这些LLM作为评判者模型更少偏见,同时有效地识别出用于代码生成的高质量响应。

论文链接: https://arxiv.org/abs/2407.10817

通过语言不可知层跳过的多语言对比解码

原标题: Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping

作者: Wenhao Zhu, Sizhe Liu, Shujian Huang, Shuaijie She, Chris Wendler, Jiajun Chen

机构: 南京大学 EPFL

摘要: 对比层解码(DoLa)旨在通过对比早期退出输出(业余对数)和最终输出(专家对数)之间的预测概率来提高大型语言模型(LLMs)的生成质量。然而,我们发现这种方法在非英语任务上效果不佳。受先前关于模型前向传递过程中语言转换的可解释性工作的启发,我们发现这个问题源于早期退出输出和最终输出之间的语言不匹配。在这项工作中,我们提出了一种改进的对比解码算法,对英语以外的多种语言都有效。为了获得更有用的业余对数,我们设计了两种策略,根据我们的初步分析跳过一组底层、与语言无关的层。在多语言推理基准测试上的实验结果表明,我们提出的方法优于先前的对比解码基线,并显著提高了LLM在11种语言中的思维链推理准确性。该项目将在此 https URL 上提供。

论文链接: https://arxiv.org/abs/2407.10795

Github: https://github.com/NJUNLP/SkipLayerCD

Graphusion:利用大语言模型在自然语言处理教育中融合和构建科学知识图谱

原标题: Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education

作者: Rui Yang, Boming Yang, Sixun Ouyang, Tianwei She, Aosong Feng, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li

机构: 杜克-国立大学医学院 东京大学 Smartor公司 耶鲁大学 INRIA

摘要: 知识图谱(KGs)在人工智能领域中至关重要,并广泛应用于下游任务,如增强问答(QA)系统。构建知识图谱通常需要领域专家的大量努力。最近,大语言模型(LLMs)已被用于知识图谱构建(KGC),然而,大多数现有方法侧重于局部视角,从单个句子或文档中提取知识三元组。在这项工作中,我们介绍了Graphusion,一个从自由文本中进行零样本知识图谱构建的框架。核心融合模块提供了三元组的全局视图,包括实体合并、冲突解决和新三元组发现。我们展示了Graphusion如何应用于自然语言处理(NLP)领域,并在教育场景中进行了验证。具体而言,我们介绍了TutorQA,一个新的专家验证的用于图推理和QA的基准,包括六个任务和总共1,200个QA对。我们的评估表明,Graphusion在链接预测的准确性上超过了监督基线高达10%。此外,它在概念实体提取和关系识别的人类评估中分别获得了平均得分为3的2.92和2.37。

论文链接: https://arxiv.org/abs/2407.10794

Github: https://github.com/irenezihuili/cgprompt

Think-on-Graph 2.0:基于知识图谱引导的检索的深度可解释大语言模型推理

原标题: Think-on-Graph 2.0: Deep and Interpretable Large Language Model Reasoning with Knowledge Graph-guided Retrieval

作者: Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Jian Guo

机构: 人民大学高灵人工智能学院 中国
国际数字经济学院研究所 中国广东深圳
中国科学院计算技术研究所 中国北京
香港中文大学计算机科学与工程系 中国香港沙田
香港科技大学 中国广东广州

摘要: 检索增强生成(RAG)通过实现动态信息检索,显著提升了大型语言模型(LLMs),以减轻生成内容中的知识差距和幻觉。然而,这些系统在复杂推理和跨多样查询的一致性方面经常出现问题。在这项工作中,我们提出了Think-on-Graph 2.0,这是一个增强的RAG框架,将问题与知识图对齐,并将其用作导航工具,深化和完善了信息收集和整合的RAG范式。知识图引导的导航促进了深入和长程关联,以维持逻辑一致性,并优化了检索范围,以提高精度和互操作性。同时,通过精确指令引导的语义相似性可以更好地确保事实一致性。ToG 2.0 {2.0} 2.0不仅提高了LLMs响应的准确性和可靠性,还展示了混合结构化知识系统的潜力,显著提升了LLM推理,使其更接近人类表现。我们在四个公共数据集上进行了大量实验,以展示我们的方法相对于基线的优势。

论文链接: https://arxiv.org/abs/2407.10805

Mix-CPT:一种通过解耦知识学习和格式对齐实现领域自适应的框架

原标题: Mix-CPT: A Domain Adaptation Framework via Decoupling Knowledge Learning and Format Alignment

作者: Jinhao Jiang, Junyi Li, Wayne Xin Zhao, Yang Song, Tao Zhang, Ji-Rong Wen

机构: 中国人民大学高灵人工智能学院 百度BOSS直聘

摘要: 将通用大型语言模型(LLMs)调整到专业领域面临着巨大挑战,因为数据分布各异。这种调整通常需要在大规模领域特定语料库上进行持续预训练,以促进知识记忆,然后根据人类指令和偏好进行训练以应用这些知识。然而,这种方法可能会导致知识记忆效率低下,因为缺乏对知识利用的认识,并且对LLMs同时学习知识利用和格式对齐以及有限的训练样本提出了重大要求。为了促进LLM的领域适应,我们修改了这一过程,并提出了一个新的领域适应框架,包括领域知识学习和通用格式对齐,称为Mix-CPT。具体而言,我们首先进行知识混合持续预训练,同时专注于知识记忆和利用,实现相互强化。为了避免在持续预训练过程中发生灾难性遗忘,我们进一步引入了一个逻辑交换自蒸馏约束。随后,利用在持续预训练过程中获得的知识和能力,我们有效地进行指令调整和与少量通用训练样本的对齐,以实现格式对齐。大量实验证明,我们提出的Mix-CPT框架可以同时提高LLMs在目标和通用领域上的任务解决能力,相比传统的适应方法。

论文链接: https://arxiv.org/abs/2407.10804

GraphEval:基于知识图谱的大语言模型幻觉评估框架

原标题: GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

作者: Hannah Sansford, Nicholas Richardson, Hermina Petric Maretic, Juba Nait Saada

机构: 布里斯托大学 亚马逊科技

摘要: 评估大语言模型(LLM)响应并检测与提供的知识相一致性的方法,也被称为幻觉,对于LLM应用变得越来越重要。当前的度量标准在提供可解释决策、系统地检查响应中的所有信息方面存在不足,并且通常在实践中使用起来计算成本过高。我们提出了GraphEval:一种基于知识图(KG)结构表示信息的幻觉评估框架。我们的方法识别了KG中容易出现幻觉的特定三元组,因此比以前的方法更深入地揭示了幻觉是否发生在响应的哪个部分。此外,将我们的方法与最先进的自然语言推理(NLI)模型结合使用,相比使用原始NLI模型,在各种幻觉基准上提高了平衡准确性。最后,我们探讨了利用KG结构进行幻觉校正的GraphEval的应用,一种我们称为GraphCorrect的方法,并证明大多数幻觉确实可以被纠正。

论文链接: https://arxiv.org/abs/2407.10793

代码书LLMs:将政治学代码书调整为LLM使用,并将LLMs调整为遵循代码书。

原标题: Codebook LLMs: Adapting Political Science Codebooks for LLM Use and Adapting LLMs to Follow Codebooks

作者: Andrew Halterman, Katherine A. Keith

机构: 密歇根州立大学 威廉姆斯学院

摘要: 代码书 - 用于操作化构建并概述注释程序的文档 - 在编码非结构化政治文本时,社会科学家几乎普遍使用。最近,为了降低手动注释成本,政治科学家开始寻求使用生成式大语言模型(LLMs)来标记和分析文本数据。然而,先前使用LLMs进行分类的工作隐含地依赖于通用标签假设 - 只需使用类别标签或最小定义以及LLM在预训练期间归纳学习的信息,就可以正确分类文档。相反,我们认为关心有效测量的政治科学家应该采用代码书构建标签假设 - LLM应该遵循代码书中提供的构建/标签的定义和排除标准。在这项工作中,我们收集和整理了三个政治科学数据集及其原始代码书,并进行了一系列实验,以了解LLMs是否遵守代码书的指示,重写代码书是否改善性能,以及在代码书-文档-标签元组上调整指令的LLMs是否比零样本分类提高性能。使用Mistral 7B Instruct作为我们的LLM,我们发现重新构建原始代码书在零样本性能上有一些收益,但模型仍然难以遵守代码书的约束。乐观地说,对我们的数据集之一上的Mistral进行指令调整比零样本推断获得了显著的增益(0.76与0.53的微F1)。我们希望我们对代码书特定任务、假设和指令调整流程的概念化以及我们的半结构化LLM代码书格式将帮助政治科学家轻松适应LLM时代。

论文链接: https://arxiv.org/abs/2407.10747

什么区分了阴谋论和批判性叙述?对反对性话语的计算分析

原标题: What distinguishes conspiracy from critical narratives? A computational analysis of oppositional discourse

作者: Damir Korenčić, Berta Chulvi, Xavier Bonet Casals, Alejandro Toselli, Mariona Taulé, Paolo Rosso

机构: Universitat Politècnica de València Ru¯der Boškovi ´c Institute Symanto Research Universitat de València CLiC - Universitat de Barcelona ValgrAI - Valencian Graduate School and Research Network of Artificial Intelligence

摘要: 当前互联网上阴谋论的普遍存在是一个重要问题,许多计算方法都在处理这个问题。然而,这些方法未能意识到区分包含阴谋论和仅仅批判并反对主流叙事的文本之间的相关性。此外,通常很少关注反对性叙事中的组间冲突的作用。我们通过提出一种新颖的主题无关注释方案,区分阴谋和批判性文本,并定义了跨组织冲突的跨度级别类别,做出了贡献。我们还通过多语言 XAI-DisInfodemics 语料库(英语和西班牙语)做出了贡献,其中包含了与 COVID-19 相关的 Telegram 消息的高质量注释(每种语言 5,000 条消息)。我们还通过进行一系列实验展示了基于自然语言处理的自动化的可行性,得到了强大的基准解决方案。最后,我们进行了一项分析,证明了促进组间冲突以及暴力和愤怒的存在是区分两种类型的反对性叙事(即阴谋 vs. 批判)的关键因素。

论文链接: https://arxiv.org/abs/2407.10745

DOCBENCH:用于评估基于大语言模型的文档阅读系统的基准测试

原标题: DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

作者: Anni Zou, Wenhao Yu, Hongming Zhang, Kaixin Ma, Deng Cai, Zhuosheng Zhang, Hai Zhao, Dong Yu

机构: 上海交通大学 腾讯 AI 实验室

摘要: 最近,大语言模型(LLM)开发者对基于LLM的文档阅读系统表现出越来越浓厚的兴趣,这些系统使用户能够上传自己的文档并提出与文档内容相关的问题,超越了简单的阅读理解任务。因此,这些系统已经被精心设计来应对诸如文件解析、元数据提取、多模态信息理解和长篇内容阅读等挑战。然而,目前没有现有的基准来评估它们在这种情况下的表现,即提供原始文件和问题作为输入,并期望得到相应的回应作为输出。在本文中,我们介绍了DocBench,一个旨在评估基于LLM的文档阅读系统的新基准。我们的基准涉及一个精心设计的过程,包括招募人类标注者和生成合成问题。它包括229个真实文档和1,102个问题,涵盖五个不同领域和四种主要类型的问题。我们评估了通过Web界面或API可访问的专有LLM系统,以及采用开源LLM的解析-阅读流水线。我们的评估揭示了现有基于LLM的文档阅读系统与人类表现之间明显的差距,突显了开发高效系统的挑战。总之,DocBench旨在建立一个标准化的基准,用于评估基于LLM的文档阅读系统在不同实际场景下的表现,从而指导这一研究领域的未来发展。

论文链接: https://arxiv.org/abs/2407.10701

Qwen2技术报告

原标题: Qwen2 Technical Report

作者: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan

机构: Qwen Team, 阿里巴巴集团

摘要: 这份报告介绍了我们大语言模型和大多模型系列的最新成员Qwen2系列。我们发布了一套全面的基础和指导调整的语言模型,包括参数范围从0.5到720亿,具有密集模型和专家混合模型。Qwen2超越了大多数先前的开放权重模型,包括其前身Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中表现出竞争力。
旗舰模型Qwen2-72B展示了卓越的性能:在MMLU上为84.2,在GPQA上为37.9,在HumanEval上为64.6,在GSM8K上为89.5,在BBH上为82.4作为基础语言模型。指导调整的变体Qwen2-72B-Instruct,在MT-Bench上达到了9.1,在Arena-Hard上为48.1,在LiveCodeBench上为35.7。此外,Qwen2展示了强大的多语言能力,在大约30种语言中表现出色,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球覆盖范围。
为了促进社区创新和可访问性,我们已经在Hugging Face和ModelScope上公开提供了Qwen2模型权重,以及在GitHub上提供了包括示例代码在内的补充材料。这些平台还包括量化、微调和部署资源,促进了各种应用和研究工作。

论文链接: https://arxiv.org/abs/2407.10671

CLAVE:用于评估大语言模型生成响应价值的自适应框架

原标题: CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses

作者: Jing Yao, Xiaoyuan Yi, Xing Xie

机构: 微软亚洲研究院

摘要: 大语言模型(LLMs)的快速进展带来了潜在风险,例如生成不道德内容。评估LLMs的价值可以帮助揭示它们的不一致性,但依赖于无参考评估器,例如,经过微调的LLMs或像GPT-4这样的闭源评估器,以识别生成响应中反映的价值观。然而,这些评估器在开放式价值评估中面临两个挑战:它们应该与不断变化的人类价值定义保持一致,最小化注释,抵制自身的偏见(适应性),并且要稳健地检测不同的价值表达和情景(泛化能力)。为了解决这些挑战,我们引入了CLAVE,这是一个集成了两个互补LLMs的新框架,一个大型LLM用于从少量人类标签中提取高级价值概念,利用其广泛的知识和泛化能力,另一个经过微调以更好地与人类价值理解保持一致。这种双模型方法使得可以使用<100个人类标记样本来校准任何价值系统。然后,我们提出了ValEval,一个包含13k+(文本,价值,标签)元组的全面数据集,涵盖了不同领域的三个主要价值体系。我们对12+个流行的LLM评估器的能力进行了基准测试,并分析了它们的优势和劣势。我们的研究结果表明,结合经过微调的小型模型和基于提示的大型模型在价值评估中提供了更优越的平衡。

论文链接: https://arxiv.org/abs/2407.10725

提示选择很重要:利用大语言模型增强社会科学领域的文本注释

原标题: Prompt Selection Matters: Enhancing Text Annotations for Social Sciences with Large Language Models

作者: Louis Abraham, Charles Arnal, Antoine Marie

机构: Université Paris 1 Panthéon-Sorbonne Université Paris-Saclay CNRS Inria Institut Jean Nicod Ecole Normale Supérieure PSL-EHESS-CNRS

摘要: 最近,大语言模型已被应用于社会科学领域的文本标注任务,其性能在成本的一小部分情况下与人类工作者相当或超越。然而,目前尚未对提示选择对标注准确性的影响进行调查。在这项研究中,我们展示了性能在不同提示之间有很大差异,并应用自动提示优化方法系统地制定高质量的提示。我们还向社区提供了一个简单的基于浏览器的实现方法,网址为https://。

论文链接: https://arxiv.org/abs/2407.10645

Github: https://prompt-ultra.github.io/

验证用于公式生成的合成数据的实证研究

原标题: An Empirical Study of Validating Synthetic Data for Formula Generation

作者: Usneek Singh, José Cambronero, Sumit Gulwani, Aditya Kanade, Anirudh Khatry, Vu Le, Mukul Singh, Gust Verbruggen

机构: 微软 印度班加罗尔
微软 美国雷德蒙德
微软 比利时Keerbergen

摘要: 大语言模型(LLMs)可以用来帮助编写电子表格中的公式,但是关于这些公式的资源很少,这影响了预训练模型的基本性能,并限制了对其进行微调的能力。给定一组公式语料库,我们可以使用另一个模型生成用于微调的合成自然语言表达。然而,验证LLM生成的自然语言是否确实准确对于微调是有益的非常重要。在本文中,我们提供了关于使用代理目标验证这些合成训练示例的实证结果,评估合成注释的准确性。我们展示验证可以提高四个模型(2个开放权重和2个封闭权重)的性能,超过原始数据。有趣的是,我们表明,尽管验证倾向于剪枝更具挑战性的示例,但在验证数据上微调后,模型可以解决的问题复杂度会增加。

论文链接: https://arxiv.org/abs/2407.10657

NoviCode:由新手生成自然语言表达的程序

原标题: NoviCode: Generating Programs from Natural Language Utterances by Novices

作者: Asaf Achi Mordechai, Yoav Goldberg, Reut Tsarfaty

机构: 巴伊兰大学

摘要: 当前的文本转代码模型展示了从自然语言片段生成可执行代码的令人印象深刻的能力。然而,当前的研究集中在技术说明和面向程序员的语言上,目前尚不清楚这些模型是否能有效地将非技术用户提供的自然语言描述转化为包含 API 访问和控制结构(如循环、条件和序列)的复杂目标的可执行程序。为了解锁从简单的非技术描述生成完整程序的挑战,我们提出了 NoviCode,一项新颖的 NL 编程任务,它接受 API 和新手非程序员提供的自然语言描述作为输入,并提供可执行程序作为输出。为了评估模型在这一任务上的有效性,我们提供了一个新的基准测试,其中生成的程序代码不是根据其形式,而是根据其功能执行进行评估。我们的实验表明,首先,NoviCode 确实是代码合成领域中一个具有挑战性的任务,从非技术说明生成复杂代码超越了当前的文本转代码范式。其次,我们展示了一种新颖的方法,通过将 NL 话语与代码的组合分层结构对齐,大大提高了 LLM 在这一任务上的性能,与端到端的文本转代码对应物相比。

论文链接: https://arxiv.org/abs/2407.10626

增强检索和管理检索:RAG 系统中提高质量和效率的四模块协同

原标题: Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems

作者: Yunxiao Shi, Xing Zi, Zijing Shi, Haimin Zhang, Qiang Wu, Min Xu

机构: 悉尼科技大学

摘要: 检索增强生成(RAG)技术利用大语言模型(LLMs)的上下文学习能力,以产生更准确和相关的响应。起源于简单的“检索-然后阅读”方法,RAG框架已经发展成为一个高度灵活和模块化的范式。一个关键组件,查询重写模块,通过生成一个搜索友好的查询来增强知识检索。这种方法使输入问题更紧密地与知识库对齐。我们的研究确定了增强查询重写模块到查询重写+的机会,通过生成多个查询来克服与单个查询相关的信息平台,并通过重写问题来消除歧义,从而澄清潜在意图。我们还发现当前的RAG系统存在与无关知识有关的问题;为了克服这一问题,我们提出了知识过滤器。这两个模块都基于经过指导调整的Gemma-2B模型,共同提高了响应质量。最后确定的问题是冗余检索;我们引入了记忆知识储备和检索器触发器来解决这个问题。前者支持RAG系统知识库的动态扩展,而后者优化了访问外部知识的成本,从而提高了资源利用率和响应效率。这四个RAG模块协同地提高了RAG系统的响应质量和效率。这些模块的有效性已通过对六个常见的问答数据集进行实验和消融研究验证。源代码可以在此https URL上访问。

论文链接: https://arxiv.org/abs/2407.10670

Github: https://github.com/Ancientshi/ERM4

竞技场学习:通过模拟聊天机器人竞技场为大语言模型后训练构建数据飞轮

原标题: Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

作者: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Qingwei Lin, Jianguang Lou, Shifeng Chen, Yansong Tang, Weizhu Chen

机构: 微软公司 清华大学 SIAT-UCAS

摘要: 评估大语言模型(LLMs)的有效性存在着重大挑战。在线聊天机器人竞技场中进行人工注释战斗的方法是一种非常有效的评估技术。然而,这种方法受到人工注释所需的成本和时间的限制。在本文中,我们介绍了竞技场学习,这是一种创新的离线策略,旨在通过使用 AI 驱动的注释来模拟这些竞技场战斗,评估战斗结果,从而通过监督微调和强化学习促进目标模型的持续改进。竞技场学习包括两个关键元素。首先,通过 WizardArena 确保精确评估,并通过精心设计的离线测试集准确预测各种模型的 Elo 排名,从而保持离线模拟和在线比赛之间的一致性。我们的结果表明,WizardArena 的预测与在线竞技场的预测密切相关。其次,它涉及基于战斗结果和改进模型的持续改进训练数据。我们建立了一个数据飞轮,通过突出目标模型的弱点并根据其战斗结果更新训练数据,使其能够从多个不同模型的优势中学习。我们将竞技场学习应用于训练我们的目标模型 WizardLM- β \beta β,并展示了在各种指标上的显著性能提升。这种完全自动化的训练和评估流程为通过后期训练在各种大语言模型中实现持续进步奠定了基础。值得注意的是,竞技场学习在 WizardLM-2 的成功中发挥了关键作用,本文既是对其有效性的探讨,也是未来讨论与 WizardLM-2 及其衍生产品相关的基础研究。

论文链接: https://arxiv.org/abs/2407.10627

超越生成人工智能:自然语言生成的路线图

原标题: Beyond Generative Artificial Intelligence: Roadmap for Natural Language Generation

作者: María Miró Maestre, Iván Martínez-Murillo, Tania J. Martin, Borja Navarro-Colorado, Antonio Ferrández, Armando Suárez Cueto, Elena Lloret

机构: 阿利坎特大学 西班牙

摘要: 生成式人工智能由于大语言模型(LLMs)的发展呈指数增长。这在很大程度上得益于深度学习方法在自然语言处理(NLP)领域及其子领域自然语言生成(NLG)中的出色表现,这也是本文的重点。在不断增长的LLM家族中,流行的有GPT-4、Bard等,尤其是像ChatGPT这样的工具已经成为解决NLG研究中大部分任务时其他LLMs的基准。这种情况提出了关于NLG下一步发展以及该领域如何适应和应对LLMs时代新挑战的新问题。为了解决这一问题,本文对最近在NLG领域发表的代表性调查进行了回顾。通过这样做,我们旨在为科学界提供一个研究路线图,以确定LLMs尚未适当解决的NLG方面,并建议未来应该着手解决的研究方向。

论文链接: https://arxiv.org/abs/2407.10554

利用基于大语言模型的增强方法和有效数据选择来提高零样本跨语言性能

原标题: Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection

作者: Barah Fazili, Ashish Sunil Agrawal, Preethi Jyothi

机构: 印度孟买理工学院

摘要: 大语言模型(LLMs)是非常擅长生成文本的。我们利用LLMs的这种能力,通过零样本提示生成特定任务的数据,并促进低资源目标语言的跨语言转移。给定源语言中的特定任务数据和在此数据上训练的教师模型,我们建议使用这个教师来标记LLM生成,并采用一组简单的数据选择策略,这些策略使用教师的标签概率。我们的数据选择策略帮助我们识别出一组多样化生成的代表性子集,这有助于提高零样本准确性,同时相比于使用所有LLM生成(没有任何子集选择),效率更高。我们还强调其他影响跨语言性能的重要设计选择,例如使用源数据的翻译以及对LLM生成使用哪些标签最好。我们观察到在情感分析和自然语言推理任务中的显著性能提升(最高可达7.13个绝对点,平均为1.5个绝对点),跨多个目标语言(印地语、马拉地语、乌尔都语、斯瓦希里语)和领域。

论文链接: https://arxiv.org/abs/2407.10582

Github: https://github.com/csalt-research/llm-based-augmentations-with-effective-data-selection

CIBench:使用代码解释器插件评估您的大语言模型

原标题: CIBench: Evaluating Your LLMs with a Code Interpreter Plugin

作者: Songyang Zhang, Chuyu Zhang, Yingfan Hu, Haowen Shen, Kuikun Liu, Zerun Ma, Fengzhe Zhou, Wenwei Zhang, Xuming He, Dahua Lin, Kai Chen

机构: 上海人工智能实验室 上海科技大学

摘要: 尽管基于大语言模型的智能体已经取得了显著进展,利用外部工具解决复杂问题,但对其能力进行基准测试具有挑战性,从而阻碍了对其局限性的清晰理解。在本文中,我们提出了一个交互式评估框架,名为CIBench,全面评估大语言模型利用代码解释器进行数据科学任务的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集是使用大语言模型与人类合作的方法构建的,并通过利用连续和交互式的IPython会话模拟真实工作流程。两种评估模式评估了大语言模型在有人类协助和无人类协助的情况下的能力。我们进行了大量实验分析24个大语言模型在CIBench上的能力,并为未来在代码解释器利用方面的大语言模型提供了有价值的见解。

论文链接: https://arxiv.org/abs/2407.10499

CLIP如何处理否定语气?

原标题: How and where does CLIP process negation?

作者: Vincent Quantmeyer, Pablo Mosteiro, Albert Gatt

机构: 乌得勒支大学

摘要: 提出了各种基准来测试预训练视觉与语言(VL)模型在语言理解方面的能力。在这里,我们基于VALSE基准中的存在任务(Parcalabescu等,2022),用于测试模型对否定的理解,这对于多模态模型来说是一个特别有趣的问题。然而,虽然这些VL基准对于衡量模型性能是有用的,但它们并不能揭示这些模型在视觉-语言任务中如何得出输出的内部过程。我们受到模型可解释性日益增长的文献的启发,来解释VL模型在否定理解方面的行为。具体而言,我们通过对CLIP(Radford等,2021)中的文本编码器进行深入分析来探讨这些问题,CLIP是一个具有很大影响力的VL模型。我们的贡献有三个方面。我们展示了语言模型可解释性文献中的方法(如因果追踪)如何转化为多模态模型和任务;我们提供了关于CLIP在VALSE存在任务中如何处理否定的具体见解;我们强调了VALSE数据集作为语言理解基准的固有局限性。

论文链接: https://arxiv.org/abs/2407.10488

不要丢弃数据:更好的序列知识蒸馏

原标题: Don’t Throw Away Data: Better Sequence Knowledge Distillation

作者: Jun Wang, Eleftheria Briakou, Hamid Dadkhahi, Rishabh Agarwal, Colin Cherry, Trevor Cohn

机构: 墨尔本大学 谷歌

摘要: 知识蒸馏中的一个关键组成部分是将教师和学生联系起来的方法。主导的序列知识蒸馏方法涉及学生针对教师解码输出的监督学习,并且以当前的技术水平为例,这种方法包括最小贝叶斯风险(MBR)解码。在本文中,我们试图更紧密地将MBR整合到蒸馏训练中,具体方法是使用几个高分的MBR翻译,而不是单个选定的序列,从而捕捉到丰富多样的教师输出。我们在英语到德语和英语到日语的翻译上进行了实验,结果显示在两个任务中,以及在不同模型大小下,相对于强基线方法,我们都取得了一致的改进。此外,我们进行了详细的分析,重点关注数据效率和容量诅咒方面,以阐明MBR-n的潜力并探索其进一步的潜力。

论文链接: https://arxiv.org/abs/2407.10456

好的、坏的和贪婪的:LLM的评估不应忽略非确定性

原标题: The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

作者: Yifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin

机构: 北京大学 Allen人工智能研究所

摘要: 目前对大型语言模型(LLMs)的评估通常忽略了非确定性,通常集中在每个示例的单个输出上。这限制了我们对LLM在实际应用中性能变化的理解。我们的研究通过探讨贪婪解码和抽样之间的性能差异,识别基准测试在非确定性方面的一致性,并检查独特的模型行为,来解决这个问题。通过广泛的实验,我们观察到贪婪解码通常在大多数评估任务中优于抽样方法。我们还观察到在不同LLM大小和对齐方法之间表现一致,指出对齐可以减少抽样方差。此外,我们的最佳N抽样方法表明,较小的LLMs可以匹敌或超越像GPT-4-Turbo这样的更大模型,突显了较小LLMs的潜力。这项研究显示了在LLM评估中考虑非确定性的重要性,并为未来LLM的发展和评估提供了见解。

论文链接: https://arxiv.org/abs/2407.10457

Github: https://github.com/yifan-song793/goodbadgreedy

TCM-FTP:为中药处方预测进行大语言模型微调

原标题: TCM-FTP: Fine-Tuning Large Language Models for Herbal Prescription Prediction

作者: Xingzhi Zhou, Xin Dong, Chunhao Li, Yuning Bai, Yulong Xu, Ka Chun Cheung, Simon See, Xinpeng Song, Runshun Zhang, Xuezhong Zhou, Nevin L. Zhang

机构: 香港科技大学 北京交通大学 中国中医科学院 NVIDIA 河南中医药大学

摘要: 中医药(TCM)依赖于处方中草药的特定组合来治疗症状和体征,这种做法延续了数千年。预测中医药处方提出了一个迷人的技术挑战,具有实际意义。然而,由于高质量临床数据集的稀缺性和症状与草药之间错综复杂的关系,这一任务面临着限制。为了解决这些问题,我们引入了DigestDS,这是一个包含有经验丰富的消化系统疾病专家的实际医疗记录的新数据集。我们还提出了一种方法,即TCM-FTP(中医药微调预训练),通过在DigestDS上进行监督微调来利用预训练的大语言模型(LLMs)。此外,我们利用低秩适应技术增强了计算效率。TCM-FTP还通过在处方中排列草药来实现数据增强,利用了它们的无序属性。令人印象深刻的是,TCM-FTP实现了0.8031的F1分数,明显超过了以往的方法。此外,它在剂量预测方面表现出了显著的准确性,实现了0.0604的标准化均方误差。相比之下,没有经过微调的LLMs表现不佳。尽管LLMs在各种任务上展现出了能力,但这项工作阐明了对于中医药处方预测,微调的重要性,并提出了一种有效的方法。

论文链接: https://arxiv.org/abs/2407.10510

利用大语言模型文本表示增强药物推荐

原标题: Enhancing Medication Recommendation with LLM Text Representation

作者: Yu-Tzu Lee

机构:

摘要: 大多数现有的药物推荐模型仅通过结构化数据(如医疗编码)进行预测,而其余大量未结构化或半结构化数据被低效利用。为了有效增加利用率,我们提出了一种利用大语言模型(LLM)文本表示增强药物推荐的方法。LLM利用强大的语言理解和生成能力,能够从包含复杂术语的临床笔记等复杂和冗长的未结构化数据中提取信息。这种方法可以应用于我们选择的几种现有基础模型,并通过在两个不同数据集上进行文本和医疗编码的组合表示实验来提高药物推荐性能。仅使用LLM文本表示甚至可以展示出与仅使用医疗编码表示相当的能力。总的来说,这是一种通用方法,可以应用于其他模型以改进推荐。

论文链接: https://arxiv.org/abs/2407.10453

通过我的眼睛:通过视觉提示利用传感器数据对多模态大语言模型进行基础化

原标题: By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting

作者: Hyungjun Yoon, Biniyam Aschalew Tolera, Taesik Gong, Kimin Lee, Sung-Ju Lee

机构: KAIST Nokia Bell Labs

摘要: 大语言模型(LLMs)在各个领域展示了出色的能力。然而,将LLMs用于无处不在的感知应用仍然具有挑战性,因为现有的文本提示方法在处理长传感器数据序列时表现出显著的性能下降。我们提出了一种利用多模态LLMs(MLLMs)对传感器数据进行视觉提示的方法。我们设计了一个视觉提示,指导MLLMs在目标感知任务描述旁边利用可视化的传感器数据。此外,我们引入了一个可视化生成器,自动创建适合特定感知任务的最佳可视化,消除了先前需要具有任务特定知识的需求。我们在涉及四种感知模态的九个感知任务上评估了我们的方法,实现了比基于文本提示高10%的平均准确率,并将令牌成本降低了15.8倍。我们的研究结果突显了MLLMs与视觉提示在各种感知任务中的有效性和成本效益。

论文链接: https://arxiv.org/abs/2407.10385

扩大范围:利用多起点渐进传播进行归纳知识图推理

原标题: Expanding the Scope: Inductive Knowledge Graph Reasoning with Multi-Starting Progressive Propagation

作者: Zhoutian Shao, Yuanning Cui, Wei Hu

机构: 南京大学 中国 卫生数据科学国家研究所

摘要: 知识图谱(KGs)被广泛认为是不完整的,新实体不断在现实世界中出现。归纳式知识图谱推理旨在预测这些新实体的缺失事实。在现有模型中,基于图神经网络(GNNs)的模型已经显示出在这一任务中有很好的表现。然而,由于距离和可扩展性问题,它们仍然受到信息传播效率低下的挑战。在本文中,我们提出了一种新的归纳式知识图谱推理模型,MStar,通过利用条件消息传递神经网络(C-MPNNs)。我们的关键见解是选择多个特定于查询的起始实体来扩大渐进传播的范围。为了将与查询相关的消息传播到有限步数内更远的区域,我们随后设计了一个高速公路层,将信息传播到这些选择的起始实体。此外,我们引入了一种名为LinkVerify的训练策略,以减轻嘈杂训练样本的影响。实验结果验证了MStar相对于最先进模型取得了卓越的性能,尤其是对于远距离实体。

论文链接: https://arxiv.org/abs/2407.10430

Github: https://github.com/nju-websoft/mstar

Spider2-V:多模态智能体距离自动化数据科学和工程工作流有多远?

原标题: Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

作者: Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

机构: 香港大学 上海交通大学 谷歌云AI研究 谷歌DeepMind Salesforce研究 耶鲁大学 Sea AI Lab 滑铁卢大学

摘要: 数据科学和工程工作流程通常涵盖多个阶段,从数据仓库到编排,使用诸如BigQuery、dbt和Airbyte等工具。随着视觉语言模型(VLMs)在多模态理解和代码生成方面的进展,基于VLM的智能体有可能通过生成SQL查询、Python代码和GUI操作来自动化这些工作流程。这种自动化可以提高专家的生产力,同时使大规模数据分析的访问民主化。在本文中,我们介绍了Spider2-V,这是第一个专注于专业数据科学和工程工作流程的多模态智能体基准,包含了在真实计算机环境中的494个真实任务,并整合了20个企业级专业应用程序。这些任务源自真实用例,评估了多模态智能体通过编写代码和管理企业数据软件系统中的GUI来执行与数据相关任务的能力。为了在现实仿真和评估简单性之间取得平衡,我们致力于为任务设置开发自动配置,并为每个任务精心制定评估指标。此外,我们为这些企业数据软件系统的多模态智能体提供了全面的文档。我们的实证评估显示,现有的最先进的LLM/VLM基础智能体并不能可靠地自动化完整的数据工作流程(成功率为14.0%)。即使有逐步指导,这些智能体在需要精细、知识密集的GUI操作(16.2%)和涉及远程云托管工作空间的任务中仍然表现不佳(10.6%)。我们希望Spider2-V为自主多模态智能体改变数据科学和工程工作流程的自动化铺平道路。我们的代码和数据可在此https URL获取。

论文链接: https://arxiv.org/abs/2407.10956

Github: https://spider2-v.github.io https://github.com/xlang-ai/spider2-v

为了文化理解而对视觉语言模型进行基准测试

原标题: Benchmarking Vision Language Models for Cultural Understanding

作者: Shravan Nayak, Kanishk Jain, Rabiul Awal, Siva Reddy, Sjoerd van Steenkiste, Lisa Anne Hendricks, Karolina Stańczak, Aishwarya Agrawal

机构: Mila – 魁北克人工智能研究所 Université de Montréal 蒙特利尔大学 McGill University 麦吉尔大学 Google DeepMind

摘要: 基础模型和视觉语言预训练显著推进了视觉语言模型(VLMs),实现了对视觉和语言数据的多模态处理。然而,它们的性能通常是在一般场景理解上进行评估 - 识别对象、属性和动作 - 而不是文化理解。本研究介绍了CulturalVQA,这是一个旨在评估VLM对地理多样文化理解的视觉问答基准。我们整理了2378个图像问题对,每个问题有1-5个答案,代表了来自5大洲的11个国家的文化。这些问题探究了对文化各个方面的理解,如服装、食物、饮料、仪式和传统。在CulturalVQA上对VLM进行基准测试,包括GPT-4V和Gemini,在不同地区的文化理解水平存在差异,北美的文化理解能力强,而非洲的表现明显较低。我们还观察到在文化方面的表现存在差异,服装、仪式和传统的表现高于食物和饮料。这些差异帮助我们确定VLM在文化理解方面存在不足,并展示了CulturalVQA作为一个全面评估集的潜力,用于评估VLM在理解多样文化方面的进展。

论文链接: https://arxiv.org/abs/2407.10920

利用大语言模型-回答者进行项目评估:一项心理测量分析

原标题: Leveraging LLM-Respondents for Item Evaluation: a Psychometric Analysis

作者: Yunting Liu, Shreya Bhandari, Zachary A. Pardos

机构: 加州大学伯克利分校 教育学院 电气工程与计算机科学

摘要: 有效的教育测量在很大程度上依赖于精心设计的项目库(即具有正确的心理测量特性)。然而,项目校准是耗时且昂贵的,需要足够数量的受访者参与响应过程。我们探讨使用六种不同的大语言模型(GPT-3.5、GPT-4、Llama 2、Llama 3、Gemini-Pro 和 Cohere Command R Plus)以及它们的各种组合,利用抽样方法生成具有类似于人类答案的心理测量特性的响应。结果显示,一些大语言模型在大学代数方面具有与大学生相当或更高的熟练度。由于狭窄的熟练度分布,没有单个大语言模型能模仿人类受访者,但大语言模型的集合可以更好地类似于大学生的能力分布。由大语言模型-受访者校准的项目参数与其人类校准对应物之间存在高相关性(例如,对于GPT-3.5,相关性>0.8),并且与人类子集的参数非常相似(例如,0.02的Spearman相关性差异)。对几种增强策略进行了相对性能评估,重新采样方法被证明最为有效,将Spearman相关性从0.89(仅人类)提高到0.93(增强人类)。

论文链接: https://arxiv.org/abs/2407.10899

大语言模型电路分析在训练和规模上是一致的。

原标题: LLM Circuit Analyses Are Consistent Across Training and Scale

作者: Curt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

机构: Tigges Hanna Yu Biderman

摘要: 目前大多数部署的大型语言模型(LLMs)经历持续训练或额外微调。相比之下,大多数关于LLMs内部机制的研究集中在某个时间点的模型(预训练结束时),这引发了一个问题,即它们的结果是否适用于真实世界的环境。现有关于随时间推移的机制的研究集中在仅编码器或玩具模型上,这些模型与大多数部署的模型存在显著差异。在这项研究中,我们跟踪了解码器-仅LLMs在3000亿个训练令牌中的模型机制的出现和演变,这些模型的参数范围从7000万到28亿。我们发现,任务能力和支持它们的功能组件在不同规模下在类似的令牌数量时一致地出现。此外,尽管这些组件可能随时间由不同的注意力头实现,但它们实现的总体算法保持不变。令人惊讶的是,这些算法和其中涉及的组件类型可以在模型规模上复制。这些结果表明,在预训练结束时对小型模型进行的电路分析可以提供仍然适用于额外预训练和模型规模的见解。

论文链接: https://arxiv.org/abs/2407.10827

Qwen2-音频技术报告

原标题: Qwen2-Audio Technical Report

作者: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

机构: 阿里巴巴集团

摘要: 我们介绍了 Qwen-Audio 的最新进展,一种名为 Qwen2-Audio 的大规模音频语言模型,能够接受各种音频信号输入,并根据语音指令执行音频分析或直接文本响应。与复杂的分层标签相比,我们通过利用自然语言提示简化了预训练过程,针对不同的数据和任务,进一步扩展了数据量。我们提升了 Qwen2-Audio 的指令跟随能力,并实现了两种不同的音频交互模式,用于语音聊天和音频分析。在语音聊天模式中,用户可以自由地与 Qwen2-Audio 进行语音交互,无需文本输入。在音频分析模式中,用户可以在交互过程中提供音频和文本指令进行分析。请注意,我们不使用任何系统提示来在语音聊天和音频分析模式之间切换。Qwen2-Audio 能够智能地理解音频内容,并根据语音指令做出恰当的回应。例如,在同时包含声音、多人对话和语音指令的音频片段中,Qwen2-Audio 能够直接理解指令并对音频进行解释和回应。此外,DPO 已经优化了模型在事实性和符合期望行为方面的表现。根据 AIR-Bench 的评估结果,Qwen2-Audio 在以音频为中心的指令跟随能力测试中胜过了之前的 SOTA,如 Gemini-1.5-pro。Qwen2-Audio 是开源的,旨在促进多模态语言社区的发展。

论文链接: https://arxiv.org/abs/2407.10759

Github: https://github.com/qwenlm/qwen2-audio

转换代理:大语言模型的存在方式

原标题: Transforming Agency. On the mode of existence of Large Language Models

作者: Xabier E. Barandiaran, Lola S. Almendros

机构: IAS-Research Centre for Life, Mind and Society Dept. Philosophy UPV/EHU University of the Basque Country Donostia (Spain) Institute for Science and Technology Studies University of Salamanca Salamanca (Spain)

摘要: 本文探讨了类似ChatGPT这样的大型语言模型(LLMs)的本体特征。在通胀和紧缩的描述之间,我们特别关注它们作为智能体的地位。这需要详细解释架构、处理和训练程序,使LLMs能够展示其能力,并使用扩展将LLMs转变为类似智能系统。经过系统分析,我们得出结论,根据心智的具体理论,LLM未能满足自主代理的必要和充分条件:个体性条件(它不是自身活动的产物,甚至不受其直接影响),规范性条件(它不生成自己的规范或目标),部分地互动不对称条件(它不是与环境互动的起源和持续来源)。如果不是智能体,那么…LLMs是什么?我们认为ChatGPT应该被描述为对话者或语言自动机,一个会说话的图书馆,缺乏(自主)代理能力,但能够在非目的性但目的结构化和目的限定的任务上进行表演。与人类互动时,人机互动的“幽灵”组件使LLMs能够实现真正的对话体验。尽管它们缺乏感觉运动和生物体的具体化,LLMs的文本具体化(训练语料库)和资源密集型的计算具体化,显著改变了现有形式的人类代理。在辅助和扩展代理之外,LLM-人类耦合可以产生更接近有意代理的中介形式,而不是任何先前技术的扩展工具性。

论文链接: https://arxiv.org/abs/2407.10735

Sibyl:简单而有效的复杂现实世界推理智能体框架

原标题: Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

作者: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

机构: 百川公司 天津大学情报与计算学院

摘要: 现有基于大语言模型(LLMs)的代理展示了强大的问题解决能力,通过整合LLMs固有的知识、强大的上下文学习和零样本能力,以及人类设计的工具与复杂的LLM调用工作流程。然而,这些代理在长期推理方面仍存在缺陷,并且未充分利用现有工具的潜力,导致在复杂的现实推理场景中存在明显的不足。为了解决这些限制,我们引入了Sibyl,一个简单而强大的基于LLM的代理框架,旨在通过有效利用一组最小的工具来处理复杂的推理任务。受全局工作空间理论的启发,Sibyl引入了一个全局工作空间,以增强系统中知识和对话历史的管理和共享。此外,受心智社会理论的指导,Sibyl实现了一个基于多代理辩论的陪审团,以自我完善最终答案,确保全面和平衡的方法。这种方法旨在减少系统复杂性,同时扩大可解决问题的范围-从通常由人类在几分钟内解决的问题到需要几小时甚至几天的问题,从而促进从系统1到系统2思维的转变。Sibyl的设计侧重于可扩展性和易于调试,从一开始就将函数式编程中的可重入性概念纳入其中,旨在在其他LLM应用中实现无缝且低成本的集成,以提高能力。我们在GAIA基准测试集上的实验结果显示,使用GPT-4实例化的Sibyl代理实现了34.55%的平均得分,表现出最先进的性能,与基于GPT-4的其他代理相比。我们希望Sibyl能激发更可靠和可重用的基于LLM的代理解决方案,以解决复杂的现实推理任务。

论文链接: https://arxiv.org/abs/2407.10718

Github: https://github.com/ag2s1/sibyl-system

MixGR \texttt{MixGR} MixGR:通过互补粒度增强科学领域检索器的泛化能力

原标题: MixGR \texttt{MixGR} MixGR: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity

作者: Fengyu Cai, Xinran Zhao, Tong Chen, Sihao Chen, Hongming Zhang, Iryna Gurevych, Heinz Koeppl

机构: 技术大学达姆施塔特卡内基梅隆大学华盛顿大学宾夕法尼亚大学腾讯AI实验室

摘要: 最近的研究显示,在科学领域中,文档检索在生成大语言模型(LLMs)即RAG中的重要性日益增长,通过弥合它们之间的知识差距。然而,密集型检索器在处理领域特定的检索和复杂的查询-文档关系时经常遇到困难,特别是当查询片段对应于文档的各个部分时。为了缓解这些普遍存在的挑战,本文介绍了 MixGR \texttt{MixGR} MixGR,它通过零样本方法改善了密集型检索器对查询-文档匹配在查询和文档的各个粒度级别上的意识。 MixGR \texttt{MixGR} MixGR将基于这些粒度的各种度量融合到一个统一的分数中,反映了全面的查询-文档相似性。我们的实验表明, MixGR \texttt{MixGR} MixGR在包含来自五个科学检索数据集的多个子查询的查询上,相对于无监督和监督检索器,nDCG@5上的性能分别提高了24.7%和9.8%。此外,两个下游科学问答任务的有效性突显了 MixGR \texttt{MixGR} MixGR在提升大语言模型在科学领域应用方面的优势。

论文链接: https://arxiv.org/abs/2407.10691

平衡天平:强化学习用于公平分类

原标题: Balancing the Scales: Reinforcement Learning for Fair Classification

作者: Leon Eshuijs, Shihan Wang, Antske Fokkens

机构: Vrije Universiteit Amsterdam Utrecht University

摘要: 在分类任务中的公平性传统上侧重于从神经表示中消除偏见,但最近的趋势更倾向于将公平性嵌入到训练过程中的算法方法。这些方法引导模型朝着公平表现的方向发展,防止由于表示操作而导致有价值信息的潜在消除。强化学习(RL)以其通过互动学习和调整奖励函数以鼓励期望行为的能力,在这一领域中被视为一种有前途的工具。在本文中,我们探讨了使用RL来解决不平衡分类中的偏见问题,通过调整奖励函数的比例来减轻偏见。我们采用上下文多臂老虎机框架,并调整三种流行的RL算法以适应我们的目标,展示了一种缓解偏见的新方法。

论文链接: https://arxiv.org/abs/2407.10629

LLM微调的学习动态

原标题: Learning Dynamics of LLM Finetuning

作者: Yi Ren, Danica J. Sutherland

机构: 英属哥伦比亚大学 阿尔伯塔机器智能研究所

摘要: 学习动态描述了特定训练示例的学习如何影响模型对其他示例的预测,为我们提供了理解深度学习系统行为的强大工具。我们研究了大型语言模型在微调过程中的学习动态,通过分析不同响应之间的逐步分解和累积影响。我们的框架允许对流行算法的训练进行统一解释,包括指导微调和偏好微调。分析不仅解释了这些方法的好处来自何处,还启发了一种简单有效的方法来进一步提高对齐性能。实验代码可在此网址获得。

论文链接: https://arxiv.org/abs/2407.10490

Github: https://github.com/Joshua-Ren/Learning_dynamics_LLM

在知识蒸馏过程中不要留下任何知识:朝着实用和有效的知识蒸馏,利用真实数据实现代码切换 ASR。

原标题: Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data

作者: Liang-Hsuan Tseng, Zih-Ching Chen, Wei-Shun Chang, Cheng-Kuang Lee, Tsung-Ren Huang, Hung-yi Lee

机构: 国立台湾大学 NVIDIA AI技术中心 NVIDIA

摘要: 最近在自动语音识别(ASR)领域取得的进展通常依赖于大型语音基础模型来生成高质量的转录。然而,由于计算资源有限,这些模型可能不切实际。在更现实或更困难的情况下,如代码切换ASR(CS-ASR),情况甚至更为严重。为了解决这个问题,我们提出了一个通过使用真实语音数据进行知识蒸馏来开发更高效模型的框架。我们提出的方法,即在知识蒸馏过程中不丢弃任何知识(K 2 ^2 2D),利用了教师模型的知识以及来自小型辅助模型的额外见解。我们在两个领域内和两个领域外的数据集上评估了我们的方法,证明了K 2 ^2 2D的有效性。通过在未标记的真实数据上进行K 2 ^2 2D,我们成功地获得了一个体积缩小了2倍、生成速度提高了5倍的模型,同时在所有测试集上表现优于基线方法和教师模型。我们已经在Hugging Face上公开了我们的模型(此处链接)。

论文链接: https://arxiv.org/abs/2407.10603

其他链接: https://huggingface.co/andybi7676/k2d-whisper.zh-en

IDEAL:利用大语言模型的无限和动态特征进行面向查询的摘要生成。

原标题: IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization

作者: Jie Cao, Dian Jiao, Qiang Yan, Wenqiao Zhang, Siliang Tang, Yueting Zhuang

机构: 浙江大学 腾讯

摘要: 查询焦点摘要(QFS)旨在生成回答特定感兴趣问题的摘要,实现更大的用户控制和个性化。随着大型语言模型(LLMs)的出现,展示了它们通过大规模预训练对文本理解的令人印象深刻的能力,这意味着抽取式片段生成的巨大潜力。在本文中,我们系统地研究了基于LLMs的QFS模型应该利用的两个不可或缺的特征,分别是长篇文档摘要和高效的细粒度查询-LLM对齐。相应地,我们提出了两个模块,分别称为Query-aware HyperExpert和Query-focused Infini-attention,以访问上述特征。这些创新为QFS技术领域的更广泛应用和可访问性铺平了道路。对现有的QFS基准进行的大量实验表明了所提方法的有效性和泛化能力。我们的代码可以在此https URL上公开获取。

论文链接: https://arxiv.org/abs/2407.10486

Github: https://github.com/DCDmllm/IDEAL_Summary

NTSEBENCH:视觉语言模型的认知推理基准测试

原标题: NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models

作者: Pranshu Pandya, Agney S Talwarr, Vatsal Gupta, Tushar Kataria, Vivek Gupta, Dan Roth

机构: 印度理工学院古瓦哈蒂分校 犹他大学 宾夕法尼亚大学

摘要: 认知文本和视觉推理任务,如拼图、系列和类比,要求能够快速推理、解密和评估文本和空间模式。虽然通过在大量人类策划数据上进行广泛训练,LLMs 和 VLMs 在一些常识推理任务中已经达到了一定水平的伪人类智能,但它们仍然在需要认知理解的更复杂推理任务中遇到困难。在这项工作中,我们介绍了一个新的数据集 NTSEBench,旨在评估大型模型的认知多模态推理和解决问题能力。该数据集包括 2,728 个多项选择题,涵盖了来自印度全国范围内进行的 NTSE 考试中的 26 个类别中的 4,642 张图像,包括既不依赖死记硬背的视觉和文本一般能力问题。我们使用最先进的 LLMs 和 VLMs 在数据集上建立了基线。为了便于比较开源和专有模型,我们提出了四种不同的建模策略来处理数据集实例中的不同模态(文本和图像)。

论文链接: https://arxiv.org/abs/2407.10380

基于大语言模型的 FMRI 编码语言功能,用于神经认知障碍患者。

原标题: Large Language Model-based FMRI Encoding of Language Functions for Subjects with Neurocognitive Disorder

作者: Yuejiao Wang, Xianmin Gong, Lingwei Meng, Xixin Wu, Helen Meng

机构: 香港中文大学 精密工程与工程管理系 心理学系 斯坦利·何大数据决策分析研究中心

摘要: 功能性磁共振成像(fMRI)对于开发识别神经认知障碍(NCD)患者语言相关脑区功能变化的编码模型至关重要。虽然基于大语言模型(LLM)的fMRI编码显示出潜力,但现有研究主要集中在健康的年轻成年人身上,忽视了老年NCD人群和认知水平的相关性。本文利用基于LLM的fMRI编码和脑部评分探讨了老年NCD成年人语言相关功能变化,解决了当前的局限性。我们分析了整个大脑和与语言相关的ROI水平上脑部评分与认知评分之间的相关性。我们的研究发现,较高的认知能力与更好的脑部评分相对应,相关性在中颞回达到峰值。这项研究突显了fMRI编码模型和脑部评分在检测NCD患者早期功能变化方面的潜力。

论文链接: https://arxiv.org/abs/2407.10376

SuperPADL:通过渐进式监督蒸馏扩展基于语言指导的基于物理的控制

原标题: SuperPADL: Scaling Language-Directed Physics-Based Control with Progressive Supervised Distillation

作者: Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng

机构: 斯坦福大学 加拿大英伟达公司 多伦多大学 西蒙弗雷泽大学

摘要: 人体运动的物理模拟模型可以生成高质量、响应灵敏的角色动画,通常可以实时进行。自然语言作为控制这些模型的灵活接口,使专家和非专家用户能够快速创建和编辑他们的动画。许多最近基于物理的动画方法,包括使用文本界面的方法,使用强化学习(RL)训练控制策略。然而,将这些方法扩展到数百种动作以上仍然具有挑战性。与此同时,运动学动画模型能够通过利用监督学习方法成功地从数千种不同的动作中学习。受到这些成功的启发,在这项工作中,我们介绍了SuperPADL,这是一个可扩展的基于物理的文本到动作框架,利用强化学习和监督学习来训练控制器,从数千种不同的动作片段中进行训练。SuperPADL通过渐进蒸馏的方式分阶段进行训练,首先使用RL训练大量专业专家。然后,这些专家通过强化学习和监督学习的组合逐步蒸馏为更大、更强大的策略。我们最终的SuperPADL控制器是在包含超过5000种技能的数据集上训练的,并且可以在消费级GPU上实时运行。此外,我们的策略可以自然地在技能之间过渡,允许用户交互地制作多阶段动画。我们通过实验证明,SuperPADL在这个大数据规模上明显优于基于RL的基线方法。

论文链接: https://arxiv.org/abs/2407.10481

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值