2024年6月25日Arxiv语言模型相关论文

cs.CL: 探索使用自然语言推理(NLI)进行事实蕴涵的研究:一项新闻媒体研究

原标题: Exploring Factual Entailment with NLI: A News Media Study

作者: Guy Mor-Lan, Effi Levi

机构: I cannot find any school or company names in the provided text. Therefore, the output is an empty string.

摘要: 我们通过引入FactRel来探讨事实性与自然语言推理(NLI)之间的关系——这是一种新颖的注释方案,模拟了“事实性”而非“文本性”的蕴涵,并用它来注释一组自然语境下的新闻文章句子数据集。我们的分析显示,84%的事实支持对和63%的事实削弱对并不等同于NLI的蕴涵或矛盾,这表明事实关系更适合分析媒体话语。我们尝试了针对新数据集的成对分类模型,并发现在某些情况下,基于注释数据用GPT-4生成合成数据可以提高性能。令人惊讶的是,GPT-4的少样本学习结果与基于标记数据集训练的中等LMs(如DeBERTa)相当。我们假设这些结果表明了这一任务在世界知识和高级推理能力上的根本依赖。

论文链接: https://arxiv.org/pdf/2406.16842

cs.CL: 失去视觉中的图像"干草垛"中的针:视觉语言模型在短期和长期上下文中容易分心

原标题: Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

作者: Aditya Sharma, Michael Saxon, William Yang Wang

机构: 加州大学圣巴巴拉分校 LoCoVQA.github.io

摘要: 我们提出了 LoCoVQA,这是一个动态基准生成器,用于评估视觉语言模型(VLMs)中的长上下文抽取推理能力。LoCoVQA通过增加数学推理、VQA和字符识别任务的测试示例,引入了越来越长的视觉上下文,包括分布内和分布外的干扰图像。
在这些任务中,各种不同的VLMs在视觉上下文长度增加时迅速失去性能,通常表现出显著的指数衰减趋势。这个测试评估了VLMs在回答查询时如何忽略不相关信息的能力 – 这对于文本领域的语言模型(LMs)来说是相当容易的任务 – 显示出当前最先进的VLMs在许多长上下文应用中缺乏这种关键能力。

论文链接: https://arxiv.org/pdf/2406.16851

cs.CL: 从解码到元生成:大语言模型的推理时间算法

原标题: From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

作者: Sean Welleck, Amanda Bertsch, Matthew Finlayson, Hailey Schoelkopf, Alex Xie, Graham Neubig, Ilia Kulikov, Zaid Harchaoui

机构: 卡内基梅隆大学 美国南加州大学 EleutherAI Meta

摘要: 在大语言模型(LLMs)的现代研究中,最引人注目的发现之一是,在训练过程中增加计算资源会导致更好的结果。然而,较少的注意力集中在推断过程中增加计算资源的好处上。本调查重点关注这些推断时间方法。我们在统一的数学形式主义下探讨了三个领域:标记级生成算法、元生成算法和高效生成。标记级生成算法,通常称为解码算法,通过逐个采样标记或构建标记级搜索空间,然后选择输出来操作。这些方法通常假定可以访问语言模型的logits、下一个标记分布或概率分数。元生成算法处理部分或完整序列,整合领域知识,支持回溯,并整合外部信息。高效生成方法旨在减少标记成本并提高生成速度。我们的调查统一了传统自然语言处理、现代LLMs和机器学习系统的观点。

论文链接: https://arxiv.org/pdf/2406.16838

cs.CL: RaTEScore:放射学报告生成的度量标准

原标题: RaTEScore: A Metric for Radiology Report Generation

作者: Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie

机构: 上海交通大学 上海人工智能实验室

摘要: 这篇论文介绍了一种新的、实体感知的度量标准,称为放射学报告(文本)评估分数(RaTEScore),用于评估由AI模型生成的医疗报告的质量。RaTEScore强调关键的医疗实体,如诊断结果和解剖细节,并且对复杂的医学同义词和否定表达具有鲁棒性。在技术上,我们开发了一个全面的医疗NER数据集,RaTE-NER,并专门为此目的训练了一个NER模型。该模型能够将复杂的放射学报告分解为组成的医疗实体。该度量标准本身是通过比较来自语言模型的实体嵌入的相似性来推导的,基于它们的类型和与临床意义的相关性。我们的评估表明,RaTEScore与人类偏好更接近,验证了在已建立的公共基准和我们新提出的RaTE-Eval基准上的效果。

论文链接: https://arxiv.org/pdf/2406.16845

cs.CL: EAGLE-2: 使用动态草稿树加速语言模型推理

原标题: EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

作者: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

机构: 北京大学 Microsoft Research University of Waterloo Vector Institute

摘要: 使用现代大语言模型(LLMs)进行推理是昂贵且耗时的,而投机抽样已被证明是一种有效的解决方案。大多数投机抽样方法(如EAGLE)使用静态草稿树,隐含地假设草稿标记的接受率仅取决于它们的位置。有趣的是,我们发现草稿标记的接受率也依赖于上下文。在本文中,基于EAGLE,我们提出了EAGLE-2,引入了一种新的上下文感知动态草稿树技术来进行草拟建模。这种改进利用了EAGLE草稿模型的校准性:草稿模型的置信分数近似于具有较小误差的接受率。我们在三个系列的LLMs和六个任务上进行了广泛评估,EAGLE-2实现了3.05倍至4.26倍的加速比,比EAGLE-1快20%至40%。EAGLE-2还确保生成文本的分布保持不变,使其成为一种无损加速算法。

论文链接: https://arxiv.org/pdf/2406.16858

cs.CL: 理解和减轻语言模型中的标记化偏差

原标题: Understanding and Mitigating Tokenization Bias in Language Models

作者: Buu Phan, Marton Havasi, Matthew Muckley, Karen Ullrich

机构: Gemini Llama

摘要: 现代语言模型是自回归的,操作的子词单位称为标记。具体来说,在传递给语言模型进行下一个标记预测之前,必须将条件字符串编码为标记列表。我们表明,对于诸如最大前缀匹配之类的编码方案,标记化会引入无法通过更多训练或数据消除的抽样偏差。为了应对这一普遍问题,我们提出了一种新的算法,用于从在标记化数据上训练的模型中获得无偏估计。我们的方法不需要对模型进行微调,并且其复杂度,即模型运行次数,与序列长度线性扩展。由此,我们展示了可以从标记化语言模型中模拟无标记的行为。我们通过马尔可夫链设置在经验上验证了我们方法的正确性,它准确恢复了转移概率,与直接将标记提示到语言模型的传统方法相反。

论文链接: https://arxiv.org/pdf/2406.16829

cs.CL: 大语言模型抽签适应:减轻大语言模型中的破坏性干扰

原标题: Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

作者: Ashwinee Panda, Berivan Isik, Xiangyu Qi, Sanmi Koyejo, Tsachy Weissman, Prateek Mittal

机构: 普林斯顿大学 斯坦福大学

摘要: 现有的适应大语言模型(LLMs)到新任务的方法不适合多任务适应,因为它们修改了所有模型权重 – 导致任务之间的破坏性干扰。由此产生的效应,如早期任务的灾难性遗忘,使得同时在多个任务上获得良好性能变得具有挑战性。为了缓解这一问题,我们提出了彩票票据适应(LoTA),一种稀疏适应方法,仅识别和优化模型的稀疏子网络。我们在一系列具有挑战性的任务上评估了LoTA,例如指令跟随、推理、数学和总结。LoTA比全面微调和低秩适应(LoRA)获得更好的性能,并且在训练其他任务后仍保持良好的性能 – 从而避免灾难性遗忘。通过提取和微调“彩票票据”(或“稀疏任务向量”),LoTA还能在高度不同的任务上实现模型合并。

论文链接: https://arxiv.org/pdf/2406.16797

cs.CL: USDC: 一个关于长对话中用户立场和教条主义的数据集

原标题: USDC: A Dataset of U ‾ \underline{U} User S ‾ \underline{S} Stance and D ‾ \underline{D} Dogmatism in Long C ‾ \underline{C} Conversations

作者: Mounika Marreddy, Subba Reddy Oota, Venkata Charan Chinni, Manish Gupta, Lucie Flek

机构: 大学波恩大学 德国 TU柏林 德国 Couture.ai 印度 Microsoft 印度

摘要: 识别用户在各种主题的长对话线程中的观点和立场对于增强个性化、市场研究、政治运动、客户服务、冲突解决、定向广告和内容管理至关重要。因此,训练语言模型以自动化此任务至关重要。然而,要训练这样的模型,收集手动标注存在多重挑战:1)耗时且昂贵;2)对话线程可能非常长,增加嘈杂标注的机会;以及3)解释用户在对话中改变观点的情况通常很困难,因为这种转变往往是微妙且未明确表达的。受大语言模型(LLMs)在复杂自然语言处理(NLP)任务中的最新成功启发,我们利用Mistral Large和GPT-4自动化以下两个任务的人工标注过程,并提供推理支持:i)用户立场分类,涉及在五点量表上标记用户在对话中帖子的立场;ii)用户教条主义分类,涉及在四点量表上标记用户在对话中的整体观点。对764个多用户Reddit对话的零样本、一样本和少样本标注进行多数投票,帮助我们策划USDC数据集。然后,USDC用于微调和指导调整多个可部署的小语言模型,用于5类立场和4类教条主义分类任务。我们公开提供代码和数据集 [https://anonymous.4open.science/r/USDC-0F7F]。

论文链接: https://arxiv.org/pdf/2406.16833

cs.CL: RES-Q: 在存储库规模上评估代码编辑大型语言模型系统

原标题: RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale

作者: Beck LaBash, August Rosedale, Alex Reents, Colin Wiel

机构: 东北大学 Qurrent AI

摘要: 大语言模型(LLM)的指令跟随能力培养了一类基于LLM的系统,这些系统能够处理诸如对大型代码存储库进行编辑等复杂任务。由于LLM对提示更改的行为具有高度敏感性和不可预测性,因此需要健壮的评估工具来推动这些系统未来的迭代。我们提出了RES-Q,一个基于自然语言指令的用于评估“R”epository “E”diting “S”ystems的基准,其中包含了从真实GitHub提交中导出的100个存储库编辑任务。给定一个编辑指令和一个代码存储库,RES-Q评估了LLM系统收集信息并构建满足指令设置的编辑的能力。我们认为,通过这种方式评估LLM解决了传统基准的问题,并提供了对模型能力更全面的评估。我们将各种最先进的LLM作为语言代理评估,在我们的语言代理开发软件Qurrent OS上构建了一个存储库编辑系统。尽管在HumanEval上它们的1% pass@1表现有所不同,但我们发现Claude Sonnet 3.5在RES-Q上的pass@1比GPT-4o高出12%,表明RES-Q有能力区分模型能力,而传统基准接近饱和。我们进一步调查了令牌效率、与现有基准的性能关系,以及封闭和开源LLM之间有趣的差异。代码和数据集可以在此https网址上获得。

论文链接: https://arxiv.org/pdf/2406.16801

Github: https://github.com/Qurrent-AI/RES-Q

cs.CL: M2Lingual: 在大语言模型中增强多语言、多轮指令对齐

原标题: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models

作者: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan

机构: ServiceNow University of Illinois at Chicago

摘要: 指导微调(IFT)对于使大语言模型(LLMs)遵循指令至关重要。最近提出了许多有效的IFT数据集,但大多数集中在高资源语言,如英语。在这项工作中,我们提出了一个完全合成的、新颖的基于Evol指导的多语言、多轮指导微调数据集,称为M2Lingual,以更好地使LLMs在多种语言和任务上对齐。M2Lingual包含总共182K个IFT对,建立在不同的种子之上,涵盖70种语言、17个自然语言处理任务以及一般的指导-响应对。使用M2Lingual微调的LLMs显著优于大多数现有的多语言IFT数据集。重要的是,与现有的多语言IFT数据集相比,使用M2Lingual训练的LLMs在广泛的评估基准上始终取得竞争力强的结果。具体而言,使用M2Lingual微调的LLMs在我们的翻译多语言、多轮评估基准以及多种多语言任务上表现出色。因此,我们贡献了用于创建它的两步Evol分类法。M2Lingual仓库 - 这里是链接:https://这里是链接。

论文链接: https://arxiv.org/pdf/2406.16783

其他链接: https://huggingface.co/datasets/ServiceNow-AI/M2Lingual

cs.CL: 不重要的是你说了什么,重要的是你如何表达:一种令人惊讶的简单方法,用于提高阅读理解能力

原标题: It Is Not About What You Say, It Is About How You Say It: A Surprisingly Simple Approach for Improving Reading Comprehension

作者: Sagi Shaier, Lawrence E Hunter, Katharina von der Wense

机构: 科罗拉多大学博尔德分校 独立学者 约翰内斯·古腾堡大学迈因茨

摘要: 自然语言处理在过去十年中取得了快速进展。由于发展速度快,一些实践在没有适当评估的情况下已经被确立。考虑到这样一个案例,并集中在阅读理解上,我们提出了第一个研究问题:1)输入顺序(即问题和上下文的顺序)如何影响模型性能?另外,考虑到最近在输入强调方面的进展,我们提出了第二个研究问题:2)强调问题、上下文或两者哪一个能够增强性能?在对3个数据集进行的9个大语言模型的实验中,我们发现将上下文放在问题之前可以提高模型的性能,准确率增加了高达31%。此外,强调上下文比问题更能产生优异的结果,并且总体上,强调输入的部分对于解决模型缺乏参数化知识来回答的问题特别有效。在基于提示和基于注意力的强调方法上进行实验后,我们还发现最佳方法竟然非常简单:只需将几个标记连接到输入中,可以使准确率提高高达36%,使得较小的模型能够胜过显著更大的对应模型。

论文链接: https://arxiv.org/pdf/2406.16779

cs.CL: 将LLM融合到级联语音翻译中:KIT的离线语音翻译系统,适用于IWSLT 2024

原标题: Blending LLMs into Cascaded Speech Translation: KIT’s Offline Speech Translation System for IWSLT 2024

作者: Sai Koneru, Thai-Binh Nguyen, Ngoc-Quan Pham, Danni Liu, Zhaolin Li, Alexander Waibel, Jan Niehues

机构: 卡尔斯鲁厄理工学院

摘要: 大语言模型(LLM)目前正在探索各种任务,包括自动语音识别(ASR)、机器翻译(MT)甚至端到端语音翻译(ST)。本文介绍了我们在受限 + LLM 跟踪中的 KIT 离线提交,通过整合最近提出的技术来增强任何级联语音翻译系统。具体来说,我们将 Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1} 集成到我们的系统中,以两种方式增强它。首先,我们通过利用系统生成的 N-best 列表和微调LLM来精确预测转录来改进ASR输出。其次,我们通过微调LLM在文档级别改进MT输出,利用ASR和MT预测来提高翻译质量。我们发现将LLM整合到ASR和MT系统中,在tst2019测试集上,单词错误率提高了0.3%,COMET提高了0.65%。在具有重叠说话者和背景噪声的挑战性测试集中,我们发现LLM的整合由于ASR表现不佳而无益。在这里,我们使用带有分块长形式解码的ASR来改善上下文使用,这在仅使用语音活动检测分割时可能无法实现。

论文链接: https://arxiv.org/pdf/2406.16777

cs.CL: GPT-WritingPrompts 数据集:短篇小说中人物描绘的比较分析

原标题: The GPT-WritingPrompts Dataset: A Comparative Analysis of Character Portrayal in Short Stories

作者: Xi Yu Huang, Krishnapriya Vishnubhotla, Frank Rudzicz

机构: 多伦多大学 达尔豪斯大学 Vector研究所

摘要: 改进后的大语言模型的生成能力使其成为创意写作和故事讲述的强大工具。因此,量化理解生成故事的性质以及它们与人类故事讲述的差异非常重要。我们通过 GPT-3.5 生成短篇故事,使用相同的提示扩充了 Reddit WritingPrompts 数据集。我们在六个维度上量化和比较了生成过程中故事讲述的情感和描述特征,包括人类和机器生成的故事。我们发现,生成的故事在所有六个维度上与人类故事存在显著差异,并且根据叙述视角和主角性别分组时,人类和机器生成展示出类似的偏见。我们在此 https URL 发布了我们的数据集和代码。

论文链接: https://arxiv.org/pdf/2406.16767

Github: https://github.com/KristinHuangg/gpt-writing-prompts

cs.CL: 找到利用边缘修剪的Transformer电路

原标题: Finding Transformer Circuits with Edge Pruning

作者: Adithya Bhaskar, Alexander Wettig, Dan Friedman, Danqi Chen

机构: 普林斯顿大学

摘要: 解释语言模型的路径通常通过分析电路来进行,这些电路是模型的稀疏计算子图,捕捉其行为的特定方面。最近的研究已经自动化了发现电路的任务。然而,这些方法存在实际限制,因为它们要么依赖低效的搜索算法,要么依赖不准确的近似方法。在本文中,我们将自动电路发现框架化为一个优化问题,并提出边缘修剪作为一种有效且可扩展的解决方案。边缘修剪利用基于梯度的修剪技术,但不是移除神经元或组件,而是修剪组件之间的\emph{边缘}。我们的方法在发现 GPT-2 中的电路时,与之前的方法相比,使用的边缘数量不到一半,同时对标准电路发现任务中完整模型预测同样忠实。边缘修剪即使在多达 100K 个示例的情况下也非常高效,在速度上胜过以往的方法,并且产生显著更好的电路。它还可以完美地恢复使用 Tracr 编译的两个模型中的地面实况电路。由于其高效性,我们将边缘修剪扩展到 CodeLlama-13B,这是之前方法操作规模的 100 倍以上的模型。我们利用这一设置进行了一个案例研究,比较了指令提示和上下文学习背后的机制。我们发现两个电路具有超过 99.96% 的稀疏度,与完整模型的性能相匹配,并揭示了两种设置中机制的重叠程度。我们的案例研究表明,边缘修剪是一种实用且可扩展的解释工具,并揭示了仅在大型模型中才会出现的行为。

论文链接: https://arxiv.org/pdf/2406.16778

cs.CL: 奥林匹克竞技场奖牌排名:到目前为止,哪个AI是最聪明的?

原标题: OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

作者: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu

机构: 上海交通大学 Generative AI Research Lab

摘要: 在这份报告中,我们提出以下问题:截至目前,根据奥林匹克竞技场(一个奥林匹克级别的、多学科、多模式的超智能 AI 基准测试),谁是迄今为止最智能的 AI 模型?我们特别关注最近发布的模型:Claude-3.5-Sonnet、Gemini-1.5-Pro 和 GPT-4o。我们首次提议使用奥林匹克奖牌榜方法来根据它们在各个学科上的综合表现对 AI 模型进行排名。实证结果显示:(1)Claude-3.5-Sonnet 在总体表现上高度竞争,甚至在几个学科(即物理学、化学和生物学)上超过了 GPT-4o。 (2)Gemini-1.5-Pro 和 GPT-4V 排名紧随 GPT-4o 和 Claude-3.5-Sonnet,但它们之间存在明显的性能差距。 (3)来自开源社区的 AI 模型性能显著落后于这些专有模型。 (4)这些模型在该基准测试上的表现不尽如人意,表明在实现超智能之前我们还有很长的路要走。我们将继续跟踪和评估最新强大模型在该基准测试上的表现(可在此网址获取:https://)。

论文链接: https://arxiv.org/pdf/2406.16772

Github: https://github.com/GAIR-NLP/OlympicArena

cs.CL: 朝向快速多语言大语言模型推理:推测解码与专用起草者

原标题: Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

作者: Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun

机构: KAIST AI2KT

摘要: 大语言模型(LLMs)已经彻底改变了自然语言处理,并扩展了它们在各种商业应用中的适用性。然而,在多语言环境中,这些模型的部署受到推理时间较长的限制。为了解决这一挑战,本文探讨了一种辅助模型训练配方,即推测解码,通过这种方法起草并验证其未来的 token 是否符合目标LLM的预期。我们展示了通过针对性的预训练和微调策略优化语言特定的草稿模型,大幅加快了推理时间,相比之前的方法。我们验证了这些模型在推理时间、跨领域加速和GPT-4o评估方面在各种语言上的效果。

论文链接: https://arxiv.org/pdf/2406.16758

cs.CL: 朝向阿拉伯语方言的零样本文本转语音

原标题: Towards Zero-Shot Text-To-Speech for Arabic Dialects

作者: Khai Duy Doan, Abdul Waheed, Muhammad Abdul-Mageed

机构: 穆罕默德·本·扎耶德人工智能大学

摘要: 零样本多说话者文本转语音(ZS-TTS)系统在英语方面取得了进展,但由于资源不足仍然落后。我们首先调整一个可观的现有数据集,以适应语音合成的需求,填补了阿拉伯语这一拥有超过4.5亿母语使用者的语言领域中的空白。此外,我们采用一组阿拉伯语方言识别模型,探讨预定义方言标签对改善多方言环境中的ZS-TTS模型的影响。随后,我们对开源架构XTTS模型进行微调。我们在包含31位未知说话者和一个内部方言数据集的数据集上评估我们的模型。自动化和人工评估结果显示出令人信服的性能,能够生成方言语音。我们的研究突显了阿拉伯语这一新兴研究领域改进的显著潜力。

论文链接: https://arxiv.org/pdf/2406.16751

其他链接: https://docs.coqui.ai/en/latest/models/xtts.html

cs.CL: 稀疏更快,少即是多:长距离 Transformer 的高效稀疏注意力机制

原标题: Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

作者: Chao Lou, Zixia Jia, Zilong Zheng, Kewei Tu

机构: 上海科技大学 国家通用人工智能重点实验室

摘要: 在自回归Transformer中有效地处理长序列,特别是在扩展的上下文窗口内,由于自注意机制中二次计算复杂度和大量KV内存需求固有的挑战,存在显著的困难。在本文中,我们介绍了SPARSEK Attention,这是一种新颖的稀疏注意机制,旨在克服这些计算和内存障碍,同时保持性能。我们的方法集成了一个评分网络和一个可微的top-k掩码运算符SPARSEK,用于为每个查询选择恒定数量的KV对,从而实现基于梯度的优化。因此,SPARSEK Attention在生成过程中提供了线性时间复杂度和恒定的内存占用。实验结果显示,SPARSEK Attention优于先前的稀疏注意方法,并在训练和推断过程中提供了显著的速度改进,特别是在语言建模和下游任务中。此外,我们的方法可以无缝地集成到预训练的大语言模型(LLMs)中,只需进行最少的微调,为在多样的应用中有效管理长距离依赖关系提供了实用的解决方案。

论文链接: https://arxiv.org/pdf/2406.16747

cs.CL: CLIMATELI: 在气候变化数据上评估实体链接

原标题: CLIMATELI: Evaluating Entity Linking on Climate Change Data

作者: Shijia Zhou, Siyao Peng, Barbara Plank

机构: MaiNLP LMU Munich Munich Center for Machine Learning

摘要: 气候变化(CC)是全球关注的紧迫话题,引起了社会科学和自然语言处理(NLP)等多个研究领域的日益关注。CC也在学术出版物到社交媒体论坛等各种场合讨论。了解这些数据中提到的人物和事物是获得对CC新见解的第一关键步骤。我们介绍了CLIMATELI(CLIMATe Entity LInking),这是第一个手动注释的CC数据集,将3,087个实体跨度链接到维基百科。利用CLIMATELI(CLIMATe Entity LInking),我们评估现有的实体链接(EL)系统在CC主题上跨越各种体裁的表现,并提出了用于CC实体的自动过滤方法。我们发现EL模型在标记和实体级别的性能明显落后于人类。在保留或排除非名词和/或非CC实体的范围内进行测试尤其影响模型的表现。

论文链接: https://arxiv.org/pdf/2406.16732

cs.CL: 对抗对比解码:通过相反提示优化,提升大语言模型的安全对齐

原标题: Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization

作者: Zhengyue Zhao, Xiaoyun Zhang, Kaidi Xu, Xing Hu, Rui Zhang, Zidong Du, Qi Guo, Yunji Chen

机构: 中国科学院计算技术研究所 中国科学院大学 德雷克赛尔大学

摘要: 随着大语言模型(LLMs)的广泛应用,确保它们的安全性并防止产生有害回应已成为一个重要关注点。当前基于指令微调和人类反馈强化学习(RLHF)的安全对齐方法可以有效减少LLMs的有害回应,但往往需要高质量的数据集和大量的计算资源来进行模型训练。另一种语言模型对齐的方法是在不进行繁重训练的情况下,修改模型输出中token的logit值。最近的研究表明,对比解码可以通过降低混淆token的可能性来提升语言模型的性能。然而,这些方法需要手动选择对比模型或指令模板。为此,我们提出了对抗式对比解码(ACD)方法,这是一个基于优化的框架,用于生成用于对比解码的两个相反的系统提示。ACD仅需在一个相对较小的锚定数据集上进行轻量级提示调整(每个模型小于3分钟),而无需训练目标模型。对多种模型和基准进行的实验表明,所提出的方法在不牺牲其原始生成能力的情况下,比之前不进行模型训练的解码方法在安全性能上有显著提升。

论文链接: https://arxiv.org/pdf/2406.16743

cs.CL: 进入未知领域:从Transformer到Mamba的导航罗盘

原标题: Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba

作者: Yuchen Zou, Yineng Chen, Zuchao Li, Lefei Zhang, Hai Zhao

机构: 清华大学 中国科学院 讯飞

摘要: Transformer,一种深度神经网络架构,长期主导自然语言处理领域及其它领域。然而,最近引入的Mamba挑战了其主导地位,引发了研究人员的广泛兴趣,并催生了一系列基于Mamba的模型,展示了显著的潜力。本调研论文组织了一次全面的讨论,深入探讨了几个重要的研究方向,包括:(i)Mamba机制的运作及其在结构化状态空间模型原理上的基础;(ii)提出的改进以及将Mamba与各种网络集成,探索其作为Transformer替代品的潜力;(iii)Transformer和Mamba的结合以弥补彼此的不足。我们还努力在核函数框架内解释Mamba和Transformer,允许在统一的上下文中比较它们的数学性质。我们的论文涵盖了迄今为止与Mamba相关的绝大部分改进。

论文链接: https://arxiv.org/pdf/2406.16722

cs.CL: AutoDetect: 朝向在大语言模型中自动弱点检测的统一框架

原标题: AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

作者: Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang

机构: 清华大学 Zhipu AI

摘要: 尽管大语言模型(LLMs)变得日益强大,它们仍然显示出显著但微妙的弱点,如在遵循指令或编码任务中出现的错误。由于这些意外错误可能导致实际部署中的严重后果,因此有必要系统地调查LLMs内部的限制。传统的基准测试方法无法彻底指出特定模型的缺陷,而手动检查成本高且不可扩展。本文介绍了一个统一的框架AutoDetect,用于自动在LLMs在各种任务中暴露出的弱点。受到衡量学生学习成果的教育评估过程的启发,AutoDetect包括三个由LLM驱动的智能体:Examiner(考官)、Questioner(提问者)和Assessor(评估者)。这三个智能体之间的协作旨在实现全面和深入的弱点识别。我们的框架在揭示缺陷方面取得了显著成功,在ChatGPT和Claude等知名模型中的识别成功率超过30%。更重要的是,这些识别出的弱点可以指导具体的模型改进,证明比像Self-Instruct这样的非定向数据增强方法更为有效。我们的方法已显著提升了流行的LLMs,包括Llama系列和Mistral-7b,在多个基准测试中性能提升超过10%。代码和数据公开可在此网址获取。

论文链接: https://arxiv.org/pdf/2406.16714

Github: https://github.com/thu-coai/AutoDetect

cs.CL: 任务导向的领域内数据增强

原标题: Task Oriented In-Domain Data Augmentation

作者: Xiao Liang, Xinyu Hu, Simiao Zuo, Yeyun Gong, Qiang Lou, Yi Liu, Shao-Lun Huang, Jian Jiao

机构: 清华大学 Microsoft AI Microsoft Research

摘要: 大语言模型(LLMs)在各种应用和领域中展示了卓越的性能。为了在法律和广告等专业领域实现更好的性能,LLMs 经常在域内数据上继续进行预训练。然而,现有方法存在两个主要问题。首先,与通用领域无关数据相比,域内数据稀缺。其次,用于持续预训练的数据缺乏任务感知性,因此可能对下游应用无益。我们提出了TRAIT,一个面向任务的域内数据增强框架。我们的框架分为两部分:域内数据选择和面向任务的合成段落生成。数据选择策略从通用语料库中识别和选择大量域内数据,显著丰富了持续预训练数据中的领域知识。合成段落包含有关如何利用领域知识回答下游任务问题的指导。通过在这些段落上进行训练,模型与下游应用的需求相匹配。我们将LLMs调整到广告和数学两个领域:平均而言,TRAIT在广告领域提高了8%的性能,在数学领域提高了7.5%的性能。

论文链接: https://arxiv.org/pdf/2406.16694

cs.CL: 线性复杂度语言模型的扩展定律

原标题: Scaling Laws for Linear Complexity Language Models

作者: Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong

机构: OpenNLPLab Australian National University TapTap

摘要: 对于大语言模型的线性复杂性模型的兴趣正在增加,尽管它们的扩展能力仍不确定。在这项研究中,我们提出了线性复杂性语言模型的扩展定律,以建立它们可扩展性的基础。具体而言,我们研究了三种高效的线性架构的扩展行为。它们包括TNL,一种具有数据独立衰减的线性注意力模型;HGRN2,一种具有数据依赖衰减的线性循环神经网络;以及cosFormer2,一种没有衰减的线性注意力模型。我们还将LLaMA作为基线架构,用于softmax注意力进行比较。这些模型在一个300B令牌语料库上通过了从70M到7B参数的六个变种进行训练,并在各种下游任务上进行了1,376个中间检查点的评估。这些任务包括验证损失、常识推理以及信息检索和生成。研究表明,现有的线性复杂性语言模型在展现传统的基于Transformer模型的扩展能力的同时,还表现出了更优越的语言能力和知识保持能力。

论文链接: https://arxiv.org/pdf/2406.16690

cs.CL: 分割任何文本:一种通用方法,用于稳健、高效和可适应的句子分割

原标题: Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

作者: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl

机构: 约翰内斯·开普勒林茨大学 Linz Institute of Technology 剑桥大学

摘要: 将文本分割成句子在许多自然语言处理系统中起着早期和关键的作用。通常通过使用基于规则或统计方法来实现,依赖于诸如标点符号之类的词汇特征。尽管一些最近的工作不再完全依赖于标点符号,但我们发现没有先前的方法能够同时实现以下三点:(i) 对缺失标点的稳健性,(ii) 对新领域的有效适应能力,以及(iii) 高效率。我们引入了一个新模型 - Segment any Text (SaT) - 来解决这个问题。为了增强稳健性,我们提出了一种新的预训练方案,确保更少地依赖于标点符号。为了解决适应性问题,我们引入了一个额外的参数高效微调阶段,在诸如歌词和法律文件等不同领域建立起最先进的性能。在此过程中,我们引入了架构修改,使速度比之前的最新技术提升三倍,并解决了对未来上下文的错误依赖。最后,我们引入了我们模型的一个变体,通过对多样化、多语种混合的句子分割数据进行微调,作为现有分割工具的插件替代和增强。总体而言,我们的贡献提供了一个通用的文本分割方法。我们的方法在跨越多个领域和语言的8个语料库中表现优于所有基线方法 - 包括强大的大语言模型,特别是在文本格式不佳的实际相关情况中。我们的模型和代码,包括文档,可在此 https URL 下以 MIT 许可证获得。

论文链接: https://arxiv.org/pdf/2406.16678

其他链接: https://huggingface.co/segment-any-text

cs.CL: 计算方法探索较少知名修辞手法的检测:系统性调查与研究挑战

原标题: Computational Approaches to the Detection of Lesser-Known Rhetorical Figures: A Systematic Survey and Research Challenges

作者: Ramona Kühn, Jelena Mitrović, Michael Granitzer

机构: 德国 孟乔 格兰尼策

摘要: 修辞手法在我们日常交流中起着重要作用,因为它们使文本更有趣、更易记,或者更具说服力。因此,通过计算手段检测修辞手法对于全面理解文本的意义至关重要。我们提供了对较少人知的修辞手法的计算方法的全面概述。我们探讨了修辞手法在语言学和计算机视角下的应用,强调它们在自然语言处理领域的重要性。我们详细介绍了不同的修辞手法,深入探讨了数据集、定义、修辞功能和检测方法。我们识别出了诸如数据集稀缺、语言限制和依赖规则性方法等挑战。

论文链接: https://arxiv.org/pdf/2406.16674

cs.CL: CAVE: 可控制的作者验证解释

原标题: CAVE: Controllable Authorship Verification Explanations

作者: Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren

机构: 南加州大学 信息科学研究所

摘要: 作者验证(AV)(两篇文档是否有相同的作者?)对许多敏感的现实生活应用至关重要。AV通常用于需要私有、离线模型的专有领域,这使得像ChatGPT这样的SOTA在线模型不受欢迎。其他SOTA系统使用的方法,如Siamese Networks,是不可解释的,因此在高风险应用中不可信任。在这项工作中,我们第一步解决以上挑战,提出了我们的模型CAVE(可控作者验证解释):CAVE生成自由文本的AV解释,这些解释受控地满足以下两个条件:1)结构化(可以分解为相关语言特征的子解释),以及2)易于验证解释-标签一致性(通过子解释中的中间标签)。在这项工作中,我们训练了一个Llama-3-8B作为CAVE;由于没有人工编写的AV解释语料库,我们从GPT-4-TURBO中采样银标准解释,并将它们蒸馏到预训练的Llama-3-8B中。在三个困难的AV数据集IMdB2、Blog-Auth和FanFiction上的结果表明,CAVE生成了高质量的解释(通过自动和人工评估衡量),以及竞争性的任务准确性。”

论文链接: https://arxiv.org/pdf/2406.16672

cs.CL: 大语言模型是跨语言无知识推理者

原标题: Large Language Models Are Cross-Lingual Knowledge-Free Reasoners

作者: Peng Hu, Sizhe Liu, Changjiang Gao, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Shujian Huang

机构: 南京大学 中国移动研究

摘要: 大语言模型展示了在多种语言中令人印象深刻的推理能力。然而,不同语言能力之间的关系较少被探索。在这项工作中,我们将推理任务的过程分解为两个独立部分:知识检索和无知识推理,并分析它们的跨语言可传递性。通过调整和构建无知识推理数据集,我们展示了尽管在某些特定目标语言中资源的次要影响,无知识推理能力几乎可以完美地在各种源目标语言方向之间传递。与此同时,跨语言知识检索显著阻碍了传递。此外,通过分析推理任务期间的隐藏状态和前馈网络神经元激活,我们展示了隐藏表示的更高相似性和激活神经元的较大重叠可以解释无知识推理的更好跨语言传递性。因此,我们假设无知识推理嵌入了某种语言共享机制,而知识则分别存储在不同的语言中。

论文链接: https://arxiv.org/pdf/2406.16655

cs.CL: 医疗背景下资源受限环境中语言模型的评估

原标题: Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings

作者: Andrea Posada, Daniel Rueckert, Felix Meissen, Philip Müller

机构: 安德烈亚·波萨达 丹尼尔·鲁克特 菲利克斯·梅森 菲利普·穆勒

摘要: 自从Transformer架构出现以来,语言模型的发展有了显著增长,受到其潜力的推动。然而,将这些模型投入生产中需要充分理解它们的行为,特别是在敏感领域如医学中。尽管存在这种需求,医学文献仍然缺乏对预训练语言模型的技术评估,这在计算资源有限或预算有限的情况下尤为重要。为填补这一空白,我们在医学领域提供了一项全面的语言模型调查。此外,我们选择了这些模型的一个子集进行深入评估,重点关注分类和文本生成任务。我们的子集包括53个模型,参数范围从1.1亿到130亿,涵盖了基于Transformer的三大模型系列,并来自不同的知识领域。本研究采用了一系列文本分类方法,以及零样本提示,而非模型训练或微调,这与许多语言模型用户面临的有限资源设置密切相关。令人鼓舞的是,我们的研究结果显示,在各种任务和数据集上表现出了显著的性能,突显了某些模型在医学知识中潜在的能力,即使没有领域专业化。因此,我们的研究主张进一步探索语言模型在医学环境中的应用,特别是在资源有限的情况下。代码可在此网址获取:https://链接。

论文链接: https://arxiv.org/pdf/2406.16611

Github: https://github.com/anpoc/Language-models-in-medicine

cs.CL: CLEAR:语言模型真的能理解因果图吗?

原标题: CLEAR: Can Language Models Really Understand Causal Graphs?

作者: Sirui Chen, Mengying Xu, Kun Wang, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Chaochao Lu

机构: 同济大学 SenseTime Group Shanghai AI Laboratory

摘要: 因果推理是人类解释世界的基石。为了对因果关系建模和推理,因果图提供了一种简洁而有效的解决方案。鉴于语言模型的显著进展,一个关键问题浮现出来:它们真的能理解因果图吗?为此,我们开展了对语言模型理解因果图的调查。具体而言,我们制定了一个框架来定义对因果图的理解,通过从不同学科(如哲学和心理学)派生出的四个实用标准来评估语言模型的行为。然后,我们开发了CLEAR,一个定义了三个复杂级别并包括20个基于这些级别的因果图任务的新基准。最后,基于我们的框架和基准,我们对六种主要的语言模型进行了广泛实验,并总结了五个实证发现。我们的结果表明,虽然语言模型表现出对因果图的初步理解,但仍存在显著的改进潜力。我们的项目网站位于这个 https URL。

论文链接: https://arxiv.org/pdf/2406.16605

Github: https://github.com/OpenCausaLab/CLEAR

cs.CL: 通过知识驱动的渐进思维提示对多轮心理对话进行数据增强

原标题: Data Augmentation of Multi-turn Psychological Dialogue via Knowledge-driven Progressive Thought Prompting

作者: Jiyue Jiang, Liheng Chen, Sheng Wang, Lingpeng Kong, Yu Li, Chuan Wu

机构: 香港大学 中国香港中文大学

摘要: 现有的对话数据增强(DA)技术主要集中在增强话语级对话,这使得很难考虑到对话的上下文信息。大语言模型(LLMs)的出现简化了多轮对话的实现。由于缺乏专业的理解和知识,在低资源领域(如心理对话)中要实现令人满意的性能仍然具有挑战性。DA涉及基于现有数据创建新的训练或提示数据,这有助于模型更好地理解和生成与心理相关的响应。本文旨在解决心理领域中多轮对话数据增强的问题,以提高性能。我们提出了一种基于知识驱动的渐进式思维提示方法,指导LLM生成多轮心理相关对话。该方法集成了渐进式思维生成器、心理知识生成器和多轮对话生成器。渐进式思维生成器生成的思维作为提示,可以防止生成的对话出现重大语义偏差,而心理知识生成器生成的心理知识作为LLM的对话历史,指导对话生成器创建多轮心理对话。为了确保LLM生成的多轮心理对话的准确性,需要进行细致的专业评估。在与心理对话相关的三个数据集上进行的大量实验验证了所提方法的有效性。

论文链接: https://arxiv.org/pdf/2406.16567

cs.CL: 在句子嵌入整体中是否有可识别的结构部分?

原标题: Are there identifiable structural parts in the sentence embedding whole?

作者: Vivi Nastase, Paola Merlo

机构: Idiap Research Institute University of Geneva

摘要: 来自Transformer模型的句子嵌入将大量语言信息编码为固定长度的向量。我们探索这样一个假设:这些嵌入由可以分离的重叠信息层组成,其中特定类型的信息(如有关块及其结构和语义属性的信息)可以被检测出来。我们通过一个包含具有已知块结构的句子的数据集以及两个语言智能数据集展示了这一点,解决这些问题依赖于检测块及其语法数目以及它们的语义角色,并通过对任务性能和学习过程中内部表示的分析来表明这一点。

论文链接: https://arxiv.org/pdf/2406.16563

cs.CL: LLaMA-MoE:从LLaMA进行持续预训练构建混合专家

原标题: LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training

作者: Tong Zhu, Xiaoye Qu, Daize Dong, Jiacheng Ruan, Jingqi Tong, Conghui He, Yu Cheng

机构: 苏州大学 上海人工智能实验室 上海交通大学 复旦大学 香港中文大学

摘要: 混合专家模型(MoE)因其作为扩展大语言模型(LLMs)的有前途的框架而日益受到欢迎。然而,在大规模设置中从头开始训练MoE仍然面临数据需求和不稳定性问题。受此限制的启发,我们研究了基于现有密集大语言模型构建MoE模型的方法。具体来说,基于知名的LLaMA-2 7B模型,我们通过以下方式获得MoE模型:(1)专家构建,将原始前馈网络(FFNs)的参数分成多个专家;(2)持续预训练,进一步训练转换后的MoE模型和额外的门控网络。本文全面探讨了不同的专家构建方法和持续预训练的各种数据采样策略。经过这些阶段,我们的LLaMA-MoE模型可以保持语言能力,并将输入令牌路由到具有部分激活参数的特定专家。经验上,通过训练200B令牌,LLaMA-MoE-3.5B模型明显优于包含类似激活参数的密集模型。源代码和模型可在此URL找到。

论文链接: https://arxiv.org/pdf/2406.16554

Github: https://github.com/pjlab-sys4nlp/llama-moe

cs.CL: C-LLM: 逐字学习检查中文拼写错误的大语言模型

原标题: C-LLM: Learn to Check Chinese Spelling Errors Character by Character

作者: Kunting Li, Yong Hu, Liang He, Fandong Meng, Jie Zhou

机构: 清华大学 腾讯公司

摘要: 汉语拼写检查(CSC)旨在检测和纠正句子中的拼写错误。尽管大语言模型(LLMs)展示出强大的能力并广泛应用于各种任务,但它们在CSC任务上的表现通常不理想。我们发现LLMs未能满足CSC任务的汉字级约束,即等长和音形相似性,导致性能瓶颈。进一步分析表明,这一问题源于标记化的粒度,因为当前的混合字符-词标记化难以满足这些汉字级约束。为解决此问题,我们提出了C-LLM,一种基于大语言模型的汉语拼写检查方法,学习逐字检查错误。字符级标记化使模型能够学习字符级对齐,有效缓解与字符级约束相关的问题。此外,CSC简化为以复制为主导和以替换为辅助的任务。在两个CSC基准测试上的实验证明,C-LLM相比现有方法平均提高了10%。具体而言,在一般场景中显示出2.1%的改进,在垂直领域场景中显著提高了12%,确立了最先进的性能。源代码可在此URL访问。

论文链接: https://arxiv.org/pdf/2406.16536

Github: https://github.com/ktlKTL/C-LLM

cs.CL: 基于 Token 的决策标准在上下文学习中表现不佳

原标题: Token-based Decision Criteria Are Suboptimal in In-context Learning

作者: Hakaze Cho, Yoshihiro Sakai, Mariko Kato, Kenshiro Tanaka, Akira Ishii, Naoya Inoue

机构: 日本高等科学技术研究所 RIKEN JAIST

摘要:在上下文学习(ICL)中,通常利用手动选择的标签令牌的概率进行分类标准。然而,我们认为,尽管通过翻译和受限旋转进行了精细的校准,但这种基于令牌的分类标准导致了次优的决策边界。为了解决这个问题,我们提出了隐藏校准(Hidden Calibration)的概念,它放弃了令牌概率,而是利用语言模型最后的隐藏状态上的最近质心分类器。具体来说,我们在隐藏状态上使用最近质心分类,将在少样本校准集中先前观察到的最近质心的类别分配给测试样本作为预测标签。我们对3个模型和10个分类数据集进行的实验表明,隐藏校准始终优于当前基于令牌的校准约20%。我们进一步的分析表明,隐藏校准找到了更好的分类标准,减少了类别间的重叠,而语言模型在示范的帮助下提供了线性可分的类内聚类,这支持了隐藏校准,并对传统的ICL提供了新的见解。

论文链接: https://arxiv.org/pdf/2406.16535

cs.CL: 评估大语言模型推理基本方向能力

原标题: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions

作者: Anthony G Cohn, Robert E Blackwell

机构: 利兹大学 图灵研究所

摘要: 我们调查了一组代表性大语言模型(LLMs)推理基数方向(CDs)的能力。为此,我们创建了两个数据集:第一个与ChatGPT共同创建,主要关注于基数方向的世界知识回忆;第二个是从一组模板生成的,全面测试LLM在特定情景下确定正确CD的能力。这些模板允许多种变化程度,如涉及代理人的运动方式,以及在第一、第二或第三人称中设置。即使在温度设定为零的情况下,我们的实验显示,尽管LLMs在较简单的数据集中表现良好,在第二个更复杂的数据集中,没有LLM能够可靠地确定正确的CD。

论文链接: https://arxiv.org/pdf/2406.16528

cs.CL: 通过非桥实体增强和预测去偏,实现更好的基于图的跨文档关系抽取

原标题: Towards Better Graph-based Cross-document Relation Extraction via Non-bridge Entity Enhancement and Prediction Debiasing

作者: Hao Yue, Shaopeng Lai, Chengyi Yang, Liang Zhang, Junfeng Yao, Jinsong Su

机构: 厦门大学 Alibaba 阿里巴巴

摘要: 跨文档关系抽取旨在预测位于不同文档中的目标实体之间的关系。在这方面,主流模型通常通过桥接实体保留有用信息,以便于关系预测,这使得模型能够精确捕捉目标实体之间的内在相互依赖关系。然而,这些研究忽略了非桥接实体,每个非桥接实体仅与一个目标实体同时出现,并为关系预测提供语义关联。此外,常用数据集CodRED包含大量NA实例,在推断过程中导致预测偏差。为解决这些问题,本文提出了一种新颖的基于图的跨文档关系抽取模型,增强了非桥接实体并进行了预测去偏置。具体而言,我们使用统一的实体图将众多非桥接实体与目标实体和桥接实体整合,建模它们之间的各种关联,然后使用图循环网络对此图进行编码。最后,我们引入了一种新的去偏置策略来校准原始的预测分布。在封闭和开放设置上的实验结果表明,我们的模型显著优于所有基线模型,包括GPT-3.5-turbo和InstructUIE,达到了最先进的性能。特别是,我们的模型在两个设置下分别获得了66.23%和55.87%的AUC分数,在自2023年12月以来的所有提交中排名第一。我们的代码可在此链接获取。

论文链接: https://arxiv.org/pdf/2406.16529

其他链接: https://codalab.lisn.upsaclay.fr/competitions/3770#results

cs.CL: 特权学生:关于多语言知识蒸馏中初始化价值的论述

原标题: The Privileged Students: On the Value of Initialization in Multilingual Knowledge Distillation

作者: Haryo Akbarianto Wibowo, Thamar Solorio, Alham Fikri Aji

机构: MBZUAI

摘要: 以下是翻译后的结果:

知识蒸馏(KD)已被证明是提高较小模型在许多自然语言处理任务中性能的成功策略。然而,大部分KD工作仅探索单语境景。本文研究了KD在多语境景中的价值。通过分析学生模型从教师模型获取多语知识的效果,我们发现了KD和模型初始化的重要性。我们提出的方法强调直接复制教师模型的权重到学生模型以增强初始化。我们的研究表明,与各种多语境景中的蒸馏过程相比,使用来自经过精调的教师模型的复制权重进行模型初始化贡献最大。此外,我们展示了有效的权重初始化即使在资源匮乏的情况下也能保持多语能力。

论文链接: https://arxiv.org/pdf/2406.16524

cs.CL: 胡萝卜与大棒:通过正面和负面反馈诱导自我动机

原标题: Carrot and Stick: Inducing Self-Motivation with Positive & Negative Feedback

作者: Jimin Sohn, Jeihee Cho, Junyong Lee, Songmu Heo, Ji-Eun Han, David R. Mortensen

机构: GIST Yonsei University Korea University KT Carnegie Mellon University USA

摘要: 积极思维被认为是自我激励的重要组成部分,涵盖教育和职场等各个实际领域。先前的研究,包括情感转移和积极重构,侧重于语言的积极一面。然而,驱使人们达成目标的自我激励尚未从计算的角度进行研究。此外,尽管积极和消极反馈都对培养自我激励至关重要,但消极反馈尚未被探索。为促进自我激励,我们提出了名为 CArrot and STICk(CASTIC)的数据集,包含12,590个句子,涵盖了5种增强自我激励的策略。我们的数据和代码可以在此处公开获取。

论文链接: https://arxiv.org/pdf/2406.16521

cs.CL: SyROCCo:利用机器学习增强系统评审

原标题: SyROCCo: Enhancing Systematic Reviews using Machine Learning

作者: Zheng Fang, Miguel Arana-Catania, Felix-Anselm van Lier, Juliana Outes Velarde, Harry Bregazzi, Mara Airoldi, Eleanor Carter, Rob Procter

机构: 华威大学 考文垂 银行机构 政府成果

摘要: 每年发表的研究成果数量庞大,使系统性审查变得越来越耗时和资源密集。本文探讨了利用机器学习技术来帮助进行系统性审查过程的方法。机器学习先前被用于可靠地对文章进行“筛选” - 即根据审阅者的纳入标准识别相关文章。然而,将机器学习技术应用于审查的后续阶段,如数据提取和证据映射,目前还处于初级阶段。因此,我们着手开发了一系列工具,用于协助对涉及“基于结果的合同”的 1,952 篇出版物进行分析和分析。为以下任务开发了工具:将出版物分配到“政策领域”类别中;识别和提取证据映射的关键信息,如组织、法律和地理信息;将证据库连接到同一主题的现有数据集;并识别可能共享主题内容的文章子组。一个使用这些技术的交互式工具和一个带有它们输出的公共数据集已发布。我们的结果表明,机器学习技术在增强系统性审查过程中的证据可访问性和分析方面的效用。这些努力显示出潜在地为未来的系统性审查带来显著效率,并扩大其分析范围的可能性。我们的工作表明,这可能会影响决策者和从业者访问证据的便利性。虽然机器学习技术似乎注定将在通过提供创新的方式从系统性审查中收集、访问和分析数据方面发挥重要作用,但我们也强调了它们目前的局限性以及在应用中需要谨慎,特别是考虑到错误和偏见的潜在可能性。

论文链接: https://arxiv.org/pdf/2406.16527

cs.CL: 大词汇量改进了大语言模型

原标题: Large Vocabulary Size Improves Large Language Models

作者: Sho Takase, Ryokan Ri, Shun Kiyono, Takuya Kato

机构: SB Intuitions

摘要: 这篇论文从实证角度研究了子词汇大小与大语言模型(LLMs)性能之间的关系,以揭示如何定义词汇大小。实验结果表明,较大的词汇大小能够提升LLMs的性能。此外,我们考虑了一个持续训练的场景,即对一个预训练语言模型在不同目标语言上进行训练。我们引入了一种简单的方法,使用新的词汇代替预定义的词汇。我们展示了使用新词汇能够优于使用预训练词汇的模型。

论文链接: https://arxiv.org/pdf/2406.16508

cs.CL: OTCE: 使用跨领域专家混合的混合SSM和注意力来构建观察者-思考者-构想者-表达者

原标题: OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser

作者: Jingze Shi, Ting Xie, Bingheng Wu, Chunjun Zheng, Kai Wang

机构: 大连东软信息学院

摘要: 最近的研究表明,在语言建模任务中,将Mamba与具有选择性状态空间和二次自注意机制的Transformer架构相结合,表现优于单独使用Mamba或Transformer架构。二次自注意机制有效缓解了选择性状态空间在处理序列中任何元素的长期依赖性方面的缺点。我们提出了一种位置信息注入方法,将选择性状态空间模型与二次注意力连接起来,并通过跨共享领域的混合专家集成这两种架构,从而享受两者的优势。我们设计了一个更具生物仿生学思想的新架构:Observer-Thinker-Conceiver-Expresser(OTCE),在小规模语言建模任务中可以与知名的中型开源语言模型竞争。

论文链接: https://arxiv.org/pdf/2406.16495

Github: https://github.com/LoserCheems/OTCE

cs.CL: eagerlearners 在 SemEval2024 任务5 中:民事诉讼中的法律论证任务

原标题: eagerlearners at SemEval2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure

作者: Hoorieh Sabzevari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi

机构: 伊朗科技大学

摘要: 这项研究调查了使用三种大型语言模型进行数据分类的零样本方法的性能,以及两种具有大型输入令牌大小的模型和两种在法律数据上预训练的模型。我们的主要数据集来自美国民事诉讼领域。它包括法律案例摘要、具体问题、潜在答案和为什么每个解决方案相关的详细解释,所有这些都来自一本面向法学生的书籍。通过比较不同的方法,我们旨在了解它们如何有效处理法律数据集中的复杂性。我们的研究结果显示,大型语言模型的零样本方法可以很好地理解复杂数据。在这些实验中,我们取得了最高的F1得分为64%。

论文链接: https://arxiv.org/pdf/2406.16490

cs.CL: 深度伪造推文的自动检测

原标题: Deepfake tweets automatic detection

作者: Adam Frej, Adrian Kaminski, Piotr Marciniak, Szymon Szmajdzinski, Soveatin Kuntur, Anna Wroblewska

机构: 华沙理工大学

摘要: 这项研究解决了检测DeepFake推文的关键挑战,利用先进的自然语言处理(NLP)技术区分真实和人工智能生成的文本。鉴于虚假信息日益普遍,我们的研究利用TweepFake数据集来训练和评估各种机器学习模型。研究的目标是识别有效的策略,以识别DeepFake内容,从而增强数字通信的完整性。通过开发可靠的方法来检测人工智能生成的虚假信息,这项工作有助于建立更值得信赖的在线信息环境。

论文链接: https://arxiv.org/pdf/2406.16489

cs.CL: EMMI – 共情多模态激励访谈数据集:分析与注释

原标题: EMMI – Empathic Multimodal Motivational Interviews Dataset: Analyses and Annotations

作者: Lucie Galland, Catherine Pelachaud, Florian Pecune

机构: 巴黎索邦大学 CNRS SANPSY 波尔多大学

摘要: 研究治疗中的多模态交互可以深入理解治疗师和患者行为,这可以用来开发支持治疗的多模态虚拟代理。本研究旨在揭示治疗师如何巧妙地融合治疗的任务目标(采用激励性访谈的经典步骤)与社会目标(建立信任关系和表达同理心)。此外,我们还试图将患者分类为需要量身定制治疗方法的不同“类型”。为此,我们呈现了模拟激励性访谈对话的多模态语料库的多模态注释,演员在其中扮演患者和治疗师角色。我们介绍了EMMI,由两个公开的MI语料库AnnoMI和激励性访谈数据集组成,我们为这些语料库添加了多模态注释。我们分析这些注释,以表征开发进行激励性访谈的虚拟代理的功能行为,重点是社交和移情行为。我们的分析发现了三类患者群体,展现出行为上的显著差异,治疗师对这些类型的患者行为进行调整的能力显示了治疗师能够根据对话中的当前情况和用户类型来调整自己的行为的重要性。

论文链接: https://arxiv.org/pdf/2406.16478

cs.CL: 评估视觉和文化解释:人类-VLM 协作下的 K-Viscuit 基准

原标题: Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration

作者: Yujin Baek, ChaeHun Park, Jaeseok Kim, Yu-Jung Heo, Du-Seong Chang, Jaegul Choo

机构: KAIST KT Corporation

摘要: 为了创建具有文化包容性的视觉语言模型(VLM),首要条件是开发一个测试基准,该基准能够诊断模型对反映文化元素的问题的响应能力。本文讨论了这类基准的必要性,指出现有研究依赖于人工标注者的手动工作,这一过程限制了多样性和效率。我们提出了一个半自动化流程,用于构建文化VLM基准,以增强多样性和效率。这一流程利用人-VLM协作,其中VLM根据指南、人工标注示例和与图像相关的知识生成问题,然后由母语人士审查其质量和文化相关性。我们通过一个具体应用——创建针对韩国文化的数据集K-Viscuit,展示了我们可适应的流程的有效性。生成的基准包括两种类型的问题:类型1问题衡量视觉识别能力,而类型2问题评估精细的视觉推理技能。这确保了对VLM模型在各个方面的全面诊断。我们使用K-Viscuit进行的评估显示,开源模型在理解韩国文化方面明显落后于专有模型,突显了改进的空间。我们对VLM在不同文化方面的性能进行了多样化的分析。此外,我们探索了整合外部知识检索以增强生成过程的潜力,提出了提高VLM文化解释能力的未来方向。我们的数据集和代码将公开发布。

论文链接: https://arxiv.org/pdf/2406.16469

cs.CL: InterCLIP-MEP:用于多模态讽刺检测的交互式CLIP和增强记忆预测器

原标题: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

作者: Junjie Chen, Subin Huang

机构: 安徽工程大学

摘要: 社交媒体中讽刺的普遍存在,通过文本-图像组合传达,给情感分析和意图挖掘带来了重大挑战。当前的多模态讽刺检测方法已被证明在处理来自虚假线索的偏见时存在困难,导致对文本和图像之间复杂互动的表面理解。为了解决这些问题,我们提出了InterCLIP-MEP,这是一个用于多模态讽刺检测的健壮框架。InterCLIP-MEP引入了CLIP的一种改进变体,交互式CLIP(InterCLIP),作为骨干,通过在每个编码器中嵌入跨模态信息来增强样本表示。此外,设计了一种新颖的训练策略,以适应InterCLIP用于记忆增强预测器(MEP)。MEP使用动态双通道内存存储测试样本的有价值的历史知识,然后利用这个内存作为非参数分类器来推导最终的预测。通过使用InterCLIP更有效地编码文本-图像交互并结合MEP,InterCLIP-MEP提供了对多模态讽刺更强大的识别能力。实验表明,InterCLIP-MEP在MMSD2.0基准测试上达到了最先进的性能。代码和数据可在[此处的链接](this https URL)获取。

论文链接: https://arxiv.org/pdf/2406.16464

Github: https://github.com/CoderChen01/InterCLIP-MEP

cs.CL: UniCoder:通过通用代码扩展大语言模型

原标题: UniCoder: Scaling Code Large Language Model via Universal Code

作者: Tao Sun, Linzheng Chai, Jian Yang, Yuwei Yin, Hongcheng Guo, Jiaheng Liu, Bing Wang, Liqun Yang, Zhoujun Li

机构: 北京航空航天大学 加拿大不列颠哥伦比亚大学

摘要: 中间推理或执行步骤成功改进了大语言模型(LLMs),以处理各种下游自然语言处理(NLP)任务。在应用LLMs进行代码生成时,最近的研究主要集中在引导模型表达中间自然语言推理步骤(如思维链(CoT)提示),然后输出带有自然语言或其他结构化中间步骤的代码。然而,由于标准的CoT具有与代码不同的逻辑结构和表达形式,因此这样的输出不适合用于代码翻译或生成任务。在本工作中,我们引入了通用代码(UniCode)作为中间表示。它是使用编程语言约定的混合描述算法步骤,如赋值操作符、条件操作符和循环。因此,我们收集了一个指令数据集UniCoder-Instruct,用于训练我们的UniCoder模型,涵盖自然语言问题、代码解决方案以及相应的通用代码。中间通用代码表示与最终代码解决方案之间的对齐显著提高了生成代码的质量。实验结果表明,带有通用代码的UniCoder在伪代码结构线索的有效性上远远优于先前的提示方法。

论文链接: https://arxiv.org/pdf/2406.16441

cs.CL: 基于高效基础:使用结构化前馈层有效训练大语言模型

原标题: Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers

作者: Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre

机构: EPFL Google

摘要: 最先进的大语言模型(LLMs)通常依赖规模来取得结果,这在计算上变得非常昂贵。这引发了一个研究议程,旨在减少这些模型的参数数量和计算成本,而不显著影响其性能。我们的研究集中在基于Transformer的大语言模型,特别是针对计算密集的前向传播网络(FFN),这部分相比注意力机制模块研究较少。我们考虑了在FFN中使用三种候选的线性层逼近方法,结合了高效的低秩和块对角矩阵。与许多先前研究不同,我们的研究:i)从零开始训练的角度探索这些结构,ii)扩展到13亿参数,iii)是在最近的基于Transformer的大语言模型中进行,而不是卷积架构。我们首先展示了在各种场景下(包括在线解码时使用预合并技术)它们可以实现实际的计算收益。此外,我们提出了一种新的训练策略,称为“自引导训练”,旨在改善这些逼近方法在初始化时表现出的差劲训练动态。对大型RefinedWeb数据集的实验表明,我们的方法在训练和推断中既高效又有效。有趣的是,这些结构化的FFN显示出比原始模型更陡的扩展曲线。进一步将自引导训练应用于结构化矩阵,带有32%的FFN参数和2.5倍的加速,在相同的训练FLOPs下仅导致了0.4的困惑度增加。最后,我们开发了宽且结构化的网络,超越了当前中型和大型Transformer在困惑度和吞吐性能上的表现。我们的代码可在\url{this https URL}获取。

论文链接: https://arxiv.org/pdf/2406.16450

Github: https://github.com/CLAIRE-Labo/StructuredFFN/tree/main

cs.CL: 多语言知识编辑与语言无关的事实神经元

原标题: Multilingual Knowledge Editing with Language-Agnostic Factual Neurons

作者: Xue zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou

机构: 北京交通大学 腾讯公司

摘要: 多语言知识编辑(MKE)旨在同时在大语言模型(LLMs)中修订多语言之间的事实知识。然而,大多数现有的MKE方法仅将现有的单语编辑方法调整为多语境情况,忽视了不同语言之间相同事实知识的深层语义连接,从而限制了编辑性能。为了解决这一问题,我们首先调查了LLMs如何表示多语言事实知识,并发现不同语言中相同的事实知识通常会激活一组共享的神经元,我们称之为语言无关事实神经元。这些神经元表示多语言知识之间的语义连接,主要位于特定的层中。受到这一发现的启发,我们提出了一种新的MKE方法,通过定位和修改语言无关事实神经元(LAFN)来同时编辑多语言知识。具体来说,我们首先为每个待编辑的多语言知识生成一组释义,以精确定位相应的语言无关事实神经元。然后,我们优化更新这些定位神经元的值,以实现对多语言中相同事实知识的同时修改。在Bi-ZsRE和MzsRE基准测试上的实验结果表明,我们的方法优于现有的MKE方法,并实现了显著的编辑性能,显示了考虑多语言知识之间语义连接的重要性。

论文链接: https://arxiv.org/pdf/2406.16416

cs.CL: 用于评估大语言模型顺序决策能力的UNO竞技场

原标题: UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models

作者: Zhanyue Qin, Haochuan Wang, Deyuan Liu, Ziyang Song, Cunhang Fan, Zhao Lv, Jinlin Wu, Zhen Lei, Zhiying Tu, Dianhui Chu, Xiaoyan Yu, Dianbo Sui

机构: 哈尔滨工业大学 安徽大学 中国科学院自动化研究所

摘要: 顺序决策指的是考虑环境动态的算法,早期决策会影响后续决策。随着大语言模型(LLMs)展示出在任务之间强大的能力,我们不禁要问:当前的LLMs能有效地进行顺序决策吗?为了回答这个问题,我们提出了基于UNO卡牌游戏的UNO竞技场,用来评估LLMs的顺序决策能力,并详细解释为什么选择UNO。在UNO竞技场中,我们动态评估LLMs的顺序决策能力,采用基于蒙特卡罗方法的新型指标。我们设立了随机玩家、基于DQN的强化学习玩家以及LLM玩家(例如GPT-4、Gemini-pro)进行比较测试。此外,为了提高LLMs的顺序决策能力,我们提出了TUTRI玩家,它可以通过游戏历史的总结和游戏策略来反映LLMs自身的行动。大量实验证明,与普通的LLM玩家相比,TUTRI玩家在顺序决策性能上取得了显著突破。

论文链接: https://arxiv.org/pdf/2406.16382

cs.CL: 关于奖励模型、参数更新和上下文提示之间的转换

原标题: On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

作者: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi

机构: 腾讯 中国人民大学 清华大学 香港中文大学 北京大学 奈良科技大学

摘要: 尽管预训练的大语言模型(LLMs)具有一般能力,它们仍然需要进一步适应以更好地服务实际应用。在本文中,我们展示了三种流行且不同的适应工具的互换性:参数更新、奖励建模和上下文提示。这种互换性建立了一个三角形框架,其中包括六个转换方向,每个方向都促进了各种应用。我们的工作提供了一个统一多个现有研究的整体视角,并提出了潜在的研究方向。我们设想我们的工作能够成为未来LLMs研究的有用路线图。

论文链接: https://arxiv.org/pdf/2406.16377

cs.CL: 学习知识增强语言表示的 KEHRL: 使用分层强化学习

原标题: KEHRL: Learning Knowledge-Enhanced Language Representations with Hierarchical Reinforcement Learning

作者: Dongyang Li, Taolin Zhang, Longtao Huang, Chengyu Wang, Xiaofeng He, Hui Xue

机构: 华东师范大学 阿里巴巴集团

摘要: 增强知识预训练语言模型(KEPLMs)利用知识图谱(KGs)中的关系三元组,并通过自监督学习将这些外部数据源整合到语言模型中。先前的研究将知识增强视为两个独立操作,即知识注入和知识整合。本文提出使用分层强化学习(KEHRL)学习增强知识语言表示,该方法同时解决了检测用于知识注入的位置和将外部知识整合到模型中的问题,以避免注入不准确或不相关的知识。具体而言,高层强化学习(RL)智能体利用内部和先验知识迭代地检测文本中用于知识注入的关键位置,从而过滤掉较少有意义的实体,避免偏离知识学习方向。一旦选择了实体位置,触发相关的三元组过滤模块执行低层RL,通过二值化操作动态地优化与多义实体相关联的三元组。实验证实了KEHRL在探索事实知识和提升模型在各种自然语言理解任务中性能的有效性。

论文链接: https://arxiv.org/pdf/2406.16374

cs.CL: UniPSDA:用于零样本跨语言自然语言理解的无监督伪语义数据增强

原标题: UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding

作者: Dongyang Li, Taolin Zhang, Jiali Deng, Longtao Huang, Chengyu Wang, Xiaofeng He, Hui Xue

机构: 华东师范大学 Alibaba Group

摘要: 跨语言表示学习将知识从资源丰富的数据转移到资源稀缺的数据,以提升不同语言的语义理解能力。然而,先前的工作依赖于浅层的无监督数据,这些数据是通过词元表面匹配生成的,而忽略了周围文本词元的全局上下文感知语义。本文提出了一种无监督的伪语义数据增强(UniPSDA)机制,用于跨语言自然语言理解,以丰富训练数据而无需人为干预。具体来说,为了在不同语言之间进行语义数据增强,我们提出了一个分三个阶段的顺序聚类过程:在单一语言内部、在同一语系的多语言之间,以及在多个语系之间的语言之间。同时,考虑到多语言知识在上下文感知语义中的注入,同时减轻计算负担,我们直接用上述学习到的多语言家族知识替换句子的关键成分,视为伪语义。通过三种去偏差技术进一步优化注入过程,而不引入任何神经参数。大量实验证明,我们的模型在一般零样本跨语言自然语言理解任务上始终提升了性能,包括序列分类、信息抽取和问题回答。

论文链接: https://arxiv.org/pdf/2406.16372

cs.CL: 评估大语言模型在故事结尾生成中的指令跟随能力

原标题: Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation

作者: Rem Hida, Junki Ohmura, Toshiyuki Sekiya

机构: 索尼集团公司

摘要: 指令调整的大语言模型(LLMs)在各种基准任务中取得了显著的性能。虽然为LLMs提供指导生成的指令用户友好,但由于缺乏评估指标,评估它们的指令遵循能力仍不明确。本文着重评估LLMs在故事结尾生成上的指令遵循能力,这需要多样化和上下文特定的指令。我们提出了一个自动评估流水线,利用机器阅读理解(MRC)模型来判断生成的故事结尾是否符合指令。我们的研究结果表明,我们提出的度量与人类评估一致。此外,我们的实验证实,最近的开源LLMs在自动评估中可以达到接近GPT-3.5的指令遵循性能。

论文链接: https://arxiv.org/pdf/2406.16356

cs.CL: EHRCon: 检查电子健康记录中非结构化笔记与结构化表格一致性的数据集

原标题: EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records

作者: Yeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi

机构: KAIST 三星医疗中心 MIT 多伦多大学

摘要: 电子健康记录(EHRs)是存储综合患者医疗记录的重要工具,结合结构化数据(例如药物)与详细的临床笔记(例如医生笔记)。这些元素对于简便的数据检索至关重要,并为深入的、情境化的患者护理洞察提供支持。然而,由于不直观的 EHR 系统设计和人为错误,它们经常存在差异,这对患者安全构成严重风险。为了解决这一问题,我们开发了 EHRCon,这是一个新的数据集和任务,专门设计用于确保 EHR 中结构化表格与非结构化笔记之间的数据一致性。EHRCon 是与医疗专业人士合作使用 MIMIC-III EHR 数据集而创建的,包括对 105 份临床笔记中的 3,943 个实体进行了手动注释,并与数据库条目进行了一致性检查。EHRCon 有两个版本,一个使用原始的 MIMIC-III 架构,另一个使用 OMOP CDM 架构,以增加其适用性和普适性。此外,利用大语言模型的能力,我们引入了 CheckEHR,这是一个验证临床笔记与数据库表格一致性的新框架。CheckEHR 使用了一个八阶段的流程,并在少样本和零样本设置下展示了有前景的结果。代码可在此链接获取。

论文链接: https://arxiv.org/pdf/2406.16341

Github: https://github.com/dustn1259/EHRCon

cs.CL: ADVSCORE:用于评估和创建对抗基准的度量标准

原标题: ADVSCORE: A Metric for the Evaluation and Creation of Adversarial Benchmarks

作者: Yoo Yeon Sung, Eve Fleisig, Ishani Mondal, Jordan Lee Boyd-Graber

机构: 马里兰大学 加州大学伯克利分校

摘要: 以下是翻译后的结果:

对抗基准通过提供能欺骗模型而不能欺骗人类的样本来验证模型的能力。然而,尽管有声称是对抗性的数据集泛滥,但并不存在一个既定的度量标准来评估这些数据集的对抗性。为了解决这一空白,我们引入了ADVSCORE,这是一个量化对抗性数据集对抗性和区分性的度量标准,并揭示使数据对抗性的特征。然后,我们使用ADVSCORE来支持一个数据集创建流程,激励编写高质量的对抗性数据集。作为概念验证,我们使用ADVSCORE从我们的流程中收集了一个对抗性问答(QA)数据集,ADVQA。ADVQA中的高质量问题在跨领域的几个对抗性基准测试中超越了三个,能欺骗多个模型但不能欺骗人类。我们根据来自四个数据集的9,347个人类响应和三个模型的预测的难度估计来验证我们的结果。此外,ADVSCORE揭示了人类撰写者用来欺骗模型(例如GPT-4)但不欺骗人类的对抗策略。通过ADVSCORE及其分析,我们提供了关于揭示语言模型漏洞和生成可靠对抗性示例的指导。

论文链接: https://arxiv.org/pdf/2406.16342

cs.CL: 剪枝通过合并:基于流形对齐的层合并压缩大语言模型

原标题: Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

作者: Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui

机构: 哈尔滨工业大学 中国科学院自动化研究所 腾讯公司 中国科技大学 山东农业大学 安徽大学

摘要: 尽管大语言模型(LLMs)在许多领域表现出色,但它们的复杂性和规模挑战了在资源有限的环境中的部署。当前的压缩技术,如参数修剪,通常无法有效利用修剪参数中的知识。为了解决这些挑战,我们提出了基于流形的知识对齐和层合并压缩(MKA),这是一种利用流形学习和归一化配对信息瓶颈(NPIB)度量来合并相似层的新方法,从而减小模型大小同时保持关键性能。我们在多个基准数据集和各种LLM上评估了MKA。我们的研究结果表明,MKA不仅保留了模型性能,而且实现了大幅度的压缩比,优于传统的修剪方法。此外,当与量化相结合时,MKA实现了更大的压缩。具体来说,在使用Llama3-8B模型的MMLU数据集上,MKA实现了43.75%的压缩比,仅减少了2.82%的性能。所提出的MKA方法为LLMs提供了一种资源高效且性能保持的模型压缩技术。

论文链接: https://arxiv.org/pdf/2406.16330

cs.CL: 模型化多变量重叠:一种衡量元音合并的方法

原标题: Modelled Multivariate Overlap: A method for measuring vowel merger

作者: Irene Smith, Morgan Sonderegger, The Spade Consortium

机构: 麦吉尔大学 Spade Consortium

摘要: 这篇论文介绍了一种量化元音重叠的新方法。以往的研究存在一个问题,即在使用来自经验分布的多变量测量和控制不平衡数据及外部因素(如使用拟合模型参数时)之间存在紧张关系。本文介绍的方法通过联合建模所有感兴趣的声学维度,并通过从模型中模拟分布来计算元音重叠的度量,解决了这一紧张关系。该方法的另一个优点是计算不确定性变得直观简单。我们在英语的四个方言中评估了该方法,针对语料库语音数据中的PIN-PEN合并现象,并发现使用模型分布来计算巴氏亲和力显著改善了结果,而多变量建模与单变量建模之间的差异则微妙而显著。

论文链接: https://arxiv.org/pdf/2406.16319

cs.CL: VLMs 注意到什么?一个用于无噪声文本图像损坏和评估的机械可解释性流程管道

原标题: What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Noise-free Text-Image Corruption and Evaluation

作者: Michal Golovanevsky, William Rudman, Vedant Palit, Ritambhara Singh, Carsten Eickhoff

机构: 布朗大学 印度理工学院哈拉格普尔分校 图宾根大学

摘要: 视觉语言模型(VLMs)由于能够整合视觉和文本输入以执行复杂任务而在社区中获得了显著关注。尽管取得了成功,这些模型的内部决策过程仍然不透明,给高风险应用带来挑战。为了解决这一问题,我们引入了NOTICE,这是第一个用于VLMs机械解释性的无噪声文本-图像损坏和评估管道。NOTICE结合了语义最小对(SMP)框架用于图像损坏和对称Token替换(STR)用于文本。这种方法能够对两种模态进行语义上有意义的因果中介分析,为像BLIP这样的模型提供了一种分析多模态整合的稳健方法。我们在SVO-Probes、MIT-States和面部表情识别数据集上的实验揭示了关于VLM决策制定的关键见解,识别出中间层交叉注意力头的重要作用。此外,我们发现了一组“通用交叉注意力头”,这些头部在任务和模态之间始终起到贡献作用,每个头部执行不同的功能,如隐式图像分割、对象抑制和异常值抑制。这项工作为更透明和可解释的多模态系统铺平了道路。

论文链接: https://arxiv.org/pdf/2406.16320

cs.CL: 跨文化对齐是否改变了语言模型的常识道德?

原标题: Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models?

作者: Yuu Jinnai

机构: CyberAgent Tokyo

摘要: 语言模型与人类偏好的对齐是使语言模型对最终用户有用的常见方法。然而,大多数对齐工作都是用英语完成的,并且人类偏好数据集主要由英语占主导,仅反映了英语标注者的偏好。尽管如此,在对齐多语言语言模型时,通常会使用英语偏好数据,要么直接使用,要么将其翻译成目标语言。问题是,这样的对齐策略是否边缘化了非英语使用者的偏好。为此,我们研究了将日语语言模型与(主要是)英语资源对齐的效果。具体而言,我们重点评估了通过使用 JCommonsenseMorality(JCM)和 ETHICS 数据集,评估调整后的模型的常识道德是否与日本文化保持一致。实验结果表明,微调后的模型优于 SFT 模型。然而,它并没有展示出与使用 JCM 进行微调的模型相同水平的改进,这表明尽管某些常识道德方面是可转移的,但其他方面可能不是。

论文链接: https://arxiv.org/pdf/2406.16316

cs.CL: 级联奖励抽样用于高效的解码时对齐

原标题: Cascade Reward Sampling for Efficient Decoding-Time Alignment

作者: Bolian Li, Yifan Wang, Ananth Grama, Ruqi Zhang

机构: 普渡大学

摘要:
对齐大语言模型(LLMs)与人类偏好对于它们的部署至关重要。最近,解码时间对齐已经成为一种有效的即插即用技术,不需要对模型参数进行精细调整。然而,生成既能获得高奖励又具有高可能性的文本仍然是一个重大挑战。现有方法通常无法生成高奖励文本,或者会产生大量的计算成本。在本文中,我们提出了级联奖励抽样(CARDS)来解决这两个问题,保证以显著低成本生成既高奖励又高可能性的文本。基于我们对奖励模型(RMs)在不完整文本上的分析和我们的观察,即高奖励前缀导致高奖励完整文本,我们使用拒绝抽样来迭代生成小的语义片段以形成这样的前缀。段长度由LLMs的预测不确定性动态确定。这种策略保证了后续生成的理想前缀,并显著减少了无效的标记重新生成和奖励模型评分次数。我们的实验表明,与基准相比,在生成效率和对齐评分方面实现了显著的提升,实现了GPT-4/Claude-3有用性评估中五倍更快的文本生成和99%的胜平局。

论文链接: https://arxiv.org/pdf/2406.16306

cs.CL: 结合监督学习和强化学习处理带有部分标签的多标签分类任务

原标题: Combining Supervised Learning and Reinforcement Learning for Multi-Label Classification Tasks with Partial Labels

作者: Zixia Jia, Junpeng Li, Shichuan Zhang, Anji Liu, Zilong Zheng

机构: 北京智能通用人工智能研究院 西湖大学 加州大学洛杉矶分校

摘要: 传统监督学习严重依赖人工标记的数据集,特别是在数据需求量大的神经网络方法中。然而,各种任务,特别是像文档级关系抽取这样的多标签任务,由于特定的领域知识和大类集的存在,完全手动标注面临挑战。因此,我们解决了多标签正-无标记学习(MLPUL)问题,只有部分正类别被标注。我们提出了部分标注分类的混合学习器(MLPAC),这是一个基于强化学习的框架,结合了探索能力和监督学习的利用能力。实验结果跨越各种任务,包括文档级关系抽取、多标签图像分类和二元正-无标记学习,展示了我们框架的泛化能力和有效性。

论文链接: https://arxiv.org/pdf/2406.16293

cs.CL: LangSuitE: 在具身文本环境中规划、控制和与大语言模型交互

原标题: LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments

作者: Zixia Jia, Mengmeng Wang, Baichen Tong, Song-Chun Zhu, Zilong Zheng

机构: 国家通用人工智能重点实验室 北京大学 清华大学

摘要: 最近,大语言模型(LLMs)在构建依赖语言描述作为输入的自主智能体方面取得了令人振奋的成就。然而,目前尚不清楚LLMs在动态交互环境中作为少样本或零样本具身智能体的表现如何。为了填补这一空白,我们引入了LangSuitE,一个多功能且无需仿真的测试平台,其中包含6个代表性的文本化具身世界中的任务。与以往基于LLM的测试平台相比,LangSuitE (i) 提供了适应多样环境的能力,而无需多个仿真引擎,(ii) 评估了智能体通过具身观察来发展“内化世界知识”的能力,以及 (iii) 允许轻松定制通信和行动策略。为了解决具身挑战,我们设计了一种新的思维链(CoT)模式,EmMem,它总结了与历史信息相关的具身状态。全面的基准测试结果展示了具身规划的挑战和见解。在语言模型背景下,LangSuitE代表了朝着建立具身通用专家的重要步骤。

论文链接: https://arxiv.org/pdf/2406.16294

cs.CL: 补偿量化误差:使权重层次化以相互补偿

原标题: Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other

作者: Yifei Gao, Jie Ou, Lei Wang, Yuting Xiao, Zhiyuan Xiang, Ruiting Dai, Jun Cheng

机构: 中国电子科技大学 深圳先进技术研究院 中国科学院 北京师范大学 天津大学

摘要: Emergent Large Language Models (LLMs)利用其非凡的性能和强大的推理能力来区分传统语言模型。然而,这些LLMs在计算资源和存储方面的开销是惊人的,因此量化问题成为一个热门话题。为了解决量化引起的精度下降问题,后训练量化方法中的两个研究方向显著突出。一种方法是使用其他权重来补偿现有的量化误差,而另一种方法是将量化困难转移到模型的其他部分。结合两者的优点,我们引入了可学习的奇异值增量(LSI)作为先进的解决方案。LSI使用奇异值分解来提取权重的奇异值,并使它们可学习,以帮助权重在激活条件下互相补偿。将LSI与现有技术结合,我们在各种量化设置中实现了最先进的性能,无论是仅权重、权重-激活还是极低比特的情况。通过释放LSI的潜力,对量化模型的高效微调不再是一个禁锢的问题。

论文链接: https://arxiv.org/pdf/2406.16299

cs.CL: PlagBench:探索大语言模型在抄袭生成和检测中的二元性

原标题: PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection

作者: Jooyoung Lee, Toshini Agrawal, Adaku Uchendu, Thai Le, Jinghui Chen, Dongwon Lee

机构: 宾夕法尼亚州立大学 印第安纳大学

摘要: 最近的文献突出了与大语言模型(LLMs)相关的学术诚信潜在风险,因为它们可以记住训练实例的部分内容,并在生成的文本中复制这些内容而没有适当的归属。此外,鉴于它们在生成高质量文本方面的能力,剽窃者可以利用LLMs生成与原创工作难以区分的逼真释义或总结。为了应对LLMs在剽窃中可能的恶意使用,我们引入了PlagBench,这是一个包含46.5K个合成剽窃案例的全面数据集,使用了三个针对指令调整的LLMs在三个写作领域生成。通过对每种剽窃类型进行精细化自动评估和人工标注,确保了PlagBench的质量。然后,我们利用我们提出的数据集评估了五个现代LLMs和三个专业剽窃检测器的剽窃检测性能。我们的研究结果显示,与Llama2和GPT-4相比,GPT-3.5倾向于生成更高质量的释义和总结。尽管LLMs在总结剽窃识别方面表现不佳,它们仍然能够超越当前商业剽窃检测器的性能。总体而言,我们的结果突显了LLMs作为强大剽窃检测工具的潜力。

论文链接: https://arxiv.org/pdf/2406.16288

cs.CL: 调查 AI 生成文本检测中提示特定快捷方式的影响

原标题: Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection

作者: Choonghyun Park, Hyuhng Joon Kim, Junyeob Kim, Youna Kim, Taeuk Kim, Hyunsoo Cho, Hwiyeol Jo, Sang-goo Lee, Kang Min Yoo

机构: 首尔国立大学 韩国汉阳大学 女子大学 纳威搜索 纳威AI实验室

摘要: 人工智能生成文本(AIGT)检测器是利用人类和常见任务的大语言模型(LLMs)文本开发的。尽管存在多种合理的提示选择,但这些数据集通常只使用有限数量的提示构建。提示变化的缺乏可能会引入特定于提示的快捷特征,这些特征存在于使用所选提示收集的数据中,但不适用于其他情况。本文分析了这种快捷方式在AIGT检测中的影响。我们提出了基于反馈的对抗指令列表优化(FAILOpt),这是一种攻击方法,通过利用特定于提示的快捷方式搜索欺骗AIGT检测器的指令。FAILOpt有效地降低了目标检测器的检测性能,与基于对抗上下文示例的其他攻击相当。我们还利用我们的方法通过减少快捷方式来增强检测器的鲁棒性。根据研究结果,我们进一步使用FAILOpt提示增强了数据集训练分类器。增强的分类器在生成模型、任务和攻击方面都表现出改进。我们的代码将在此 https URL 上提供。

论文链接: https://arxiv.org/pdf/2406.16275

Github: https://github.com/zxcvvxcz/FAILOpt

cs.CL: 大语言模型协助自然语言处理研究者:评论论文(元)审阅

原标题: LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing

作者: Jiangshu Du, Yibo Wang, Wenting Zhao, Zhongfen Deng, Shuaiqi Liu, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Ranran Zhang, Vipul Gupta, Yinghui Li, Tao Li, Fei Wang, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Jiayang Cheng, Zhaowei Wang, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li, Kangda Wei, Zihao Wang, Lu Cheng, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco, Yixin Cao, Rui Zhang, Philip S. Yu, Wenpeng Yin

机构: 芝加哥伊利诺伊大学 宾夕法尼亚州立大学 香港理工大学 清华大学 谷歌DeepMind 南加州大学 加州大学戴维斯分校 瑞士巴塞尔大学 小米AI实验室 Salesforce Research Scale AI 香港科技大学 佐治亚理工学院 加州大学圣克鲁兹分校 新加坡科技设计大学 德克萨斯A&M大学 新西兰梅西大学 利物浦大学 亚利桑那大学 复旦大学 埃默里大学

摘要: 这项工作受到两个关键趋势的驱动。一方面,大语言模型(LLMs)在写作、绘画和问答等各种生成任务中表现出了显著的多功能性,显著缩短了许多常规任务所需的时间。另一方面,研究人员的工作不仅耗时,而且需要高度专业知识,面临着越来越大的挑战,因为他们不得不花费更多时间阅读、撰写和审阅论文。这引发了一个问题:LLMs如何潜在地帮助研究人员减轻他们的沉重工作负担?

本研究聚焦于LLMs辅助自然语言处理(NLP)研究人员的主题,特别是考察LLM在协助论文(元)审阅及其可识别性方面的效果。为此,我们构建了ReviewCritique数据集,包括两类信息:(i)NLP论文(初次提交而非相机就绪)及其人工编写和LLM生成的审阅,以及(ii)每个审阅附有“不足”标签及其专家注释的相应解释,针对各个部分。利用ReviewCritique,本研究探讨了两个研究问题线索:(i)“LLMs作为审稿人”,LLMs生成的审阅在质量和可区分性方面如何与人工撰写的审阅相比?(ii)“LLMs作为元审稿人”,LLMs能多大程度上有效识别出潜在问题,例如个别论文审阅中的不足或不专业的部分?据我们所知,这是首次提供如此全面分析的工作。

论文链接: https://arxiv.org/pdf/2406.16253

cs.CL: 一千零一对:长上下文语言模型的“小说”挑战

原标题: One Thousand and One Pairs: A “novel” challenge for long-context language models

作者: Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer

机构: 麻省大学阿默斯特分校 亚伦人工智能研究所 普林斯顿大学

摘要:合成长篇大语言模型基准(例如“海量数据中的一针”)仅测试表面级别的检索能力,但长篇大语言模型在书籍长度的输入中如何检索、合成和推理信息呢?我们通过创建NoCha数据集来回答这个问题,该数据集包含1,001对最小差异的关于67部最近出版的英文虚构书籍的真假声明,这些声明由这些书籍的人类读者编写。与现有的长篇大语言模型基准相比,我们的注释员确认NoCha中的大多数对要求对整本书进行全局推理来验证。我们的实验表明,虽然人类读者轻松完成这项任务,但我们评估的十个长篇大语言模型均面临巨大挑战:没有一个开放权重模型能够超过随机机会(尽管它们在合成基准上表现出色),而GPT-4o在55.8%的准确率上取得了最高的成绩。进一步的分析显示:(1)模型在只需要句级检索而非全局推理的对上表现更好;(2)模型为其决策生成的解释通常对于正确标记的声明来说是不准确的;(3)模型在包含广泛世界构建的幻想小说书籍上表现显著较差。NoCha提出的方法允许基准数据集的演变和未来模型的轻松分析。

论文链接: https://arxiv.org/pdf/2406.16264

cs.CL: Ragnarök: TREC 2024 检索增强生成赛道的可重复使用 RAG 框架和基线

原标题: Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track

作者: Ronak Pradeep, Nandan Thakur, Sahel Sharifymoghaddam, Eric Zhang, Ryan Nguyen, Daniel Campos, Nick Craswell, Jimmy Lin

机构: 滑铁卢大学 Snowflake Inc. Microsoft

摘要: 以下是翻译后的结果:

你尝试过新的必应搜索吗?或者你可能已经尝试了谷歌AI~Overviews?这些可能听起来很熟悉,因为现代搜索堆栈最近已经演变,包括检索增强生成(RAG)系统。它们允许搜索并将实时数据整合到大语言模型(LLMs)中,以提供精明、有属性、简洁的摘要,与传统的依赖于显示排名文档列表的搜索范式形成对比。因此,鉴于这些最新进展,建立、测试、可视化和系统评估基于RAG的搜索系统的舞台至关重要。考虑到这一点,我们提出了TREC 2024 RAG赛道,以促进评估RAG系统的创新。在我们的工作中,我们阐述了我们朝着使这一赛道成为现实迈出的步骤 — 我们描述了我们的可重复使用框架Ragnarök的细节,解释了新的MS MARCO V2.1收集选择的策划,发布了赛道的开发主题,并标准化了有助于最终用户的输入/输出定义。接下来,利用Ragnarök,我们识别并提供了诸如OpenAI的GPT-4o或Cohere的Command R+之类的关键工业基线。此外,我们介绍了一个基于Web的用户界面,用于通过众包进行成对RAG系统的基准测试。我们开源了我们的Ragnarök框架和基线,以实现未来RAG系统的统一标准。

论文链接: https://arxiv.org/pdf/2406.16828

cs.CL: PISTOL: 大语言模型结构遗忘的数据集编译流水线

原标题: PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs

作者: Xinchi Qiu, William F. Shen, Yihong Chen, Nicola Cancedda, Pontus Stenetorp, Nicholas D. Lane

机构: 剑桥大学 UCL 人工智能中心 Meta

摘要: 最近,机器取消学习作为保护大语言模型中特定数据的关键措施已经出现。然而,迄今为止考虑过的大语言模型取消学习方法集中于删除独立数据点,并未考虑存储的事实之间的逻辑连接,形成隐含的知识图。为促进结构化取消学习方法的发展,这对取消学习的实际应用至关重要,我们提出了PISTOL,一个用于编制多场景数据集以评估结构化大语言模型取消学习的管道。此外,利用PISTOL合成的样本数据集,我们对Llama2-7B和Mistral-7B模型进行了四种不同取消学习方法的基准测试。这一分析有助于说明在有效和稳健地删除高度互连数据、批处理数据或偏向特定域的数据方面所面临的挑战。它还突显了预训练模型的选择如何影响取消学习性能。这项工作不仅推动了我们对当前大语言模型取消学习方法局限性的理解并提出了未来的研究方向,还为该领域的持续探索和验证提供了一个可复制的框架。

论文链接: https://arxiv.org/pdf/2406.16810

cs.CL: 超越赞/踩:解开文本到图像生成中细粒度反馈的挑战

原标题: Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation

作者: Katherine M. Collins, Najoung Kim, Yonatan Bitton, Verena Rieser, Shayegan Omidshafiei, Yushi Hu, Sherol Chen, Senjuti Dutta, Minsuk Chang, Kimin Lee, Youwei Liang, Georgina Evans, Sahil Singla, Gang Li, Adrian Weller, Junfeng He, Deepak Ramachandran, Krishnamurthy Dj Dvijotham

机构: 剑桥大学 服务现在

摘要: 人类反馈在学习和优化文本到图像生成的奖励模型中起着关键作用,但对于学习准确奖励函数时反馈应采取的最佳形式尚未得出定论。本文研究了捕捉图像质量和提示对齐中微妙区别的细粒度反馈的有效性,与传统的粗粒度反馈进行了比较(例如,赞成/反对或在一组选项之间排名)。虽然细粒度反馈很有前景,特别是对于满足不同社会偏好的系统,但我们表明证明其优于粗粒度反馈并非自动。通过对真实和合成偏好数据的实验,我们揭示了由于模型选择、反馈类型以及人类判断和计算解释之间的相互作用而构建有效模型的复杂性。我们确定了引发和利用细粒度反馈的关键挑战,促使重新评估其假定的益处和实用性。我们的发现 —— 例如,在某些设置中,对于固定预算,细粒度反馈可能导致更糟糕的模型;然而,在已知属性的受控设置中,细粒度奖励确实可以更有帮助 —— 要求仔细考虑反馈属性,并可能促使新颖的建模方法,以适当地释放细粒度反馈在野外的潜在价值。

论文链接: https://arxiv.org/pdf/2406.16807

cs.CL:OCALM: 使用语言模型进行对象中心评估

原标题: OCALM: Object-Centric Assessment with Language Models

作者: Timo Kaufmann, Jannis Blüml, Antonia Wüst, Quentin Delfosse, Kristian Kersting, Eyke Hüllermeier

机构: LMU Munich 技术大学达姆斯塔特

摘要: 正确定义奖励信号以有效训练强化学习(RL)智能体是一项具有挑战性的任务。设计平衡的客观函数,以便所需行为能够出现,需要专业知识,特别是对于复杂环境。从人类反馈学习奖励或者直接使用大语言模型(LLMs)提供奖励是有前景的替代方案,允许非专家为智能体指定目标。然而,黑盒奖励模型使得调试奖励变得困难。在这项工作中,我们提出了语言模型进行物体中心评估(OCALM),从自然语言任务描述中推导出本质可解释的RL智能体奖励函数。OCALM利用LLMs的广泛世界知识,同时利用许多环境共有的物体中心特性,推导出以关系概念为重点的奖励函数,使RL智能体能够从任务描述中推导策略。

论文链接: https://arxiv.org/pdf/2406.16748

cs.CL: 负责任的基础模型开发速查表:工具与资源评审

原标题: The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

作者: Shayne Longpre, Stella Biderman, Alon Albalak, Hailey Schoelkopf, Daniel McDuff, Sayash Kapoor, Kevin Klyman, Kyle Lo, Gabriel Ilharco, Nay San, Maribeth Rauh, Aviya Skowron, Bertie Vidgen, Laura Weidinger, Arvind Narayanan, Victor Sanh, David Adelani, Percy Liang, Rishi Bommasani, Peter Henderson, Sasha Luccioni, Yacine Jernite, Luca Soldaini

机构: MIT EleutherAI UCSB SynthLabs UW Princeton University Stanford University Harvard University Allen Institute for AI Google DeepMind ML Commons HuggingFace University College London

摘要: 基础模型开发吸引了越来越多的贡献者、科学家和应用程序开发者。为了帮助塑造负责任的开发实践,我们推出了基础模型开发速查表:这是一个包含250多个工具和资源的不断增长的集合,涵盖文本、视觉和语音等多种模态。我们借鉴了大量先前的工作,调查支持知情数据选择、处理和理解的资源(例如软件、文档、框架、指南和实用工具),精确和意识到限制的文档化成果,高效的模型训练,提前了解训练对环境的影响,谨慎评估模型的能力、风险和声明,以及负责任的模型发布、许可和部署实践。我们希望这个精心策划的资源集合能够指导更负责任的开发。策划这个列表的过程使我们能够审视人工智能开发生态系统,揭示了现有实践中关键缺失、误用或过度使用的工具。我们发现:(i)数据采集、模型评估和监控工具严重缺乏满足伦理和现实需求的功能,(ii)模型安全性、能力和环境影响的评估缺乏可重现性和透明度,(iii)文本,特别是以英语为中心的分析继续主导多语言和多模态分析,(iv)需要对系统进行评估,而不仅仅是对模型进行评估,以便在上下文中评估其能力和影响。

论文链接: https://arxiv.org/pdf/2406.16746

cs.CL: ShadowLLM: 大语言模型的基于预测的上下文稀疏性

原标题: ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models

作者: Yash Akhauri, Ahmed F AbouElhamayed, Jordan Dotzel, Zhiru Zhang, Alexander M Rush, Safeen Huda, Mohamed S Abdelfattah

机构: 哥伦比亚大学 谷歌

摘要: 高功耗和对延迟敏感的大语言模型(LLMs)部署,促使了量化和稀疏性等技术的应用。在LLMs中,上下文稀疏性是至关重要的,因为永久移除LLMs中的注意力头部或神经元可能会显著降低准确性。先前的工作尝试使用训练成预测激活幅度的神经网络来建模上下文稀疏性,这可以用于动态修剪预测激活幅度低的结构。本文超越基于幅度的修剪标准,评估了LLMs中注意力头部和神经元的重要性。我们开发了一种名为ShadowLLM的新型预测器,可以模拟LLM的行为并施加更好的稀疏模式,与先前方法相比,端到端准确性提升超过15%,而延迟不增加。ShadowLLM在速度方面比最先进的DejaVu框架提升了最多20%。这些增强在具有多达300亿参数的模型上得到了验证。我们的代码可以在\href{this https URL}{ShadowLLM}找到。

论文链接: https://arxiv.org/pdf/2406.16635

Github: https://github.com/abdelfattah-lab/shadow_llm/

cs.CL: EvalAlign: 通过监督微调的多模态大模型精确对齐评估文本到图像模型到人类注释

原标题: EvalAlign: Evaluating Text-to-Image Models through Precision Alignment of Multimodal Large Models with Supervised Fine-Tuning to Human Annotations

作者: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li

机构: 上海人工智能科学院 卡内基梅隆大学 复旦大学

摘要: 近年来文本到图像生成模型的进展显著。然而,该领域缺乏能够准确反映这些模型性能的评估指标,尤其是缺乏能够指导模型优化的细粒度指标。本文提出了EvalAlign,一种以准确性、稳定性和细粒度特征为特点的评估指标。我们的方法利用在大规模数据集上预训练的多模态大语言模型(MLLMs)的能力。我们开发了专注于图像忠实度和文本-图像对齐的评估协议。每个协议包含一组详细的细粒度说明,与具体的评分选项相关联,能够精确评估生成的图像。我们通过监督微调(SFT)MLLM,使其与人类评估判断密切一致,从而构建了一个强大的评估模型。我们在24个文本到图像生成模型上进行了全面测试,证明EvalAlign不仅提供了卓越的指标稳定性,而且与现有指标更接近人类偏好,确认了其在模型评估中的有效性和实用性。

论文链接: https://arxiv.org/pdf/2406.16562

cs.CL: 对称性质的 Christoffel 词

原标题: A Symmetry Property of Christoffel Words

作者: Yan Lanciault (LACIM), Christophe Reutenauer (LACIM)

机构: LACIM Université du Québec à Montréal

摘要: 基于梯形词理论的动机,其因子长度的基数序列是对称的,我们引入了这种对称性的双变量变体。我们表明这种对称性特征化了克里斯托费尔词,并建立了其他相关结果。

论文链接: https://arxiv.org/pdf/2406.16408

cs.CL: DaLPSR:利用降级对齐语言提示实现真实世界图像超分辨率

原标题: DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution

作者: Aiwen Jiang, Zhi Wei, Long Peng, Feiqiang Liu, Wenbo Li, Mingwen Wang

机构: 清华大学 计算机科学与技术系 哈工大 计算机科学与技术系

摘要: 图像超分辨率追求为低分辨率图像重建高保真高分辨率对应物。近年来,基于扩散的模型因其具备丰富的先验知识而受到重视。基于一般文本提示的扩散模型的成功验证了文本到图像领域中文本控制的有效性。然而,由于低分辨率图像普遍存在严重降级问题,加上扩散模型的随机特性,当前模型往往难以充分辨识严重降级图像中的语义和降级信息。这经常导致语义丢失、视觉伪影和视觉幻觉等障碍,对实际应用构成重大挑战。为解决这些挑战,本文提议利用与降级对齐的语言提示进行精确、细粒度和高保真度的图像恢复。探索包括语义内容描述和降级提示在内的互补先验。具体而言,一方面,提出了图像恢复提示对齐解码器,自动识别低分辨率图像的降级程度,从而为图像恢复生成有益的降级先验。另一方面,来自预训练的多模态大语言模型的丰富定制描述,唤起与人类感知紧密对齐的高级语义先验,确保图像恢复的保真度控制。在几个流行的合成和真实世界基准数据集上进行了与最先进方法的全面比较。定量和定性分析表明,所提出的方法在感知质量水平上实现了新的最先进水平,特别是在基于无参考度量的真实世界案例中。

论文链接: https://arxiv.org/pdf/2406.16477

cs.CL: 表格数据的异常检测使用LLM

原标题: Anomaly Detection of Tabular Data Using LLMs

作者: Aodong Li, Yunhan Zhao, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt

机构: 加州大学欧文分校 Bosch AI中心 RPTU凯撒斯劳滕-兰瑙

摘要: 大语言模型(LLMs)已经展示了它们在长文本理解和数学推理中的潜力。在本文中,我们研究了使用LLMs来检测表格异常的问题,并表明预训练的LLMs可以作为零样本批级异常检测器。也就是说,在没有额外的特定分布模型拟合的情况下,它们可以发现数据批次中的隐藏异常值,展示了它们识别低密度数据区域的能力。对于那些与异常检测不太对齐且经常输出事实错误的LLMs,我们应用简单而有效的数据生成过程来模拟合成批级异常检测数据集,并提出了端到端的微调策略,以发挥LLMs在检测真实异常方面的潜力。在大规模异常检测基准(ODDS)上的实验证明了:i)GPT-4在与基于传导学习的异常检测方法的性能相媲美;ii)我们合成数据集和微调策略在将LLMs对齐到这一任务中的功效。

论文链接: https://arxiv.org/pdf/2406.16308

cs.CL: 歌曲数据清洗用于端到端神经歌手分割的神经分析与合成框架

原标题: Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework

作者: Hokuto Munakata, Ryo Terashima, Yusuke Fujita

机构: LY Corporation

摘要: 我们提出了一种数据清洗方法,利用神经分析和合成(NANSY++)框架训练端到端的神经对话化模型(EEND)用于歌手对话化。我们提出的模型将流行音乐中常见的合唱部分转换为适合生成模拟数据集的独唱数据。这种清洗基于NANSY++,该框架经过训练能够重构输入的非重叠音频信号。我们利用预训练的NANSY++将合唱转换为干净、非重叠的音频。这一清洗过程减少了合唱误标记为独唱的情况,并有助于有效训练EEND模型,即使大多数可用的歌曲数据包含合唱部分。我们通过使用我们提出的方法训练的数据集评估了EEND模型,使用了标注的流行二重唱歌曲。结果显示,我们提出的方法在对话化错误率上提高了14.8个百分点。

论文链接: https://arxiv.org/pdf/2406.16315

cs.CL: DemoRank: 在排名任务中为大语言模型选择有效演示

原标题: DemoRank: Selecting Effective Demonstrations for Large Language Models in Ranking Task

作者: Wenhan Liu, Yutao Zhu, Zhicheng Dou

摘要: 最近,越来越多的研究对将大语言模型(LLMs)应用为零样本段落排名器表现出了兴趣。然而,少量研究探讨了如何为段落排名任务选择适当的上下文演示,这正是本文的重点。先前的研究主要应用演示检索器来检索演示,并使用前 k k k 个演示进行上下文学习(ICL)。尽管有效,这种方法忽视了演示之间的依赖关系,导致少样本ICL在段落排名任务中表现不佳。本文将演示选择形式化为“检索然后重新排名”的过程,并引入DemoRank框架。在这个框架中,我们首先利用LLM反馈训练演示检索器,并构建新颖的依赖感知训练样本,用于训练演示重新排名器以改进少样本ICL。这些训练样本的构建不仅考虑了演示之间的依赖关系,而且在执行上也非常高效。大量实验证明了DemoRank在领域内场景中的有效性,以及对领域外场景的强大泛化能力。我们的代码可在该网址获取:\url{this https URL}。

论文链接: https://arxiv.org/pdf/2406.16332

Github: https://github.com/8421BCD/DemoRank

cs.CL: 自信度调节神经元在语言模型中

原标题: Confidence Regulation Neurons in Language Models

作者: Alessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda

机构: ETH苏黎世 技术大学 斯德哥尔摩大学

摘要: 尽管它们被广泛使用,但大语言模型(LLMs)在表示和调节下一个标记预测中的不确定性机制仍然大多未被探索。本研究调查了两个被认为影响此不确定性的关键组件:最近发现的熵神经元和我们称之为标记频率神经元的新组件集。熵神经元以异常高的权重范数为特征,并影响最终层归一化(LayerNorm)的尺度,从而有效地降低对数。我们的工作表明,熵神经元通过写入未嵌入的空间来操作,使其能够影响残余流的范数,但对对数本身的直接影响最小。我们观察到熵神经元存在于一系列模型中,包括多达70亿参数的模型。另一方面,我们在此首次发现并描述的标记频率神经元,根据其对数频率比例增强或抑制每个标记的对数,从而使输出分布向或远离单个词分布移动。最后,我们呈现了一个详细的案例研究,展示了熵神经元在归纳设置中积极管理置信度的情况,即检测和继续重复的子序列。

论文链接: https://arxiv.org/pdf/2406.16254

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值