2024年7月23日Arxiv语言模型相关论文

J-CHAT:用于口语对话语言建模的日语大规模口语对话语料库

原标题: J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling

作者: Wataru Nakata, Kentaro Seki, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari

机构: 东京大学 慶應義塾大学

摘要: 口语对话在人工智能交互中起着至关重要的作用,这需要以对话为导向的口语语言模型(SLMs)。为了开发多功能的SLMs,大规模和多样化的语音数据集至关重要。此外,为了确保高质量的语音生成,数据必须是 spontaneou,就像野外数据一样,并且必须经过去噪处理以保持声学清晰。尽管有这一关键需求,但尚无符合所有这些标准的开源语料库可用。本研究通过构建并发布一个大规模口语对话语料库,名为日语人机对话语料库(J-CHAT),以填补这一空白,该语料库可公开访问。此外,本文提出了一种语言无关的语料库构建方法,并描述了使用在J-CHAT上训练的SLMs进行对话生成的实验。实验结果表明,通过我们的方法从多个领域收集的数据提高了对话生成的自然性和意义。

论文链接: https://arxiv.org/abs/2407.15828

dMel:简化语音标记化

原标题: dMel: Speech Tokenization made Simple

作者: He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly

机构: 苹果公司

摘要: 大语言模型通过利用大量文本数据上的自监督预训练,彻底改变了自然语言处理。受到这一成功的启发,研究人员已经开始研究复杂的语音标记方法,以离散化连续语音信号,使语言建模技术可以应用于语音数据。然而,现有方法要么建模语义标记,可能会丢失声学信息,要么建模声学标记,可能会丢失语义信息。同时,拥有多种标记类型也会使架构变得复杂,并需要额外的预训练。在这里,我们展示将梅尔滤波器通道离散化为离散强度区间产生了一个简单的表示(dMel),比其他现有的语音标记方法表现更好。我们使用仅有Transformer解码器的架构进行语音-文本建模,在语音识别(ASR)、语音合成(TTS)上全面评估不同的语音标记方法。我们的结果表明,dMel在统一框架内在这两个任务上取得了高性能,为语音和文本的高效联合建模铺平了道路。

论文链接: https://arxiv.org/abs/2407.15835

语言模型和人类对语言不确定性的感知

原标题: Perceptions of Linguistic Uncertainty by Language Models and Humans

作者: Catarina G Belem, Markelle Kelly, Mark Steyvers, Sameer Singh, Padhraic Smyth

机构: 加州大学欧文分校 认知科学系 计算机科学系

摘要: 人类语言中普遍存在诸如“可能”或“极不可能”等不确定性表达。尽管先前的研究已经确定人类在解释这些表达方面存在着人群层面的一致性,但对于语言模型解释这类表达的能力却鲜有探讨。在本文中,我们研究了语言模型如何将不确定性的语言表达映射到数值响应上。我们的方法评估了语言模型在这一设置中是否能运用心灵理论:独立于模型对该语句的确定性,理解另一智能体对特定语句的不确定性。我们对人类和10个流行的语言模型在一个旨在评估这些能力的任务上进行了评估。令人意外的是,我们发现其中有8个模型能够以类似人类的方式将不确定性表达映射到概率性响应上。然而,我们观察到,根据语句的真假,行为会有系统性的不同。这种敏感性表明,与人类相比,语言模型更容易受到基于其先验知识的偏见影响。这些发现提出了重要问题,并对人类-人工智能对齐和人工智能-人工智能交流产生了广泛的影响。

论文链接: https://arxiv.org/abs/2407.15814

OMoS-QA:一个用于德国移民背景下跨语言抽取式问答的数据集

原标题: OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context

作者: Steffen Kleinle, Jakob Prange, Annemarie Friedrich

机构: 奥格斯堡大学 Tür an Tür Digitalfabrik GmbH

摘要: 在移民到一个新国家时,很容易感到在获取关于财务支持、住房、学校、语言课程和其他问题的信息方面感到不知所措。如果搬迁是仓促甚至是被迫的,那么对这些问题需要高质量答案的需求就更加迫切。官方移民顾问通常预约已满,而在线系统可以引导新移民找到所需信息或合适的咨询服务。

为此,我们提出了OMoS-QA,这是一个包含德语和英语问题、相关可信文件和手动注释答案配对的数据集,专门针对这种情况。问题是使用开源大语言模型(LLM)自动生成的,答案句子是由具有高一致性的众包工作者选择的。利用我们的数据,我们对5个预训练的LLM在德语和英语的抽取式问答(QA)任务进行了比较。在所有模型和两种语言中,我们发现在选择答案句子方面具有高精确度和低至中等召回率,这是一个有利的权衡,可以避免误导用户。即使问题语言与文件语言不匹配,这种表现也能保持。在确定给定上下文中无法回答的问题时,两种语言之间存在较大差异。

论文链接: https://arxiv.org/abs/2407.15736

从财经新闻中提取结构化见解:一种增强的大语言模型驱动方法

原标题: Extracting Structured Insights from Financial News: An Augmented LLM Driven Approach

作者: Rian Dolphin, Joe Dursun, Jonathan Chow, Jarrett Blankenship, Katie Adams, Quinton Pike

机构: Polygon.io

摘要: 金融新闻在金融领域的决策过程中发挥着至关重要的作用,然而将这些信息高效处理成结构化格式仍然具有挑战性。本文提出了一种利用大语言模型(LLMs)的金融新闻处理新方法,以克服先前阻碍从非结构化金融新闻中提取结构化数据的限制。我们介绍了一个系统,从原始新闻文章内容中提取相关公司股票代码,对公司级别进行情绪分析,并生成摘要,所有这些都不依赖于预先结构化的数据源。我们的方法结合了LLMs的生成能力和最近的提示技术,配合一个使用定制字符串相似性方法的强大验证框架。在一个包含5530篇金融新闻文章的数据集上进行评估,证明了我们方法的有效性,与当前数据提供者相比,90%的文章没有漏掉任何股票代码,22%的文章具有额外相关的股票代码。除了本文外,该方法已经在规模上实施,并通过实时更新的API端点提供处理后的数据,其中包含最新新闻。据我们所知,我们是第一个提供来自新闻文章的精细化、按公司进行情绪分析的数据提供者,增强了市场参与者可获得信息的深度。我们还发布了包含5530篇处理过的文章的评估数据集作为静态文件,希望这将促进进一步利用金融新闻进行研究。

论文链接: https://arxiv.org/abs/2407.15788

大语言模型具有组合能力吗?对其局限性和可扩展性的调查

原标题: Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability

作者: Zhuoyan Xu, Zhenmei Shi, Yingyu Liang

机构: 威斯康星大学麦迪逊分校

摘要: 大语言模型(LLMs)已经成为许多人工智能问题的强大工具,并展现出出色的上下文学习(ICL)能力。组合能力,解决结合两个或多个简单任务的未见复杂任务,是通用人工智能的重要推理能力。尽管大语言模型取得了巨大成功,但它们如何处理组合任务,特别是在预训练阶段未遇到的任务,仍然是一个未解之谜,大部分尚未被理解。在这项研究中,我们深入探讨了大语言模型在组合任务上的上下文学习能力,只使用简单任务作为上下文示例。我们开发了一个包含语言和逻辑挑战的组合任务测试套件,并在不同的大语言模型系列上进行了实证研究。我们观察到模型表现出不同的行为:(1)对于应用不同映射机制到不同输入部分的较简单的组合任务,模型展现出相当的组合能力,而扩大模型规模会增强这种能力;(2)对于涉及推理多个步骤的更复杂的组合任务,其中每个步骤代表一个任务,模型通常表现不佳,扩大规模通常不会带来改进。我们在简化的设置中提供了理论分析,解释了当任务分别处理不同的输入部分时,模型表现出组合能力。我们相信我们的工作为了解大语言模型在解决组合任务中的能力,尤其是关于任务性质和模型规模的方面,带来了新的启示。我们的数据集和代码可在{\url{this https URL}}上获得。

论文链接: https://arxiv.org/abs/2407.15720

Github: https://github.com/OliverXUZY/LLM_Compose

DStruct2Design:数据和基准数据结构驱动生成式平面设计。

原标题: DStruct2Design: Data and Benchmarks for Data Structure Driven Generative Floor Plan Design

作者: Zhi Hao Luo, Luis Lara, Ge Ya Luo, Florian Golemo, Christopher Beckham, Christopher Pal

机构: 蒙特利尔大学、蒙特利尔人工智能学院(Canada CIFAR AI Chair)

摘要: 文本条件生成模型对图像产生了令人印象深刻的结果。文本条件的平面图生成作为一种特殊类型的光栅图像生成任务也受到了特别关注。然而,在平面图生成中有许多用例,生成结果的数值属性比美学更重要。例如,有人可能希望在平面图中为某些房间指定尺寸,并将生成的平面图与给定规格进行比较。当前的方法、数据集和常用评估并不支持这些约束。因此,一个吸引人的策略是生成一个包含平面图数值属性的中间数据结构,该数据结构可用于生成最终的平面图像。为了探索这一设置,我们(1)使用两个流行的基于图像的平面图数据集 RPLAN 和 ProcTHOR-10k 构建了一个新的数据集,用于数据结构到数据结构的平面图生成表述,并提供工具将进一步通过程序生成的 ProcTHOR 平面图数据转换为我们的格式。(2)我们探讨了在给定部分或完整约束集的情况下的平面图生成任务,并设计了一系列指标和基准,以评估模型生成的样本如何遵守约束条件。(3)我们通过微调一个大语言模型(LLM),Llama3,创建了多个基准,并展示了使用平面图数据结构条件的LLM来解决平面图生成问题并遵守数值约束的可行性。我们希望我们的新数据集和基准能够鼓励进一步研究不同的方法,以改善LLM和其他生成建模技术在生成设计时只部分指定数量约束但必须遵守的性能。

论文链接: https://arxiv.org/abs/2407.15723

AssistantBench:网络智能体能解决现实且耗时的任务吗?

原标题: AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

作者: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant

机构: 特拉维夫大学 宾夕法尼亚大学 华盛顿大学 普林斯顿大学 AI艾伦研究所

摘要: 建立在语言模型(LMs)之上的语言智能体是可以与复杂环境(如开放网络)进行交互的系统。在这项工作中,我们研究这样的智能体是否能够在网络上执行现实且耗时的任务,例如监控房地产市场或查找相关的附近企业。我们引入了AssistantBench,这是一个包含214个现实任务的具有挑战性的新基准,可以自动评估,涵盖不同的场景和领域。我们发现,AssistantBench揭示了当前系统的局限性,包括语言模型和检索增强语言模型,因为没有模型达到超过25分的准确度。尽管闭卷LMs表现良好,但它们表现出较低的精度,因为它们倾向于产生幻觉事实。最先进的网络智能体得分接近零。此外,我们引入了SeePlanAct(SPA),这是一个新的网络智能体,明显优于先前的智能体,SPA和闭卷模型的集成达到了最佳的整体性能。此外,我们分析了当前系统的失败,并强调网络导航仍然是一个重大挑战。

论文链接: https://arxiv.org/abs/2407.15711

反向图灵测试( C T 2 CT^2 CT2):研究用于印地语的AI生成文本检测——基于印地语AI可检测性指数( A D I h i ADI_{hi} ADIhi)对LLM进行排名

原标题: Counter Turing Test ( C T 2 CT^2 CT2): Investigating AI-Generated Text Detection for Hindi – Ranking LLMs based on Hindi AI Detectability Index ( A D I h i ADI_{hi} ADIhi)

作者: Ishan Kavathekar, Anku Rani, Ashmit Chamoli, Ponnurangam Kumaraguru, Amit Sheth, Amitava Das

机构: 国际信息技术学院,海得拉巴 南卡罗来纳大学人工智能研究所

摘要: 大语言模型(LLMs)的广泛应用以及对多语言LLMs的关注引发了人们对AI生成文本误用可能带来的潜在风险和后果的担忧,这需要增加警惕。虽然这些模型主要是针对英语进行训练的,但它们在涵盖几乎整个网络的大量数据集上进行了广泛训练,使它们具备了在许多其他语言中表现良好的能力。AI生成文本检测(AGTD)已经成为一个受到研究立即关注的话题,一些最初的方法已经被提出,很快出现了绕过检测的技术。在本文中,我们报告了我们对印地语的AGTD的调查。我们的主要贡献有四个方面:i)检查了26个LLMs,评估它们生成印地语文本的能力,ii)引入了印地语AI生成新闻文章( A G h i AG_{hi} AGhi)数据集,iii)评估了五种最近提出的AGTD技术的有效性:ConDA、J-Guard、RADAR、RAIDAR和内在维度估计,用于检测AI生成的印地语文本,iv)提出了印地语AI可检测性指数( A D I h i ADI_{hi} ADIhi),显示了一个理解印地语中AI生成文本流畅度不断发展的范围。我们将提供代码和数据集以鼓励进一步研究。

论文链接: https://arxiv.org/abs/2407.15694

心理测量学对齐:通过语言模型捕捉人类知识分布

原标题: Psychometric Alignment: Capturing Human Knowledge Distributions via Language Models

作者: Joy He-Yueya, Wanjing Anya Ma, Kanishk Gandhi, Benjamin W. Domingue, Emma Brunskill, Noah D. Goodman

机构: 斯坦福大学

摘要: 语言模型(LMs)越来越被用来模拟人类的回复,在准确模仿人群行为以指导决策的场景中,比如开发教育材料和设计公共政策。这些模拟的目标是让LMs捕捉人类回复的变化,而不仅仅是提供预期的正确答案。先前的研究表明,LMs经常生成不切实际地准确的回复,但尚未建立度量标准来量化LMs的知识分布与人类知识分布之间的接近程度。为了解决这个问题,我们引入了“心理测量对齐”,这是一种衡量LMs反映人类知识分布程度的度量标准。评估这种对齐涉及从LMs和人类那里收集对同一组测试项目的回复,并使用项目反应理论来分析两组之间项目功能的差异。我们证明了我们的度量标准可以捕捉传统度量标准无法捕捉的人群中的重要变化。我们将这一度量标准应用于评估现有的LMs在三个现实领域中与人类知识分布的对齐情况。我们发现LMs与人类群体之间存在显著的不对齐,尽管使用基于人物的提示可以改善对齐情况。有趣的是,较小的LMs往往比较大的LMs实现更好的心理测量对齐。此外,将LMs训练在目标分布的人类响应数据上可以增强它们在未见测试项目上的心理测量对齐,但这种训练的有效性在不同领域之间有所不同。

论文链接: https://arxiv.org/abs/2407.15645

GPT-4能否学习分析研究文章摘要中的动作?

原标题: Can GPT-4 learn to analyze moves in research article abstracts?

作者: Danni Yu, Marina Bondi, Ken Hylannd

机构: 北京外国语大学 摩德纳和雷焦埃米利亚大学 东安格利亚大学

摘要: 在书面话语分析中,一个强大而持久的观念是,体裁可以根据构成作者目的的举措来描述。大量研究试图确定这些独特的交际行为,但分析受到主观性、可靠性和需要多个编码者确认分析的耗时需求等问题的困扰。在本文中,我们利用GPT-4的优势,通过使用自然语言提示来自动化注释过程。我们专注于四本应用语言学期刊中的文章摘要,设计了能够使模型有效识别举措的提示。这些提示的注释输出由两名评估者评估,第三名评估者解决分歧。结果显示,一个包含8个示例的提示比使用两个示例的提示更有效,证实了包含说明变异区域的示例可以增强GPT-4识别单个句子中的多个举措的能力,并减少与文本位置相关的偏见。我们建议,当具有特定领域语言学专业知识的人类参与提示过程时,GPT-4在自动化此注释过程方面具有相当大的潜力。

论文链接: https://arxiv.org/abs/2407.15612

StylusAI:用于稳健德语手写文本生成的风格适应

原标题: StylusAI: Stylistic Adaptation for Robust German Handwritten Text Generation

作者: Nauman Riaz, Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed

机构: 德国人工智能研究中心(DFKI) 智能数据与知识服务(SDS) 深度阅读者有限公司

摘要: 在这项研究中,我们介绍了 StylusAI,这是一种利用扩散模型在手写风格生成领域的新型架构。StylusAI专门设计用于将一种语言的书写风格的风格细微差异融入另一种语言中,特别是将英语书写风格融入德语书写系统的背景中。这种方法使得能够生成英语书写风格的德语文本,以及德语书写风格的英语文本,丰富了机器生成的手写多样性,同时确保生成的文本在两种语言中都保持可读性。为了支持 StylusAI 的开发和评估,我们提出了“Deutscher Handschriften-Datensatz”(DHSD),这是一个包含德语语言中 37 种不同书写风格的全面数据集。该数据集为手写文本生成领域的训练和基准测试提供了基础资源。我们的结果表明,StylusAI 不仅引入了一种新的手写文本生成风格适应方法,而且在生成提高文本质量和风格忠实度的手写样本方面超越了现有模型,这一点在其在 IAM 数据库和我们新提出的 DHSD 上的表现得到了证明。因此,StylusAI 代表了手写风格生成领域的重大进展,为未来研究和在具有相似脚本的语言中进行跨语言风格适应的应用提供了有前途的途径。

论文链接: https://arxiv.org/abs/2407.15608

通过联合建模实体和关系文本进行无监督鲁棒的跨语言实体对齐

原标题: Unsupervised Robust Cross-Lingual Entity Alignment via Joint Modeling of Entity and Relation Texts

作者: Soojin Yoon, Sungho Ko, Tongyoung Kim, SeongKu Kang, Jinyoung Yeo, Dongha Lee

机构: 延世大学 美国伊利诺伊大学

摘要: 跨语言实体对齐(EA)使得能够整合不同语言的多个知识图谱(KGs),为用户提供对多样化和全面知识的无缝访问。现有方法大多是监督学习,面临着获取标记实体对的挑战。为了解决这个问题,最近的研究已经转向自监督和无监督框架。尽管这些方法有效,但存在一些局限性:(1)它们主要关注实体特征,忽略了关系的语义信息,(2)它们假设源图和目标图之间同构,导致噪声和对齐准确性降低,(3)它们容易受到文本特征中的噪声影响,特别是在遇到不一致的翻译或者词汇外问题时。

在本文中,我们提出了ERAlign,一个无监督且稳健的跨语言EA框架,通过使用关系和实体的语义文本特征,联合执行实体级和关系级对齐。其精炼过程通过基于邻居三元组匹配融合实体级和关系级对齐,迭代地增强结果。额外的验证过程检查实体的邻居三元组作为线性化文本。这个“对齐和验证”流程严格评估对齐结果,即使在存在实体文本特征嘈杂的情况下也能实现几乎完美的对齐。我们的广泛实验证明了所提出的ERAlign框架的稳健性和普适性,提高了EA任务的准确性和有效性,对知识导向应用做出了重要贡献。

论文链接: https://arxiv.org/abs/2407.15588

RadioRAG:使用动态检索增强生成的大型语言模型在放射学中进行增强诊断

原标题: RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation

作者: Soroosh Tayebi Arasteh, Mahshad Lotfinia, Keno Bressem, Robert Siepmann, Dyke Ferber, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn

机构: Department of Diagnostic and Interventional Radiology, University Hospital RWTH Aachen
RWTH Aachen University
Charité – Universitätsmedizin Berlin

摘要: 大语言模型(LLMs)在医学人工智能领域取得了进展。然而,LLMs经常基于静态训练数据生成过时或不准确的信息。检索增强生成(RAG)通过整合外部数据源来缓解这一问题。虽然先前的RAG系统使用预先组装的固定数据库,灵活性有限,但我们开发了放射学RAG(RadioRAG)作为一个端到端框架,可以实时从权威放射学在线来源检索数据。RadioRAG使用专门的放射学问答数据集(RadioQA)进行评估。我们评估了各种LLMs在回答放射学特定问题时的诊断准确性,包括是否通过RAG获得额外的在线信息。使用RSNA病例集中跨放射学专业的80个问题和24个额外的专家策划问题,其中正确的标准答案可用,LLMs(GPT-3.5-turbo、GPT-4、Mistral-7B、Mixtral-8x7B和Llama3 [8B和70B])在有或没有RadioRAG的情况下被提示。RadioRAG实时从http URL中检索特定上下文信息,并将其整合到回复中。RadioRAG在所有LLMs中始终提高了诊断准确性,相对提高范围从2%到54%不等。在放射学专业中,特别是在乳腺成像和急诊放射学中,它与没有RAG的问题回答相匹配或超过。然而,各模型的改进程度有所不同;GPT-3.5-turbo和Mixtral-8x7B-instruct-v0.1取得了显著进展,而Mistral-7B-instruct-v0.2没有改进,突显了其有效性的变化。当提供领域特定数据时,LLMs受益。对于放射学而言,RadioRAG建立了一个强大的框架,显著提高了放射学问题回答中的诊断准确性和事实性。

论文链接: https://arxiv.org/abs/2407.15621

其他链接: http://www.radiopaedia.org

一项关于“链式思维”的检索增强生成的实证研究

原标题: An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought

作者: Yuetong Zhao, Hongyu Cao, Xianyu Zhao, Zhijian Ou

机构: 清华大学 TasiTech

摘要: 自2022年底推出ChatGPT以来,以ChatGPT为代表的生成式对话模型迅速成为日常生活中不可或缺的工具。随着用户期望的增加,增强生成式对话模型解决复杂问题的能力已成为当前研究的焦点。本文深入探讨了RAFT(Retrieval Augmented Fine-Tuning)方法在提高生成式对话模型性能方面的有效性。RAFT将思维链与模型监督微调(SFT)和检索增强生成(RAG)相结合,显著增强了模型的信息提取和逻辑推理能力。我们在多个数据集上评估了RAFT方法,并分析了它在各种推理任务中的表现,包括长格式问答和短格式问答任务,中英文任务,支持性和比较性推理任务。值得注意的是,它解决了先前研究中关于长格式问答任务和中文数据集的差距。此外,我们还评估了RAFT方法中思维链(CoT)的好处。这项工作为致力于提升生成式对话模型性能的研究提供了宝贵的见解。

论文链接: https://arxiv.org/abs/2407.15569

补偿量化误差:量化模型是好奇的学习者

原标题: Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners

作者: Yifei Gao, Jie Ou, Lei Wang, Fanhua Shang, Jaji Wu, Jun Cheng

机构: 电子科技大学 深圳高等研究院 中国科学院 天津大学 西安电子科技大学

摘要: 大语言模型(LLMs)展示了出色的性能和强大的演绎能力,然而它们庞大的体积使部署变得复杂,并由于大量资源消耗而引发环境担忧。最近开发的一种量化技术,称为可学习奇异值增量(LSI),已经解决了一些量化挑战。借鉴LSI的见解和我们的广泛研究,我们开发了创新方法,增强了量化LLMs的性能,特别是在低比特设置下。我们的方法在各种量化场景中始终提供最先进的结果,并深入理论洞察量化过程,阐明了量化模型在广泛应用中的潜力。

论文链接: https://arxiv.org/abs/2407.15508

SETTP:通过双层可转移提示学习进行风格提取和可调推理

原标题: SETTP: Style Extraction and Tunable Inference via Dual-level Transferable Prompt Learning

作者: Chunzhen Jin, Yongfeng Huang, Yaqi Wang, Peng Cao, Osmar Zaiane

机构: 东北大学 计算机科学与工程 中国 香港中文大学 国家工业智能与系统优化前沿科学中心 阿尔伯塔大学 加拿大

摘要: 文本风格转换是自然语言处理中的一个重要研究方向,旨在使文本适应各种偏好,但往往在资源有限的情况下面临挑战。在这项工作中,我们引入了一种名为“Style Extraction and Tunable Inference via Dual-level Transferable Prompt Learning(SETTP)”的新颖方法,用于在低资源场景中实现有效的风格转换。首先,SETTP从高资源风格转换中学习包含基本风格特征的源风格级提示。在训练过程中,通过注意力模块将源风格级提示转移,以得出有益的知识提供,用于低资源风格转换中的目标风格级提示。此外,我们提出了通过基于语义内容对目标资源进行聚类获得的实例级提示,以减少语义偏差。我们还提出了一种基于与人类评估的对齐的风格相似度的自动化评估方法,使用ChatGPT-4。我们在涉及稀缺数据的写作风格和角色风格等三种资源丰富的风格上进行的实验表明,SETTP仅需要1/20的数据量即可实现与最先进方法相媲美的性能。在涉及稀缺数据的任务中,如写作风格和角色风格,SETTP的表现优于先前方法16.24%。

论文链接: https://arxiv.org/abs/2407.15556

从模型校准的角度优化中文拼写纠正的语料库

原标题: Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction

作者: Dingyao Yu, Yang An, Wei Ye, Xiongfeng Xiao, Shaoguang Mao, Tao Ge, Shikun Zhang

机构: 北京大学 微软亚洲研究院

摘要: 中文拼写纠正(CSC)通常缺乏大规模高质量的语料库,这是因为在现实生活中人类书写或打字场景中,拼写错误的标注需要耗费大量人力。目前广泛采用两种数据增强方法:(1)在混淆集的指导下进行\textit{随机替换},以及(2)基于OCR/ASR的生成,模拟字符误用。然而,这两种方法都不可避免地引入嘈杂数据(例如,错误的拼写错误),可能导致过度校正。通过仔细分析这两种类型的语料库,我们发现尽管后者实现了更强大的泛化性能,但前者产生了更好校准的CSC模型。然后,我们根据这一经验观察提出了一个理论分析,提出了一种语料库精炼策略。具体而言,将基于OCR/ASR的数据样本输入到在基于随机替换的语料库上训练的校准良好的CSC模型中,然后根据预测置信度进行过滤。通过在精炼的OCR/ASR数据语料库上学习一个简单的基于BERT的模型,我们在三个广泛使用的基准测试中取得了令人印象深刻的最新性能,同时显著减轻了过度校正(例如,降低了假阳性预测)。

论文链接: https://arxiv.org/abs/2407.15498

两个栈胜过一个:语言建模和翻译作为多语言预训练目标的比较

原标题: Two Stacks Are Better Than One: A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives

作者: Zihao Li, Shaoxiong Ji, Timothee Mickus, Vincent Segonne, Jörg Tiedemann

机构: 赫尔辛基大学 Université Bretagne Sud

摘要: 预训练语言模型(PLMs)展现出令人印象深刻的性能,并引起了自然语言处理社区的关注。因此,建立预训练的最佳实践已成为自然语言处理研究的一个主要焦点,特别是因为为单语英语模型开发的见解未必适用于更复杂的多语言情况。当前技术水平的一个重要限制是,不同的研究很少可比较:它们通常讨论不同的参数数量、训练数据和评估方法。
本文提出在受控的方法环境中比较多语言预训练目标。我们确保训练数据和模型架构是可比较的,并讨论我们在探测和微调场景中观察到的6种语言的下游性能。我们得出两个关键观察结果:(1)架构决定了哪种预训练目标是最佳的;(2)在适当条件下,多语言翻译是一种非常有效的预训练目标。我们将我们的代码、数据和模型权重提供在\texttt{\url{this https URL}}。

论文链接: https://arxiv.org/abs/2407.15489

Github: https://github.com/Helsinki-NLP/lm-vs-mt

开发一个可靠的、通用的幻觉检测和缓解服务:见解和经验教训

原标题: Developing a Reliable, General-Purpose Hallucination Detection and Mitigation Service: Insights and Lessons Learned

作者: Song Wang, Xun Wang, Jie Mei, Yujia Xie, Sean Muarray, Zhang Li, Lingfeng Wu, Si-Qing Chen, Wayne Xiong

机构: 微软

摘要: 幻觉是指大型语言模型(LLMs)产生的输出在事实上不正确或与输入无关的现象,对于需要准确性和可靠性的LLM应用而言,幻觉是一个重要挑战。在本文中,我们介绍了一个可靠且高速的生产系统,旨在检测和纠正LLMs中的幻觉问题。我们的系统包括命名实体识别(NER)、自然语言推理(NLI)、基于跨度的检测(SBD)以及一个复杂的基于决策树的流程,可可靠地检测LLM响应中各种幻觉。此外,我们的团队设计了一个重写机制,以保持精度、响应时间和成本效益的最佳组合。我们详细介绍了我们框架的核心要素,并强调了与响应时间、可用性和性能指标相关的重要挑战,这些挑战对于这些技术的实际部署至关重要。我们进行了广泛的评估,利用离线数据和实时生产流量,证实了我们提出的框架和服务的有效性。

论文链接: https://arxiv.org/abs/2407.15441

文本到电池配方:一种基于语言建模的协议,用于自动提取和检索电池配方。

原标题: Text-to-Battery Recipe: A language modeling-based protocol for automatic battery recipe extraction and retrieval

作者: Daeun Lee, Jaewoong Choi, Hiroshi Mizuseki, Byungju Lee

机构: 韩国科学技术研究院 计算科学研究中心 韩国科学技术大学部 汉城

摘要: 最近的研究越来越多地应用自然语言处理(NLP)来自动提取广泛的电池材料文献中的实验研究数据。尽管电池制造涉及复杂的过程,从材料合成到电池组装,但迄今为止还没有一项全面的研究系统地组织这些信息。为此,我们提出了一种基于语言建模的协议,即文本到电池配方(T2BR),用于自动提取端到端电池配方,并利用一个关于含LiFePO4阴极材料的电池的案例研究进行了验证。我们报告了基于机器学习的论文过滤模型,从基于关键词的搜索结果中筛选出2,174篇相关论文,并使用无监督主题模型识别了2,876段与阴极合成相关的段落和2,958段与电池组装相关的段落。然后,针对这两个主题,开发了两个基于深度学习的命名实体识别模型,提取了总共30个实体,包括前体、活性材料和合成方法,实现了88.18%和94.61%的F1分数。实体的准确提取使得能够系统地生成165个LiFePO4电池的端到端配方。我们的协议和结果为特定趋势提供了有价值的见解,例如前体材料与合成方法之间的关联,或不同前体材料之间的组合。我们预计我们的发现将作为促进电池配方信息检索的基础知识库。所提出的协议将显著加快对电池材料文献的审查,并催化电池设计和开发的创新。

论文链接: https://arxiv.org/abs/2407.15459

LLaST:利用大语言模型改进的端到端语音翻译系统

原标题: LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models

作者: Xi Chen, Songyang Zhang, Qibing Bai, Kai Chen, Satoshi Nakamura

机构: 香港中文大学深圳、上海人工智能实验室、日本奈良科学技术大学

摘要: 我们介绍了LLaST,这是一个用于构建基于大语言模型的高性能语音到文本翻译系统的框架。我们通过探索专为LLMs定制的模型架构设计和优化技术,解决了端到端语音翻译(E2E ST)模型的局限性。我们的方法包括基于LLM的语音翻译架构设计、ASR增强训练、多语言数据增强和双LoRA优化。我们的方法在CoVoST-2基准测试中表现出优越性能,并展示了由LLMs驱动的出色扩展能力。我们相信这种有效的方法将作为语音翻译的强大基准,并为基于LLM的语音翻译框架的未来改进提供见解。我们在此https URL中发布了数据、代码和模型。

论文链接: https://arxiv.org/abs/2407.15415

Github: https://github.com/openaudiolab/LLaST

冒名者.AI:对齐大语言模型的具有隐藏意图的对抗性攻击

原标题: Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models

作者: Xiao Liu, Liangzhi Li, Tong Xiang, Fuying Ye, Lu Wei, Wangyue Li, Noa Garcia

机构: Meetyou AI Lab 大连理工大学 Osaka University 东京大学 East China Normal University

摘要: 随着诸如ChatGPT之类的大语言模型(LLMs)的发展,它们的广泛应用和潜在的漏洞问题已经成为关注焦点。虽然开发人员已经整合了多种安全机制来减轻它们的误用,但仍然存在风险,特别是当模型遇到对抗性输入时。这项研究揭示了一种攻击机制,利用人类对话策略从LLMs中提取有害信息。我们勾勒了三个关键策略:(i)将恶意问题分解为看似无害的子问题;(ii)将明显恶意的问题改写为更隐蔽、听起来更温和的问题;(iii)通过提示模型提供说明性示例,增强响应的有害性。与针对显式恶意响应的传统方法不同,我们的方法更深入地探讨了响应中提供的信息的性质。通过我们在GPT-3.5-turbo、GPT-4和Llama2上进行的实验,我们的方法相对于传统的攻击方法表现出显著的功效。总之,这项工作介绍了一种优于先前方法的新型攻击方法,提出了一个重要问题:如何判断对话中的最终意图是否恶意?

论文链接: https://arxiv.org/abs/2407.15399

ALLaM:用于阿拉伯语和英语的大语言模型

原标题: ALLaM: Large Language Models for Arabic and English

作者: M Saiful Bari, Yazeed Alnumay, Norah A. Alzahrani, Nouf M. Alotaibi, Hisham A. Alyahya, Sultan AlRashed, Faisal A. Mirza, Shaykhah Z. Alsubaie, Hassan A. Alahmed, Ghadah Alabduljabbar, Raghad Alkhathran, Yousef Almushayqih, Raneem Alnajim, Salman Alsubaihi, Maryam Al Mansour, Majed Alrubaian, Ali Alammari, Zaki Alawami, Abdulmohsen Al-Thubaity, Ahmed Abdelali, Jeril Kuriakose, Abdalghani Abujabal, Nora Al-Twairesh, Areeb Alowisheq, Haidar Khan

机构: 沙特数据与人工智能局(NCAI)

摘要: 我们介绍 ALLaM:阿拉伯语大语言模型,这是一系列大型语言模型,旨在支持阿拉伯语言技术生态系统(ALT)。ALLaM经过精心训练,考虑了语言对齐和规模化知识转移的价值观。我们的自回归解码器架构模型展示了通过词汇扩展和在混合阿拉伯语和英语文本上进行预训练,如何引导模型朝着新语言(阿拉伯语)的方向发展,而不会在原始语言(英语)中发生灾难性遗忘。此外,我们强调使用平行/翻译数据来帮助不同语言之间的知识对齐过程的有效性。最后,我们展示了与人类偏好的广泛对齐可以显著提升语言模型的性能,相较于规模更大但对齐质量较低的模型。ALLaM在各种阿拉伯语基准测试中取得了最先进的性能,包括 MMLU 阿拉伯语、ACVA 和阿拉伯语考试。我们的对齐模型在阿拉伯语和英语方面均优于其基础对齐模型。

论文链接: https://arxiv.org/abs/2407.15390

为社会语音研究开发一部全面的西班牙语音标和词汇标记的词典(ESPADA)

原标题: The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA)

作者: Simon Gonzalez

机构: 澳大利亚国立大学 西班牙语综合词典(ESPADA)

摘要: 发音词典是语音强制对齐过程中的重要组成部分。这些词典的准确性对齐后的语音数据有很大影响,因为它们有助于正字转录和声学信号之间的映射。在本文中,我介绍了一个全面的西班牙语发音词典(ESPADA),可用于大多数西班牙语数据的方言变体。当前的词典侧重于特定的地区变体,但由于我们工具的灵活性,它可以轻松应用于捕捉主要方言变体之间最常见的语音差异。我们提出改进当前发音词典的方法,以及映射其他相关注释,如形态和词汇信息。就规模而言,它目前是最完整的词典,拥有超过628,000个条目,代表来自16个国家的单词。所有条目都附带其相应的发音、形态和词汇标记,以及其他有关语音分析的相关信息:重音模式、音位结构、国际音标转录等。这旨在为社会语音研究人员提供一个完整的开源工具,增强西班牙语社会语音框架内的方言研究。

论文链接: https://arxiv.org/abs/2407.15375

穿别人的鞋:透过视角转换指导大语言模型减少有害性和偏见

原标题: Walking in Others’ Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and Bias

作者: Rongwu Xu, Zi’an Zhou, Tianwei Zhang, Zehan Qi, Su Yao, Ke Xu, Wei Xu, Han Qiu

机构: 清华大学 南洋理工大学

摘要: 大语言模型(LLMs)生成的内容中存在常见的毒性和社会偏见,需要采取策略来减少伤害。目前的解决方案通常要求对模型进行白盒访问或进行大量训练,这对于尖端商业LLMs来说是不切实际的。此外,目前的提示方法依赖于外部工具反馈,并未能同时减少毒性和偏见。受社会心理学原理的启发,我们提出了一种名为\textbf{透视提示(\textsc{PeT})}的新策略,激励LLMs整合多样的人类观点并自我调节其回应。这种自我修正机制可以显著减少LLMs回应中的毒性(高达89%)和偏见(高达73%)。我们对两个商业LLMs(ChatGPT和GLM)和三个开源LLMs进行了严格评估和消融研究,结果显示\textsc{PeT}在产生更少有害回应方面优越,胜过了五个强基线模型。

论文链接: https://arxiv.org/abs/2407.15366

ILiAD:一个从 Twitter 帖子中获取语言注释数据的交互式语料库

原标题: ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts

作者: Simon Gonzalez

机构: 澳大利亚国立大学

摘要: 社交媒体平台为语言研究提供了宝贵的机会。来自世界各地、自然语境的最新数据的可用性使研究人员能够实时研究语言。社交媒体平台中一个广泛利用的领域是语料库语言学。目前有许多项目成功地从社交媒体中创建语料库。在本文中,我们介绍了从包括26家新闻机构和27个个人在内的Twitter英文帖子中开发和部署语言语料库。主要目标是为语言分析创建一个完全标注的英文语料库。我们包括有关形态和句法的信息,以及诸如标记、词形和n-gram等自然语言处理功能。这些信息通过一系列强大的可视化呈现给用户,以便探索语料库中的语言模式。借助这一工具,我们旨在为应用于语言研究的语言技术领域做出贡献。

论文链接: https://arxiv.org/abs/2407.15374

在“Discharge Me!”中的UF-HOBI:通过基于提示的调整GatorTronGPT模型生成出院总结的混合解决方案

原标题: UF-HOBI at “Discharge Me!”: A Hybrid Solution for Discharge Summary Generation Through Prompt-based Tuning of GatorTronGPT Models

作者: Mengxian Lyu, Cheng Peng, Daniel Paredes, Ziyi Chen, Aokun Chen, Jiang Bian, Yonghui Wu

机构: BioNLP 2024 Shared Task

摘要: 自动生成出院总结存在重大挑战,原因是临床文档的长度、患者信息的分散性以及医疗保健中使用的多样化术语。本文提出了一种混合解决方案,用于生成出院总结部分,作为我们参加“出院我吧!”挑战的一部分,在 BioNLP 2024 共享任务中。我们开发了一个两阶段生成方法,结合了抽取和生成技术,首先应用命名实体识别(NER)来提取关键临床概念,然后将其用作基于提示微调的 GatorTronGPT 模型的输入,以生成包括“简要住院经过”和“出院指导”在内的两个重要部分的连贯文本。我们的系统在这一挑战中排名第5,取得了总体得分为0.284。结果表明,我们的混合解决方案在改善自动出院部分生成质量方面的有效性。

论文链接: https://arxiv.org/abs/2407.15359

在 Transformer 中剖析乘法:深入了解大语言模型

原标题: Dissecting Multiplication in Transformers: Insights into LLMs

作者: Luyu Qiu, Jianing Li, Chi Su, Chen Jason Zhang, Lei Chen

机构: 香港科技大学 香港理工大学

摘要: 基于Transformer的大语言模型在各种自然语言处理任务中取得了显著的表现。然而,尽管它们具有广泛的能力,但它们经常在看似简单的任务(如算术)上遇到困难。这种明显的差距引起了人们对它们的安全和道德使用的担忧,阻碍了它们在广泛应用中的发展。在这篇论文中,我们专注于一个典型的算术任务,即整数乘法,以探索和解释Transformer在这一领域的不完美之处。我们对一个经过训练执行n位整数乘法的基本Transformer进行了全面分析。我们的观察表明,该模型将乘法任务分解为多个并行子任务,依次优化每个数字的每个子任务,以完成最终的乘法运算。基于观察和分析,我们推断出Transformer在乘法任务中存在缺陷的原因在于其难以计算连续的进位和缓存中间结果,并通过实验证实了这一推断。在这些发现的指导下,我们提出了改进措施,以增强Transformer在乘法任务上的性能。这些改进经过严格测试和数学建模验证,不仅提高了Transformer的可解释性,还提高了其性能,例如,我们使用一个微小的Transformer在5位整数乘法上实现了超过99.9%的准确率,胜过了LLMs GPT-4。我们的方法对模型理解和可解释性的更广泛领域做出了贡献,为分析更复杂的任务和Transformer模型铺平了道路。这项工作强调了可解释人工智能的重要性,有助于建立对大型语言模型的信任,并促进它们在关键应用中的采用。

论文链接: https://arxiv.org/abs/2407.15360

其他链接: http://adoption.In

为 EDA 工具文档 QA 定制化检索增强生成和基准测试

原标题: Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA

作者: Yuan Pu, Zhuolun He, Tairu Qiu, Haoyuan Wu, Bei Yu

机构: 香港中文大学 中国 ChatEDA科技 上海人工智能实验室

摘要: 检索增强生成(RAG)通过从外部数据库中获取事实信息,提高了生成式人工智能模型的准确性和可靠性,在文档驱动的问答(QA)任务中得到广泛应用。现成的 RAG 流程在通用文档上进行了良好的预训练,但在应用于知识密集型垂直领域(如电子设计自动化(EDA))时会遇到重大挑战。本文通过提出一个定制的 RAG 框架以及三种面向 EDA 工具文档 QA 的领域特定技术来解决这一问题,包括用于文本嵌入模型微调的对比学习方案、从专有LLM中提炼出的重新排序器,以及通过高质量领域语料库进行微调的生成式LLM。此外,我们还为 OpenROAD(一种先进的 RTL-to-GDSII 设计平台)开发并发布了一个文档 QA 评估基准 ORD-QA。实验结果表明,与现有技术相比,我们提出的 RAG 流程和技术在 ORD-QA 和商业工具上均取得了优越的性能。我们定制的 RAG 流程的 ORD-QA 基准和训练数据集在此 https URL 上开源。

论文链接: https://arxiv.org/abs/2407.15353

Github: https://github.com/lesliepy99/RAG-EDA

利用多提示改进最小贝叶斯风险解码

原标题: Improving Minimum Bayes Risk Decoding with Multi-Prompt

作者: David Heineman, Yao Dou, Wei Xu

机构: 乔治亚理工学院

摘要: 尽管经过微调的大语言模型在生成文本方面效果很好,但对提示构建的敏感性使得性能在实践中不稳定且次优。依赖于单个“最佳”提示无法捕捉到解决生成问题的所有不同方法。基于这一观察,我们提出了多提示解码,即在推断时从提示库中解码出许多候选生成结果。为了集成候选结果,我们使用最小贝叶斯风险(MBR)解码,该方法使用经过训练的价值度量选择最终输出。我们展示了多提示在一系列条件生成任务中改进了MBR,并表明这是由于估计了比单个提示更多样化且更高质量的候选空间。进一步的实验证实了多提示改进了跨任务、模型和度量的生成效果。

论文链接: https://arxiv.org/abs/2407.15343

MAVEN-Fact:一个大规模事件事实检测数据集

原标题: MAVEN-Fact: A Large-scale Event Factuality Detection Dataset

作者: Chunyang Li, Hao Peng, Xiaozhi Wang, Yunjia Qi, Lei Hou, Bin Xu, Juanzi Li

机构: 清华大学

摘要: 事件可信度检测(EFD)任务确定文本事件的可信度,即分类事件是事实、可能性还是不可能性,这对于忠实理解和利用事件知识至关重要。然而,由于缺乏高质量的大规模数据,事件可信度检测在事件理解研究中尚未得到充分探讨,这限制了EFD社区的发展。为了解决这些问题并提供忠实的事件理解,我们介绍了基于MAVEN数据集的大规模高质量EFD数据集MAVEN-Fact。MAVEN-Fact包括112,276个事件的可信度注释,使其成为最大的EFD数据集。大量实验证明,MAVEN-Fact对于传统微调模型和大语言模型(LLMs)都具有挑战性。由于MAVEN中事件参数和关系的全面注释,MAVEN-Fact还支持一些进一步的分析,我们发现采用事件参数和关系有助于微调模型的事件可信度检测,但对LLMs没有好处。此外,我们初步研究了事件可信度检测的应用案例,并发现它有助于减轻LLMs中与事件相关的幻觉。我们的数据集和代码可从此https网址获取。

论文链接: https://arxiv.org/abs/2407.15352

Github: https://github.com/lcy2723/MAVEN-FACT

ZZU-NLP在SIGHAN-2024 dimABSA任务中:基于粗到细的上下文学习的基于方面的情感分析

原标题: ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning

作者: Senbin Zhu, Hanjie Zhao, Xingren Wang, Shanhong Liu, Yuxiang Jia, Hongying Zan

机构: 郑州大学 计算机与人工智能学院
Baichuan2-7B模型
SIGHAN 2024 workshop

摘要: DimABSA 任务要求对餐厅评论进行细粒度情感强度预测,包括每个方面术语的Valence和Arousal维度得分。在这项研究中,我们提出了一种基于Baichuan2-7B模型的Coarse-to-Fine In-context Learning(CFICL)方法,用于SIGHAN 2024研讨会中的DimABSA任务。我们的方法通过两阶段优化过程提高了预测准确性。在第一阶段,我们使用固定的上下文示例和提示模板来增强模型的情感识别能力,并为测试数据提供初始预测。在第二阶段,我们使用BERT对Opinion字段进行编码,并基于相似性选择最相似的训练数据作为新的上下文示例。这些示例包括Opinion字段及其得分,以及相关的意见词和它们的平均得分。通过过滤情感极性,我们确保这些示例与测试数据一致。我们的方法通过有效利用训练数据和优化上下文示例显著提高了预测准确性和一致性,实验证明了这一点。

论文链接: https://arxiv.org/abs/2407.15341

大语言模型中的知识机制:调查与展望

原标题: Knowledge Mechanisms in Large Language Models: A Survey and Perspective

作者: Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

机构: 浙江大学 国立新加坡大学 加州大学洛杉矶分校 阿里巴巴集团

摘要: 理解大语言模型(LLMs)中的知识机制对于向可信赖的通用人工智能(AGI)迈进至关重要。本文从一个包括知识利用和演化的新颖分类法中审视知识机制分析。知识利用深入探讨了记忆、理解和应用以及创造的机制。知识演化关注个体和群体LLMs内知识的动态进展。此外,我们讨论了LLMs学到了什么知识,参数化知识脆弱的原因,以及可能具有挑战性的潜在黑暗知识(假设)。我们希望这项工作能帮助理解LLMs中的知识,并为未来研究提供见解。

论文链接: https://arxiv.org/abs/2407.15017

FSboard:通过智能手机收集的300多万个手语拼写字符

原标题: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones

作者: Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner

机构: 谷歌 罗切斯特理工学院 图兰大学 聋职业艺术网络

摘要: 在手语机器理解方面的进展缓慢,受限于有限的数据。在这篇论文中,我们介绍了FSboard,一个美国手语拼写数据集,位于移动文本输入使用案例中,从147名付费并同意的聋人手语使用者那里收集,使用Pixel 4A自拍摄像头在各种环境中。手语拼写识别是手语翻译的一个不完整解决方案,但随着更广泛能力的技术发展,它可能为聋人/听力有困难的手语使用者提供一些即时好处。FSboard的长度超过300万个字符,持续时间超过250小时,是迄今为止最大的手语拼写识别数据集,超过了10倍。作为一个简单的基准,我们将30 Hz的MediaPipe Holistic地标输入微调到ByT5-Small,并在具有独特短语和手语使用者的测试集上实现了11.1%的字符错误率(CER)。当降低帧率并排除面部/身体地标时,这种质量会逐渐下降:这是一种可行的优化方法,有助于模型在设备上实时运行。

论文链接: https://arxiv.org/abs/2407.15806

条件化语言策略:可导航多目标微调的通用框架

原标题: Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning

作者: Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre Ramé, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Léonard Hussenot, Olivier Bachem, Edouard Leurent

机构: 谷歌

摘要: 基于奖励的微调对于将语言策略与预期行为(例如创造力和安全性)保持一致至关重要。这里的一个关键挑战是开发可调节的语言模型,以灵活高效地权衡多个(相互冲突的)目标。本文提出了Conditioned Language Policy (CLP),这是一个用于在多个目标上微调语言模型的通用框架。基于多任务训练和参数高效微调的技术,CLP可以学习出在推断时有效权衡相互冲突目标的可调节模型。值得注意的是,这不需要训练或维护多个模型来实现在不同目标之间的权衡。通过大量实验和消融分析,我们展示了CLP框架学习出的可调节模型胜过并帕累托优于当前多目标微调的最先进方法。

论文链接: https://arxiv.org/abs/2407.15762

LongVideoBench:用于长上下文交错视频-语言理解的基准测试

原标题: LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding

作者: Haoning Wu, Dongxu Li, Bei Chen, Junnan Li

机构: 北京大学

摘要: 大型多模态模型(LMMs)正在处理越来越长和更丰富的输入。尽管取得了进展,但很少有公开的基准可用于衡量这种发展。为了弥补这一差距,我们引入了LongVideoBench,这是一个问题回答基准,其特点是视频语言交错输入长达一小时。我们的基准包括3,763个不同长度的网络收集视频及其字幕,涵盖各种主题,旨在全面评估LMMs对长期多模态理解的能力。为实现这一目标,我们将主要挑战解释为准确检索和推理长输入中的详细多模态信息。因此,我们制定了一项新颖的视频问答任务,称为指代推理。具体而言,在问题的一部分中,它包含一个指代查询,引用相关视频上下文,称为被引用上下文。然后,模型需要从被引用上下文中推理出相关视频细节。遵循指代推理的范式,我们精心策划了6,678个人工注释的17个细粒度类别的多项选择问题,建立了一个最全面的长视频理解基准之一。评估表明,即使对于最先进的专有模型(例如GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo),LongVideoBench也提出了重大挑战,而它们的开源对应模型表现出更大的性能差距。此外,我们的结果表明,模型在基准上的表现仅在能够处理更多帧时才会提高,LongVideoBench被定位为评估未来一代长上下文LMMs的有价值基准。

论文链接: https://arxiv.org/abs/2407.15754

通过大语言模型辅助支持老年人的数字自主权

原标题: Supporting the Digital Autonomy of Elders Through LLM Assistance

作者: Jesse Roberts, Lindsey Roberts, Alice Reed

机构: 田纳西理工大学 Overton县学校系统

摘要: 互联网提供了巨大的服务、社交连接和所需产品。然而,对于那些缺乏足够经验的人来说,与互联网上的企业和朋友互动可能令人望而生畏,因为诈骗者和盗贼随时存在,更不用说各种潜在的计算机病毒了。就像一片既有可食用植物又有有毒植物的森林一样,熟悉规范的人可以轻松安全地生活其中,而新手则需要向导。然而,依赖人类数字向导可能会很费力,而且通常不切实际。我们提出并试点了一个简单但未被探索的想法:大语言模型能否提供必要的支持,帮助被数字鸿沟隔离的老年人安全地实现数字自主?

论文链接: https://arxiv.org/abs/2407.15695

注意力就是你所需要的一切,但对于大语言模型的推理,并不需要全部。

原标题: Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

作者: Georgy Tyukin, Gbetondji J-S Dovonon, Jean Kaddour, Pasquale Minervini

机构: Georgy Tyukin Gbetondji J-S Dovonon Jean Kaddour Pasquale Minervini

摘要: 最近几个月来,大语言模型的推理需求急剧增加,由于注意力层的二次输入长度复杂度,为模型提供低延迟的服务仍然具有挑战性。在这项工作中,我们研究了在推理时丢弃MLP和注意力层对Llama-v2模型性能的影响。我们发现仅丢弃更深的注意力层会略微降低性能,但与丢弃整个层相比,会带来最佳的加速效果。例如,在一个13B的Llama2模型中去除33%的注意力层会导致相对于OpenLLM基准测试的平均性能下降1.8%。我们还观察到,跳过除最后一层以外的层会降低性能,跳过的层数越多,性能降低越明显,但跳过注意力层除外。

论文链接: https://arxiv.org/abs/2407.15516

目标潜在对抗训练提高大语言模型对持久有害行为的鲁棒性

原标题: Targeted Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs

作者: Abhay Sheshadri, Aidan Ewart, Phillip Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper

机构: 乔治亚理工学院 布里斯托大学 马里兰大学 伦敦大学学院 纽约大学 人工智能公司 麻省理工学院

摘要: 大语言模型(LLMs)经常会表现出一些不良行为,尽管它们明确地被微调为无害。例如,大语言模型的红队文献已经提出了各种各样的“越狱”技术,以从本来被微调为无害的模型中引出有害文本。最近关于红队、模型编辑和可解释性的研究表明,这一挑战源于(对抗性)微调主要是为了抑制而不是消除大语言模型的不良能力。先前的研究引入了潜在对抗训练(LAT)作为改善对各种失败的鲁棒性的一种方式。这些先前的工作考虑了无目标潜在空间攻击,其中对手扰乱潜在激活以最大化在期望行为示例上的损失。无目标LAT可以提供一种通用类型的鲁棒性,但不利用关于特定失败模式的信息。在这里,我们尝试了有目标的LAT,其中对手试图在特定竞争任务上最小化损失。我们发现,它可以增强各种最先进的方法。首先,我们使用有目标的LAT来提高对越狱的鲁棒性,在计算资源明显减少的情况下胜过强大的R2D2基线。其次,我们使用它更有效地消除后门,而无需了解触发器。最后,我们使用它更有效地消除特定不良任务的知识,这种方法也更具抗重新学习的鲁棒性。总的来说,我们的结果表明,有目标的LAT可以是防御大语言模型有害行为的有效工具。

论文链接: https://arxiv.org/abs/2407.15549

提示压缩的基本限制:一个针对黑盒语言模型的速率失真框架

原标题: Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models

作者: Adway Girish, Alliot Nagle, Marco Bondaschi, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim

机构: EPFL 美国德克萨斯大学奥斯汀分校 UT Austin

摘要: 我们对大语言模型(LLMs)的提示压缩问题进行了形式化,并提出了一个框架,统一了在黑盒模型中创建硬提示的基于标记级别的提示压缩方法。我们推导出了这种设置的失真率函数作为一个线性规划,并提供了一个通过线性规划的对偶来计算这一基本限制的高效算法。利用失真率函数作为基准,我们研究了现有压缩方案在由马尔可夫链生成的提示、自然语言查询及它们各自的答案组成的合成数据集上的性能。我们的实证分析展示了查询感知提示压缩的关键性,其中压缩器了解黑盒LLM的下游任务/查询。我们表明当前提示压缩方法的性能与最优策略之间存在很大差距,并提出了一个查询感知的、可变速率的先前工作的改进版本来弥合这一差距。我们将实验扩展到一个小型自然语言数据集,以进一步验证我们在合成数据集上的发现。

论文链接: https://arxiv.org/abs/2407.15504

自注意力神经网络的经验容量模型

原标题: Empirical Capacity Model for Self-Attention Neural Networks

作者: Aki Härmä, Marcin Pietrasik, Anna Wilbik

机构: 马斯特里赫特大学 德国

摘要: 最近,大型预训练的自注意力神经网络,即Transformer,在各种任务中取得了巨大成功。模型在特定任务上的表现取决于其对训练数据的记忆和泛化能力。理论上,拥有数十亿参数的大型Transformer模型具有巨大的内容记忆能力。然而,目前的优化算法未能充分发挥理论容量,而且容量也高度依赖于内容。本文关注这些模型在使用常见训练算法和合成训练数据获得的记忆容量。基于结果,我们推导出了一个通用Transformer的经验容量模型(ECM)。ECM可用于设计特定任务的Transformer模型,使其具有任务的目标记忆能力所需的最佳参数数量。

论文链接: https://arxiv.org/abs/2407.15425

一种网络分析方法用于构造语言研究文献

原标题: A Network Analysis Approach to Conlang Research Literature

作者: Simon Gonzalez

机构: Scopus数据库

摘要: 在过去几十年里,构造语言领域经历了重要的增长。这是对于艺术目的使用和研究构造语言广泛兴趣的产物。然而,一个重要的问题是构造语言在学术界中的发展情况。本文旨在全面了解构造语言研究文献。通过这样做,我们旨在为当前领域提供一个现实的画面。我们采用了计算语言学方法,结合文献计量学和网络分析,以检查 Scopus 数据库中的所有可用出版物。分析了自1927年至2022年间的2300多篇学术出版物,我们发现世界语 Esperanto 是迄今为止记录最多的构造语言。三位主要作者对此做出了贡献:Garvía R.、Fiedler S. 和 Blanke D. 20世纪70年代和80年代是奠定当前研究基础的十年。在方法论方面,语言学习和实验语言学是对该领域研究的首选方法做出了最大贡献。我们呈现了结果并讨论了我们的局限性和未来工作。

论文链接: https://arxiv.org/abs/2407.15370

LLMExplainer:基于大语言模型的贝叶斯推断用于图解释生成

原标题: LLMExplainer: Large Language Model based Bayesian Inference for Graph Explanation Generation

作者: Jiaxing Zhang, Jiayi Liu, Dongsheng Luo, Jennifer Neville, Hua Wei

机构: 新泽西理工学院 普渡大学 佛罗里达国际大学 微软研究 亚利桑那州立大学

摘要: 最近的研究试图通过多个无监督学习模型提供图神经网络(GNN)的可解释性。由于数据集稀缺,当前方法很容易受到学习偏差的影响。为了解决这个问题,我们将一个大语言模型(LLM)作为知识嵌入到GNN解释网络中,以避免学习偏差问题。我们将LLM作为贝叶斯推断(BI)模块注入,以减轻学习偏差。BI模块的有效性在理论和实验证明。我们在合成和真实数据集上进行实验。我们工作的创新点在于两个方面:1. 我们提供了一个新颖的观点,即LLM可以作为贝叶斯推断来改善现有算法的性能;2. 我们是第一个讨论GNN解释问题中学习偏差问题的研究。

论文链接: https://arxiv.org/abs/2407.15351

经济学家的深度学习

原标题: Deep Learning for Economists

作者: Melissa Dell

机构: MELISSA DELL - 美国哈佛大学

摘要: 深度学习提供了强大的方法,可以从大规模的非结构化文本和图像数据集中推断结构化信息。例如,经济学家可能希望在卫星图像中检测经济活动的存在,或者测量社交媒体、国会记录或公司文件中提到的主题或实体。本综述介绍了深度神经网络,涵盖了分类器、回归模型、生成式人工智能和嵌入模型等方法。应用包括分类、文档数字化、记录链接以及在大规模文本和图像语料库中进行数据探索的方法。当使用合适的方法时,深度学习模型可以便宜地进行调整,并且可以在涉及数百万或数十亿数据点的问题上实现可扩展性。该综述附带有一个伴随网站EconDL,提供用户友好的演示笔记本、软件资源和知识库,其中包含技术细节和额外的应用。

论文链接: https://arxiv.org/abs/2407.15339

基于大语言模型的知识驱动视觉问答的知识获取分离

原标题: Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models

作者: Wenbin An, Feng Tian, Jiahao Nie, Wenkai Shi, Haonan Lin, Yan Chen, QianYing Wang, Yaqiang Wu, Guang Dai, Ping Chen

机构: 西安交通大学 南洋理工大学 联想研究 SGIT人工智能实验室 马萨诸塞大学波士顿

摘要: 基于知识的视觉问答(KVQA)需要图像和世界知识来回答问题。当前方法首先使用原始复杂问题从图像和外部知识库中检索知识,然后利用大语言模型(LLMs)生成答案。然而,由于原始问题包含需要来自不同来源的知识的复杂元素,以耦合方式获取不同类型的知识可能会使模型混淆,并阻碍其检索精确知识。此外,“仅向前”回答过程未能明确捕获LLMs的知识需求,这可能进一步影响回答质量。为了应对上述限制,我们提出了DKA:从LLM反馈中解耦知识获取,这是一个无需训练的框架,它解耦知识获取以避免混淆,并利用LLM的反馈来指定所需知识。具体而言,DKA要求LLMs指定他们需要什么知识来回答问题,并将原始复杂问题分解为两个简单的子问题:基于图像的子问题和基于知识的子问题。然后,我们使用这两个子问题分别从图像和知识库中检索知识。通过这种方式,两个知识获取模型可以专注于与它们对应的内容,并避免原始复杂问题中无关元素的干扰,这有助于提供更精确的知识,并更好地使LLMs的知识需求与正确答案相一致。在基准数据集上的实验表明,DKA明显优于SOTA模型。为了促进未来研究,我们的数据和代码可在\url{this https URL}上获得。

论文链接: https://arxiv.org/abs/2407.15346

Github: https://github.com/Lackel/DKA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值