2024年6月13日Arxiv大语言模型相关论文

cs.CL: 为多元文化社区定制生成式人工智能聊天机器人,以应对灾害准备沟通:扩展 CASA 范式

原标题: Tailoring Generative AI Chatbots for Multiethnic Communities in Disaster Preparedness Communication: Extending the CASA Paradigm

作者: Xinyan Zhao, Yuan Sun, Wenlin Liu, Chau-Wai Wong

机构: 北卡罗来纳大学教堂山分校新闻与媒体学院
佛罗里达大学新闻与传播学院
佛罗里达大学新闻与传播学院
北卡罗来纳州立大学电气与计算机工程学院

摘要: 这项研究是首批开发由GPT 4驱动的生成式AI(GenAI)聊天机器人的不同原型之一,旨在向不同居民传达飓风防范信息。借鉴了“计算机是社会行为者”(CASA)范式以及关于灾害脆弱性和文化定制的文献,该研究对佛罗里达州的441名黑人、西班牙裔和白人居民进行了一项介于受试者之间的实验。对聊天记录(N = 7,848)的计算分析显示,拟人化和个性化是GenAI聊天机器人与用户互动中的关键沟通主题。结构方程模型结果(N = 441)表明,在语调形式和文化定制方面变化的GenAI聊天机器人显著预测机器人的感知,进而影响飓风防范结果。这些结果突显了利用GenAI聊天机器人提高不同社区灾害防范能力的潜力。

论文链接: https://arxiv.org/pdf/2406.08411

cs.CL: Magpie:通过提示对齐的大语言模型从零开始合成对齐数据

原标题: Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

作者: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin

机构: 华盛顿大学 Allen Institute for AI

摘要: 高质量的指导数据对齐大型语言模型(LLMs)至关重要。尽管一些模型,如Llama-3-Instruct,具有开放的权重,但它们的对齐数据仍然是私有的,这阻碍了人工智能的民主化。高昂的人力成本和有限的、预定义的提示范围阻碍了现有的开源数据创建方法有效扩展,可能限制了公共对齐数据集的多样性和质量。通过直接从对齐的LLM中提取数据,能否在规模上合成高质量的指导数据?我们提出了一种用于生成大规模对齐数据的自我合成方法,名为Magpie。我们的关键观察是,像Llama-3-Instruct这样的对齐LLM可以在我们仅输入左侧模板直到为用户消息保留的位置时生成用户查询,这要归功于它们的自回归特性。我们使用这种方法提示Llama-3-Instruct并生成了400万条指导,以及它们对应的响应。我们对提取的数据进行了全面分析,并选择了30万个高质量实例。为了将Magpie数据与其他公共指导数据集进行比较,我们使用每个数据集微调Llama-3-8B-Base,并评估微调模型的性能。我们的结果表明,在某些任务中,使用Magpie微调的模型的性能与官方的Llama-3-8B-Instruct相当,尽管后者通过受监督微调(SFT)和随后的反馈学习获得了1000万数据点的增强。我们还表明,仅使用Magpie进行SFT可以超越以往用于SFT和偏好优化的公共数据集的性能,例如使用UltraFeedback进行直接偏好优化。这种优势在AlpacaEval、ArenaHard和WildBench等对齐基准上是明显的。

论文链接: https://arxiv.org/pdf/2406.08464

cs.CL: OLMES: 语言模型评估的标准

原标题: OLMES: A Standard for Language Model Evaluations

作者: Yuling Gu, Oyvind Tafjord, Bailey Kuehl, Dany Haddad, Jesse Dodge, Hannaneh Hajishirzi

机构: Allen Institute for Artificial Intelligence University of Washington

摘要: 在人工智能领域的进展通常通过新模型声称在衡量模型能力的任务上表现出更好性能来展示。特别是评估语言模型是具有挑战性的,因为对模型在任务上进行评估的细微变化可能导致测量性能出现较大变化。由于缺乏共同的标准设置,因此不同模型以不同方式在相同任务上进行评估,导致关于哪些模型表现最佳的说法无法复制。我们提出了OLMES,这是一个完全记录、实用、开放的标准,用于可重现的LLM评估。在制定这一标准的过程中,我们确定并审查了社区采用的评估实践中的各种因素,例如提示格式的细节、选择上下文示例、概率归一化和任务制定等。特别是,OLMES支持对需要使用不自然的“填空”形式的多项选择问题进行比较的较小基础模型与可以利用原始形式的较大模型之间的有意义比较。OLMES包括经过深思熟虑的建议,这些建议受到现有文献结果以及调查开放问题的新实验的指导。

论文链接: https://arxiv.org/pdf/2406.08446

cs.CL: 教育大语言模型通过自我反思进行翻译

原标题: TasTe: Teaching Large Language Models to Translate through Self-Reflection

作者: Yutong Wang, Jiali Zeng, Xuebo Liu, Fandong Meng, Jie Zhou, Min Zhang

机构: 哈尔滨工业大学计算与智能研究所 腾讯公司Pattern Recognition Center

摘要: 大语言模型(LLMs)在各种自然语言处理任务中展现出了卓越的性能。诸如指导调优之类的技术有效地提升了LLMs在机器翻译等下游任务中的熟练程度。然而,现有方法未能产生令人满意的翻译输出,无法与监督式神经机器翻译(NMT)系统的质量匹敌。这种差异的一个可能解释是,这些方法中采用的直接提示无法充分利用所获得的指令遵循能力。因此,我们提出了TasTe框架,代表通过自我反思进行翻译。自我反思过程包括两个推理阶段。在第一阶段,LLMs被指示生成初步翻译,并同时对这些翻译进行自我评估。在第二阶段,LLMs被要求根据评估结果对这些初步翻译进行改进。在WMT22基准测试中,对四种语言方向的评估结果显示了我们方法相对于现有方法的有效性。我们的工作提出了一个有前途的方法,可以释放LLMs的潜力并增强它们在机器翻译中的能力。代码和数据集已在此https网址上开源。

论文链接: https://arxiv.org/pdf/2406.08434

Github: https://github.com/YutongWang1216/ReflectionLLMMT

cs.CL: 下一代数据库接口:基于大语言模型的文本到SQL的调查。

原标题: Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL

作者: Zijin Hong, Zheng Yuan, Qinggang Zhang, Hao Chen, Junnan Dong, Feiran Huang, Xiao Huang

机构: 暨南大学 香港理工大学

摘要: 根据自然语言问题生成准确的SQL(文本到SQL)是一个长期存在的问题,因为在用户问题理解、数据库架构理解和SQL生成方面具有挑战性。传统的文本到SQL系统包括人工工程和深度神经网络。随后,预训练语言模型(PLMs)已经被开发并用于文本到SQL任务,取得了令人满意的性能。随着现代数据库变得更加复杂,相应的用户问题变得更具挑战性,具有有限理解能力的PLMs可能导致不正确的SQL生成。这需要更复杂和定制的优化方法,进而限制了基于PLM的系统的应用。最近,大语言模型(LLMs)在自然语言理解方面展示了显著的能力,因为模型规模不断增加。因此,整合基于LLM的实现可以为文本到SQL研究带来独特的机遇、挑战和解决方案。在这项调查中,我们提供了基于LLM的文本到SQL的全面回顾。具体而言,我们提出了当前挑战的简要概述以及文本到SQL的演进过程。然后,我们详细介绍了设计用于评估文本到SQL系统的数据集和指标。之后,我们对基于LLM的文本到SQL的最新进展进行了系统分析。最后,我们讨论了这一领域仍然存在的挑战,并提出了未来发展方向的期望。

论文链接: https://arxiv.org/pdf/2406.08426

cs.CL: cPAPERS:一个关于科学论文中情境和多模态交互对话的数据集

原标题: cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers

作者: Anirudh Sundar, Jin Xu, William Gay, Christopher Richardson, Larry Heck

机构: 佐治亚理工学院

摘要: 一个新兴的研究领域是关于情境和多模态交互对话(SIMMC),其中包括科学论文中的交互。由于科学论文主要由文本、方程式、图表组成,SIMMC 方法必须针对每个组件进行专门开发,以支持研究科学家所需的深度探究和互动。这项工作介绍了对话式论文(cPAPERS),这是一个从 arXiv 上可用的科学文档中的论文评论中提取的对话式问答对数据集,这些评论基于这些论文组件及其相关参考文献。我们提出了一种数据收集策略,从 OpenReview 收集这些问答对,并将它们与 LaTeX 源文件中的上下文信息关联起来。此外,我们提出了一系列基线方法,利用大语言模型(LLMs)在零样本和微调配置中来处理 cPAPERS 数据集。

论文链接: https://arxiv.org/pdf/2406.08398

cs.CL: 编程示例是否已被大语言模型解决?

原标题: Is Programming by Example solved by LLMs?

作者: Wen-Ding Li, Kevin Ellis

机构: 康奈尔大学

摘要: 编程通过示例(PBE)旨在从输入输出示例生成算法。这种系统在实践和理论上都很重要:从最终用户的角度来看,它们被部署到数百万人手中;从人工智能的角度来看,PBE对应于一种非常一般的少样本归纳推理形式。鉴于大语言模型(LLMs)在代码生成任务中取得的成功,我们在这里调查LLMs在多大程度上可以说已经“解决”了PBE。我们在经典领域(如列表和字符串)以及在典型预训练数据中没有很好代表的不寻常的图形编程领域进行实验。我们发现,预训练模型在PBE方面并不有效,但可以进行微调以获得更高的性能,前提是测试问题属于分布内。我们通过实证分析了导致这些模型成功和失败的原因,并采取措施朝着如何实现更好的分布外泛化迈进。总的来说,这些结果表明,LLMs在解决典型的PBE任务方面取得了很大进展,潜在地增加了PBE系统的灵活性和适用性,同时也指出了LLMs仍然存在不足之处。

论文链接: https://arxiv.org/pdf/2406.08316

cs.CL: 朝向无需发音模型的无监督语音识别

原标题: Towards Unsupervised Speech Recognition Without Pronunciation Models

作者: Junrui Ni, Liming Wang, Yang Zhang, Kaizhi Qian, Heting Gao, Mark Hasegawa-Johnson, Chang D. Yoo

机构: 清华大学 华为

摘要: 最近,在监督式自动语音识别(ASR)方面取得了显著的性能,这在很大程度上归功于大量可用的大规模转录语音语料库。然而,大多数语言缺乏足够的配对语音和文本数据来有效地训练这些系统。在本文中,我们通过提出不依赖音素词典的方法来应对开发没有配对语音和文本语料库的ASR系统的挑战。我们探索了一个新的研究方向:基于单词级别的无监督ASR。使用一个包含仅高频英语单词的筛选语音语料库,我们的系统在没有平行转录或神谕单词边界的情况下实现了近20%的单词错误率。此外,我们通过实验证明,一个无监督的语音识别器可以通过联合语音到语音和文本到文本的掩码式标记填充而出现。这种创新模型超越了以直接分布匹配训练的先前无监督ASR模型的性能。

论文链接: https://arxiv.org/pdf/2406.08380

cs.CL: M3T: 一个新的用于多模态文档级机器翻译的基准数据集

原标题: M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation

作者: Benjamin Hsu, Xiaoyu Liu, Huayang Li, Yoshinari Fujinuma, Maria Nadejde, Xing Niu, Yair Kittenplon, Ron Litman, Raghavendra Pappagari

机构: University of Maryland, College Park Nara Institute of Science and Technology AWS AI Labs

摘要: 文档翻译对神经机器翻译(NMT)系统构成挑战。大多数文档级NMT系统依赖精心策划的句子级平行数据,假设能够无误地从文档中提取文本并准确读取顺序。这些系统通常忽视额外的视觉线索,如文档布局,认为这些线索无关紧要。然而,现实世界中的文档通常具有复杂的文本布局,违背了这些假设。从光学字符识别(OCR)或启发式规则中提取信息可能导致错误,而布局(例如段落、标题)可能传达文本不同部分之间的关系。这种复杂性在广泛使用的PDF文档中尤为明显,这些文档以视觉方式呈现信息。本文通过引入M3T,一个专为评估NMT系统在翻译半结构化文档这一全面任务而量身定制的新型基准数据集,来解决这一差距。该数据集旨在弥合文档级NMT系统评估中的差距,承认了现实应用中丰富文本布局所带来的挑战。

论文链接: https://arxiv.org/pdf/2406.08255

cs.CL: 提取隐藏结构的摘要生成 SumHiS

原标题: SumHiS: Extractive Summarization Exploiting Hidden Structure

作者: Tikhonov Pavel, Anastasiya Ianina, Valentin Malykh

机构: ITMO大学 MIPT莫斯科物理技术学院 Kazan联邦大学

摘要: 提取式摘要是突出文本中最重要部分的任务。我们引入了一种利用文本的隐藏聚类结构进行提取式摘要任务的新方法。在 CNN/DailyMail 上的实验结果表明,我们的方法生成的摘要比提取式和抽象式方法更准确,根据 ROUGE-2 指标取得了最先进的结果,超过之前方法 10%。此外,我们展示了文本的隐藏结构可以被解释为方面。

论文链接: https://arxiv.org/pdf/2406.08215

cs.CL: 比喻性言说:通过多任务比喻语言建模进行作者归属性分析

原标题: Figuratively Speaking: Authorship Attribution via Multi-Task Figurative Language Modeling

作者: Gregorios A Katsios, Ning Sa, Tomek Strzalkowski

机构: 伦斯勒理工学院 认斯勒理工学院

摘要: 在文本中识别比喻语言(FL)特征对于各种自然语言处理(NLP)任务至关重要,其中理解作者预期含义及其细微差别对于成功沟通至关重要。同时,使用特定混合形式的各种FL形式最准确地反映了作者的风格,而不是仅使用任何单一构造,比如仅仅是隐喻或讽刺。因此,我们假设FL特征在作者归属(AA)任务中可能发挥重要作用。我们相信我们的研究是基于FL使用的作者归属的第一项计算研究。因此,我们提出了一个多任务比喻语言模型(MFLM),它可以一次学习检测文本中的多个FL特征。通过在多个测试集上进行详细评估,我们证明我们的模型在FL检测方面往往表现出与或优于专门的二元模型。随后,我们评估了联合FL特征对三个数据集上的AA任务的预测能力,观察到通过整合MFLM嵌入来提高AA性能。

论文链接: https://arxiv.org/pdf/2406.08218

cs.CL: 利用大语言模型进行网络抓取

原标题: Leveraging Large Language Models for Web Scraping

作者: Aman Ahluwalia, Suhrud Wani

机构: PerpetualBlock Technologies Pvt. Ltd, Innoplexus Consulting Services Pvt. Ltd.

摘要: 大语言模型(LLMs)展示了在复制人类任务和提高生产力方面的显著能力。然而,它们在数据提取方面的直接应用存在局限,因为它们更注重流畅性而非事实准确性,并且受限于操纵特定信息的能力。因此,为了克服这些限制,这项研究利用了预训练LLMs的知识表示能力以及RAG模型提供的有针对性信息访问,研究了一种针对语言生成设计的RAG模型的通用准确数据抓取方法。为了以更模块化和可解释的方式捕获知识,我们使用了带有潜在知识检索器的预训练语言模型,这使得模型能够从大型语料库中检索和关注文档。我们利用了RAG模型架构,并对它们在三项任务下的能力进行了深入分析:(i)HTML元素的语义分类,(ii)对HTML文本进行分块以便有效理解,以及(iii)比较不同LLMs和排名算法的结果。虽然先前的工作已经为HTML理解和提取开发了专用架构和训练程序,但我们展示了在标准自然语言上预训练的LLMs加上有效的分块、搜索和排名算法,可以证明是从非结构化文本中提取复杂数据的高效数据抓取工具。未来的研究方向包括解决提出的基于RAG的数据提取框架中的来源追踪和动态知识更新的挑战。通过克服这些限制,这种方法有潜力从大量文本信息库中彻底改变数据提取的方式。

论文链接: https://arxiv.org/pdf/2406.08246

cs.CL: 用于引发平衡协作的对话游戏

原标题: A Dialogue Game for Eliciting Balanced Collaboration

作者: Isidora Jeknić, David Schlangen, Alexander Koller

机构:萨尔大学 波茨坦大学

摘要: 合作是人类对话的一个重要组成部分。典型的面向任务的对话游戏为参与者分配了不对称的角色,这限制了他们在协作和谈判中引发自然角色扮演的能力。我们提出了一种新颖且简单的在线设置,有利于平衡的合作:一个两人参与的二维物体放置游戏,玩家必须自行协商目标状态。我们通过实验证明,人类玩家表现出各种角色分布,并且平衡的合作提高了任务表现。我们还提出了一个基于LLM的基准智能体,表明我们的游戏的自动玩法对人工系统来说是一个有趣的挑战。

论文链接: https://arxiv.org/pdf/2406.08202

cs.CL: 半监督口语语言注释

原标题: Semi-Supervised Spoken Language Glossification

作者: Huijie Yao, Wengang Zhou, Hao Zhou, Houqiang Li

机构: 中国科学技术大学 百度公司

摘要: 口语语言注释(SLG)旨在将口语文本翻译成手语注释,即手语的书面记录。在这项工作中,我们提出了一个名为半监督口语语言注释(S3LG)的框架用于SLG。为了解决SLG中有限平行数据的瓶颈,我们的S3LG将大规模单语口语文本纳入SLG培训中。所提出的框架遵循自我训练结构,反复注释并从伪标签中学习。考虑到手语和口语之间的词汇相似性和句法差异,我们的S3LG采用基于规则的启发式和基于模型的方法进行自动注释。在训练过程中,我们随机混合这些互补的合成数据集,并用特殊标记标记它们的差异。由于合成数据可能质量较低,S3LG进一步利用一致性正则化来减少合成数据中噪声的负面影响。我们在公共基准上进行了大量实验,以证明S^3LG的有效性。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.08173

Github: https://github.com/yaohj11/S3LG

cs.CL: 基于支持性的知识重写用于检索增强语言建模

原标题: Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling

作者: Zile Qiao, Wei Ye, Yong Jiang, Tong Mo, Pengjun Xie, Weiping Li, Fei Huang, Shikun Zhang

机构: 北京大学 软件与微电子学院 北京大学 软件工程国家工程研究中心 阿里巴巴集团

摘要: 最近,检索增强语言模型(RALMs)展现出在减轻大语言模型(LLMs)中隐含知识限制方面的巨大潜力,比如最新专业知识的及时更新和长尾知识的不可靠保留。然而,由于外部知识库以及检索器无法保证可靠性,可能导致检索到的知识对LLM生成没有帮助,甚至具有误导性。在本文中,我们介绍了基于支持性的知识重写(SKR),这是一种针对LLM生成进行内在优化的强大且可插拔的知识重写器。具体来说,我们引入了“支持性”的新概念–它代表了一段知识如何有效地促进下游任务–通过考虑增强知识对白盒LLM响应文本的困惑影响。基于知识支持性,我们首先为我们的重写模型设计了一个训练数据策略,有效地识别和过滤出质量低或不相关的重写(例如,支持性得分低的),以提高数据效果。然后,我们引入了直接偏好优化(DPO)算法,将生成的重写与最佳支持性对齐,引导重写模型总结增强内容,从而更好地改善最终响应。在六个流行的知识密集型任务和四个LLMs上进行的全面评估显示了SKR的有效性和优越性。仅具有7B参数,SKR在知识重写能力上表现出优于GPT-4的优势,后者是当前最先进的通用目的LLM。

论文链接: https://arxiv.org/pdf/2406.08116

cs.CL: 数字之下:大语言模型在抑郁预测中的定量和定性性别公平

原标题: Underneath the Numbers: Quantitative and Qualitative Gender Fairness in LLMs for Depression Prediction

作者: Micol Spitale, Jiaee Cheong, Hatice Gunes

机构: Politecnico di Milano University of Cambridge

摘要: 最近的研究显示,许多机器学习模型在抑郁症检测中存在偏见,但这项任务中LLMs的偏见尚未被探究。这项工作首次尝试通过定量和定性方法来调查现有LLMs(ChatGPT、LLaMA 2和Bard)中存在的性别偏见程度。从我们的定量评估中,我们发现ChatGPT在各种性能指标上表现最佳,而LLaMA 2在群体公平度指标方面表现优于其他LLMs。由于定性公平性评估仍然是一个开放性研究问题,我们提出了几种策略(例如,词频统计,主题分析)来调查定性评估是否以及如何为偏见分析提供有价值的见解,超越了定量评估所能实现的范围。我们发现,与LLaMA 2相比,ChatGPT始终提供了更全面、更合理的预测解释。我们还确定了LLMs采用的几个主题,以定性评估性别公平性。我们希望我们的研究结果可以成为未来改进LLMs公平性定性评估的一个契机,特别是针对抑郁症检测等高风险任务。

论文链接: https://arxiv.org/pdf/2406.08183

cs.CL: 利用表示工程来为偏好数据集注释安全边界的传奇

原标题: Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

作者: Duanyu Feng, Bowen Qin, Chen Huang, Youcheng Huang, Zheng Zhang, Wenqiang Lei

机构: 四川大学 北京人工智能研究院

摘要: 奖励模型在区分具有微妙安全差异的响应方面的成功,关键取决于高质量的偏好数据集,该数据集应捕捉有害和无害响应的细微差别。这促使我们有必要开发涉及偏好边界的数据集,准确量化一种响应相对于另一种响应的无害程度。在本文中,我们迈出了第一步,提出了一个有效且成本效益高的框架,以促进增强边界偏好数据集的开发。我们的框架Legend利用表示工程来注释偏好数据集。它构建了LLM嵌入空间内代表安全性的特定方向。通过利用这个安全方向,Legend可以利用沿着这个方向的配对响应的语义距离来自动注释边界。我们在奖励建模和无害对齐LLMs方面实验证明了我们的有效性。Legend还因其效率而脱颖而出,仅需要推理时间而非额外训练。这种效率使得更容易实现和扩展,使Legend在将LLMs与安全对话对齐的实际应用中特别有价值。

论文链接: https://arxiv.org/pdf/2406.08124

cs.CL: CoXQL:用于解析对话式XAI系统中解释请求的数据集

原标题: CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems

作者: Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian Möller

机构: German Research Center for Artificial Intelligence (DFKI) Technische Universität Berlin Saarland Informatics Campus

摘要: 基于大语言模型(LLMs)的对话式可解释人工智能(ConvXAI)系统引起了自然语言处理(NLP)和人机交互(HCI)研究界的极大兴趣。这种系统可以回答用户关于解释的问题,有潜力增强用户的理解,并提供关于LLMs的决策和生成过程的更多信息。目前可用的ConvXAI系统基于意图识别而非自由聊天。因此,在ConvXAI系统中可靠地把握用户意图仍然是一个挑战,因为有广泛的XAI方法可以映射请求,并且每种方法都可能有多个插槽需要处理。为了弥合这一差距,我们提出了CoXQL,这是第一个用于ConvXAI中用户意图识别的数据集,涵盖了31个意图,其中七个需要填充额外的插槽。随后,我们通过整合模板验证来增强现有的解析方法,并使用不同的解析策略在CoXQL上对几种LLMs进行评估。我们得出结论,改进的解析方法(MP+)超越了以往方法的性能。我们还发现,具有多个插槽的意图对LLMs来说仍然是非常具有挑战性的。

论文链接: https://arxiv.org/pdf/2406.08101

cs.CL: AustroTox:用于基于目标的奥地利德语攻击性语言检测的数据集

原标题: AustroTox: A Dataset for Target-Based Austrian German Offensive Language Detection

作者: Pia Pachinger, Janis Goldzycher, Anna Maria Planitzer, Wojciech Kusa, Allan Hanbury, Julia Neidhardt

机构: TU Wien University of Zurich University of Vienna

摘要: 在毒性检测中,模型的可解释性极大地受益于标记的 Token 级别。然而,目前这些标记只有英文版本。我们介绍了一个从新闻论坛中收集的用于检测侮辱性语言的数据集,该数据集以奥地利德语方言为特色,包括 4,562 条用户评论。除了二元的侮辱性分类外,我们还确定了每条评论中构成粗俗语言或代表侮辱性言论目标的跨度。我们以零样本和少样本的方式评估了微调的语言模型以及大语言模型。结果表明,虽然微调模型在检测粗俗方言等语言特异性方面表现出色,但大语言模型在检测 AustroTox 中的侮辱性方面表现出优越性能。我们公开了数据和代码。

论文链接: https://arxiv.org/pdf/2406.08080

cs.CL: 在编码器内传输的语言:零样本多语言翻译中的表示传输

原标题: Languages Transferred Within the Encoder: On Representation Transfer in Zero-Shot Multilingual Translation

作者: Zhi Qu, Chenchen Ding, Taro Watanabe

机构: Nara Institute of Science and Technology, Japan National Institute of Information and Communications Technology, Japan

摘要: 理解多语言神经机器翻译中的表示转移可以揭示导致零样本翻译不足的表示问题。在这项工作中,我们引入了身份对,即将一个句子翻译成自身,以解决多语言研究中基本度量的缺失问题,因为身份对代表了在任何语言转移中表示的最佳状态。在我们的分析中,我们展示了编码器将源语言转移到目标语言的表示子空间,而不是语言不可知状态。因此,零样本翻译不足是因为表示与其他语言纠缠在一起,无法有效地转移到目标语言。基于我们的发现,我们提出了两种方法:1)在编码器中使用低秩语言特定嵌入,2)在解码器中进行语言特定对比学习表示。在 Europarl-15、TED-19 和 OPUS-100 数据集上的实验结果显示,我们的方法显著提升了零样本翻译的性能,通过提高语言转移能力,从而提供了支持我们结论的实证证据。

论文链接: https://arxiv.org/pdf/2406.08092

cs.CL: 多模态表格理解

原标题: Multimodal Table Understanding

作者: Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang

机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院 百度公司 北京师范大学人工智能学院

摘要: 尽管包括基于大语言模型(LLMs)的最新方法在内的先前表格理解方法取得了巨大进展,但它们严重依赖于一个前提,即给定的表格必须被转换为某种文本序列(如Markdown或HTML)以用作模型输入。然而,在一些现实场景中很难获取到高质量的文本表格表示,而表格图像则更容易获取。因此,如何利用直观的视觉信息直接理解表格是开发更实用应用程序面临的一个关键和紧迫挑战。在本文中,我们提出了一个新问题,即多模态表格理解,其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估,我们构建了一个名为MMTab的大规模数据集,涵盖了广泛的表格图像、指令和任务。在此基础上,我们开发了Table-LLaVA,一个通用的表格多模态大语言模型(MLLM),在23个基准测试中在保留和保留设置下明显优于最近的开源MLLM基线。代码和数据可在此网址获得。

论文链接: https://arxiv.org/pdf/2406.08100

Github: https://github.com/SpursGoZmy/Table-LLaVA

cs.CL: 从工作描述聚合网络中学习工作标题表示

原标题: Learning Job Title Representation from Job Description Aggregation Network

作者: Napat Laosaengpha, Thanit Tativannarat, Chawan Piansaddhayanon, Attapol Rutherford, Ekapol Chuangsuwanich

机构: 清华大学 朱翊民

摘要: 学习工作职称表示是开发自动人力资源工具的关键过程。为了做到这一点,现有方法主要依赖于通过从工作描述中提取的技能来学习职称表示,忽略了其中丰富多样的内容。因此,我们提出了一个通过各自的工作描述(JD)学习工作职称的替代框架,并利用一个工作描述聚合器组件来处理冗长的描述,并利用双向对比损失来考虑工作职称与其描述之间的双向关系。我们在领域内和领域外设置上评估了我们方法的性能,在技能为基础的方法上取得了卓越的表现。

论文链接: https://arxiv.org/pdf/2406.08055

cs.CL: 大语言模型遇上以文本为中心的多模态情感分析:一项调查

原标题: Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey

作者: Hao Yang, Yanyan Zhao, Yang Wu, Shilong Wang, Tian Zheng, Hongbo Zhang, Wanxiang Che, Bing Qin

机构: 哈尔滨工业大学

摘要: 与传统情感分析仅考虑文本不同,多模态情感分析需要同时考虑来自多模态来源的情感信号,因此更符合人类在现实场景中处理情感的方式。它涉及处理来自各种来源的情感信息,如自然语言、图像、视频、音频、生理信号等。然而,尽管其他模态也包含多样的情感线索,自然语言通常包含更丰富的上下文信息,因此在多模态情感分析中始终占据关键位置。ChatGPT的出现为将大语言模型(LLMs)应用于以文本为中心的多模态任务开辟了巨大潜力。然而,现有LLMs如何更好地适应以文本为中心的多模态情感分析任务仍不清楚。本调查旨在(1)全面回顾最近在以文本为中心的多模态情感分析任务中的研究,(2)检验LLMs在以文本为中心的多模态情感分析中的潜力,概述它们的方法、优势和局限性,(3)总结基于LLM的多模态情感分析技术的应用场景,以及(4)探讨未来多模态情感分析的挑战和潜在研究方向。

论文链接: https://arxiv.org/pdf/2406.08068

cs.CL: 两者之间的无缝连接:关于 RLHF 中奖励和策略模型之间的联系

原标题: It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF

作者: Taiming Lu, Lingfeng Shen, Xinyu Yang, Weiting Tan, Beidi Chen, Huaxiu Yao

机构: 约翰霍普金斯大学 字节跳动研究 卡内基梅隆大学 UNC-Chapel Hill

摘要: 强化学习从人类反馈(RLHF)涉及训练策略模型(PMs)和奖励模型(RMs)以使语言模型与人类偏好保持一致。我们提出在微调过程中检查它们的交互作用,引入了无缝性的概念,而不仅仅专注于独立地处理PMs和RMs。我们的研究始于观察到饱和现象,即RM和PM的持续改进并未转化为RLHF的进展。我们的分析显示,RMs未能为PM响应分配适当的分数,导致与人类偏好的不匹配率达到35%,突显了PM和RM之间的显著差异。为了衡量PM和RM之间的无缝性而无需人类努力,我们提出了一个自动度量标准SEAM。SEAM量化了由数据样本引起的PM和RM判断之间的差异。我们验证了SEAM在数据选择和模型增强中的有效性。我们的实验表明,(1)使用经过SEAM筛选的数据进行RL训练可以将RLHF性能提高4.5%,(2)SEAM引导的模型增强比标准增强方法提高了4%的性能。

论文链接: https://arxiv.org/pdf/2406.07971

cs.CL: 对大语言模型的对抗规避攻击效率

原标题: Adversarial Evasion Attack Efficiency against Large Language Models

作者: João Vitorino, Eva Maia, Isabel Praça

机构: GECAD, School of Engineering, Polytechnic of Porto (ISEP/IPP)

摘要: 大语言模型(LLMs)对于文本分类非常有价值,但不能忽视它们的脆弱性。它们缺乏对抗性示例的稳健性,因此了解不同类型扰动的影响,并评估这些攻击是否可以通过少量扰动和少量查询来复制,对于部署的LLM至关重要。本研究对五种不同LLM在情感分类任务中的三种不同类型的对抗攻击的有效性、效率和实用性进行了分析。所得结果表明了单词级和字符级攻击的非常不同影响。单词攻击更有效,但字符和更受限制的攻击更实用,需要减少数量的扰动和查询。这些差异需要在开发对抗性防御策略时考虑,以训练更强大的LLMs,用于智能文本分类应用。

论文链接: https://arxiv.org/pdf/2406.08050

cs.CL: 通过质量估计引导大语言模型在机器翻译中的上下文学习

原标题: Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation

作者: Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Pieter Spronck

机构: 蒂尔堡大学

摘要: 大语言模型(LLMs)产生的输出质量,特别是在机器翻译(MT)领域,与提供的上下文示例(ICEs)的质量密切相关,即要翻译的文本。这些ICEs的有效性受到各种因素的影响,例如源文本的领域,ICEs呈现的顺序,这些示例的数量以及使用的提示模板。自然地,选择最具影响力的ICEs取决于理解这些如何影响最终的翻译质量,这最终依赖于翻译参考或人类判断。本文提出了一种依赖于领域特定质量估计(QE)引导的搜索算法的上下文学习(ICL)的新方法。利用XGLM模型,我们的方法估计了结果翻译质量,无需翻译参考,选择对MT有效的ICEs以最大化翻译质量。我们的结果表明,与现有的ICL方法相比,我们的方法有显著改进,并且与微调预训练语言模型(PLM),特别是mBART-50相比,具有更高的翻译性能。

论文链接: https://arxiv.org/pdf/2406.07970

cs.CL: 定义和检测人类评估指南中的脆弱性:可靠自然语言生成评估的初步研究

原标题: Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation

作者: Jie Ruan, Wenqing Wang, Xiaojun Wan

机构: 北京大学

摘要: 人类评估作为评估自然语言生成(NLG)系统质量的黄金标准。然而,评估指南作为确保可靠和可重复的人类评估的关键元素,却受到了有限的关注。我们的调查发现,仅有29.84%的涉及人类评估的近期顶级会议论文发布了他们的评估指南,其中77.09%的指南存在漏洞。不可靠的评估指南可能导致不准确的评估结果,潜在地阻碍了NLG朝着正确方向的发展。为了解决这些挑战,我们迈出了可靠评估指南的初步步伐,并提出了第一个人类评估指南数据集,通过收集从现有论文中提取的指南注释以及通过大语言模型(LLMs)生成的指南。然后,我们提出了八种漏洞的分类法,并制定了编写评估指南的原则。此外,我们探讨了使用LLMs检测指南漏洞的方法,并提出了一套增强人类评估可靠性的建议。标注的人类评估指南数据集和用于漏洞检测方法的代码已公开可用。

论文链接: https://arxiv.org/pdf/2406.07935

cs.CL: 优于随机:通过受限主动抽样进行可靠的自然语言生成人类评估

原标题: Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling

作者: Jie Ruan, Xiao Pu, Mingqi Gao, Xiaojun Wan, Yuesheng Zhu

机构: 北京大学

摘要: 人工评估被视为一种可靠的自然语言生成(NLG)评估方法,但昂贵且耗时。为节省人力和成本,在实践中研究人员通常对从整个数据集中抽样的小数据子集执行人工评估。然而,不同选择的子集会导致系统的不同排名。为了给出更正确的系统间排名并使黄金标准的人工评估更可靠,我们提出了一种用于可靠人类判断的受限主动抽样框架(CASF)。CASF通过一个学习器、一个系统性采样器和一个受限控制器运作,以选择代表性样本以获得更正确的系统间排名。对来自16个数据集和5个NLG任务的137个真实NLG评估设置进行的实验结果表明,CASF在44个人工评估指标上获得了93.18%的最高排名系统识别准确率,并在90.91%的人工指标上排名第一或第二,整体系统间排名Kendall相关性为0.83。代码和数据已公开在线提供。

论文链接: https://arxiv.org/pdf/2406.07967

cs.CL: 从甲状腺手术叙述中自动提取信息:GPT-4和微调的KoELECTRA的比较研究

原标题: Automated Information Extraction from Thyroid Operation Narrative: A Comparative Study of GPT-4 and Fine-tuned KoELECTRA

作者: Dongsuk Jang, Hyeryun Park, Jiye Son, Hyeonuk Hwang, Sujin Kim, Jinwook Choi

机构: 首尔国立大学、梨花女子大学医学中心、首尔国立大学医院和医学院。

摘要: 在快速发展的医疗领域,人工智能(AI)的整合已成为临床工作流程自动化的关键组成部分,开启了效率和准确性新时代。本研究关注微调的KoELECTRA模型与GPT-4模型的变革能力,旨在促进从甲状腺手术叙述中自动提取信息。当前的研究领域主要由传统方法主导,这些方法在处理包含手术记录关键细节的自由文本格式(包括冰冻活检报告)时经常面临挑战。为解决这一问题,本研究利用先进的自然语言处理(NLP)技术,推动向更复杂的数据处理系统的范式转变。通过这项比较研究,我们希望揭示医疗领域文件处理更简化、精确和高效的方法,潜在地革新医疗数据处理和分析方式。

论文链接: https://arxiv.org/pdf/2406.07922

cs.CL: DeTriever:基于解码器表示的检索器,用于改进NL2SQL上下文学习

原标题: DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning

作者: Yuxi Feng, Raymond Li, Zhenan Fan, Giuseppe Carenini, Mohammadreza Pourreza, Weiwei Zhang, Yong Zhang

机构: 加拿大英属哥伦比亚大学、华为技术加拿大有限公司、阿尔伯塔大学

摘要: 在上下文学习(ICL)已被证明是一种有效的技术,可以提高大语言模型(LLMs)在各种复杂任务中的性能,特别是在将自然语言问题翻译成结构化查询语言(NL2SQL)方面,如何选择最有益的演示示例仍然是一个未解决的研究问题。虽然先前的研究通常会调整现成的编码器以动态检索示例,但外部检索器和LLMs之间的表征能力存在固有的差异。此外,优化示例的选择是一项非平凡的任务,因为没有直接的方法来评估示例的相对好处,而不进行成对推理。为了解决这些缺点,我们提出了DeTriever,这是一个新颖的演示检索框架,它学习了LLM隐藏状态的加权组合,其中编码了丰富的语义信息。为了训练模型,我们提出了一个代理分数,根据输出查询之间的相似性估计示例的相对好处。在两个流行的NL2SQL基准测试上进行的实验表明,我们的方法在一次NL2SQL任务上明显优于最先进的基线模型。

论文链接: https://arxiv.org/pdf/2406.07913

cs.CL: 大语言模型通过嵌入损坏的提示进行遗忘

原标题: Large Language Model Unlearning via Embedding-Corrupted Prompts

作者: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu

机构: 加州大学圣克鲁兹分校

摘要: 大语言模型(LLMs)已经发展到涵盖各种领域的广泛知识。然而,控制大语言模型不应该知道的内容对于确保对齐性和安全使用至关重要。然而,由于保留和遗忘之间模糊边界可能导致的潜在附带损害,以及优化跨百亿参数的最先进模型所需的大量计算资源,准确高效地从大语言模型中遗忘知识仍然具有挑战性。在这项工作中,我们提出了Embedding-COrrupted(ECO)Prompts,这是一个用于大语言模型的轻量级遗忘框架,旨在解决知识纠缠和遗忘效率方面的挑战。我们不依赖于大语言模型本身进行遗忘,而是通过在推理过程中强制执行一个未学习状态,利用提示分类器识别和保护应该遗忘的提示。我们通过离线向未学习目标优化的零阶优化学习添加到提示嵌入中的破坏,并在推理过程中破坏分类器标记的提示。我们发现,这些嵌入破坏的提示不仅导致符合遗忘目标的理想输出,而且与从未接受过旨在遗忘数据训练的模型的输出非常接近。通过对遗忘进行广泛实验,我们展示了我们的方法在一般领域和与未学习领域密切相关的领域中几乎零副作用地实现有前途的遗忘的优越性。此外,我们强调了我们的方法在100个大语言模型上的可扩展性,这些模型的参数范围从0.5B到236B,随着参数数量的增加不会产生额外成本。

论文链接: https://arxiv.org/pdf/2406.07933

cs.CL: 探索利用有限注释进行自监督多视角对比学习的语音情感识别

原标题: Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations

作者: Bulat Khaertdinov, Pedro Jeuris, Annanda Sousa, Enrique Hortal

机构: 马斯特里赫特大学 荷兰

摘要: 最近在深度学习和自监督学习(SSL)方面取得的进展已经极大地提高了语音情感识别(SER)的性能,达到了前所未有的水平。然而,获取足够准确标记的数据用于训练或微调模型仍然是一项昂贵且具有挑战性的任务。在本文中,我们提出了一种多视图自监督学习预训练技术,可应用于包括大型语音模型生成的表示在内的各种语音表示,以提高在注释有限的情况下的SER性能。我们基于wav2vec 2.0、频谱和语音外语特征进行的实验表明,所提出的框架可以在数据注释极其稀疏的情况下,将SER性能提升高达10%的无权重平均召回率。

论文链接: https://arxiv.org/pdf/2406.07900

cs.CL: 使用带有动量对比学习的标签感知硬负采样策略,用于隐式仇恨言论检测

原标题: Label-aware Hard Negative Sampling Strategies with Momentum Contrastive Learning for Implicit Hate Speech Detection

作者: Jaehoon Kim, Seungwan Jin, Sohyun Park, Someen Park, Kyungsik Han

机构: 汉阳大学 数据科学系 人工智能系

摘要: 检测那些并非直接具有仇恨性的隐含仇恨言论仍然是一个挑战。最近的研究尝试通过将对比学习应用于预训练语言模型(如BERT和RoBERTa)来检测隐含仇恨言论,但是提出的模型仍然没有明显优势,相比于基于交叉熵损失的学习。我们发现,基于随机抽样批数据的对比学习并不鼓励模型学习困难的负样本。在这项工作中,我们提出了一种基于标签感知的硬负样本采样策略(LAHN),它鼓励模型从困难的负样本中学习详细特征,而不是从随机批次中的朴素负样本中学习,使用动量集成对比学习。LAHN在隐含仇恨言论检测方面在内部和跨数据集上均优于现有模型。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.07886

Github: https://github.com/Hanyang-HCC-Lab/LAHN

cs.CL: 设计一个透明和可控的对话 AI 仪表盘

原标题: Designing a Dashboard for Transparency and Control of Conversational AI

作者: Yida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

机构: 哈佛大学 谷歌研究

摘要: 对话式大语言模型作为黑匣子系统运作,让用户猜测为什么会看到他们看到的输出。这种缺乏透明度可能存在问题,特别是考虑到对偏见和真实性的担忧。为了解决这个问题,我们提出了一个端到端的原型连接可解释性技术与用户体验设计,旨在使聊天机器人更加透明。我们首先展示了一个知名的开源大语言模型具有“用户模型”的证据:通过检查系统的内部状态,我们可以提取与用户年龄、性别、教育水平和社会经济地位相关的数据。接下来,我们描述了一个仪表板的设计,该仪表板与聊天机器人界面配套,实时显示这个用户模型。该仪表板还可以用于控制用户模型和系统的行为。最后,我们讨论了一个用户与这个被仪器化的系统进行对话的研究。我们的结果表明,用户喜欢看到内部状态,这有助于他们揭示偏见行为并增加他们的控制感。参与者还提出了有价值的建议,指向设计和机器学习研究的未来方向。我们的TalkTuner系统的项目页面和视频演示可在此网址找到:https://URL。

论文链接: https://arxiv.org/pdf/2406.07882

其他链接: https://bit.ly/talktuner-project-page

cs.CL: 开放域对话生成的动态随机解码策略

原标题: Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation

作者: Yiwei Li, Fei Mi, Yitong Li, Yasheng Wang, Bin Sun, Shaoxiong Feng, Kan Li

机构: 北京理工大学 华为诺亚方舟实验室 华为技术有限公司

摘要: 随机抽样策略,如top-k和top-p,在对话生成任务中被广泛使用。然而,作为一个开放域聊天系统,会出现两种不同的对话场景,即闲聊和基于知识的问答。在前一种情况下,由于对话中的一对多性质,响应的多样性是必不可少的。另一方面,在基于知识的问答中,需要较少的随机性,因为随机解码策略会导致生成不正确信息的风险。因此,需要一种适应性和灵活性的解码策略来同时处理这两种情景。为此,我们提出了动态解码策略(DDS),它可以根据不同的上下文调整解码空间。在DDS中,可以实现序列级和标记级的自适应搜索,以在统一框架中调整解码过程。此外,我们的自适应算法不仅可以在模型推断期间使用,还可以在模型训练阶段应用以进一步提高性能。全面的实验表明,所提出的解码策略在与四种常用的随机解码算法结合时,可以持续改善预训练对话模型的性能。

论文链接: https://arxiv.org/pdf/2406.07850

cs.CL: BookSQL:一个用于会计领域的大规模文本到SQL数据集

原标题: BookSQL: A Large Scale Text-to-SQL Dataset for Accounting Domain

作者: Rahul Kumar, Amar Raja Dibbu, Shrutendra Harsola, Vignesh Subrahmaniam, Ashutosh Modi

机构: 印度理工学院坎普尔分校(IIT Kanpur)Intuit

摘要: 最近提出了几个用于开发自然语言界面到数据库的大规模数据集(例如WikiSQL、Spider)。这些数据集涵盖了广泛的领域,但在一些关键领域(如金融和会计)上仍有不足。考虑到会计数据库被全球范围内的非技术人员广泛使用,迫切需要开发能够通过自然语言查询从会计数据库中提取信息的模型。在这篇资源论文中,我们旨在填补这一空白,提出了一个新的大规模文本到SQL数据集,专注于会计和金融领域:BookSQL。该数据集包含10万个自然语言查询-SQL对,以及100万条记录的会计数据库。我们对BookSQL上的文本到SQL任务进行了实验和分析,包括对现有的最先进模型(包括GPT-4)进行了测试。我们发现存在显著的性能差距,因此指向需要为该领域开发更加专注的模型。

论文链接: https://arxiv.org/pdf/2406.07860

cs.CL: PRoDeliberation: 并行鲁棒决策,用于端到端口语言理解

原标题: PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding

作者: Trang Le, Daniel Lazar, Suyoun Kim, Shan Jiang, Duc Le, Adithya Sagar, Aleksandr Livshits, Ahmed Aly, Akshat Shrivastava

机构: Meta

摘要: 口语理解(SLU)是语音助手的关键组成部分;它包括将语音转换为语义解析以执行任务。先前的研究已经探索了端到端模型,以提高Deliberation的质量和鲁棒性,然而这些模型仍然是自回归的,导致更高的延迟。在这项工作中,我们介绍了PRoDeliberation,这是一种新颖的方法,利用基于连接主义时间分类的解码策略以及一个去噪目标来训练稳健的非自回归决策模型。我们展示了PRoDeliberation实现了并行解码的延迟降低(比自回归模型提高2-10倍),同时保留了纠正自回归决策系统的自动语音识别(ASR)误识别的能力。我们进一步展示了去噪训练的设计使PRoDeliberation能够克服小型ASR设备的限制,并对系统的每个组件的必要性进行了分析。

论文链接: https://arxiv.org/pdf/2406.07823

cs.CL: VALL-E R: 通过单调对齐实现稳健高效的零样本文本转语音合成

原标题: VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment

作者: Bing Han, Long Zhou, Shujie Liu, Sanyuan Chen, Lingwei Meng, Yanming Qian, Yanqing Liu, Sheng Zhao, Jinyu Li, Furu Wei

机构: 上海交通大学 微软公司

摘要: 借助离散神经音频编解码器,大语言模型(LLM)越来越被认为是零样本文本转语音(TTS)合成的一种有前途的方法。然而,基于采样的解码策略为生成带来了惊人的多样性,但也带来了诸如错字、遗漏和重复等鲁棒性问题。此外,音频的高采样率也给自回归推理过程带来了巨大的计算开销。为了解决这些问题,我们提出了VALL-E R,一个稳健高效的零样本TTS系统,建立在VALL-E的基础上。具体来说,我们引入了一种音素单调对齐策略,加强了音素与声学序列之间的联系,通过约束声学标记与其关联的音素匹配,确保更精确的对齐。此外,我们采用了一种编解码器合并方法,在浅量化层中对离散编码进行降采样,从而加快解码速度,同时保持语音输出的高质量。受益于这些策略,VALL-E R获得了对音素的可控性,并通过接近真实文本的词错误率(WER)展示了其强大的鲁棒性。此外,在推理过程中,它需要更少的自回归步骤,时间减少超过60%。这项研究有潜力应用于有意义的项目,包括为受失语症影响的人士创建语音。音频样本将在此https网址提供。

论文链接: https://arxiv.org/pdf/2406.07855

其他链接: https://aka.ms/valler

cs.CL: PolySpeech:探索统一的多任务语音模型,以与单一任务模型竞争力相匹敌

原标题: PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models

作者: Runyan Yang, Huibao Yang, Xiqing Zhang, Tiantian Ye, Ying Liu, Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng

机构: 中国移动研究院

摘要: 最近,有尝试将各种语音处理任务整合到一个统一模型中。然而,少数先前的研究直接证明了在多任务语音模型中对不同任务进行联合优化对个体任务性能有积极影响。在本文中,我们提出了一种多任务语音模型–PolySpeech,支持语音识别、语音合成和两个语音分类任务。PolySpeech以多模态语言模型作为其核心结构,并将语义表示作为语音输入。我们引入了语义语音嵌入标记化和语音重构方法到PolySpeech,实现了对于任何给定说话者的高质量语音的高效生成。与单一任务模型相比,PolySpeech在各种任务上表现出竞争力。在我们的实验中,多任务优化实现了与单一任务优化可比的性能,并且对特定任务尤其有益。

论文链接: https://arxiv.org/pdf/2406.07801

cs.CL: 持续还是离散,这些都是问题的要点

原标题: To be Continuous, or to be Discrete, Those are Bits of Questions

作者: Yiran Wang, Masao Utiyama

摘要: 最近,二进制表示法被提出作为一种介于连续和离散表示之间的新颖表示方法。当用于替换连续输入向量时,它表现出相当大的信息保留能力。在本文中,我们调查了进一步将其引入到输出端的可行性,旨在使模型能够输出二进制标签。为了在输出端保留结构信息以及标签信息,我们将之前的对比哈希方法扩展为结构对比哈希。更具体地,我们将CKY从标签级升级到位级,定义了一个带有跨度边际概率的新相似度函数,并引入了一个带有精心设计的实例选择策略的新对比损失函数。我们的模型在各种结构化预测任务上取得了竞争性表现,并表明二进制表示法可以被视为一种新颖的表示方法,进一步弥合了深度学习的连续性质与自然语言的离散固有属性之间的差距。

论文链接: https://arxiv.org/pdf/2406.07812

cs.CL: 大语言模型是好的统计学家吗?

原标题: Are Large Language Models Good Statisticians?

作者: Yizhang Zhu, Shiyin Du, Boyan Li, Yuyu Luo, Nan Tang

机构: 香港科技大学(广州) 香港科技大学

摘要: 大语言模型(LLMs)已经展示了在数学、物理和化学等一系列科学任务中的令人印象深刻的能力。尽管取得了成功,但LLMs在处理复杂统计任务方面的有效性仍然没有得到系统性的探索。为了弥补这一差距,我们引入了StatQA,这是一个专为统计分析任务设计的新基准。StatQA包括11,623个示例,旨在评估LLMs在专业统计任务和特别是假设检验方法的适用性评估能力方面的熟练程度。我们系统地使用代表性的LLMs进行各种提示策略的实验,并展示即使是GPT-4o这样的最先进模型也只能达到64.83%的最佳性能,表明有很大的改进空间。值得注意的是,虽然开源LLMs(例如LLaMA-3)显示出有限的能力,但那些微调过的模型表现出明显的改进,胜过所有基于上下文学习的方法(例如GPT-4o)。此外,我们的比较人类实验突出显示了LLMs和人类之间错误类型之间的显著差异:LLMs主要产生适用性错误,而人类主要产生统计任务混淆错误。这种分歧突显了熟练和不足的不同领域,表明结合LLM和人类专业知识可能会带来互补的优势,促使进一步探讨它们的协作潜力。

论文链接: https://arxiv.org/pdf/2406.07815

cs.CL: 审判法官:LLM对成对比较评估中的位置偏见进行系统调查

原标题: Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs

作者: Lin Shi, Weicheng Ma, Soroush Vosoughi

机构: 达特茅斯学院

摘要: LLM作为法官为各种任务提供了一种有前途的替代方案,然而固有的偏见,特别是位置偏见 - 对基于提示中位置的答案的系统偏好 - 损害了其有效性。我们的研究通过开发一个框架来系统地研究和量化位置偏见,使用重复一致性、位置一致性和位置公平性等指标来调查这个问题。我们在MTBench和DevBench基准测试中的22个任务中,使用9个法官模型进行实验,以及近40个生成答案的模型,生成了大约80,000个评估实例。这一全面评估揭示了法官和任务之间偏见的显著变化。尽管GPT-4在位置一致性和公平性方面通常表现出色,但一些更具成本效益的模型在特定任务中表现相当甚至更好,突显了一致性、公平性和成本之间的重要权衡。我们的结果还表明,判断在重复中具有高一致性,证实位置偏见不是由于随机变化。这项研究通过引入新概念来理解位置偏见,并提供一个多维框架进行评估,对该领域做出了重要贡献。这些见解指导了最佳法官模型的选择,增强了基准设计,并为未来研究有效去偏见策略奠定了基础,最终提高了LLM评估器的可靠性。

论文链接: https://arxiv.org/pdf/2406.07791

Github: https://github.com/Slimshilin/Position-Bias-Analyzer

cs.CL: 间接请求:通过合成生成间接用户请求,使任务导向对话数据集更加自然

原标题: IndirectRequests: Making Task-Oriented Dialogue Datasets More Natural by Synthetically Generating Indirect User Requests

作者: Amogh Mannekote, Jinseok Nam, Ziming Li, Jian Gao, Kristy Elizabeth Boyer, Bonnie J. Dorr

机构: University of Florida Amazon

摘要: 现有的面向任务的对话基准语料库要么是使用“机器对话机器”的方法收集的,要么是通过向众包工作者提供基于模板的目标描述来收集的。然而,这些方法通常会产生与自然人类对话明显不同的话语,人们通常通过间接方式传达他们的偏好,比如通过闲聊。我们将这种话语称为间接用户请求(IURs)。理解这种话语要求听者具有相当的世界知识和推理能力。我们的研究引入了基于大语言模型的流水线,用于自动生成给定领域的逼真、高质量的IURs,最终目标是支持自然语言理解(NLU)和面向任务对话系统中的对话状态跟踪(DST)的研究。我们的研究结果显示,虽然像GPT-3.5和GPT-4这样的大型LLMs生成了高质量的IURs,但要用较小的模型达到类似质量更具挑战性。我们发布了IndirectRequests,这是一个IURs数据集,超越了最初的Schema-Guided Dialog(SGD)数据集,它为测试NLU和DST模型的“野外”性能提供了一个具有挑战性的试验平台。

论文链接: https://arxiv.org/pdf/2406.07794

cs.CL: 初始化对 LoRA 微调动态的影响

原标题: The Impact of Initialization on LoRA Finetuning Dynamics

作者: Soufiane Hayou, Nikhil Ghosh, Bin Yu

机构: Simons Institute UC伯克利大学 Dept of Statistics

摘要: 在这篇论文中,我们研究了在Low Rank Adaptation(LoRA)中初始化的作用,这是最初由胡等人(2021年)引入的。基本上,为了从预训练模型开始微调,可以将B初始化为零,A初始化为随机(PEFT软件包中的默认初始化),或者反之。在这两种情况下,初始化时的乘积BA等于零,这使得微调从预训练模型开始。这两种初始化方案看似相似。它们应该在原则上产生相同的性能并共享相同的最佳学习率。我们证明这是一个错误的直觉,并且第一种方案(将B初始化为零,A初始化为随机)平均而言比另一种方案表现更好。我们的理论分析表明,这背后的原因可能是第一种初始化允许使用更大的学习率(而不会导致输出不稳定)比第二种初始化,从而更有效地学习第一种方案。我们通过对LLMs进行大量实验证实了我们的结果。

论文链接: https://arxiv.org/pdf/2406.08447

cs.CL: 如果我们用LLaMA-3重新为数十亿张网络图片添加标题,会发生什么?

原标题: What If We Recaption Billions of Web Images with LLaMA-3?

作者: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

机构: UC Santa Cruz University of Edinburgh JHU Adobe UT Austin

摘要: Web爬取的图像文本对本质上是嘈杂的。先前的研究表明,语义对齐和丰富这些对的文本描述可以显著增强模型在各种视觉语言任务中的训练,特别是文本到图像生成。然而,在这一领域的大规模调查仍然主要是闭源的。我们的论文旨在搭建这一社区努力,利用强大且开源的LLaMA-3,一个GPT-4级别的大语言模型。我们的重新描述流程很简单:首先,我们对一个由LLaMA-3-8B驱动的LLaVA-1.5进行微调,然后利用它重新描述来自DataComp-1B数据集的13亿张图像。我们的实证结果证实,这个增强数据集Recap-DataComp-1B在训练先进的视觉语言模型方面带来了实质性的好处。对于像CLIP这样的判别模型,我们观察到在跨模态检索任务中的零样本表现得到了增强。对于像文本到图像扩散Transformer这样的生成模型,生成的图像在与用户的文本指令对齐方面有了显著的改进,特别是在遵循复杂查询时。我们的项目页面是这个https的URL。

论文链接: https://arxiv.org/pdf/2406.08478

其他链接: https://www.haqtu.me/Recap-Datacomp-1B/

cs.CL: 价值千言万语:衡量和理解文本到图像生成中的感知变异性

原标题: Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation

作者: Raphael Tang, Xinyu Zhang, Lixinyu Xu, Yao Lu, Wenyan Li, Pontus Stenetorp, Jimmy Lin, Ferhan Ture

摘要: 扩散模型是文本到图像生成中的最先进技术,但它们的感知变异性仍未得到充分研究。在本文中,我们研究了提示如何影响基于黑盒扩散模型中图像的变异性。我们提出了W1KP,这是一种人工校准的图像集变异性度量,从现有图像对的感知距离中引导出来。当前数据集不包括最近的扩散模型,因此我们为评估策划了三个测试集。我们最佳的感知距离在准确性上比九个基线模型高出多达18个点,我们的校准在78%的情况下与人类评判相匹配。利用W1KP,我们研究了提示的可重用性,并展示了Imagen提示可以在生成的图像变得过于相似之前重复使用10-50个随机种子,而Stable Diffusion XL和DALL-E 3可以重复使用50-200次。最后,我们分析了真实提示的56个语言特征,发现提示的长度、CLIP嵌入范数、具体性和词义对变异性影响最大。据我们所知,我们是第一个从视觉语言学角度分析扩散变异性的研究。我们的项目页面位于此http URL。

论文链接: https://arxiv.org/pdf/2406.08482

其他链接: http://w1kp.com

cs.CL: MMWorld: 朝向视频中多学科多方面世界模型评估

原标题: MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

作者: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

机构: UC Santa Cruz UC Santa Barbara Microsoft

摘要: 多模态语言模型(MLLMs)展示了“世界模型”的新兴能力 - 解释和推理复杂的现实世界动态。为了评估这些能力,我们认为视频是理想的媒介,因为它们包含了丰富的现实世界动态和因果关系的表示。为此,我们引入了MMWorld,这是一个用于多学科、多方面的多模态视频理解的新基准。MMWorld通过两个独特的优势与先前的视频理解基准有所区别:(1)多学科,涵盖通常需要领域专业知识才能全面理解的各种学科;(2)多方面的推理,包括解释、反事实思考、未来预测等。MMWorld包括一个人工注释的数据集,用于评估MLLMs对整个视频的问题,以及一个合成数据集,用于分析MLLMs在单一感知模态内的表现。总体而言,MMWorld涵盖了来自七个广泛学科和69个子学科的1,910个视频,配有6,627个问题-答案对和相关字幕。评估包括2个专有和10个开源MLLMs,在MMWorld上表现不佳(例如,GPT-4V的准确率仅为52.3%),显示出有很大的改进空间。进一步的消融研究揭示了其他有趣的发现,比如模型与人类的不同技能集。我们希望MMWorld能成为视频世界模型评估的一个重要步骤。

论文链接: https://arxiv.org/pdf/2406.08407

cs.CL: 理解声音,错过问题:大型音频语言模型中对象幻觉的挑战

原标题: Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models

作者: Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee

机构: 国立台湾大学

摘要: 大语言模型(LALMs)通过整合音频感知能力,增强了传统的大语言模型,使其能够处理与音频相关的任务。先前的研究主要集中在评估LALMs在各种任务中的表现,但忽视了它们的可靠性,特别是涉及物体幻觉等问题。在我们的研究中,我们介绍了评估公开可用的LALMs物体幻觉程度的方法。我们的研究结果显示,LALMs在理解音频内容方面与专门的音频字幕模型相当,但在回答辨别性问题方面存在困难,特别是那些需要在音频片段中识别特定物体声音存在的问题。这一限制突显了当前LALMs的一个关键弱点:它们对辨别性查询的理解不足。此外,我们探讨了提示工程对提升LALMs在辨别性问题上表现的潜力。

论文链接: https://arxiv.org/pdf/2406.08402

cs.CL: 大语言模型与知识图谱之间相互作用的研究趋势

原标题: Research Trends for the Interplay between Large Language Models and Knowledge Graphs

作者: Hanieh Khorashadizadeh, Fatima Zahra Amara, Morteza Ezzabady, Frédéric Ieng, Sanju Tiwari, Nandana Mihindukulasooriya, Jinghua Groppe, Soror Sahri, Farah Benamara, Sven Groppe

机构: 德国吕贝克大学、阿尔及利亚肯舍拉大学ICOSI实验室、法国图卢兹大学IRIT、法国巴黎城市大学、印度新德里BVICAM、美国IBM研究所

摘要: 这项调查研究了大语言模型(LLMs)与知识图谱(KGs)之间的协同关系,这对于推动人工智能在理解、推理和语言处理方面的能力至关重要。它旨在通过探索知识图谱问答、本体生成、知识图谱验证以及通过大语言模型提高知识图谱准确性和一致性等领域来解决当前研究中存在的差距。该论文进一步考察了大语言模型在为知识图谱生成描述性文本和自然语言查询方面的作用。通过包括对LLM-KG交互作用进行分类、检查方法论以及研究协作使用和潜在偏见在内的结构化分析,该研究旨在为LLMs和KGs的结合潜力提供新的见解。它强调了它们相互作用对于改进人工智能应用的重要性,并概述了未来的研究方向。

论文链接: https://arxiv.org/pdf/2406.08223

cs.CL: 大语言模型必须被教会知道自己不知道的东西

原标题: Large Language Models Must Be Taught to Know What They Don’t Know

作者: Sanyam Kapoor, Nate Gruver, Manley Roberts, Katherine Collins, Arka Pal, Umang Bhatt, Adrian Weller, Samuel Dooley, Micah Goldblum, Andrew Gordon Wilson

机构: 纽约大学 Abacus AI 剑桥大学

摘要: 在高风险应用中使用大语言模型(LLMs)时,我们需要知道何时可以信任它们的预测。一些研究认为,提示高性能LLMs足以产生校准的不确定性,而其他人引入的采样方法可能成本过高。在这项工作中,我们首先认为仅仅提示是不足以实现良好校准的,然后展示在一个小数据集上进行微调,包括正确和错误答案,可以创建一个具有良好泛化性和较小计算开销的不确定性估计。我们展示一千个分级示例足以胜过基线方法,并且通过模型的特征进行训练对于良好性能是必要的,并且在使用LoRA时对于大型开源模型是可行的。我们还调查了使可靠的LLM不确定性估计成为可能的机制,发现许多模型可以用作通用不确定性估计器,不仅适用于它们自己的不确定性,还适用于其他模型的不确定性。最后,我们展示不确定性估计通过用户研究在人类与AI协作环境中指导人类使用LLMs。

论文链接: https://arxiv.org/pdf/2406.08391

cs.CL: 使用语音识别转录的语音情感识别:关于词错误率和融合技术的全面研究

原标题: Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques

作者: Yuanchao Li, Peter Bell, Catherine Lai

机构: 爱丁堡大学

摘要: 文本数据通常被广泛应用作为增强语音情感识别(SER)性能和可靠性的主要输入。然而,在大多数研究中依赖人工转录的文本阻碍了实用SER系统的发展,导致在实验室研究和实际场景之间存在差距,后者中自动语音识别(ASR)作为文本来源。因此,本研究使用具有不同词错误率(WERs)的ASR转录在知名语料库(IEMOCAP、CMU-MOSI和MSP-Podcast)上对SER性能进行基准测试。我们的评估包括仅文本和双模式SER,采用多样的融合技术,旨在进行全面分析,揭示当前SER研究面临的新发现和挑战。此外,我们提出了一个统一的ASR错误鲁棒框架,整合了ASR错误校正和模态门控融合,相较于表现最佳的ASR转录,实现了更低的WER和更高的SER结果。这项研究预计将为具有ASR辅助的SER提供见解,特别是针对实际应用。

论文链接: https://arxiv.org/pdf/2406.08353

cs.CL: 基于Transformer的模型用于ASR N-Best重排和重写

原标题: Transformer-based Model for ASR N-Best Rescoring and Rewriting

作者: Iwen E. Kang, Christophe Van Gysel, Man-Hung Siu

机构: 苹果公司

摘要: 语音助手越来越多地使用设备上的自动语音识别(ASR)来确保速度和隐私。然而,由于设备资源的限制,涉及复杂信息领域的查询通常需要搜索引擎进一步处理。针对这种应用,我们提出了一种新颖的基于Transformer的模型,能够通过并行探索N个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别式序列训练目标,适用于重新评分和重写任务。我们展示了我们的重新评分+重写模型优于仅重新评分的基准模型,并且相对于仅ASR系统本身,平均词错误率(WER)降低了高达8.6%。

论文链接: https://arxiv.org/pdf/2406.08207

cs.CL: 研究混合专家的后训练量化:一个基准

原标题: Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark

作者: Pingzhi Li, Xiaolong Jin, Yu Cheng, Tianlong Chen

机构: 北卡罗来纳大学教堂山分校 朴茨茅斯大学 香港中文大学

摘要: 大语言模型(LLMs)已经成为自然语言处理领域的基础,随着模型规模的增加,性能也在提升。专家混合(MoE)方法提供了一种更有效地扩展LLMs的方式,通过稀疏激活来减少计算FLOPs。然而,它存在着显著的内存开销,需要模型压缩技术。后训练量化是一种常用的模型压缩方法,但直接应用于MoE模型时效果较差,因为MoE的固有稀疏性被忽视了。本文探讨了几种MoE结构感知量化启发式方法,从粗粒度到细粒度,从MoE块到单个线性权重。我们的研究揭示了关键原则:不同的MoE结构(即块、专家、线性层)需要不同数量的权重位进行有效和高效的量化。通过对两个代表性MoE模型和六个任务进行广泛基准测试,得出结论。我们进一步引入了新的增强功能,以更准确地识别MoE量化中需要更高位分配的最关键权重,包括线性权重异常值评分器和MoE块评分器。此外,随后的实验验证了我们在权重和激活量化方面的发现。

论文链接: https://arxiv.org/pdf/2406.08155

cs.CL: LibriTTS-P:一个用于文本转语音和风格字幕的具有说话风格和说话者身份提示的语料库

原标题: LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning

作者: Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana

机构: LY Corp. Japan

摘要: 我们介绍了 LibriTTS-P,这是基于 LibriTTS-R 的新语料库,包括话语级别的风格描述(即提示)和说话者级别的说话者特征提示。我们采用混合方法构建提示注释:(1)捕捉说话者特征的人工注释和(2)关于说话风格的合成注释。与现有的英语提示数据集相比,我们的语料库为 LibriTTS-R 的所有说话者提供了更多样化的提示注释。基于提示的可控 TTS 的实验结果表明,使用 LibriTTS-P 训练的 TTS 模型比使用传统数据集的模型具有更高的自然度。此外,风格字幕任务的结果显示,利用 LibriTTS-P 的模型比使用传统数据集的模型生成的单词准确率高出 2.5 倍。我们的语料库 LibriTTS-P 可在此 https URL 上获取。

论文链接: https://arxiv.org/pdf/2406.07969

Github: https://github.com/line/LibriTTS-P

cs.CL: Blowfish:用于量化语义搜索中歧义的拓扑和统计特征签名

原标题: Blowfish: Topological and statistical signatures for quantifying ambiguity in semantic search

作者: Thomas Roland Barillot, Alex De Castro

机构: BlackRock

摘要: 这项工作报告了句子嵌入中模糊性的拓扑特征的证据,这些特征可以在向量搜索和检索增强生成(RAG)系统的背景下用于排序和/或解释目的。我们提出了模糊性的工作定义,并设计了一个实验,将专有数据集分解为不同大小的块集合 - 3、5和10行,并连续使用不同的集合作为查询和答案集。这使我们能够在消除混淆因素的情况下测试模糊性的特征。我们的结果显示,代理模糊查询(大小为10的查询与大小为3的文档)显示出不同的同源性0和1特征分布,而代理清晰查询(大小为5的查询与大小为10的文档)显示出不同的特征分布。然后,我们讨论了这些结果,涉及增加的多重复杂性和/或近似不连续的嵌入子流形。最后,我们提出了一种策略,利用这些发现作为语义相似性的新评分策略。

论文链接: https://arxiv.org/pdf/2406.07990

cs.CL: 通过多民族场景推断政治倾向

原标题: Political Leaning Inference through Plurinational Scenarios

作者: Joseba Fernandez de Landa, Rodrigo Agerri

机构: HiTZ Center - Ixa, University of the Basque Country UPV/EHU

摘要: 社交媒体用户通过与其他用户互动、自发宣言或参与网络社区来表达他们的政治偏好。这使得像 Twitter 这样的社交网络成为研究计算科学方法应用于政治学习推断的宝贵数据来源。在这项工作中,我们专注于西班牙的三个不同地区(巴斯克、加泰罗尼亚和加利西亚),探索用于多党派分类的各种方法,这些方法对于分析不断发展和复杂的政治格局至关重要,并将其与二元左右派方法进行比较。我们使用一个两步方法,涉及从转发中获得的无监督用户表示形式,以及将其用于政治倾向检测。对一个新收集和筛选的数据集进行全面实验,包括标记用户及其互动,证明了使用关系嵌入作为政治意识形态检测的表示方法在二元和多党派框架中的有效性,即使训练数据有限。最后,数据可视化展示了关系嵌入捕捉复杂的组内和组间政治倾向的能力。

论文链接: https://arxiv.org/pdf/2406.07964

cs.CL: 一个基于概念的大型多模态模型可解释性框架

原标题: A Concept-Based Explainability Framework for Large Multimodal Models

作者: Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Alasdair Newson, Matthieu Cord

机构: Sorbonne Université Valeo.ai

摘要: 大型多模态模型(LMMs)结合单模编码器和大型语言模型(LLMs)来执行多模态任务。尽管近年来在这些模型的可解释性方面取得了进展,但理解LMMs的内部表示仍然是一个谜。在本文中,我们提出了一个用于解释LMMs的新框架。我们提出了一种基于字典学习的方法,应用于标记的表示。学习的字典元素对应于我们提出的概念。我们展示了这些概念在视觉和文本中都有很好的语义基础。因此,我们将其称为“多模概念”。我们定性和定量评估了学到的概念的结果。我们展示了提取的多模概念对解释测试样本的表示是有用的。最后,我们评估了不同概念之间的解缠以及概念在视觉和文本上的基础质量。我们将公开发布我们的代码。

论文链接: https://arxiv.org/pdf/2406.08074

cs.CL: 朝向从自然语言描述生成能力本体的方法

原标题: Toward a Method to Generate Capability Ontologies from Natural Language Descriptions

作者: Luis Miguel Vieira da Silva, Aljosha Köcher, Felix Gehlhoff, Alexander Fay

机构: Helmut Schmidt University, Hamburg, Germany Ruhr University, Bochum, Germany

摘要: 为了实现一个灵活和适应性强的系统,能力本体越来越多地被利用来以机器可解释的方式描述功能。然而,对于建模如此复杂的本体描述仍然是一个需要大量工作量和本体专业知识的手动且容易出错的任务。本文提出了一种创新方法,利用大语言模型(LLMs)自动化能力本体建模,这已被证明非常适合这样的任务。我们的方法只需要一个能力的自然语言描述,然后利用少样本提示技术将其自动插入到预定义提示中。在提示LLM后,通过与LLM循环中的各个步骤自动验证生成的能力本体,以检查能力本体的整体正确性。首先进行语法检查,然后检查矛盾,最后检查幻觉和缺失的本体元素。我们的方法极大地减少了手动工作量,因为只需要最初的自然语言描述以及最终的人工审查和可能的更正,从而简化了能力本体生成过程。

论文链接: https://arxiv.org/pdf/2406.07962

cs.CL: 引导帧级别 CTC 对齐使用自知识蒸馏

原标题: Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation

作者: Eungbeom Kim, Hantae Kim, Kyogu Lee

摘要: Transformer编码器与连接主义时间分类(CTC)框架被广泛用于自动语音识别(ASR)。然而,ASR的知识蒸馏(KD)显示出一个问题,即教师-学生模型在帧级对齐方面存在分歧,最终阻碍了提高学生模型性能。为了解决这个问题,本文介绍了一种自知识蒸馏(SKD)方法,在训练期间引导帧级对齐。与使用单独的教师和学生模型的传统方法相比,本研究引入了一种简单有效的方法,共享编码器层并将子模型应用为学生模型。总体而言,我们的方法在提高资源效率和性能方面是有效的。我们还进行了一个关于脉冲定时的实验分析,以说明所提出的方法通过减少对齐分歧来提高性能。

论文链接: https://arxiv.org/pdf/2406.07909

cs.CL: 探索儿童-成人二人互动中的演讲基础模型进行说话人分离

原标题: Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions

作者: Anfeng Xu, Kevin Huang, Tiantian Feng, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan

机构: 南加州大学 波士顿大学

摘要: 语音基础模型,经过大规模数据集训练,为解决挑战性的低资源语音理解问题(如儿童语音)开辟了独特的机会。在这项工作中,我们探索了语音基础模型在儿童-成人说话人分离上的能力。我们展示了优秀的基础模型相对于先前的说话人分离方法可以分别实现39.5%和62.3%的话者分离错误率和说话者混淆率的相对降低。此外,我们对不同输入音频窗口大小、说话者人口统计数据和训练数据比例下的语音基础模型的说话人分离结果进行基准测试和评估。我们的结果突显了理解和采用语音基础模型以促进儿童语音理解的有希望途径。

论文链接: https://arxiv.org/pdf/2406.07890

cs.CL: 双管道低秩适应在多语言ASR中用于新语言集成

原标题: Dual-Pipeline with Low-Rank Adaptation for New Language Integration in Multilingual ASR

作者: Yerbolat Khassanov, Zhipeng Chen, Tianfeng Chen, Tze Yuang Chong, Wei Li, Jun Zhang, Lu Lu, Yuxuan Wang

机构: ByteDance

摘要: 这篇论文讨论了将新语言集成到预训练的多语种自动语音识别(mASR)系统中所面临的挑战,特别是在现有语言的训练数据有限或不可用的情况下。所提出的方法采用了一个带有低秩适应(LoRA)的双流水线。它维护两个数据流水线,一个用于现有语言,另一个用于新语言。主要流水线遵循mASR的预训练参数的标准流程,而辅助流水线另外利用LoRA和一个单独的输出解码器模块表示的语言特定参数。重要的是,所提出的方法最小化了现有语言的性能下降,并通过解码器选择策略实现了一种语言无关的操作模式。我们通过将预训练的Whisper模型扩展到FLEURS数据集的19种新语言来验证所提出方法的有效性。

论文链接: https://arxiv.org/pdf/2406.07842

cs.CL: 一项基于曼巴的语言模型的实证研究

原标题: An Empirical Study of Mamba-based Language Models

作者: Roger Waleffe, Wonmin Byeon, Duncan Riach, Brandon Norick, Vijay Korthikanti, Tri Dao, Albert Gu, Ali Hatamizadeh, Sudhakar Singh, Deepak Narayanan, Garvit Kulshreshtha, Vartika Singh, Jared Casper, Jan Kautz, Mohammad Shoeybi, Bryan Catanzaro

机构: NVIDIA University of Wisconsin-Madison Princeton University Together AI Carnegie Mellon University Cartesia AI

摘要: 选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如随着序列长度增加而呈二次计算复杂度以及来自键-值缓存的大推理时间内存需求。此外,最近的研究表明,SSMs可以匹配或超越Transformer的语言建模能力,使其成为一种有吸引力的替代方案。然而,在受控环境中(例如,相同数据),迄今为止的研究只展示了将SSMs与Transformer进行小规模实验的情况。为了了解这些架构在更大规模上的优势和劣势,我们在相同数据集上对8B参数的Mamba、Mamba-2和Transformer模型进行直接比较,数据集包含多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层(Mamba-2-Hybrid)组成的混合架构进行比较。通过使用多样化的任务,我们回答了Mamba模型是否能在更大的训练预算下匹配Transformer的问题。我们的结果显示,纯SSMs在许多任务上可以匹配或超越Transformer,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长上下文推理的任务上,它们落后于Transformer。相反,我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务中均超过了8B的Transformer(平均+2.65分),在推理时生成标记时预计速度最多可快8倍。为了验证长上下文能力,我们提供了评估Mamba-2-Hybrid和Transformer的变体以支持16K、32K和128K序列的额外实验。在额外的23个长上下文任务中,混合模型在平均水平上继续接近或超越Transformer。为了促进进一步研究,我们发布了检查点以及用于训练我们的模型的代码,作为NVIDIA的Megatron-LM项目的一部分。

论文链接: https://arxiv.org/pdf/2406.07887

cs.CL: 在线视频中的多模态分层交叉注意力模型标记漫画恶作剧内容

原标题: Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model

作者: Elaheh Baharlouei, Mahsa Shafaei, Yigeng Zhang, Hugo Jair Escalante, Thamar Solorio

机构: 休斯顿大学、INAOE、MBZUAI

摘要: 我们致力于解决在线媒体中检测可疑内容的挑战,特别是漫画恶作剧的子类。这种类型的内容将暴力、成人内容或讽刺与幽默相结合,使其难以检测。采用多模态方法对捕捉漫画恶作剧内容中固有的微妙细节至关重要。为了解决这个问题,我们提出了一种新颖的端到端多模态系统,用于漫画恶作剧检测任务。作为这一贡献的一部分,我们发布了一个针对该任务的新颖数据集,包括三种模态:视频、文本(视频字幕和副标题)和音频。我们还设计了一个带有CAPtions的分层交叉注意力模型(HICCAP),以捕捉这些模态之间的复杂关系。结果表明,所提出的方法在漫画恶作剧检测及其类型分类方面显著优于强大的基线和最先进的模型。这强调了我们的系统潜力,赋予用户对他们选择查看的在线内容做出知情决策的能力。此外,我们在UCF101、HMDB51和XD-Violence数据集上进行实验,将我们的模型与其他最先进方法进行比较,展示了我们提出的模型在各种场景中出色性能。

论文链接: https://arxiv.org/pdf/2406.07841

cs.CL: 告诉我接下来是什么:通用 UI 表示的文本前瞻

原标题: Tell Me What’s Next: Textual Foresight for Generic UI Representations

作者: Andrea Burns, Kate Saenko, Bryan A. Plummer

机构: 波士顿大学

摘要: 移动应用程序用户界面(UI)富含动作、文本、结构和图像内容,可以用于学习通用UI表示,用于自动化用户命令、总结内容和评估用户界面的可访问性。先前的工作已经学习到了具有局部或全局字幕损失的强大视觉表示,但未能保留这两种细粒度。为了解决这个问题,我们提出了Textual Foresight,这是一种用于学习UI屏幕表示的新型预训练目标。Textual Foresight根据当前UI和采取的本地操作生成未来UI状态的全局文本描述。我们的方法需要对元素和整个屏幕进行联合推理,从而改进UI特性:在生成任务上,使用Textual Foresight训练的UI智能体表现优于最先进技术28倍的图像。我们使用我们新构建的移动应用程序数据集OpenApp进行训练,这是用于应用程序UI表示学习的第一个公共数据集。OpenApp实现了新的基准线,我们发现Textual Foresight在平均任务性能上比它们提高了5.7%,同时只使用了2倍少的数据。

论文链接: https://arxiv.org/pdf/2406.07822

Github: https://github.com/aburns4/textualforesight

cs.CL: 欺骗性辨识:部分伪装音频中的“何时伪装”

原标题: Spoof Diarization: “What Spoofed When” in Partially Spoofed Audio

作者: Lin Zhang, Xin Wang, Erica Cooper, Mireia Diez, Federico Landini, Nicholas Evans, Junichi Yamagishi

机构: 国立情报学研究所、SOKENDAI、国立信息通信技术研究所、布尔诺理工大学信息技术学院、EURECOM

摘要: 这篇论文将欺骗性辨别定义为部分欺骗(PS)场景中的一项新任务。它旨在确定何时发生了欺骗,这不仅包括定位欺骗区域,还包括根据不同的欺骗方法对它们进行聚类。作为欺骗性辨别领域的开创性研究,我们专注于定义任务、建立评估指标,并提出了一个基准模型,即反欺骗条件聚类(3C)模型。利用这个模型,我们首先探讨如何有效地训练反欺骗措施以支持欺骗性辨别,使用三种标记方案。然后,我们利用欺骗定位预测来增强辨别性能。这项研究首次揭示了任务的高复杂性,即使在仅考虑每个音频文件一个发言者和一个预先确定数量的欺骗方法的受限场景中也是如此。我们的代码可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2406.07816

Github: https://github.com/nii-yamagishilab/PartialSpoof

cs.CL: 对 Tokenwise Reward-Guided Text Generation 进行批判性审视

原标题: A Critical Look At Tokenwise Reward-Guided Text Generation

作者: Ahmad Rashid, Ruotian Wu, Julia Grosse, Agustinus Kristiadi, Pascal Poupart

机构: University of Waterloo Vector Institute University of Tübingen Tübingen AI Center

摘要: 大语言模型(LLMs)可以通过与人类偏好对齐显着提高,即所谓的从人类反馈中进行强化学习(RLHF)。然而,对于许多用户来说,微调大语言模型的成本是禁止的。由于它们能够绕过LLM微调,最近提出了基于令牌奖励引导的文本生成(RGTG)方法。它们使用在完整序列上训练的奖励模型,在令牌级解码期间对部分序列进行评分,以引导生成朝向具有高奖励的序列。然而,迄今为止,这些方法仅在启发式动机和分析不足方面。在这项工作中,我们展示了在完整序列上训练的奖励模型与评分部分序列不兼容。为了缓解这个问题,我们建议明确地在部分序列上训练Bradley-Terry奖励模型,并在解码时从暗示的令牌级策略中自回归采样。我们研究了这个奖励模型和暗示策略的属性。特别是,我们展示了这个策略与两个不同RLHF策略的比例成正比。我们展示了我们的简单方法优于先前的RGTG方法,并且在没有大规模LLM微调的情况下实现了与强离线基线类似的性能。

论文链接: https://arxiv.org/pdf/2406.07780

cs.CL: 关于在精细语言模型中的特洛伊木马

原标题: On Trojans in Refined Language Models

作者: Jayaram Raghuram, George Kesidis, David J. Miller

机构: Anomalee公司

摘要: 在为特定应用程序(例如确定产品评论情感)优化模型时,可以插入语言模型中的特洛伊木马。在本文中,我们澄清并从经验上探讨了数据投毒威胁模型的变化。然后,我们从经验上评估了针对不同防御场景的两种简单防御方法。最后,我们对相关攻击和防御进行了简要调查。

论文链接: https://arxiv.org/pdf/2406.07778

cs.CL: 集体宪法人工智能:将语言模型与公众输入对齐

原标题: Collective Constitutional AI: Aligning a Language Model with Public Input

作者: Saffron Huang, Divya Siddarth, Liane Lovitt, Thomas I. Liao, Esin Durmus, Alex Tamkin, Deep Ganguli

机构: Collective Intelligence Project Anthropic

摘要: 有越来越多的共识认为,语言模型(LM)开发者不应是LM行为的唯一决策者,这就需要一种方法,使更广泛的公众能够共同塑造影响他们的LM系统的行为。为了解决这一需求,我们提出了集体宪法人工智能(CCAI):这是一个多阶段过程,用于将公众意见纳入LM中-从确定目标人群到获取原则再到训练和评估模型。我们通过创建据我们所知,第一个经过集体获取公众意见微调的LM,并将该模型与使用LM开发者已建立原则训练的基线模型进行评估,展示了这种方法在现实世界中的实用性。我们的定量评估显示了我们方法的几个优点:与基线模型相比,CCAI训练的模型在九个社会维度上表现出更低的偏见,同时在语言、数学和有益-无害评估上保持了相当的性能。对模型的定性比较表明,这些模型在其各自的构成基础上存在差异,例如,当面对有争议的话题时,CCAI训练的模型倾向于生成积极地重新构思问题的回应,而不是拒绝。这些结果显示了一条有前途、可行的道路,可以实现语言模型的公众知情开发。

论文链接: https://arxiv.org/pdf/2406.07814

如果想您想查看常用AI工具的中文文档,可以使用 www.aidoczh.com,里面有Langchain、Milvus等工具的官方文档的中文翻译。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值