2024年7月9日Arxiv语言模型相关论文

ANOLE:一种开放、自回归、本地的大型多模态模型,用于交替生成图像与文本。

原标题: ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

作者: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu

机构: 生成人工智能研究实验室 (GAIR)

摘要: 之前的开源大型多模态模型(LMMs)面临几个限制:(1)它们通常缺乏本地集成,需要使用适配器来对齐视觉表示和预训练的大语言模型(LLMs);(2)许多模型仅限于单模态生成;(3)虽然一些模型支持多模态生成,但它们依赖于独立的扩散模型进行视觉建模和生成。为了缓解这些限制,我们提出了Anole,一个开放的、自回归的、原生的大型多模态模型,用于交错的图像-文本生成。我们基于Meta AI的Chameleon构建了Anole,采用了一种创新的微调策略,既高效使用数据又高效使用参数。Anole展示了高质量、连贯的多模态生成能力。我们已经开源了我们的模型、训练框架和指导调整数据。

论文链接: https://arxiv.org/pdf/2407.06135

Github: https://github.com/gair-nlp/anole

利用语法屏蔽确保基于大语言模型的建模任务中的句法有效性

原标题: Using Grammar Masking to Ensure Syntactic Validity in LLM-based Modeling Tasks

作者: Lukas Netz, Jan Reimar, Bernhard Rumpe

机构: 亚琛工业大学RWTH-Aachen

摘要: 我们提出并评估了一种称为语法屏蔽的方法,该方法用于引导大语言模型(LLM)在给定的无上下文语法下生成符合语法规范的模型。提示工程方法,如少样本学习或引导,可以用来提高LLM生成正确语法的概率,但随着语法复杂性的增加,这些方法变得更加耗时且前景不明确。以往的工作主要集中在语言模型训练或提示工程的使用上。在本研究中,我们提出了一种方法,通过约束解码将输出限制在给定的语法范围内,以确保输出符合有效的语法结构。我们使用基于MontiCore构建的几种DSL,并任务多个LLM生成带有和不带有约束解码的模型。使用对应的解析器来确认每个模型的语法正确性。我们展示了语法屏蔽能显著提升多个LLM的建模能力,减少对精心设计提示的需求,同时增加生成正确模型的机会。

论文链接: https://arxiv.org/pdf/2407.06146

通过双向思辨推理增强语言模型的合理性

原标题: Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning

作者: Yadong Zhang, Shaoguang Mao, Wenshan Wu, Yan Xia, Tao Ge, Man Lan, Furu Wei

机构: 华东师范大学 微软研究院

摘要: 这篇论文介绍了双向深思推理(BIDDER),这是一种新颖的推理方法,旨在增强语言模型的决策合理性。传统的推理方法通常依赖于历史信息,并采用单向(从左到右)推理策略。这种缺乏双向深思推理导致对潜在未来结果的认识有限,对历史背景的整合不足,从而导致次优的决策结果。BIDDER通过整合理性决策原则来填补这一空白,特别是管理不确定性和预测预期效用。我们的方法涉及三个关键过程:推断隐藏状态以表示决策过程中的不确定信息,从历史数据中获取这些隐藏状态;利用这些隐藏状态来预测未来可能的状态和结果;整合历史信息(过去背景)和长期结果(未来背景)以支持推理过程。通过利用双向推理,BIDDER确保了对过去和未来背景的全面探索,从而实现更为明智和理性的决策。我们在两个明确定义的场景中测试了BIDDER的有效性:扑克(限制德州扑克)和谈判。我们的实验表明,BIDDER显著提高了大语言模型(LLMs)和LLM智能体的决策能力。

论文链接: https://arxiv.org/pdf/2407.06112

合并、集成和合作!在大语言模型时代的协作策略调查

原标题: Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models

作者: Jinliang Lu, Ziliang Pang, Min Xiao, Yaochen Zhu, Rui Xia, Jiajun Zhang

机构: 中国科学院自动化研究所 中国科学院大学人工智能学院 南京理工大学 武汉人工智能研究院

摘要: 大语言模型(LLMs)的显著成功引领了自然语言处理(NLP)研究进入了一个新时代。尽管它们具有多样的能力,但在不同语料库上训练的LLMs表现出各自的优势和劣势,这导致了在最大化它们整体效率和多功能性方面的挑战。为了解决这些挑战,最近的研究探索了LLMs的协作策略。本文全面概述了这一新兴研究领域,突出了推动这种协作背后的动机。具体而言,我们将协作策略分为三种主要方法:合并(Merging)、集成(Ensemble)和合作(Cooperation)。合并涉及在参数空间中集成多个LLMs。集成则结合各种LLMs的输出。合作则利用不同的LLMs充分发挥它们在特定任务中的多样能力。我们从不同角度深入介绍了这些方法,并讨论了它们的潜在应用。此外,我们还概述了未来的研究方向,希望这项工作能够催生更多关于LLMs协作的研究,并为先进的NLP应用铺平道路。

论文链接: https://arxiv.org/pdf/2407.06089

认识论偏见作为文本中自动检测不公正的手段

原标题: Epistemological Bias As a Means for the Automated Detection of Injustices in Text

作者: Kenya Andrews, Lamogha Chiazor

机构: 芝加哥伊利诺伊大学 美国 国际商业机器公司IBM研究所 伦敦 英国

摘要: 不公正发生在某人经历不公平对待或其权利被侵犯时,通常是由于内隐偏见和偏见(如刻板印象)的存在。由于潜在的内隐偏见或刻板印象很少被明确表述,并且由于偏见在社会中的普遍性,不公正在文本中的自动识别受到了较少关注。在这里,我们描述了一个新颖的框架,结合了经过微调的基于BERT的偏见检测模型、两个刻板印象检测模型以及基于词汇的方法,以展示认识论偏见(即词汇,假设、导致、断言、含糊或强化文本来侵蚀或肯定一个人作为知识者的能力)如何辅助于文本中不公正的自动检测。新闻媒体中存在许多不公正的例子(如歧视性叙述),因此我们在这里进行了使用案例。我们进行并讨论了一项经验性的定性研究,展示了这一框架如何在更大规模的数据中应用于检测不公正。

论文链接: https://arxiv.org/pdf/2407.06098

从循环到失误:语言模型在不确定性下的备用行为

原标题: From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

作者: Maor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

机构: 特拉维夫大学 计算机科学学院

摘要: 大语言模型(LLMs)经常表现出诸如幻觉和序列重复等不良行为。我们提议将这些行为视为模型在不确定性下表现出的后备选择,并研究它们之间的联系。我们将后备行为分类为序列重复、退化文本和幻觉,并对同一家族中的模型进行了广泛分析,这些模型在预训练令牌数量、参数数量或包含指令跟随训练方面存在差异。我们的实验揭示了后备行为在所有这些维度上的明确且一致的排序:LLM 越先进(即经过更多令牌训练、具有更多参数或进行指令调整),其后备行为从序列重复转变为退化文本,然后是幻觉。此外,在单个生成过程中观察到相同的排序,即使对于表现最佳的模型也是如此;随着不确定性的增加,模型从生成幻觉逐渐转为生成退化文本,然后是序列重复。最后,我们证明了,尽管常见的解码技术(例如随机抽样)可能会减轻一些不良行为如序列重复,但它们会增加更难检测到的幻觉。

论文链接: https://arxiv.org/pdf/2407.06071

Github: https://github.com/mivg/fallbacks

变分最佳N对齐

原标题: Variational Best-of-N Alignment

作者: Afra Amini, Tim Vieira, Ryan Cotterell

机构: 瑞士苏黎世联邦理工学院 ETH Z ¨urich

摘要: Best-of-N (BoN) 是一种流行且有效的算法,用于将语言模型与人类偏好对齐。该算法的工作原理如下:在推断时,从语言模型中抽取 N 个样本,并根据奖励模型判断,返回具有最高奖励的样本作为输出。尽管其有效性已被证明,但 BoN 的计算成本较高;它会将抽样吞吐量降低 N 倍。为了在推断时使 BoN 更加高效,一种策略是对语言模型进行微调,以模仿 BoN 在推断过程中的行为。为了实现这一目标,我们推导出由 BoN 算法引发的分布。然后,我们建议对语言模型进行微调,以最小化相对于 BoN 分布的反向 KL 散度。我们的方法类似于均场变分推断,因此我们将其称为变分 BoN(vBoN)。在微调成功并获得良好近似的情况下,我们将推断成本降低了 N 倍。在受控生成任务上的实验表明,尽管变分 BoN 在语言模型对齐方面不如 BoN 那么有效,但在奖励和 KL 散度的 Pareto 边界上,与采用 KL 约束 RL 目标训练的模型相比,vBoN 更频繁地出现。

论文链接: https://arxiv.org/pdf/2407.06057

MST5 – 在知识图谱上的多语言问答

原标题: MST5 – Multilingual Question Answering over Knowledge Graphs

作者: Nikit Srivastava, Mengshi Ma, Daniel Vollmers, Hamada Zahera, Diego Moussallem, Axel-Cyrille Ngonga Ngomo

机构: 帕德博恩大学

摘要: 知识图谱问答(KGQA)简化了使用自然语言查询基于图形模型存储的大量知识。然而,研究主要集中在英语上,这对非英语使用者造成了不利影响。与此同时,现有的多语言KGQA系统在实现与英语系统相媲美的性能方面面临挑战,突显了从多种语言生成SPARQL查询的困难。在这项研究中,我们提出了一种简化的方法来增强多语言KGQA系统,通过直接将语言上下文和实体信息纳入到语言模型处理流程中。与依赖于单独编码器集成辅助信息的现有方法不同,我们的策略利用单一的预训练多语言Transformer模型来管理主要输入和辅助数据。我们的方法显著改善了语言模型将自然语言查询准确转换为相关SPARQL查询的能力。我们在最新的QALD数据集上(即QALD-9-Plus和QALD-10)展示了令人期待的结果。此外,我们还在中文和日文上介绍并评估了我们的方法,从而扩展了现有数据集的语言多样性。

论文链接: https://arxiv.org/pdf/2407.06041

Vision-Braille:一种用于中文盲文图像到文本翻译的端到端工具

原标题: Vision-Braille: An End-to-End Tool for Chinese Braille Image-to-Text Translation

作者: Alan Wu, Ye Yuan, Ming Zhang

机构: 中国人民大学附属中学 北京大学

摘要: 视力受限的人群因为只能使用盲文进行阅读和写作,因此他们需要专门的教育资源。然而,缺乏这些资源成为了教育他们的瓶颈。教育公平反映了社会文明水平、文化平等和个体尊严。为视力受限者提供和改善终身学习渠道具有重大意义。他们的盲文作业或考试卷无法被视力正常的教师理解,因为缺乏高度精确的盲文翻译系统,特别是对于有声调的汉语而言。盲文写作通常省略声调以节省空间,这导致具有相同辅音和元音的盲文在翻译成汉语时容易引起混淆。先前的算法在提取上下文信息方面不足,导致盲文向汉字的翻译准确率较低。本项目通过对 mT5 模型进行信息精细调整,采用编码-解码架构,用于盲文向汉字的转换。该研究从莱比锡语料库中创建了盲文和相应汉语文本的训练集。该项目显著减少了盲文翻译中的混淆,在验证集和测试集中分别达到了62.4和62.3的BLEU分数,采用课程学习的精细调整方法。通过整合盲文识别算法,该项目成为首个公开可用的盲文翻译系统,可以惠及大量准备参加中国高考的视力受限学生和家庭,并有助于推动他们的大学梦想。在我们的主页上有演示,详见\footnote{\url{this https URL}}。

论文链接: https://arxiv.org/pdf/2407.06048

其他链接: https://vision-braille.com/

PAS:数据高效即插即用提示增强系统

原标题: PAS: Data-Efficient Plug-and-Play Prompt Augmentation System

作者: Miao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Yozhen Wu, Kun Li, Yanjun Sheng, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou

机构: 北京大学 百川公司

摘要: 近年来,大语言模型(LLMs)的兴起推动了对即插即用人工智能系统日益增长的需求。在各种人工智能技术中,提示工程显得尤为重要。然而,由于学习曲线陡峭且需要大量时间投入,用户在编写提示时常常面临挑战,而现有的自动提示工程(APE)模型使用起来也可能颇具难度。为了解决这一问题,我们提出了PAS,一种基于大语言模型的即插即用提示工程系统。PAS利用在高质量自动生成的提示互补数据集上训练的LLMs,表现出卓越的性能。在全面的基准测试中,PAS相比先前的APE模型实现了最先进的结果,平均改进了6.09个点。此外,PAS高效率地实现了最先进的性能,仅使用了9000个数据点。此外,PAS能够自主生成提示增强数据,无需额外的人力投入。其灵活性还使其与所有现有的LLMs兼容,并适用于广泛的任务。在人类评估中,PAS表现出色,突显了其作为用户插件的适用性。PAS在高性能、高效率和灵活性的结合下,成为通过改进提示工程提升LLMs可用性和效果的宝贵系统。

论文链接: https://arxiv.org/pdf/2407.06027

感知到信念:探索大语言模型中心灵论的前推推论

原标题: Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models

作者: Chani Jung (1), Dongkwan Kim (1), Jiho Jin (1), Jiseon Kim (1), Yeon Seonwoo (2), Yejin Choi (3 and 4), Alice Oh (1), Hyunwoo Kim (3) ((1) KAIST, (2) Amazon, (3) Allen Institute for AI, (4) University of Washington)

机构: 中文:KAIST 亚马逊 Allen人工智能研究所 华盛顿大学

摘要: 人类自然而然地发展出心灵理论(ToM),即理解他人的心理状态和信念能力,但目前最先进的大语言模型(LLMs)在简单的ToM基准测试中表现不佳。我们认为,通过评估LLMs中关键的人类ToM前驱能力——感知推理和感知到信念推理——可以扩展我们对LLMs ToM能力的理解。我们引入了两个数据集,Percept-ToMi和Percept-FANToM,用于评估LLMs中ToM的这些前驱推理,通过在ToMi和FANToM上注释角色的感知。我们对八个最先进的LLMs进行评估后发现,这些模型在感知推理方面通常表现良好,但在感知到信念推理方面能力有限(例如,缺乏抑制控制能力)。基于这些结果,我们提出了PercepToM,这是一种新颖的ToM方法,利用LLMs强大的感知推理能力,同时补充其有限的感知到信念推理能力。实验结果表明,PercepToM显著增强了LLM在虚假信念场景中的表现。

论文链接: https://arxiv.org/pdf/2407.06004

Igea:一种仅解码器的生物医学文本生成意大利语言模型

原标题: Igea: a Decoder-Only Language Model for Biomedical Text Generation in Italian

作者: Tommaso Mario Buonocore, Simone Rancati, Enea Parimbelli

机构: 帕维亚大学

摘要: 领域特定语言模型的发展显著推动了自然语言处理在各个专业领域的应用,特别是在生物医学领域。然而,目前主要集中在英语语言模型上,对于意大利语等资源较少的语言存在空白。本文介绍了Igea,这是第一个专为意大利语生物医学文本生成而设计的仅解码器语言模型。Igea基于Minerva模型构建,经过持续在多样化的意大利医学文本语料库上预训练,提供三种模型大小:3.5亿、10亿和30亿参数。这些模型旨在平衡计算效率和性能,解决管理意大利语医学术语特异性的挑战。我们使用混合的领域内生物医学语料库和通用基准进行Igea的评估,突出其效果以及域特定训练后对通用知识的保持能力。本文讨论了该模型的开发和评估,为未来意大利语生物医学自然语言处理的进展奠定了基础。

论文链接: https://arxiv.org/pdf/2407.06011

将系统2提炼为系统1

原标题: Distilling System 2 into System 1

作者: Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov

机构: Meta FAIR

摘要: 大语言模型(LLMs)在推理过程中可以消耗额外的计算资源来生成中间思维,这有助于产生更好的最终响应。自从“思维链”(Wei 等人,2022)之后,许多 System 2 技术被提出,例如“重述与回应”(Deng 等人,2023a)、System 2 注意力(Weston 和Sukhbaatar,2023)以及“分支-求解-合并”(Saha 等人,2023)。在这项工作中,我们研究了自监督方法,将 System 2 技术的“编译”(精炼)高质量输出重新融合到LLM生成中,而不需要中间推理的 Token 序列,因为这种推理已经被精炼到了 System 1 中。我们展示了几种这样的技术可以成功地被精炼,与原始的 System 1 性能相比,结果得到了改进,并且比 System 2 的推理成本更低。我们认为,这种 System 2 的精炼将是未来不断学习的 AI 系统的重要特征,使它们能够集中 System 2 能力于它们目前尚不能很好完成的推理任务上。

论文链接: https://arxiv.org/pdf/2407.06023

LLaMAX:通过增强翻译能力超越100种语言,扩展大语言模型的语言界限

原标题: LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

作者: Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan

机构: 上海人工智能实验室 南京大学 卡内基梅隆大学

摘要: 大语言模型(LLMs)在高资源语言任务中展示出卓越的翻译能力,然而它们在低资源语言中的表现受到预训练阶段多语言数据不足的限制。为解决这一问题,我们投入了35,000个A100-SXM4-80GB GPU小时,在LLaMA系列模型上进行了广泛的多语言持续预训练,实现了跨越100多种语言的翻译支持。通过对诸如词汇扩展和数据增强等训练策略进行全面分析,我们开发出了LLaMAX。值得注意的是,LLaMAX在不损害其泛化能力的情况下,比现有的开源LLMs(超过10个spBLEU点)实现了显著更高的翻译性能,并且在Flores-101基准上与专用翻译模型(M2M-100-12B)表现相当。广泛的实验表明,LLaMAX可以作为一个强大的多语言基础模型。代码\footnote{\url{this https URL.}}和模型\footnote{\url{this https URL.}}已公开提供。

论文链接: https://arxiv.org/pdf/2407.05975

Github: https://github.com/CONE-MT/LLaMAX/ https://github.com/cone-mt/llamax

优化和评估使用人类参与的检索增强型问答聊天机器人,使用大语言模型的方法

原标题: Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop

作者: Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes

机构: 慕尼黑工业大学 SAP SE

摘要: 大语言模型已在各种日常和重复任务中找到应用,包括人力资源(HR)支持。我们与SAP SE的领域专家合作,开发了一个HR支持聊天机器人,作为处理员工查询的高效和有效工具。我们在开发周期的各个阶段,如数据集收集、提示优化和生成输出的评估中,引入了人在环中。通过增强基于大语言模型驱动的聊天机器人的响应质量,并探索替代的检索方法,我们创建了一个高效、可扩展和灵活的工具,供HR专业人员有效地处理员工查询。我们的实验和评估结论是,GPT-4在内部推理能力方面优于其他模型,并能够通过内部推理能力克服数据不一致性。此外,通过专家分析,我们推断出像G-Eval和Prometheus这样的无参考评估指标表现出与人类评估接近的可靠性。

论文链接: https://arxiv.org/pdf/2407.05925

印度临床出院摘要的生成和去识别化,使用大语言模型

原标题: Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs

作者: Sanjeet Singh, Shreya Gupta, Niralee Gupta, Naimish Sharma, Lokesh Srivastava, Vibhu Agarwal, Ashutosh Modi

机构: 印度理工学院坎普尔分校 (IIT Kanpur) Miimansa

摘要: 医疗数据泄露的后果对患者、提供者和支付者可能是毁灭性的。最近几个月数据泄露的平均财务影响被估计接近1千万美元。对于印度的医疗组织而言,这尤为重要,他们正在管理快速的数字化过程,同时建立符合法律的数据治理程序。基于计算机的个人信息去识别系统容易受到数据漂移的影响,在跨机构设置中通常效果不佳。因此,必须对现有的去识别技术进行严格评估,以适应印度数字健康倡议的安全采纳。本文利用印度医疗机构提供的少量去识别患者出院摘要报告,报告了基于语言模型的去识别算法的名义性能,这些算法是在公开非印度数据集上训练的,指出了缺乏跨机构泛化能力的问题。类似地,使用现成的去识别系统进行实验揭示了相关方法可能存在的风险。为了克服数据稀缺问题,我们探索利用大语言模型进行上下文学习生成合成临床报告(利用公开和印度的摘要)。我们的实验表明,利用生成的报告作为创建具有良好泛化能力的高性能去识别系统的有效策略。

论文链接: https://arxiv.org/pdf/2407.05887

KG-FPQ:使用基于知识图谱的错误前提问题评估大语言模型中的事实性幻觉

原标题: KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions

作者: Yanxu Zhu, Jinlin Xiao, Yuhang Wang, Jitao Sang

机构: 北京交通大学 彭成实验室

摘要: 最近的研究表明,大语言模型(LLMs)容易被虚假前提问题(FPQs)误导,导致事实知识的错误,即事实幻觉。现有的评估这种易受攻击性的基准主要依赖于手工构建,规模有限且缺乏可扩展性。在这项工作中,我们引入了一种基于知识图谱(KGs)创建FPQs的自动化、可扩展的流水线。第一步是修改从KGs中提取的真实三元组,创建虚假前提。随后,利用GPTs的最新能力,我们生成语义丰富的FPQs。基于所提出的方法,我们呈现了一个全面的基准,即基于知识图谱的虚假前提问题(KG-FPQ),跨三个知识领域包含约178k个FPQs,具有六个混淆级别和两种任务格式。利用KG-FPQ,我们对几种代表性LLMs进行了广泛的评估,并提供了宝贵的见解。KG-FPQ数据集和代码可在此URL获取。

论文链接: https://arxiv.org/pdf/2407.05868

Github: https://github.com/yanxuzhu/KG-FPQ

语料标题:语言模型词汇扩展和初始化方法的实证比较

原标题: An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models

作者: Nandini Mundra, Aditya Nanda Kishore, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M. Khapra

机构: 印度理工学院马德拉斯分校 印度尼尔卡尼人工智能中心 新加坡应用科学研究院 新加坡微软印度 日本国立信息通信技术研究所 印度理工学院孟买分校

摘要: 语言模型(LMs)在处理英语的自然语言处理任务中表现出色,但在大多数其他语言中表现出的性能较差。这一问题通常通过持续为这些语言模型进行预训练和微调来解决。在这一过程中的一个重要问题是原始模型的分词器词汇覆盖有限,导致对新语言的表示不足,需要扩展分词器的功能。新词汇项的嵌入初始化也是一个进一步的挑战。当前的策略需要跨语言嵌入,但缺乏坚实的理论基础以及与强基准的比较。在本文中,我们首先理论上建立了在现有嵌入的凸包内初始化是一个良好的初始化方法,接着提出了一种新颖但简单的方法,称为受限Word2Vec(CW2V),它不需要跨语言嵌入。我们的研究评估了扩展RoBERTa和LLaMA 2到四种语言和五个任务的不同初始化方法。结果显示,CW2V表现同样好甚至比更先进的技术更好。此外,像多变量初始化这样的简单方法与这些先进方法相媲美,表明即使使用更简单的初始化方法,也可以实现高效的大规模多语言持续预训练。

论文链接: https://arxiv.org/pdf/2407.05841

大语言模型用于司法实体提取:一项比较研究

原标题: Large Language Models for Judicial Entity Extraction: A Comparative Study

作者: Atin Sakkeer Hussain, Anu Thomas

机构: 新加坡国立大学 St.George’s College Aruvithura

摘要: 领域特定实体识别在法律背景下具有重要意义,是支持各种应用的基础任务,如问答系统、文本摘要、机器翻译、情感分析和信息检索,特别是在案例法文件中。最近的进展突显了大语言模型在自然语言处理任务中的有效性,展示了它们准确检测和分类领域特定事实(实体)的能力,例如临床和财务文件中的实体。本研究探讨了大语言模型在案例法文件中识别领域特定实体(如法院、申请人、法官、律师、被告、FIR 号码)的应用,特别关注它们处理领域特定语言复杂性和语境变化的能力。研究评估了包括大语言模型 Meta AI 3、Mistral 和 Gemma 在内的最先进模型架构在提取适合印度司法文本的司法事实方面的表现。Mistral 和 Gemma 显现为表现最佳的模型,展示了平衡的精确度和召回率,对准确实体识别至关重要。这些发现确认了大语言模型在司法文件中的价值,并展示了它们如何通过产生精确、有组织的数据输出来促进和加速科学研究,这些数据适合深入检查。

论文链接: https://arxiv.org/pdf/2407.05786

大语言模型理解布局

原标题: Large Language Models Understand Layouts

作者: Weiming Li, Manni Duan, Dong An, Yan Shao

机构: 浙江实验室 中国移动

摘要: 大语言模型(LLMs)展示了在各种自然语言处理(NLP)任务中非凡的能力。本文展示了除了文本理解能力外,LLMs能够处理由空间标记表示的文本布局。它们能够回答需要明确空间感知和推理的问题,但当原始数据中的空间标记被排除时,观察到了显著的性能下降。我们使用GPT-3.5、Baichuan2、Llama2和ChatGLM3等模型在各种类型的布局敏感数据集上进行了一系列实验以进一步分析。实验结果显示,LLMs的布局理解能力主要是由用于预训练的编码数据引入的,并在指导调整阶段进一步增强。此外,通过一种新颖的文本游戏方法,可以集成低成本的自动生成数据来增强布局理解能力。最后,我们展示了布局理解能力对于构建高效的视觉问答(VQA)系统的益处。

论文链接: https://arxiv.org/pdf/2407.05750

多语言大语言模型是否能减轻刻板印象偏见?

原标题: Do Multilingual Large Language Models Mitigate Stereotype Bias?

作者: Shangrui Nie, Michael Fromm, Charles Welch, Rebekka Görge, Akbar Karimi, Joan Plepi, Nazia Afsan Mowmita, Nicolas Flores-Herr, Mehdi Ali, Lucie Flek

机构: 波恩大学 德国 弗劳恩霍夫智能分析与信息系统研究所 德国 Lamarr机器学习与人工智能研究所 德国

摘要: 初步研究结果显示,多语言大语言模型相较于单语言模型表现出更低的偏见,但对多语言训练对偏见缓解效果的全面理解尚不足。本研究通过系统地训练六个参数相同(26亿参数)且结构相同的大语言模型来填补这一空白:五个单语言模型(英语、德语、法语、意大利语和西班牙语),以及一个多语言模型,后者使用这些语言的数据等量分布进行训练,均使用公开可用的数据。为确保评估的鲁棒性,标准的偏见基准被自动翻译成五种目标语言,并由人类注释员验证翻译质量和偏见保持情况。我们的结果一致表明,多语言训练有效地缓解了偏见。此外,我们观察到,与相同训练数据量、模型架构和大小的单语言模型相比,多语言模型不仅偏见更低,而且预测准确性也更高。

论文链接: https://arxiv.org/pdf/2407.05740

一致的预测可能在什么时候是正确的预测

原标题: When is the consistent prediction likely to be a correct prediction?

作者: Alex Nguyen, Dheeraj Mekala, Chengyu Dong, Jingbo Shang

机构: 加州大学圣地亚哥分校 计算机科学与工程系 Halıcıo ˘glu数据科学研究所

摘要: 自我一致性(Wang等人,2023年)表明,通过大语言模型(LLMs)获得的最一致的答案更有可能是正确的。在本文中,我们对这一论点提出了挑战,并提出了一个细致的修正。我们的观察表明,通过更多计算即更长的推理文本获得的一致答案,而不仅仅是所有输出中最一致的答案,更有可能是正确的。这主要是因为我们证明了LLMs可以在仅生成更长响应时,自主地产生链式思维(CoT)风格的推理,从而导致更为准确的一致预测。在零样本设置中,通过多次采样Mixtral-8x7B模型并考虑更长的响应,我们在GSM8K和MultiArith数据集上实现了86%的零样本CoT提示自我一致性性能。最后,我们证明LLMs生成更长响应的概率非常低,突显了需要基于输出长度条件的解码策略。

论文链接: https://arxiv.org/pdf/2407.05778

对话型聊天机器人中对称推理的实证研究

原标题: Empirical Study of Symmetrical Reasoning in Conversational Chatbots

作者: Daniela N. Rim, Heeyoul Choi

机构: 韩东环球大学

摘要: 这项工作探讨了由大语言模型(LLMs)驱动的会话聊天机器人探索和表征谓词对称性的能力,这是传统上认为是人类固有特征的认知语言功能。利用上下文学习(ICL),这种范式转变使得聊天机器人能够在不重新训练的情况下从提示中学习新任务,我们评估了五种聊天机器人的对称推理能力:ChatGPT 4、Huggingface 聊天 AI、微软的Copilot AI、通过Perplexity的LLaMA和Gemini Advanced。使用Tanchip等人(2020年)的Symmetry Inference Sentence(SIS)数据集,我们将聊天机器人的响应与人类评估进行比较,以衡量它们对谓词对称性的理解能力。实验结果显示,不同的聊天机器人表现出各异的性能,其中一些接近于人类的推理能力。例如,Gemini在与人类评分的相关性达到0.85的同时,为每个对称评估提供了合理的解释。这项研究突显了LLMs在模拟复杂认知过程,如对称推理中的潜力和局限性。

论文链接: https://arxiv.org/pdf/2407.05734

GPT-4独自是否足以用于自动化作文评分?:基于评分者认知的比较判断方法

原标题: Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition

作者: Seungju Kim, Meounggun Jo

机构: 国立教育科学院 韩国  合肥学院 韩国

摘要: 大语言模型(LLMs)在自动化作文评分(AES)方面表现出潜力,但它们在零样本和少样本情况下的性能通常不如最先进的模型和人类评分员。然而,由于现实世界教育环境中使用的作文题目和评分标准的多样性,为每个特定任务微调LLMs是不切实际的。本研究提出了一种新方法,结合LLMs和比较评判(CJ)用于AES,使用零样本提示来在两篇作文之间进行选择。我们展示了比较评判方法在使用LLMs进行作文评分时优于传统的基于评分标准的评分方法。

论文链接: https://arxiv.org/pdf/2407.05733

PsycoLLM:增强大语言模型以提升心理理解与评估

原标题: PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation

作者: Jinpeng Hu, Tengteng Dong, Hui Ma, Peng Zou, Xiao Sun, Meng Wang

机构: 合肥工业大学 完全国家科学中心 中国人工智能研究院 合肥中聚元智能科技有限公司

摘要: 近年来,心理健康问题引起了广泛关注,大语言模型(LLM)由于其在文本理解和对话方面的能力,被认为是缓解这一问题的有效技术。然而,现有领域内的研究往往存在一些限制,例如在缺乏重要先验知识和证据的数据集上训练,以及缺乏综合评估方法。在本文中,我们提出了一种专门的心理学大语言模型(PsycoLLM),它基于一个高质量的心理学数据集进行训练,包括单轮问答、富含先验知识的多轮对话和基于知识的问答。此外,为了比较PsycoLLM与其他LLM的性能,我们开发了一个基于中国权威心理咨询考试的全面心理学基准,其中包括对专业伦理、理论熟练度和案例分析的评估。基准测试的实验结果表明,PsycoLLM表现出优异的效果,比其他LLM表现更为突出。

论文链接: https://arxiv.org/pdf/2407.05721

一个真实性与多样性兼顾的知识基础对话生成解码方法

原标题: A Factuality and Diversity Reconciled Decoding Method for Knowledge-Grounded Dialogue Generation

作者: Chenxu Yang, Zheng Lin, Chong Tian, Liang Pang, Lanrui Wang, Zhengyang Tong, Qirong Ho, Yanan Cao, Weiping Wang

机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院 中国科学院计算技术研究所 阿联酋人工智能大学

摘要: 外部知识的接地可以增强对话生成中回应的事实性。然而,过度强调这一点可能导致缺乏引人入胜和多样化的表达。通过在抽样过程中引入随机性,当前的方法可以增加多样性。然而,这种抽样方法可能会削弱对话生成中的事实性。在这项研究中,为了在不依赖可疑随机性的情况下推进创造力,并在源驱动的范式内微妙地调和事实性和多样性,提出了一种名为 DoGe 的新方法。DoGe 可以根据模型对事实的信心动态地在利用内部参数知识和外部源知识之间进行切换。对三个广泛使用的数据集进行的大量实验表明,DoGe 不仅可以增强回应的多样性,还能保持事实性,并且显著优于其他各种解码策略基线模型。

论文链接: https://arxiv.org/pdf/2407.05718

InverseCoder:通过反向指导释放反向指导调整的代码大语言模型的力量

原标题: InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

作者: Yutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen

机构: 中国科学院计算技术研究所 北京大学 百度公司 Autodesk Research

摘要: 近期开源代码大语言模型(LLMs)的进展展示了通过在强大的闭源LLMs(如GPT-3.5和GPT-4)生成的数据上进行微调,取得了显著的编码能力。本文探讨了如何通过生成自身的数据而不是查询闭源LLMs,进一步改进指令调整的代码LLM。我们的关键观察是正式语言和非正式语言翻译之间的不一致性:将正式语言(即代码)翻译为非正式语言(即自然语言)比反向操作更为直接。基于这一观察,我们提出了INVERSE-INSTRUCT方法,该方法通过从代码片段总结指令而非反向操作。具体来说,给定用于代码的指令调整语料库以及生成的指令调整代码LLM,我们要求代码LLM通过代码摘要和自我评估为原始语料库生成额外的高质量指令。然后,我们在原始语料库和自动生成的语料库的组合上对基础LLM进行微调,从而得到更强大的指令调整LLM。我们展示了一系列名为InverseCoder的代码LLMs,它在包括Python文本到代码生成、多语言编码和数据科学代码生成在内的多个基准测试中超越了原始代码LLMs的性能。

论文链接: https://arxiv.org/pdf/2407.05700

将大语言模型修剪为具有过渡激活的模块内低秩架构

原标题: Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations

作者: Bowen Shen, Zheng Lin, Daren Zha, Wei Liu, Jian Luan, Bin Wang, Weiping Wang

机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院 小米人工智能实验室

摘要: 结构化修剪从根本上减少了大语言模型(LLMs)的计算和内存开销,并为端到端LLM部署提供了可行的解决方案。结构化修剪后的模型保持密集和高精度,与进一步调整和压缩高度兼容。然而,粗粒度的结构化修剪对高度互联的模型造成了较大的损害,对于规模化的LLMs实现高压缩比仍然是一个挑战。本文介绍了一种与紧凑Transformer架构设计相结合的任务无关的结构化修剪方法。所提出的方法名为TransAct,通过减少多头注意力(MHA)和多层感知机(MLP)模块内的过渡激活来实现,同时保留对扰动敏感的模块间激活。因此,LLM被修剪成一个模块内低秩架构,显著减少了权重、KV缓存和注意力计算。TransAct在LLaMA模型上实现,并在下游基准测试中进行评估。结果验证了我们的方法在高压缩效率和性能方面的优越性。此外,消融研究揭示了激活引导的迭代修剪的优势,并对MHA和MLP模块的冗余进行了实验分析。

论文链接: https://arxiv.org/pdf/2407.05690

从先前的错误中获取的上下文原则

原标题: Retrieved In-Context Principles from Previous Mistakes

作者: Hao Sun, Yong Jiang, Bo Wang, Yingyan Hou, Yan Zhang, Pengjun Xie, Fei Huang

机构: 北京大学 中国科学院 阿里巴巴集团 北京理工大学

摘要: 在上下文学习(ICL)中,通过正确的输入-输出示例,已经成功将大语言模型(LLMs)调整到下游任务中。最近的进展试图通过从错误中得出的原则来提高模型性能,但这些方法存在定制性不足和错误覆盖不足的问题。为了解决这些限制,我们提出了检索到的上下文原则(RICP),这是一个新颖的师生框架。在RICP中,师模型分析学生模型的错误,生成预防类似错误的原因和见解。这些错误根据其基础原因进行聚类,形成任务级原则,增强了原则的错误覆盖。在推理过程中,检索到与每个问题最相关的错误,创建问题级原则,提高了提供指导的定制性。RICP与现有的提示方法正交,并且在推理过程中不需要师模型的干预。在七个推理基准上的实验结果表明,RICP在应用于各种提示策略时有效地提升了性能。

论文链接: https://arxiv.org/pdf/2407.05682

文本分类研究的新方向:最大化有限数据下情感分类的性能

原标题: New Directions in Text Classification Research: Maximizing The Performance of Sentiment Classification from Limited Data

作者: Surya Agustian, Muhammad Irfan Syah, Nurul Fatiara, Rahmad Abdillah

机构: UIN Sultan Syarif Kasim Riau

摘要: 利益相关者在情感分析中对各种议题的需求,无论是积极的还是消极的,主要是速度和准确性。情感分析任务中的一个新挑战是有限的训练数据,这经常导致机器学习模型不够优化,在测试数据上表现不佳。本文讨论了基于有限训练数据(300到600个样本)进行文本分类的问题,分为三类:积极、消极和中性。提供了一个基准数据集,用于Kaesang Pangarep被任命为PSI主席议题的训练和测试。还提供了用于聚合和增强目的的外部数据,包括两个数据集:新冠疫苗情感议题和一个开放议题。官方使用的评分指标是F1分数,平衡了三个类别(积极、消极和中性)之间的精确度和召回率。提供了一个基准分数作为未优化分类方法的参考,以及一个优化分数作为任何提议方法所需达到的目标分数的参考。基准和优化的评分都使用了被广泛报告为传统机器学习方法中最先进的SVM方法。基准方法和优化方法的F1分数分别为40.83%和51.28%。

论文链接: https://arxiv.org/pdf/2407.05627

LLMBox:一个用于大语言模型的综合性库

原标题: LLMBox: A Comprehensive Library for Large Language Models

作者: Tianyi Tang, Yiwen Hu, Bingqian Li, Wenyang Luo, Zijing Qin, Haoxiang Sun, Jiapeng Wang, Shiyi Xu, Xiaoxue Cheng, Geyang Guo, Han Peng, Bowen Zheng, Yiru Tang, Yingqian Min, Yushuo Chen, Jie Chen, Yuanqian Zhao, Luran Ding, Yuhao Wang, Zican Dong, Chunxuan Xia, Junyi Li, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen

机构: 中国人民大学高灵人工智能学院 西安电子科技大学计算机科学与技术学院

摘要: 为了促进大语言模型(LLMs)的研究,本文介绍了一个全面统一的库,LLMBox,以便于开发、使用和评估LLMs。该库具有三个主要优点:(1)统一的数据接口,支持各种训练策略的灵活实现,(2)全面的评估,涵盖广泛的任务、数据集和模型,(3)更多的实用考虑,特别是用户友好性和效率方面。使用我们的库,用户可以轻松复现现有方法,训练新模型,并进行全面的性能比较。为了严格测试LLMBox,我们在多种评估设置下进行了大量实验,实验结果展示了我们的库在支持与LLMs相关的各种实现方面的有效性和效率。详细介绍和使用指南请参阅此网址:https://…

论文链接: https://arxiv.org/pdf/2407.05563

Github: https://github.com/RUCAIBox/LLMBox

开放世界多标签文本分类与极弱监督

原标题: Open-world Multi-label Text Classification with Extremely Weak Supervision

作者: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang

机构: 加州大学圣地亚哥分校 辛彤李、江锦雅、瑞娅·达尔马尼、尚静波
思科 杰扬斯·斯里尼瓦萨、高文·刘

摘要: 我们研究在极弱监督(XWS)下的开放世界多标签文本分类,用户只提供简要描述以进行分类,没有任何标签或地面真实标签空间。最近探索了类似的单标签 XWS 设置,但这些方法不易于多标签的适应。我们观察到:(1)大多数文档有一个主导类别覆盖大部分内容;(2)长尾标签可能作为某些文档的主导类别出现。因此,我们首先利用用户描述来提示大语言模型(LLM)提取原始文档子集的主导关键短语,然后通过聚类构建一个初始的标签空间。我们进一步应用零样本多标签分类器定位预测分数较低的文档,以便重新查看它们的主导关键短语,以获得更多的长尾标签。我们迭代这一过程,发现一个全面的标签空间,并构建一个多标签分类器作为一种新方法,X-MLClass。X-MLClass在各种数据集上展示了显著的地面真实标签空间覆盖率增加,例如在AAPD数据集上相比主题建模和关键词提取方法提升了40%。此外,X-MLClass 实现了最佳的端到端多标签分类准确性。

论文链接: https://arxiv.org/pdf/2407.05609

气候误信息的生成式揭穿

原标题: Generative Debunking of Climate Misinformation

作者: Francisco Zanartu, Yulia Otmakhova, John Cook, Lea Frermann

机构: 墨尔本大学

摘要: 关于气候变化的错误信息造成了许多负面影响,因此需要采取纠正措施。心理研究提出了各种减少气候误信息影响的策略,如事实-谬误-谬误-事实结构。然而,在实际规模上实施纠正干预面临挑战。自动检测和纠正误信息为解决误信息问题提供了解决方案。本研究记录了开发大语言模型的过程,这些模型接受气候谬误作为输入,并生成符合事实-谬误-谬误-事实(“真相三明治”)结构的揭露,通过将反对者主张分类和谬误检测结合到LLM提示框架中。我们结合开放的(Mixtral、Palm2)和专有的(GPT-4)LLM,采用不同复杂度的提示策略。实验显示,如果结合结构化提示,GPT-4和Mixtral表现出令人期待的性能。我们识别了揭露生成和人类评估的具体挑战,并规划了未来工作的方向。我们发布了一个高质量真相三明治揭露的数据集、源代码和揭露系统的演示。

论文链接: https://arxiv.org/pdf/2407.05599

视觉语言模型中的多物体幻觉

原标题: Multi-Object Hallucination in Vision-Language Models

作者: Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai

机构: 密歇根大学 弗吉尼亚大学 纽约大学

摘要: 大语言视觉语言模型(LVLMs)经常出现物体幻觉问题,会在给定图像中产生不存在的物体。当前关于物体幻觉的基准主要集中在单一物体类别的存在性上,而非个体实体。本文系统地研究了多物体幻觉问题,探讨了模型在同时关注多个物体时如何错误理解(例如,发明不存在的物体或分心)。我们引入了基于识别的物体探测评估(ROPE),这是一种自动化评估协议,考虑了测试过程中单个图像中物体类别的分布,并使用视觉引用提示消除歧义。通过全面的实证研究和对导致多物体幻觉的潜在因素的分析,我们发现:(1)相比于单一物体,LVLMs 在关注多个物体时更容易出现幻觉;(2)被测试的物体类别分布影响了幻觉行为,表明LVLMs可能会遵循捷径和虚假相关性;(3)幻觉行为受到数据特定因素、显著性和频率以及模型内在行为的影响。我们希望能够使LVLMs能够识别和推理出现在现实视觉场景中的多个物体,为解决这些问题提供见解并量化我们在此方面的进展。

论文链接: https://arxiv.org/pdf/2407.06192

视觉语言模型在文化和包容性考虑下

原标题: Vision-Language Models under Cultural and Inclusive Considerations

作者: Antonia Karamolegkou, Phillip Rust, Yong Cao, Ruixiang Cui, Anders Søgaard, Daniel Hershcovich

机构: 哥本哈根大学

摘要: 大语言模型(VLM)可以通过描述视觉障碍者日常生活中的图像来帮助他们。目前的评估数据集可能无法反映多样化的文化用户背景或这种使用情境的情况。为了解决这个问题,我们创建了一项调查,以确定标题偏好,并提出了一个以文化为中心的评估基准,通过对由盲人拍摄的图像组成的现有数据集VizWiz进行筛选。然后,我们评估了几种VLM,研究它们在文化多样背景中作为视觉助手的可靠性。尽管我们对最先进模型的结果感到乐观,但我们发现了幻觉和自动评估指标与人类判断的不一致等挑战。我们公开了我们的调查、数据、代码和模型输出。

论文链接: https://arxiv.org/pdf/2407.06177

关于加速语言模型评估

原标题: On Speeding Up Language Model Evaluation

作者: Jin Peng Zhou, Christian K. Belardi, Ruihan Wu, Travis Zhang, Carla P. Gomes, Wen Sun, Kilian Q. Weinberger

机构: 康奈尔大学 加州大学圣地亚哥分校

摘要: 大语言模型(LLMs)目前主导着自然语言处理(NLP)领域,代表着各种任务的最新技术水平。开发这种类型的模型,从训练到推断,需要做出许多决策,这些决策定义了一个组合搜索问题。例如,选择最佳的预训练LLM、提示或超参数,以获得任务的最佳性能,通常需要在整个测试集上评估多个候选模型。这种详尽的评估可能非常耗时和昂贵,因为LLM的推断和指标计算都是资源密集型的。在本文中,我们解决了在有限预算内评估测试示例的最佳方法的挑战。通过利用广为研究的多臂老虎机框架,该框架依次选择下一个方法-示例对进行评估,我们的方法结合了多臂老虎机算法和低秩因子分解,显著降低了所需资源。实验表明,我们的算法可以仅使用通常需要资源的5-15%来识别表现最佳的方法,从而使成本减少了85-95%。

论文链接: https://arxiv.org/pdf/2407.06172

大语言模型生成的代码有哪些问题?一项广泛研究

原标题: What’s Wrong with Your Code Generated by Large Language Models? An Extensive Study

作者: Shihan Dou, Haoxiang Jia, Shenxi Wu, Huiyuan Zheng, Weikang Zhou, Muling Wu, Mingxu Chai, Jessica Fan, Caishuang Huang, Yunbo Tao, Yan Liu, Enyu Zhou, Ming Zhang, Yuhao Zhou, Yueming Wu, Rui Zheng, Ming Wen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Tao Gui, Xipeng Qiu, Qi Zhang, Xuanjing Huang

机构: 复旦大学 北京大学 南洋理工大学 明尼苏达大学教堂山分校 美团公司 华中科技大学

摘要: 大语言模型(LLMs)在代码生成领域的不断发展引起了研究人员的广泛关注。为了提升基于LLMs的代码生成能力,当前的努力主要集中在收集高质量的数据集和利用多样化的训练技术上。然而,目前存在一个明显的问题,即缺乏对现有方法限制和边界的全面研究。为了弥补这一空白,我们进行了广泛的实证研究,评估了三个主流闭源LLMs和四个流行的开源LLMs在三个常用基准测试上的性能。我们的调查评估了生成代码的长度、圈复杂度和API数量,结果显示,这些LLMs在生成更复杂问题的成功代码方面面临挑战,并且倾向于生成比传统解决方案更短但更复杂的代码。此外,我们还开发了一个错误代码的分类系统,包括三个主要类别和12个子类别,并分析了常见错误类型的根本原因。为了更好地理解LLMs在真实项目中的表现,我们手动创建了一个包含140个代码生成任务的真实世界基准。我们的分析突显了实际情况与现有基准之间在错误分布上的显著差异。最后,我们提出了一种新颖的无需训练的迭代方法,引入自我批评,使LLMs能够根据错误类型和编译器反馈批评和修正生成的代码。实验结果表明,我们的方法可以显著减少错误,两次迭代后通过率提高了29.2%,显示出LLMs处理更复杂问题的巨大潜力。

论文链接: https://arxiv.org/pdf/2407.06153

T2VSafetyBench:评估文本到视频生成模型的安全性

原标题: T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models

作者: Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu, Xiao-Shan Gao

机构: 中国科学院数学与系统科学研究院 KLMM、清华大学计算机科学与技术系、清华-博世联合机器学习中心、清华大学 BNrist 中心

摘要: 最近Sora的发展开创了文本转视频(T2V)生成的新时代。随之而来的是对其安全风险日益关注。生成的视频可能包含非法或不道德的内容,且缺乏全面的定量安全理解,这给它们的可靠性和实际部署带来挑战。先前的评估主要集中在视频生成质量上。虽然一些文本转图像模型的评估考虑了安全性,但涵盖的方面较少,且未解决视频生成中独特的时间风险问题。为填补这一研究空白,我们介绍了T2VSafetyBench,一个新的基准测试,旨在进行文本转视频模型的安全关键评估。我们定义了视频生成安全的12个关键方面,并使用LLM和越狱提示攻击构建了一个恶意提示数据集。根据我们的评估结果,我们得出了几个重要发现,包括:1)没有单一模型在所有方面表现出色,不同模型显示出各种优势;2)GPT-4评估与手动审查之间的相关性通常较高;3)在文本转视频生成模型的可用性和安全性之间存在权衡。这表明随着视频生成领域的快速发展,安全风险势必上升,突显了优先考虑视频安全的紧迫性。我们希望T2VSafetyBench能够为在生成AI时代更好地理解视频生成安全性提供见解。

论文链接: https://arxiv.org/pdf/2407.05965

基于基础模型的视觉语言连续导航的功能导向规划

原标题: Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation

作者: Jiaqi Chen, Bingqian Lin, Xinmin Liu, Xiaodan Liang, Kwan-Yee K. Wong

机构: 香港大学 深圳中山大学校 美团

摘要: 基于大语言模型的智能体在视觉语言导航(VLN)任务中展示了令人印象深刻的零样本表现。然而,这些零样本方法仅集中于通过在预定义导航图中选择节点来解决高级任务规划,而忽视了现实导航场景中的低级控制。为了弥补这一差距,我们提出了AO-Planner,一种新颖的面向便利性的持续VLN任务规划框架。我们的AO-Planner整合了各种基础模型,实现了面向便利性的运动规划和动作决策,均以零样本方式进行。具体来说,我们采用了视觉便利性提示(VAP)方法,利用SAM分割可见地面以提供导航便利性,基于此,大语言模型选择潜在的下一个航点并生成朝向选定航点的低级路径规划。我们进一步引入了高级智能体PathAgent,以识别最可能的基于像素的路径,并将其转换为3D坐标以实现低级运动。在具有挑战性的R2R-CE基准测试上的实验结果表明,AO-Planner实现了最先进的零样本性能(SPL提高了5.5%)。我们的方法在LLM与3D世界之间建立了有效的连接,以避免直接预测世界坐标的困难,为在低级运动控制中应用基础模型提供了新的前景。

论文链接: https://arxiv.org/pdf/2407.05890

基于LLM的开放领域集成任务与知识助理,带可编程策略

原标题: LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies

作者: Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam

机构: 斯坦福大学

摘要: 基于LLM的知识和任务助手编程是具有挑战性的。这些智能体必须遵循开发者提供的政策,以检索并提供一致、准确和相关的信息来解决用户的查询和需求。然而,这样的智能体可能会生成没有根据的回应(“hallucinate”)。传统的对话树只能处理有限数量的对话流程,因此本质上是脆弱的。为此,我们提出了KITA - 一个可编程框架,用于创建能够处理复杂用户互动的面向任务的对话智能体。与LLM不同,KITA通过其表达式规范——KITA Worksheet,提供可靠的扎根响应,并通过其声明式范式实现可控的智能体策略。与对话树相比,它对多样化的用户查询具有韧性,支持知识源,并通过简单的编程策略提供便利性。通过涉及62名参与者的真实用户研究,我们展示KITA在执行准确性、对话行为准确性和目标完成率上击败了带有功能调用基线的GPT-4,分别提升了26.1、22.5和52.4个百分点。我们还发布了22个经过手工校正以确保准确性的KITA真实用户对话。

论文链接: https://arxiv.org/pdf/2407.05674

关于将计算能力阈值作为治理策略的局限

原标题: On the Limitations of Compute Thresholds as a Governance Strategy

作者: Sara Hooker

摘要: 这篇文章的表面意思是关于理解一种相当微妙的治理工具——计算阈值。然而,为了探讨这些阈值是否会取得成效,我们首先必须了解它们是如何形成的。这需要参与到计算机科学进展核心的一个几十年来的辩论中,即,更大是否总是更好?因此,这篇文章不仅对政策制定者和广大公众有兴趣,对于希望理解计算在推动突破中的作用的计算机科学家也同样重要。某种程度的计算的拐点是否会导致模型风险剖面的变化?考虑到治理方法的广泛采用,这一讨论日益紧迫,这些方法暗示更大的计算能力可能带来更高的潜在伤害。一些领先的前沿人工智能公司已经发布了负责任的扩展政策。美国总统关于人工智能安全的行政命令(EO)和欧盟人工智能法案(AI Act)都将浮点运算量(FLOP)作为识别更强系统的一种方式。关于迄今为止选择的计算阈值的显著之处在于,目前在实际部署中的模型均未能满足EO设定的当前标准。这表明重点通常不在于审计当前部署模型所产生的风险和危害,而是基于这样一种信念:未来的计算能力水平将引入无法预见的新风险。这篇文章的一个关键结论是,目前实施的计算阈值是短视的,很可能无法有效降低风险。过度依赖计算的治理未能理解计算与风险之间关系的高度不确定性和快速变化。它也高估了我们在不同规模上能力出现的预测能力。文章最后提出了更好前进方向的建议。

论文链接: https://arxiv.org/pdf/2407.05694

多标签学习与随机圆形向量

原标题: Multi-label Learning with Random Circular Vectors

作者: Ken Nishida, Kojiro Machi, Kazuma Onishi, Katsuhiko Hayashi, Hidetaka Kamigaito

机构: 北海道大学 东京大学 奈良先端科学技术大学院大学

摘要: 极端多标签分类(XMC)任务涉及学习一个分类器,能够从一个大的标签集合中预测出对于数据实例最相关的标签子集。尽管深度神经网络(DNNs)在XMC问题上表现出了显著的成功,但这个任务仍然具有挑战性,因为它必须处理大量的输出标签,这使得DNN训练计算上非常昂贵。本文通过探索随机圆形向量的使用来解决这一问题,其中每个向量分量被表示为复幅度。在我们的框架中,可以通过将最终输出层表示为一个完全连接的层来开发用于XMC的DNN的输出层和损失函数,直接预测编码数据实例标签集的低维圆形向量。我们在合成数据集上进行了实验,验证了圆形向量比普通实值向量具有更好的标签编码能力和检索能力。随后,我们在实际XMC数据集上进行了实验,并发现圆形向量的这些优良特性相比使用随机实值向量的先前模型,显著提高了任务性能,同时将输出层的大小减少了高达99%。

论文链接: https://arxiv.org/pdf/2407.05656

关于卷积增强 Transformer 的能力

原标题: On the Power of Convolution Augmented Transformer

作者: Mingchen Li, Xuechen Zhang, Yixiao Huang, Samet Oymak

机构: 密歇根大学 加州大学伯克利分校

摘要: Transformer架构在语言建模领域引发了革命性进展。然而,最近的架构设计,如状态空间模型,已经弥合了性能差距。在此背景下,我们研究了卷积增强Transformer(CAT)在召回、复制和长度泛化任务中的优势。CAT在注意力层的K/Q/V嵌入中结合了卷积滤波器。通过CAT,我们展示了卷积的局部性与注意力的全局视图之间的协同效应。与Mamba或Transformer等可比的架构不同,CAT可以通过单层结构可靠地解决联想召回(AR)和复制任务,同时享有长度泛化的保证。我们还通过表征卷积如何通过总结上下文窗口和创建显著的摘要token来减少对全注意力的需求,建立了卷积和注意力之间的计算权衡。在真实数据集上的评估证实了我们的发现,并展示了CAT及其变体确实提升了语言建模的性能。

论文链接: https://arxiv.org/pdf/2407.05591

多说者匿名化的基准测试

原标题: A Benchmark for Multi-speaker Anonymization

作者: Xiaoxiao Miao, Ruijie Tao, Chang Zeng, Xin Wang

机构: IEEE

摘要: 隐私保护语音保护方法主要抑制来自语言之外属性的隐私相关信息,同时保留语言内容。现有解决方案集中在单一说话者场景,但对于现实世界的多说话者场景缺乏实用性。本文介绍了提供多说话者匿名化基准的初步尝试,通过定义任务和评估协议、提出基准解决方案,并讨论重叠对话的隐私泄露。具体而言,理想的多说话者匿名化应保留说话者数量和对话的轮流结构,确保准确传达上下文同时保护隐私。为了实现这一目标,级联系统使用说话者分离来聚合每位说话者的语音,并使用说话者匿名化来隐藏说话者的隐私并保留语音内容。此外,我们提出了两种会话级说话者向量匿名化方法以进一步提高效用。这两种方法旨在使每位说话者在原始和伪匿名化对话中的原始说话者身份及其对应的伪说话者身份不可关联,同时保持或甚至提升对话中伪说话者的可辨识性。第一种方法通过最小化原始和匿名化对话中说话者对之间的差异相似性,以保持匿名化版本中的原始说话者关系。另一种方法则通过最小化匿名化说话者之间的聚合相似性来实现更好地区分说话者。在非重叠模拟和现实世界数据集上进行的实验证明了提议的说话者匿名化系统的有效性。此外,我们还分析了关于隐私泄露的重叠语音问题,并提出了潜在的解决方案。

论文链接: https://arxiv.org/pdf/2407.05608

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值