2024年6月12日Arxiv大语言模型相关论文

cs.CL: 我们露营并不意味着我们应该这样做:建模酷儿之声的伦理学

原标题: Just Because We Camp, Doesn’t Mean We Should: The Ethics of Modelling Queer Voices

作者: Atli Sigurgeirsson, Eddie L. Ungless

机构: 爱丁堡大学、苏格兰中心语音技术研究中心

摘要: 现代语音克隆模型声称能够捕捉各种不同的声音。我们测试了典型流程捕捉口头上被称为“gay voice”的风格的能力,并注意到一种同质化效应:合成的语音被 LGBTQ+ 参与者评为听起来明显“不那么gay”(相比具有“gay voice”的说话者的真实语音),但实际上对于控制组说话者,评分却有所增加。失去“gay voice”对可访问性有影响。我们还发现,对于具有“gay voice”的说话者,失去“gay voice”对相似度评分有降低的对应关系。
然而,我们警告称,改进这类模型合成“gay voice”的能力伴随着许多风险。我们以此流程为起点,探讨更广泛地对塑造酷儿声音的伦理问题。收集“干净”的酷儿数据具有安全和公平的影响,而由此产生的技术可能会导致从嘲笑到死亡的伤害。

论文链接: https://arxiv.org/pdf/2406.07504

cs.CL: THaLLE:文本超本地增强大语言扩展–技术报告

原标题: THaLLE: Text Hyperlocally Augmented Large Language Extension – Technical Report

作者: KBTG Labs, Danupat Khamnuansin, Atthakorn Petchsod, Anuruth Lertpiya, Pornchanan Balee, Thanawat Lodkaew, Tawunrat Chalothorn, Thadpong Pongthawornkamol, Monchai Lertsutthiwong

机构: NLP-Voice Research Lab KBTG实验室 KASIKORN商业科技集团

摘要: 最近大语言模型(LLMs)的进展揭示了技术领域中的新能力和机遇。然而,非常大的LLMs的实用性受到其高计算成本的挑战,这并不能证明其受益程度,因为与人类相比,它们的能力有限。尽管更小、更实用的LLMs在金融分析方面显示出潜力,但它们尚未完全熟练,这一点可以从它们在特许金融分析师(CFA)考试中接近及格的表现中看出。在这项工作中,我们提出了对我们的文本超局部增强大语言扩展(THaLLE)进行金融分析扩展,这是一系列8B的LLMs,在模拟CFA考试中始终取得最高性能,超过了相同规模模型。我们详细记录了用于促进未来研究的微调技术。此外,我们引入了Flare CFA的使用,这是一个公开可用的数据集,用于评估LLMs作为金融顾问的表现。

论文链接: https://arxiv.org/pdf/2406.07505

cs.CL: 开放式LLM排行榜:从多选题到开放式问题,用于LLM评估、基准测试和竞技场。

原标题: Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena

作者: Aidar Myrzakhan, Sondos Mahmoud Bsharat, Zhiqiang Shen

机构: 穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zayed University of AI) VILA实验室

摘要: 多项选择题(MCQ)经常用于评估大语言模型(LLMs)。通常,LLM被给定一个问题,并在考虑长度等因素后选择被认为最有可能的答案。不幸的是,由于先验不平衡概率的固有偏见,LLMs可能固有地偏向于某些答案选择ID,如A/B/C/D,从而影响基于这些ID的答案预测。先前的研究引入了通过简单对少量测试样本上的选项进行排列并应用到新样本中来减少这种“选择偏见”的方法。多项选择题的另一个问题是通过“随机猜测”来选择彩票选项。LLM并没有学习特定知识,但选项被猜对了。这种情况对于那些小规模LLMs尤为严重。为了解决这些问题,一个更彻底的方法涉及从多项选择题转向开放式问题,这可以从根本上消除选择偏见和随机猜测问题。然而,过渡会带来一系列挑战,包括(1)确定合适的开放式问题和(2)验证LLM开放式回答的正确性与人工注释的地面真相。这项工作旨在解决这些重要困难,并通过完全开放式问题建立一个新的LLM评估基准。因此,我们引入了Open-LLM-Leaderboard来跟踪各种LLMs的性能,并反映它们的真实能力,如GPT-4o/4/3.5、Claude 3、Gemini等。我们的代码和数据集可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.07545

Github: https://github.com/VILA-Lab/Open-LLM-Leaderboard

cs.CL: 简单而有效的遮蔽扩散语言模型

原标题: Simple and Effective Masked Diffusion Language Models

作者: Subham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov

机构: 康奈尔科技(Cornell Tech)

摘要: 虽然扩散模型在生成高质量图像方面表现出色,但先前的研究报告指出扩散模型和自回归(AR)方法在语言建模方面存在显著的性能差距。在这项工作中,我们展示了简单的掩码离散扩散比以往认为的更有效。我们应用了一种有效的训练方法,提高了掩码扩散模型的性能,并推导出一个简化的 Rao-Blackwellized 目标,从而实现了额外的改进。我们的目标具有简单的形式–它是传统掩码语言建模损失的混合体–可以用于训练仅包含编码器的语言模型,这些模型可以采用高效的采样器,包括可以半自回归地生成任意长度文本的模型,就像传统语言模型一样。在语言建模基准测试中,一系列经过现代工程实践训练的掩码扩散模型实现了扩散模型中的最新技术水平,并接近自回归困惑度。我们在此 https URL 上发布了我们的代码。

论文链接: https://arxiv.org/pdf/2406.07524

Github: https://github.com/kuleshov-group/mdlm

cs.CL: Samba: 用于高效无限上下文语言建模的简单混合状态空间模型

原标题: Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

作者: Liliang Ren, Yang Liu, Yadong Lu, Yelong Shen, Chen Liang, Weizhu Chen

机构: 微软 伊利诺伊大学香槟分校

摘要: 有效地对具有无限上下文长度的序列进行建模一直是一个长期存在的问题。过去的研究要么受到二次计算复杂性的困扰,要么在长度泛化方面具有有限的外推能力。在这项工作中,我们提出了Samba,这是一个简单的混合架构,它逐层结合了Mamba(一种选择性状态空间模型SSM)和滑动窗口注意力SWA。Samba可以选择性地将给定序列压缩成循环隐藏状态,同时仍然保持着通过注意机制精确回忆记忆的能力。我们将Samba扩展到了38亿参数,使用32万亿训练标记,并展示了Samba在各种基准测试中明显优于基于纯注意力或SSM的最先进模型。当在4K长度序列上训练时,Samba可以有效地外推到256K上下文长度,具有完美的记忆回忆,并且在长达1M上下文长度时显示出改进的标记预测。作为一个线性时间序列模型,Samba在处理128K长度用户提示时的吞吐量比使用分组查询注意力的Transformer高出3.73倍,并且在生成64K标记并进行无限流式处理时加速了3.64倍。Samba的一个示例实现可以在此https URL中公开获得。

论文链接: https://arxiv.org/pdf/2406.07522

Github: https://github.com/microsoft/Samba

cs.CL: 用肯定的方式改写可以提高否定理解

原标题: Paraphrasing in Affirmative Terms Improves Negation Understanding

作者: MohammadHossein Rezaei, Eduardo Blanco

机构: 亚利桑那大学

摘要: 否定是一种常见的语言现象。然而,语言模型在许多自然语言理解任务中面临否定的挑战,例如问答和自然语言推理。在本文中,我们尝试使用无缝策略,将肯定解释(即,没有否定的释义)纳入模型,使其更具抗否定的鲁棒性。至关重要的是,我们的肯定解释是自动获取的。我们展示了在CondaQA上的改进,这是一个需要处理否定推理的大语料库,以及五个自然语言理解任务。

论文链接: https://arxiv.org/pdf/2406.07492

cs.CL: TextGrad:通过文本实现自动“微分”

原标题: TextGrad: Automatic “Differentiation” via Text

作者: Mert Yuksekgonul, Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang, Carlos Guestrin, James Zou

机构: 斯坦福大学 陈·扎克伯格生物中心

摘要: 人工智能正在经历一场范式转变,通过系统协调多个大语言模型(LLMs)和其他复杂组件取得了突破。因此,为复合人工智能系统开发原则性和自动化优化方法是最重要的新挑战之一。神经网络在早期也面临类似的挑战,直到反向传播和自动微分通过使优化变得一键完成而改变了这一领域。受此启发,我们引入了TextGrad,一个通过文本执行自动“微分”的强大框架。TextGrad通过LLMs提供的文本反馈进行反向传播,以改进复合人工智能系统的各个组件。在我们的框架中,LLMs提供丰富、通用、自然语言的建议,以优化计算图中的变量,涵盖从代码片段到分子结构的范围。TextGrad遵循PyTorch的语法和抽象,灵活且易于使用。它可以立即用于各种任务,用户只需提供目标函数,无需调整框架的组件或提示。我们展示了TextGrad在各种应用中的有效性和普适性,从问题回答和分子优化到放射治疗计划。在不修改框架的情况下,TextGrad将Google-Proof问题回答中GPT-4o的零样本准确率从51%提高到55%,在优化LeetCode-Hard编程问题解决方案方面相对性能提高了20%,改进了推理提示,设计了具有理想体外结合性的新药物小分子,并设计了具有高特异性的放射肿瘤学治疗计划。TextGrad奠定了加速下一代人工智能系统发展的基础。

论文链接: https://arxiv.org/pdf/2406.07496

cs.CL: 多模态信念预测

原标题: Multimodal Belief Prediction

作者: John Murzaku, Adil Soubki, Owen Rambow

机构: 石溪大学

摘要: 识别说话者对信念的承诺程度是一项困难的任务;人类不仅解释上下文中单词的含义,还理解语调和音频信号的其他方面的线索。在自然语言处理社区中,许多论文和语料库采用仅文本方法来处理信念预测任务。我们是第一个提出并展示多模态信念预测任务结果的研究。我们使用包含文本和带有说话者信念注释的音频的CB-Prosody语料库(CBP)。我们首先使用声学-韵律特征和传统机器学习方法报告基线和重要特征。然后,我们分别提出了在BERT和Whisper上对CBP语料库进行微调的文本和音频基线。最后,我们提出了我们的多模态架构,该架构在BERT和Whisper上进行微调,并使用多种融合方法,改进了单独使用两种模态的效果。

论文链接: https://arxiv.org/pdf/2406.07466

cs.CL: 推进社交媒体帖子立场注释:大语言模型和众包的比较分析

原标题: Advancing Annotation of Stance in Social Media Posts: A Comparative Analysis of Large Language Models and Crowd Sourcing

作者: Mao Li, Frederick Conrad

机构: 密歇根大学 安娜堡 美国

摘要: 在自然语言处理(NLP)领域快速发展的背景下,使用大语言模型(LLMs)在社交媒体帖子中进行自动文本标注引起了极大的兴趣。尽管像ChatGPT这样的LLMs在开发中取得了令人印象深刻的创新,但它们作为标注工具的效力和准确性尚未得到很好的理解。在本文中,我们分析了八种开源和专有LLMs在标注社交媒体帖子中表达的立场时的表现,将它们的表现与人类标注者(即众包)的判断进行了基准测试。此外,我们调查了LLMs可能与人类判断不一致的条件。我们研究的一个重要发现是,表达立场的文本的明确性在LLMs的立场判断与人类判断的匹配程度中起着关键作用。我们认为,当人类标注者表现良好时,LLMs也表现良好,而当LLMs失败时,通常对应于人类标注者难以达成一致意见的情况。我们最后得出结论,建议采用综合方法,结合人类专业知识的精确性和LLMs预测的可扩展性。这项研究强调了提高自动立场检测的准确性和全面性的重要性,旨在推动这些技术更高效、更公正地分析社交媒体。

论文链接: https://arxiv.org/pdf/2406.07483

cs.CL: CADS:关于抽象对话摘要挑战的系统文献综述

原标题: CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization

作者: Frederic Kirstein, Jan Philip Wahle, Bela Gipp, Terry Ruas

机构: Georg-August University Göttingen

摘要: 抽象对话摘要是将对话精炼成信息丰富且简洁摘要的任务。尽管关于这个主题已经进行了评论,但缺乏详细说明对话摘要的挑战、统一对任务的不同理解,并将提出的技术、数据集和评估指标与挑战相一致。本文通过系统回顾2019年至2024年间发表的1262篇独特研究论文,依赖于Semantic Scholar和DBLP数据库,总结了基于Transformer的英语对话抽象总结的研究。我们涵盖了对话摘要中存在的主要挑战(即语言、结构、理解、说话者、显著性和事实性),并将它们与相应的技术(如基于图的方法、额外的训练任务和规划策略)联系起来,这些技术通常过度依赖于基于BART的编码器-解码器模型。我们发现,虽然一些挑战,如语言,由于训练方法的进步而取得了相当大的进展,但其他挑战,如理解、事实性和显著性,仍然困难,并具有重要的研究机会。我们调查了这些方法通常如何被评估,涵盖了对话子领域的数据集(如会议、医学)、用于评估分数和注释者一致性的建立的自动指标和人类评估方法。我们观察到只有少数数据集跨越所有子领域。ROUGE指标是最常用的,而人类评估经常报告,但对内部注释者一致性和注释指南的细节不足。此外,我们讨论了最近探索的大语言模型的可能影响,并得出结论,尽管可能在相关性和难度上发生转变,但我们描述的挑战分类仍然相关。

论文链接: https://arxiv.org/pdf/2406.07494

cs.CL: 关于文档级关系抽取模型对实体名称变化的稳健性

原标题: On the Robustness of Document-Level Relation Extraction Models to Entity Name Variations

作者: Shiao Meng, Xuming Hu, Aiwei Liu, Fukun Ma, Yawen Yang, Shuang Li, Lijie Wen

机构: 清华大学 香港科技大学(广州) 腾讯公司

摘要: 受到对跨句子和大规模关系抽取的需求驱动,文档级关系抽取(DocRE)引起了越来越多的研究兴趣。尽管性能不断提高,我们发现现有的DocRE模型在仅改变文档中的实体名称时可能会出现更多错误,从而阻碍对新实体名称的泛化。因此,我们在这项工作中系统地研究了DocRE模型对实体名称变化的稳健性。我们首先提出了一个原则性的流程,通过用来自Wikidata的名称替换原始实体名称来生成实体重命名文档。通过将该流程应用于DocRED和Re-DocRED数据集,我们构建了两个名为Env-DocRED和Env-Re-DocRED的新基准用于稳健性评估。实验结果表明,三个代表性的DocRE模型和两个上下文学习的大语言模型在实体名称变化方面普遍缺乏足够的稳健性,特别是在跨句子关系实例和包含更多实体的文档上。最后,我们提出了一种实体变化稳健训练方法,不仅提高了DocRE模型的稳健性,还增强了它们的理解和推理能力。我们进一步验证了这种方法的基本思想可以有效地转移到DocRE的上下文学习中。

论文链接: https://arxiv.org/pdf/2406.07444

cs.CL: 文本相似性作为机器翻译质量评估中的关键指标

原标题: Textual Similarity as a Key Metric in Machine Translation Quality Estimation

作者: Kun Sun, Rong Wang

机构: 图宾根大学 德国 斯图加特大学

摘要: 机器翻译(MT)质量评估(QE)评估翻译可靠性而无需参考文本。本研究引入了“文本相似度”作为QE的新度量标准,利用句子Transformer和余弦相似度来衡量语义接近度。通过分析MLQE-PE数据集,我们发现文本相似度与人类评分之间的相关性比传统指标(hter,模型评估等)更强。利用广义加性混合模型(GAMMs)作为统计工具,我们证明了文本相似度在多种语言对中始终优于其他指标,能够预测人类评分。我们还发现,“hter”实际上未能预测QE中的人类评分。我们的研究结果突显了文本相似度作为稳健QE度量标准的有效性,建议将其与其他指标整合到QE框架和MT系统训练中,以提高准确性和可用性。

论文链接: https://arxiv.org/pdf/2406.07440

cs.CL: MINERS::多语言语言模型作为语义检索器

原标题: MINERS: Multilingual Language Models as Semantic Retrievers

作者: Genta Indra Winata, Ruochen Zhang, David Ifeoluwa Adelani

机构: Capital One Brown University University College London

摘要: 单词已经在一个高维向量空间中表示,编码它们的语义相似性,从而实现检索同义词、反义词和相关语境等下游应用。然而,尽管多语言语言模型(LMs)近年来取得了进展,但这些模型在语义检索环境中的表示效果尚未得到全面探讨。为了填补这一空白,本文介绍了MINERS,一个旨在评估多语言LM在语义检索任务中能力的基准,包括通过检索增强语境进行的双语文本挖掘和分类。我们创建了一个全面的框架,评估LM在检索超过200种不同语言的样本时的稳健性,包括在具有挑战性的跨语言和代码切换设置中包括极低资源语言。我们的结果表明,仅通过检索语义相似嵌入就能获得与最先进方法竞争力相当的性能,而无需任何微调。

论文链接: https://arxiv.org/pdf/2406.07424

cs.CL: 学习域不变特征以用于上下文外新闻检测

原标题: Learning Domain-Invariant Features for Out-of-Context News Detection

作者: Yimeng Gu, Mengqi Zhang, Ignacio Castro, Shu Wu, Gareth Tyson

机构: 伦敦大学玛丽女王学院 山东大学 中国科学院自动化研究所 香港科技大学

摘要: 多模态的脱离上下文新闻是在线媒体平台上常见的一种虚假信息类型。这涉及发布标题与无效的脱离上下文新闻图像并存。反映其重要性,研究人员已经开发了模型来检测这种虚假信息。然而,这些模型的一个常见局限是它们只考虑了在每个领域都有预先标记数据的情况,未能解决在未标记领域(例如,新主题或机构上的未经验证新闻)上的脱离上下文新闻检测。在这项工作中,我们因此专注于领域自适应的脱离上下文新闻检测。为了有效地使检测模型适应未标记的新闻主题或机构,我们提出了ConDA-TTA(具有测试时适应的对比域自适应),该方法应用对比学习和最大均值差异(MMD)来学习领域不变特征。此外,它在测试时利用目标领域统计数据进一步辅助领域自适应。实验结果表明,我们的方法在两个公共数据集上的7个领域自适应设置中有5个表现优于基线,F1值和准确率分别高出2.93%和2.08%。

论文链接: https://arxiv.org/pdf/2406.07430

cs.CL: 大语言模型中的有限上下文知识推理

原标题: Limited Out-of-Context Knowledge Reasoning in Large Language Models

作者: Peng Hu, Changjiang Gao, Ruiqi Gao, Jiajun Chen, Shujian Huang

机构: 南京大学

摘要: 大语言模型(LLMs)已经展示出强大的知识库能力和显著的上下文推理能力。然而,先前的研究挑战了它们的上下文外推理能力,即从训练数据而不是上下文或提示中推断信息的能力。本文关注上下文外推理的一个重要方面:上下文外知识推理(OCKR),即结合多个知识来推断新知识。我们设计了一个具有七个代表性OCKR任务的合成数据集,以系统评估LLMs的OCKR能力。使用这个数据集,我们评估了LLaMA2-13B-chat模型,并发现其在这方面的熟练程度有限,无论知识是在单独的还是相邻的训练设置中训练的。此外,训练模型以使用完整的推理数据进行推理并没有带来显著改进。训练模型执行显式知识检索只有在一个任务中有所帮助,表明模型有限的OCKR能力是由于检索相关知识的困难。此外,我们将跨语言知识转移视为一种独特形式的OCKR,并评估这种能力。我们的结果显示,评估模型在跨语言知识转移方面也表现出有限的能力。本研究使用的数据集可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.07393

Github: https://github.com/NJUNLP/ID-OCKR

cs.CL: BvSP: 用于少样本情感方面四元预测的广览软提示

原标题: BvSP: Broad-view Soft Prompting for Few-Shot Aspect Sentiment Quad Prediction

作者: Yinhao Bai, Yalan Xie, Xiaoyi Liu, Yuhua Zhao, Zhixin Han, Mengting Hu, Hang Gao, Renhong Cheng

机构: 南开大学软件学院 南开大学计算机科学学院 天津科技大学人工智能学院

摘要: 方面情感四元预测(ASQP)旨在预测四个基于方面的元素,包括方面术语、意见术语、方面类别和情感极性。在实践中,由于不同的数据分布,未见过的方面为经过训练的神经模型带来许多挑战。受此启发,本工作将ASQP制定为少样本情况,旨在实现在实际应用中的快速适应。因此,我们首先构建了一个包含更丰富类别且更平衡的少样本ASQP数据集(FSQP),用于进行少样本研究。此外,最近的方法通过生成范式提取四元,其中涉及将输入句子转换为模板化的目标序列。然而,它们主要关注单个模板的利用或考虑不同模板顺序,从而忽视了各种模板之间的相关性。为了解决这个问题,我们进一步提出了一种广义软提示(BvSP)方法,通过考虑不同模板之间的相关性,以更广泛的视角聚合多个模板。具体而言,BvSP使用预训练语言模型通过Jensen-Shannon散度选择最相关的k个模板。BvSP进一步引入软提示,以指导使用所选模板的预训练语言模型。然后,我们通过投票机制聚合多模板的结果。实证结果表明,在四种少样本设置和其他公共数据集下,BvSP明显优于最先进的方法。我们的代码和数据集可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.07365

Github: https://github.com/byinhao/BvSP

cs.CL: 当线性注意力遇见自回归解码:朝着更有效和高效的线性化大语言模型前进

原标题: When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

作者: Haoran You, Yichao Fu, Zheng Wang, Amir Yazdanbakhsh, Yingyan (Celine)Lin

摘要: 自回归大语言模型(LLMs)在语言任务中取得了令人印象深刻的性能,但面临两个重要瓶颈:(1)随着标记数量增加,注意力模块的二次复杂度,以及(2)由于自回归LLMs在生成过程中的顺序处理特性而导致的效率有限。虽然线性注意力和推测解码提供了潜在解决方案,但它们对于增强自回归LLMs的适用性和协同潜力仍不确定。我们进行了第一次关于现有线性注意力方法对自回归LLMs有效性的全面研究,将它们与推测解码相结合。我们引入了一种线性注意力的增强技术,确保与推测解码兼容,从而实现更高效的LLMs训练和服务。涉及七种现有线性注意力模型和五种基于编码器/解码器的LLMs的大量实验和消融研究一致验证了我们增强的线性化LLMs的有效性。值得注意的是,与先前的线性注意力方法相比,我们的方法在LLaMA模型上的困惑度降低高达6.67,并在生成过程中实现了高达2倍的加速。代码和模型可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.07368

Github: https://github.com/GATECH-EIC/Linearized-LLM

cs.CL: GLIMPSE:学术评论的实用多文档摘要

原标题: GLIMPSE: Pragmatically Informative Multi-Document Summarization for Scholarly Reviews

作者: Maxime Darrin, Ines Arous, Pablo Piantanida, Jackie CK Cheung

机构: 国际学习系统实验室,MILA - 魁北克人工智能研究所,麦吉尔大学,巴黎-萨克雷大学,CNRS,CentraleSupélec,加拿大CIFAR人工智能主席

摘要: 科学同行评审对学术出版物的质量至关重要。然而,向会议提交论文的数量不断增加,使评审过程变得紧张。这种激增给领域主席带来了负担,他们不得不仔细阅读日益增长的评论,并在决策过程中辨别每位评论者的主要论点。在本文中,我们介绍了一种名为\sys的总结方法,旨在提供学术评论的简洁而全面的概述。与传统的基于共识的方法不同,\sys从评论中提取出共同和独特的观点。我们基于Rational Speech Act框架引入了新颖的独特性评分,以识别评论中的相关句子。我们的方法旨在为所有评论提供一个实用的概览,从而在观点上提供一个平衡的视角。我们的实验结果显示,无论是通过自动评估指标还是人工评估,\sys在人工评估方面生成的总结比基准方法更具有区分性,同时在自动评估指标方面与这些方法实现了可比的性能。

论文链接: https://arxiv.org/pdf/2406.07359

cs.CL: 有毒的迷因:关于检测和解释迷因有毒性的计算视角调查

原标题: Toxic Memes: A Survey of Computational Perspectives on the Detection and Explanation of Meme Toxicities

作者: Delfina Sol Martinez Pandiani, Erik Tjong Kim Sang, Davide Ceolin

摘要: 互联网迷因是幽默、社会评论和文化表达的渠道,越来越被用来传播有毒信息。在过去五年里,关于有毒迷因的计算分析研究显著增长,而关于计算有毒迷因分析的唯一三项调查仅涵盖了截至2022年发表的工作,导致术语不一致和未被探索的趋势。我们的工作通过调查基于内容的计算视角对有毒迷因进行了概述,并回顾了直至2024年初的关键发展。采用PRISMA方法,我们系统地扩展了先前考虑的论文,取得了三倍的成果。首先,我们调查了119篇新论文,分析了158项专注于基于内容的有毒迷因分析的计算作品。我们识别了在有毒迷因分析中使用的30多个数据集,并检查它们的标记系统。其次,在观察到计算作品中有关迷因毒性定义不清的情况后,我们引入了一种用于分类迷因毒性类型的新分类法。我们还注意到计算任务的扩展超越了将迷因简单地分类为有毒或非有毒,表明朝着实现对毒性的细致理解的转变。第三,我们确定了自动研究下迷因毒性的三个基于内容的维度:目标、意图和传达策略。我们制定了一个框架,说明了这些维度与迷因毒性之间的关系。该调查分析了关键挑战和最新趋势,例如增强的跨模态推理、整合专家和文化知识、对自动毒性解释的需求,以及处理低资源语言中的迷因毒性。此外,它指出了大语言模型(LLMs)和生成式人工智能在检测和生成有毒迷因方面的不断增加的使用。最后,它提出了推进有毒迷因检测和解释的途径。

论文链接: https://arxiv.org/pdf/2406.07353

cs.CL: BertaQA:语言模型对本地文化了解多少?

原标题: BertaQA: How Much Do Language Models Know About Local Culture?

作者: Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, Mikel Artetxe

机构: 巴斯克大学(UPV/EHU) HiTZ中心

摘要: 大语言模型(LLMs)展示了对世界的广泛知识,但大多数评估都局限于全球范围或以英语为中心的主题。这引发了一个问题,即这些模型在与其他文化相关的主题上表现如何,这些文化在网络上并不那么突出。为了填补这一空白,我们介绍了BertaQA,这是一个平行于英语和巴斯克语的多项选择问答数据集。该数据集包括一个与巴斯克文化相关的本地子集的问题,以及一个涉及更广泛兴趣的全球子集的问题。我们发现,最先进的LLMs在本地文化知识方面表现困难,即使在全球主题上表现出色。然而,我们展示了在巴斯克语中持续预训练显著提高了模型在巴斯克文化方面的表现,即使用英语查询。据我们所知,这是从低资源语言到高资源语言的知识转移的第一个确凿证据。我们的分析揭示了语言和知识之间复杂的相互作用,并揭示了在本地主题上重新评估时一些先前发现并不完全成立的事实。我们的数据集和评估代码可在此https网址下以开放许可证获得。

论文链接: https://arxiv.org/pdf/2406.07302

Github: https://github.com/juletx/BertaQA

cs.CL: 基于CTC的非自回归文本无关语音到语音翻译

原标题: CTC-based Non-autoregressive Textless Speech-to-Speech Translation

作者: Qingkai Fang, Zhengrui Ma, Yan Zhou, Min Zhang, Yang Feng

机构: 中国科学院计算技术研究所 ICT/CAS 中国科学院智能信息处理重点实验室 中国科学院人工智能安全重点实验室 中国科学院大学 苏州大学未来科学与工程学院

摘要: 直接语音到语音翻译(S2ST)已经取得了令人印象深刻的翻译质量,但由于语音序列长度较长,通常面临解码速度缓慢的挑战。最近,一些研究转向非自回归(NAR)模型以加快解码速度,但翻译质量通常明显落后于自回归(AR)模型。在本文中,我们研究了基于CTC的NAR模型在S2ST中的性能,因为这些模型在机器翻译中表现出色。实验结果表明,通过结合预训练、知识蒸馏以及先进的NAR训练技术,如扫视训练和非单调潜在对齐,基于CTC的NAR模型实现了与AR模型相媲美的翻译质量,同时保持高达26.81倍的解码加速。

论文链接: https://arxiv.org/pdf/2406.07330

cs.CL: 在口语对话中联合学习上下文和反馈嵌入

原标题: Joint Learning of Context and Feedback Embeddings in Spoken Dialogue

作者: Livia Qian, Gabriel Skantze

机构: 瑞典皇家理工学院 KTH Royal Institute of Technology

摘要: 短反馈响应,如回应,在口语对话中扮演着重要角色。到目前为止,大多数关于反馈响应建模的研究都集中在它们的时机上,通常忽略了它们的词汇和韵律形式如何影响它们的语境适当性和对话功能。在本文中,我们调查了使用对比学习目标将短对话上下文和反馈响应嵌入到相同的表示空间中的可能性。在我们的评估中,我们主要关注这种嵌入如何被用作上下文-反馈适当性度量,从而用于在美国英语对话中对反馈响应进行排名。我们的结果显示,该模型在相同的排名任务中胜过人类,并且学习到的嵌入携带有关反馈响应对话功能的信息。

论文链接: https://arxiv.org/pdf/2406.07291

cs.CL: 使用大语言模型进行科学计算

原标题: Scientific Computing with Large Language Models

作者: Christopher Culver, Peter Hicks, Mihailo Milenkovic, Sanjif Shanmugavelu, Tobias Becker

机构: 马克斯勒技术(Maxeler Technologies)Groq 公司

摘要: 我们提供了大语言模型在科学计算应用中的出现概述。我们重点介绍涉及科学文档自然语言处理和描述物理系统的专门语言的使用案例。对于前者,在医学、数学和物理学中出现了类似聊天机器人的应用,可以与领域专家迭代使用以解决问题。我们还回顾了分子生物学中的专门语言,即分子、蛋白质和DNA的语言,语言模型被用于预测属性,甚至以比传统计算方法快得多的速度创建新颖的物理系统。

论文链接: https://arxiv.org/pdf/2406.07259

cs.CL: 用您的语言:可解释的新兴交流中的空间关系

原标题: Speaking Your Language: Spatial Relationships in Interpretable Emergent Communication

作者: Olaf Lipinski, Adam J. Sobey, Federico Cerutti, Timothy J. Norman

机构: 南安普顿大学 图灵研究所 布雷西亚大学

摘要: 有效的沟通需要能够指代观察中的特定部分并与其他部分进行关联。虽然新兴沟通文献显示在发展各种语言属性方面取得了成功,但没有研究表明这种位置参考的出现。本文演示了代理如何能够就它们观察到的空间关系进行沟通。结果表明,代理可以发展一种能够表达其观察部分之间关系的语言,当在需要这种沟通的指代游戏中接受训练时,准确率可达90%以上。通过使用一个搭配度量,我们演示了代理如何创建这种指代。这种分析表明,代理使用非组合和组合消息的混合来传达空间关系。我们还展示了新兴语言是可解释的。通过与接收代理进行沟通来测试翻译准确性,接收代理使用这个词汇表的部分时,准确率超过78%,证实了对新兴语言的解释是成功的。

论文链接: https://arxiv.org/pdf/2406.07277

cs.CL: 双语性别歧视分类:微调 XLM-RoBERTa 和 GPT-3.5 少样本学习

原标题: Bilingual Sexism Classification: Fine-Tuned XLM-RoBERTa and GPT-3.5 Few-Shot Learning

作者: AmirMohammad Azadi, Baktash Ansari, Sina Zamani

机构: 伊朗科技大学 EXIST实验室

摘要: 在线内容中的性别歧视是一个普遍存在的问题,需要有效的分类技术来减轻其有害影响。在线平台经常出现性别歧视的评论和帖子,这些内容会营造一种对妇女和少数群体特别不友好的环境。这些内容不仅传播有害的刻板印象,还会造成情感伤害。寻找并删除性别歧视内容的可靠方法至关重要,使在线空间更安全、更受欢迎。因此,社交网络中性别歧视识别(EXIST)挑战赛将在2024年的CLEF会议上解决这一问题。该研究旨在通过利用自然语言处理模型改进双语环境(英语和西班牙语)中的性别歧视识别。任务是确定一段文本是否具有性别歧视,并且背后的意图是什么。我们对XLM-RoBERTa模型进行了微调,并单独使用了带有少样本学习提示的GPT-3.5来分类性别歧视内容。XLM-RoBERTa模型在处理复杂的语言结构方面表现出色,而GPT-3.5的少样本学习能力使其能够快速适应新数据,只需极少标记示例。我们采用XLM-RoBERTa的方法在任务1(性别歧视识别)的软-软评估中获得了第4名。对于任务2(意图识别),我们在软-软评估中获得了第2名。

论文链接: https://arxiv.org/pdf/2406.07287

cs.CL: 我们能否在没有平行语音数据的情况下实现高质量的直接语音到语音翻译?

原标题: Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?

作者: Qingkai Fang, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng

机构: 中国科学院计算技术研究所(ICT/CAS) 中国科学院人工智能安全重点实验室 中国科学院大学 苏州大学未来科学与工程学院

摘要: 最近提出的两阶段直接语音到语音翻译(S2ST)模型将任务分解为端到端模型中的语音到文本翻译(S2TT)和文本到语音(TTS),取得了令人期待的结果。然而,这些模型的训练仍然依赖于平行语音数据,这在收集方面极具挑战性。相比之下,S2TT和TTS已经积累了大量数据和预训练模型,但在S2ST模型的开发中尚未得到充分利用。受此启发,在本文中,我们首先介绍了一个名为ComSpeech的复合S2ST模型,它可以无缝地将任何预训练的S2TT和TTS模型整合到一个直接的S2ST模型中。此外,为了消除对平行语音数据的依赖,我们提出了一种新颖的训练方法ComSpeech-ZS,它仅利用S2TT和TTS数据。通过对比学习在潜在空间中对齐表示,使从TTS数据中学到的语音合成能力能够以零样本方式推广到S2ST。在CVSS数据集上的实验结果显示,当有平行语音数据可用时,ComSpeech在翻译质量和解码速度上均超过了先前的两阶段模型,如UnitY和Translatotron 2。当没有平行语音数据时,ComSpeech-ZS仅在ASR-BLEU上落后于\name 0.7,但优于级联模型。

论文链接: https://arxiv.org/pdf/2406.07289

cs.CL: 使用 HED-IT 进行微调:人类后编辑对话式语言模型的影响

原标题: Fine-tuning with HED-IT: The impact of human post-editing for dialogical language models

作者: Daniela Occhipinti, Michele Marchi, Irene Mondella, Huiyuan Lai, Felice Dell’Orletta, Malvina Nissim, Marco Guerini

机构: 意大利布鲁诺·凯斯勒基金会,特伦托大学,荷兰格罗宁根大学,意大利国家语言处理实验室

摘要: 自动生成和收集语言数据的自动方法已被证明对于在资源比英语更少的语言中微调语言模型(LMs)是有效的。然而,虽然强调了数据数量,但对其质量的关注较少。在这项工作中,我们调查了人类干预对机器生成数据的影响,当微调对话模型时。具体而言,我们研究了:(1)后编辑的对话是否在感知质量上比自动生成的原始对话更高;(2)使用后编辑的对话进行微调是否会导致生成输出中的明显差异;以及(3)在考虑LM的参数大小时,后编辑的对话是否会影响结果。为此,我们创建了HED-IT,一个大规模数据集,其中机器生成的对话与人类后编辑版本配对。使用HED-IT的编辑和未编辑部分,我们微调了三种不同大小的LM。人类和自动评估的结果表明,培训数据的不同质量明显被感知,并且这也对在这些数据上训练的模型产生影响。此外,我们的研究结果表明,较大的模型对数据质量不太敏感,而这对较小的模型具有关键影响。这些结果增进了我们对人类干预对培训数据在开发高质量LMs中的影响的理解。

论文链接: https://arxiv.org/pdf/2406.07288

cs.CL: 关于同时机器翻译中的幻觉

原标题: On the Hallucination in Simultaneous Machine Translation

作者: Meizhi Zhong, Kehai Chen, Zhengshan Xue, Lemao Liu, Mingming Yang, Min Zhang

机构: 哈尔滨工业大学计算与智能研究所 天津大学智能与计算学院

摘要: 众所周知,由于缺乏源端信息,幻觉是同时机器翻译(SiMT)中的一个关键问题。虽然已经做出了许多努力来提高SiMT的性能,但很少有人尝试理解和分析SiMT中的幻觉。因此,我们从两个角度对SiMT中的幻觉进行了全面分析:理解幻觉词的分布以及它们在目标端上下文中的使用。密集的实验表明了一些有价值的发现,特别是显示通过减少SiMT中目标端信息的过度使用,可以缓解幻觉。

论文链接: https://arxiv.org/pdf/2406.07239

cs.CL: 利用大语言模型在NFDI4DataScience Gateway中进行学术问答

原标题: Scholarly Question Answering using Large Language Models in the NFDI4DataScience Gateway

作者: Hamed Babaei Giglou, Tilahun Abedissa Taffa, Rana Abdullah, Aida Usmanova, Ricardo Usbeck, Jennifer D’Souza, Sören Auer

机构: TIB莱布尼茨科学技术信息中心 德国 汉诺威 Leuphana大学 德国吕讷堡 Universität Hamburg 德国 汉堡

摘要: 这篇论文介绍了一个基于 NFDI4DataScience Gateway 的学术问答(QA)系统,采用了基于检索增强生成(RAG)方法。作为基础框架,NFDI4DS Gateway 提供了一个统一直观的界面,用于查询各种科学数据库,采用了联合搜索。基于大语言模型(LLM)的学术 QA 系统通过增强过滤能力,促进与 Gateway 搜索的对话交互,实现了与搜索结果的动态交互。通过实验分析展示了 Gateway 和学术 QA 系统的有效性。

论文链接: https://arxiv.org/pdf/2406.07257

cs.CL: MBBQ:用于生成式大语言模型中跨语言比较刻板印象的数据集

原标题: MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs

作者: Vera Neplenbroek, Arianna Bisazza, Raquel Fernández

机构: 阿姆斯特丹大学 格罗宁根大学

摘要: 生成式大语言模型(LLMs)已被证明存在有害偏见和刻板印象。虽然安全微调通常是在英语环境下进行的,如果有的话,但这些模型被许多不同语言的使用者使用。已有证据表明,这些模型在不同语言之间的性能存在不一致,并且会基于用户的人口统计因素进行歧视。受此启发,我们调查了LLMs展现的社会刻板印象是否会随着提示它们的语言的不同而有所不同,同时控制文化差异和任务准确性。为此,我们提出了MBBQ(用于问答的多语言偏见基准),这是精心策划的英语BBQ数据集的扩展版本,涵盖了荷兰语、西班牙语和土耳其语,用于衡量这些语言中普遍存在的刻板印象。我们进一步补充了MBBQ与一个平行控制数据集,以独立于偏见衡量问答任务的任务表现。我们基于几个开源和专有LLMs的结果证实,一些非英语语言在控制文化转变的情况下比英语更容易受到偏见影响。此外,我们观察到除了最准确的模型外,所有模型在偏见行为上存在显著的跨语言差异。通过发布MBBQ,我们希望鼓励在多语言环境中进一步研究偏见。该数据集和代码可在此网址获得。

论文链接: https://arxiv.org/pdf/2406.07243

Github: https://github.com/Veranep/MBBQ

cs.CL: DUAL-REFLECT: 通过双向学习反馈机制增强大语言模型以实现反思性翻译

原标题: DUAL-REFLECT: Enhancing Large Language Models for Reflective Translation through Dual Learning Feedback Mechanisms

作者: Andong Chen, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, Min Zhang

机构: 哈尔滨工业大学计算机科学与技术学院 深圳鹏城实验室

摘要: 最近,通过自我反思增强的大语言模型(LLMs)在机器翻译领域取得了令人期待的表现。关键思想是引导LLMs生成类似人类反馈的翻译。然而,现有的自我反思方法缺乏有效的反馈信息,限制了翻译性能。为了解决这个问题,我们引入了一个名为DUAL-REFLECT的框架,利用翻译任务的双向学习提供有效的反馈,从而增强模型的自我反思能力并提高翻译性能。这种方法在各种翻译任务中的应用已经证明了它在提高翻译准确性和消除歧义方面的有效性,特别是在低资源语言对的翻译任务中。

论文链接: https://arxiv.org/pdf/2406.07232

cs.CL: 解密感知多语言学习在联合训练语言模型中

原标题: Decipherment-Aware Multilingual Learning in Jointly Trained Language Models

作者: Grandee Lee

机构: 新加坡社会科学大学

摘要: 在共同训练语言模型中(以mBERT为一个流行的例子),统治无监督多语言学习(UCL)的原则仍在争论中。许多人发现令人惊讶的是,一个人可以通过多个单语语料库实现UCL。在这项工作中,我们将UCL锚定在语言解密的背景下,并展示联合训练方法论是UCL中至关重要的解密过程。在一个受控环境中,我们研究了不同解密设置对多语言学习性能的影响,并整合了关于多语言性贡献因素的现有观点。从信息论的角度来看,我们对UCL性能设定了一个限制,并展示了在由数据域、语言顺序和标记化粒度差异引起的具有挑战性的解密设置中标记对齐的重要性。最后,我们将词汇对齐应用于mBERT,并研究了将不同词典组对齐对下游性能的贡献。

论文链接: https://arxiv.org/pdf/2406.07231

cs.CL: 合并改进自我批评以抵御越狱攻击

原标题: Merging Improves Self-Critique Against Jailbreak Attacks

作者: Victor Gallego

摘要: 大语言模型(LLMs)对抗篡改等敌对操作的稳健性仍然是一个重大挑战。在这项工作中,我们提出了一种方法,通过增强LLM的自我批判能力,并进一步在经过消毒的合成数据上进行微调来提高其性能。通过添加一个外部评论模型并将其与原始模型合并,从而增强自我批判能力,并改善LLMs对敌对提示的响应的稳健性。我们的结果表明,合并和自我批判的结合可以显著降低对手的攻击成功率,从而提供一种有前途的防御机制来抵御破解攻击。代码、数据和模型发布在此 https URL。

论文链接: https://arxiv.org/pdf/2406.07188

Github: https://github.com/vicgalle/merging-self-critique-jailbreaks

cs.CL: 改进自动形式化使用类型检查

原标题: Improving Autoformalization using Type Checking

作者: Auguste Poiroux, Gail Weiss, Viktor Kunčak, Antoine Bosselut

机构: EPFL

摘要: 大语言模型显示出在自动形式化方面的潜力,即将自然语言自动翻译成形式语言的任务。然而,当前的自动形式化方法仍然存在局限性。最近在Lean证明助手的ProofNet形式化基准上报告的最先进性能,使用Codex for Lean 3实现,仅成功形式化了16.1%的非正式语句。类似地,我们对Lean 4的GPT-4o进行的评估仅在34.9%的时间内产生成功的翻译。我们的分析显示,这些模型的性能主要受到它们无法生成成功类型检查(即,语法正确且与类型一致)的形式语句的限制 - 86.6%的GPT-4o错误始于类型检查失败。在这项工作中,我们提出了一种通过带有类型检查过滤的解码来解决这个问题的方法,我们首先对非正式语句的候选形式化进行多样化采样,然后使用Lean证明助手来筛选出无法通过类型检查的候选项。使用GPT-4o作为基础模型,并将我们的方法与自一致性相结合,我们在形式化准确性上获得了+18.3%的绝对增长,并在Lean 4的ProofNet上实现了53.2%的新最先进水平。

论文链接: https://arxiv.org/pdf/2406.07222

cs.CL: 在医疗保健领域实现人工智能与人类的协作:利用大语言模型的引导式推迟系统

原标题: Towards Human-AI Collaboration in Healthcare: Guided Deferral Systems with Large Language Models

摘要: 大语言模型(LLMs)为医疗保健领域的各种应用提供了宝贵的技术,但它们产生幻觉的倾向在关键决策情境中引入了无法接受的不确定性。人工智能与人类的协作(HAIC)可以通过结合人类和人工智能的优势来减轻这种不确定性,从而获得更好的结果。本文提出了一种新颖的引导式推迟系统,当人工智能将案例推迟给人类决策者时,提供智能指导。我们利用LLMs的表达能力和内部状态来创建这一系统,表明利用来自更大模型的数据对较小的LLMs进行微调可以提高性能,同时保持计算效率。一项试点研究展示了我们推迟系统的有效性。

论文链接: https://arxiv.org/pdf/2406.07212

cs.CL: 通过减少人口统计学术语的影响来改善常识偏见分类

原标题: Improving Commonsense Bias Classification by Mitigating the Influence of Demographic Terms

作者: JinKyu Lee, Jihie Kim

机构: 东国大学

摘要: 在自然语言处理(NLP)领域,理解常识知识至关重要。然而,常识知识中存在的人口统计学术语可能会对NLP模型的性能造成潜在风险。本研究旨在调查并提出方法,通过减少人口统计学术语的影响,增强常识极性分类器的性能和有效性。本文介绍了三种方法:(1)人口统计学术语的分层泛化,(2)基于阈值的增强,以及(3)结合分层泛化和基于阈值的增强方法(IHTA)。第一种方法涉及根据术语层次本体将人口统计学术语替换为更一般的术语,旨在减轻特定术语的影响。为了解决有限的与偏见相关的信息,第二种方法通过比较模型在这些术语被屏蔽和未被屏蔽时的预测变化来衡量人口统计学术语的极性。该方法通过用ChatGPT生成的同义词替换具有高极性值的术语的谓词来增强包含这些术语的常识句子。第三种方法结合了这两种方法,先进行基于阈值的增强,然后是分层泛化。实验结果显示,第一种方法使准确率比基线提高了2.33%,第二种方法比标准增强方法提高了0.96%。IHTA技术的准确率比基于阈值和标准增强方法分别提高了8.82%和9.96%。

论文链接: https://arxiv.org/pdf/2406.07229

cs.CL: 教授语言模型通过学习语言反馈来自我改进

原标题: Teaching Language Models to Self-Improve by Learning from Language Feedback

作者: Chi Hu, Yimin Hu, Hang Cao, Tong Xiao, Jingbo Zhu

机构: 东北大学 计算机科学与工程学院 牛顿研究

摘要: 将大语言模型(LLMs)与人类意图和价值进行对齐是至关重要但具有挑战性的。当前方法主要依赖于人类偏好,这种方法成本高昂且无法捕捉自然语言中表达的微妙反馈。在本文中,我们提出了自我完善调整(SRT)方法,该方法利用模型反馈进行对齐,从而减少对人类注释的依赖。SRT使用基础语言模型(例如Tulu2)生成初始响应,这些响应由更高级的模型(例如GPT-4-Turbo)进行批判和完善。这一过程使基础模型能够自我评估并改进其输出,促进持续学习。SRT通过从自动生成的反馈和完善中学习,进一步优化模型,形成促进模型改进的反馈循环。我们的实证评估表明,SRT在各种任务和模型规模上明显优于强基线。当应用于一个具有70B参数的模型时,SRT将AlpacaEval 2.0基准测试的胜率从9.6%提高到25.8%,超过了GPT-4-0314、Claude 2和Gemini等成熟系统。我们的分析突出了语言反馈在SRT成功中的关键作用,表明在这个方向上有进一步探索的潜力。

论文链接: https://arxiv.org/pdf/2406.07168

cs.CL: 永不错过一拍:一种高效的大语言模型上下文窗口扩展的方法,具有一致的“中间”增强。

原标题: Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent “Middle” Enhancement

作者: Tong Wu, Yanpeng Zhao, Zilong Zheng

机构: 北京通用人工智能研究院(BIGAI)

摘要: 最近,许多方法已经被开发出来,用于扩展预训练大语言模型(LLMs)的上下文长度,但它们通常需要在目标长度( ≫ 4 K \gg4K 4K)进行微调,并且难以有效利用上下文的中间部分的信息。为了解决这些问题,我们提出了使用高斯中间插值的 C \textbf{C} Continuity- R \textbf{R} Relativity ind E \textbf{E} Exing with g A \textbf{A} Aussian M \textbf{M} Middle(CREAM)方法,通过操纵位置索引来插值位置编码。除了简单之外,CREAM具有训练效率:它只需要在预训练的上下文窗口(例如,Llama 2-4K)进行微调,并且可以将LLMs扩展到更长的目标上下文长度(例如,256K)。为了确保模型更多地关注中间的信息,我们引入了截断高斯函数,以鼓励在微调过程中从上下文的中间部分进行采样,从而缓解长上下文LLMs面临的“中间丢失”问题。实验结果表明,CREAM成功地将LLMs扩展到了 Llama2-7B \texttt{Llama2-7B} Llama2-7B的基础和聊天版本的目标长度,实现了“Never Miss A Beat”。我们的代码将很快公开发布。

论文链接: https://arxiv.org/pdf/2406.07138

cs.CL: DARA: 在知识图谱上进行问答的分解-对齐-推理自主语言智能体

原标题: DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs

作者: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych

机构: 德国达姆施塔特工业大学 技术大学 德国女王大学 加拿大

摘要: 在知识图谱上回答问题(KGQA)对于各种实际应用中良好运作的自主语言智能体至关重要。为了提高由大语言模型(LLMs)驱动的语言智能体的神经符号推理能力,我们提出了DecompositionAlignment-Reasoning Agent(DARA)框架。DARA通过双重机制有效地将问题解析为形式化查询:高层迭代任务分解和低层任务接地。重要的是,DARA可以通过少量高质量推理轨迹进行高效训练。我们的实验结果表明,在零样本评估中,经过LLMs(例如Llama-2-7B、Mistral)微调的DARA在不同基准测试中均优于基于上下文学习的GPT-4和替代微调智能体,使这些模型更适用于实际应用。我们还展示了DARA在知识图谱问答(KGQA)中达到了与最先进的基于枚举和排名的方法相媲美的性能。

论文链接: https://arxiv.org/pdf/2406.07080

cs.CL: 高效地探索大语言模型,通过上下文学习进行文档级机器翻译。

原标题: Efficiently Exploring Large Language Models for Document-Level Machine Translation with In-context Learning

作者: Menglong Cui, Jiangcun Du, Shaolin Zhu, Deyi Xiong

机构: 天津大学

摘要: 大语言模型(LLMs)通过上下文学习在机器翻译中表现出色。与句级翻译相比,基于上下文学习的大语言模型进行文档级翻译(DOCMT)面临两个主要挑战:首先,LLMs生成的文档翻译通常不连贯;其次,上下文学习的演示长度通常有限。为解决这些问题,我们提出了一种上下文感知提示方法(CAP),通过该方法,LLMs能够通过上下文学习生成更准确、连贯和连贯的翻译。CAP考虑多级注意力,选择与当前句最相关的句子作为上下文,然后从这些收集到的句子中生成摘要。随后,从数据存储中检索与摘要最相似的句子作为演示,这有效地指导LLMs生成连贯和连贯的翻译。我们在各种DOCMT任务中进行了大量实验,结果表明我们的方法的有效性,特别是在零代词翻译(ZPT)和文学翻译任务中。

论文链接: https://arxiv.org/pdf/2406.07081

cs.CL: 推进工具增强的大语言模型:整合推理树中的错误洞察

原标题: Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees

作者: Sijia Chen, Yibo Wang, Yi-Feng Wu, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang

机构: 南京大学 阿里巴巴集团

摘要: 工具增强的大语言模型(LLMs)利用工具,通常以API的形式,来增强它们在复杂任务上的推理能力,从而扮演智能体与真实世界互动的角色。秦等人[2024]最近推出的ToolLLaMA模型利用基于深度优先搜索的决策树(DFSDT)方法进行推理,涉及 16000 + 16000+ 16000+个真实世界API,相比传统的链式推理方法,有效提升了工具增强的LLMs的规划和推理性能。然而,他们的方法在训练过程中仅利用决策树(也称为推理树)中的成功路径进行监督微调(SFT),未充分利用思维树的优势。在本研究中,我们提出了一种基于从决策树中提取的偏好数据的推理轨迹优化框架,以解决这一限制。我们首先介绍了一种从思维树构建偏好数据的新方法,利用先前在树中被忽视的失败探索。具体地,我们生成了一种名为ToolPreference的有效逐步偏好数据集,用于基于ToolBench数据集的工具使用。在随后的训练阶段,我们首先用工具使用专家轨迹微调LLM,然后使用这些逐步偏好对直接偏好优化(DPO)进行更新LLM的策略,从而得到我们的ToolPrefer-LLaMA(TP-LLaMA)模型。我们的实验表明,通过从推理树中的错误中获取见解,TP-LLaMA在几乎所有测试场景中明显优于基线,并展现出更好的泛化能力,可以处理未见API。与此同时,TP-LLaMA在推理效率上也表现出优越性,使其更适用于复杂的工具使用推理任务。

论文链接: https://arxiv.org/pdf/2406.07115

cs.CL: 通过自动语音识别在小学阅读中检测阅读错误。

原标题: Reading Miscue Detection in Primary School through Automatic Speech Recognition

作者: Lingyun Gao, Cristian Tejedor-Garcia, Helmer Strik, Catia Cucchiarini

机构: 拉德堡德大学 (Radboud University)

摘要: 自动阅读诊断系统可以使教师更高效地评分阅读练习,也可以让学生更轻松地访问带有反馈的阅读练习。然而,关于非英语语言中儿童语音的自动语音识别(ASR)以及基于ASR的阅读诊断系统的研究有限。本研究调查了最先进的预训练ASR模型如何高效识别荷兰本土儿童的语音,并成功检测阅读错误。我们发现,在荷兰语音上微调的Hubert Large实现了SOTA音素级儿童语音识别(PER为23.1%),而Whisper(更快的Whisper Large-v2)实现了SOTA单词级性能(WER为9.8%)。我们的研究结果表明,Wav2Vec2 Large和Whisper是用于检测阅读错误的两个最佳ASR模型。具体而言,Wav2Vec2 Large显示出最高的召回率为0.83,而Whisper表现出最高的精确率为0.52,F1分数为0.52。

论文链接: https://arxiv.org/pdf/2406.07060

cs.CL: HalluDial:一个用于自动对话级幻觉评估的大规模基准。

原标题: HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation

作者: Wen Luo, Tianshu Shen, Wei Li, Guangyue Peng, Richeng Xuan, Houfeng Wang, Xi Yang

机构: 北京人工智能学院 清华大学信息科学与技术国家实验室 王选计算机技术研究所

摘要: 大语言模型(LLMs)显著推动了自然语言处理(NLP)领域的发展,在各种任务上取得了显著的性能,并实现了广泛的实际应用。然而,LLMs容易出现幻觉,生成的内容可能与已知知识相冲突,或者不忠于原始来源。现有的幻觉基准主要集中在句子或段落级别的幻觉检测上,忽略了对话级别的评估、幻觉定位和理由提供。它们主要针对事实性幻觉,而低估了忠实性幻觉,通常依赖于劳动密集型或非专业的评估者。为了解决这些限制,我们提出了HalluDial,这是第一个用于自动对话级别幻觉评估的全面大规模基准。HalluDial涵盖了自发和诱导的幻觉场景,涵盖了事实性和忠实性幻觉。该基准包括4,094个对话,共计146,856个样本。利用HalluDial,我们对LLMs在信息搜索对话中的幻觉评估能力进行了全面的元评估,并引入了专门的评判语言模型HalluJudge。HalluDial的高数据质量使HalluJudge能够在幻觉评估中取得优越或竞争性的表现,促进了对LLMs中对话级幻觉的自动评估,并为这一现象提供了宝贵的见解。该数据集和代码可在此网址获得。

论文链接: https://arxiv.org/pdf/2406.07070

Github: https://github.com/FlagOpen/HalluDial

cs.CL: 有效地压缩 LLM 的 KV Heads

原标题: Effectively Compress KV Heads for LLM

作者: Hao Yu, Zelan Yang, Shen Li, Yong Li, Jianxin Wu

机构: 南京大学 阿里巴巴公司

摘要: 预训练大语言模型(LLMs)的出现彻底改变了各种自然语言处理任务。这些模型主要采用自回归解码机制,利用键-值(KV)缓存来消除先前标记的冗余计算。然而,随着上下文长度和批量大小的增加,KV 缓存的内存占用呈线性扩展,成为限制LLM部署的关键瓶颈,显著降低生成速度。为了缓解这一问题,先前的技术如多查询注意力(MQA)和分组查询注意力(GQA)已经被开发出来,以减少KV头部以加速推理,并且具有与多头注意力(MHA)相当的准确性。尽管它们有效,但现有的压缩MHA的策略经常忽视KV缓存的固有属性。在这项工作中,我们探索了KV缓存的低秩特性,并提出了一种压缩KV头部的新方法。具体而言,我们仔细优化了MHA到GQA转换,以最小化压缩误差,并且为了与旋转位置嵌入(RoPE)保持兼容,我们还引入了针对具有RoPE的键缓存的专门策略。我们证明了我们的方法可以在保持性能与原始LLMs相当的情况下压缩一半甚至四分之三的KV头部,这为在资源受限环境中更高效地部署LLM提供了一个有前途的方向。

论文链接: https://arxiv.org/pdf/2406.07056

cs.CL: 基于多模态大语言模型的可信度基准测试:一项全面研究

原标题: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

作者: Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

机构: 清华大学 北航 华东师范大学 RealAI

摘要: 尽管多模式大语言模型(MLLMs)在各种任务上具有出色的能力,但它们仍然面临着重大的可信度挑战。然而,目前关于可信度评估的文献仍然有限,缺乏全面的评估以提供对未来改进的深入见解。在这项工作中,我们建立了MultiTrust,这是关于MLLMs可信度的第一个全面统一基准,涵盖了真实性、安全性、稳健性、公平性和隐私性等五个主要方面。我们的基准采用了严格的评估策略,既考虑了多模态风险,又包括了跨模态影响,涵盖了32个不同任务,使用了自行策划的数据集。通过对21个现代MLLMs进行广泛实验,揭示了一些以前未探索的可信度问题和风险,突出了多模态引入的复杂性,并强调了增强它们可靠性的先进方法的必要性。例如,典型的专有模型仍然在感知视觉上令人困惑的图像方面存在困难,并容易受到多模态越狱和对抗性攻击的影响;MLLMs更倾向于在文本中泄露隐私,并在推理中即使与无关图像配对,也会显示意识形态和文化偏见,表明多模态放大了基本LLMs的内部风险。此外,我们发布了一个可扩展的工具箱,用于标准化的可信度研究,旨在促进这一重要领域的未来进展。代码和资源可在以下网址公开获取:this https URL。

论文链接: https://arxiv.org/pdf/2406.07057

Github: https://multi-trust.github.io/

cs.CL: CoEvol: 通过多智能体合作构建指导微调的更好响应

原标题: CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation

作者: Renhao Li, Minghuan Tan, Derek F. Wong, Min Yang

机构: 澳门大学 中国科学院深圳先进技术研究院

摘要: 近年来,对大语言模型(LLMs)进行指导微调(IFT)已经引起了相当大的关注,以增强模型在未知任务上的性能。人们已经尝试自动构建和有效选择IFT数据。然而,我们认为先前的方法并没有充分利用LLMs的潜力来提高数据质量。通过利用LLMs本身的能力,IFT数据中的响应可以进一步增强。在本文中,我们提出了CoEvol,这是一个基于LLM的多智能体合作框架,用于改进对指令的响应。为了有效地完善响应,我们开发了一个遵循辩论-建议-编辑-评判范式的迭代框架。进一步设计了一个两阶段的多智能体辩论策略,以确保框架内编辑建议的多样性和可靠性。在MT-Bench和AlpacaEval评估的竞争基线上,配备CoEvol的模型在实证上表现优于竞争基线,证明了它在增强LLMs的遵循指令能力方面的有效性。

论文链接: https://arxiv.org/pdf/2406.07054

cs.CL: 更多关注源上下文:减轻大语言模型的不忠译文

原标题: Paying More Attention to Source Context: Mitigating Unfaithful Translations from Large Language Model

作者: Hongbin Zhang, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

机构: 哈尔滨工业大学计算与智能研究所,深圳,中国 彭城实验室,深圳,中国

摘要: 大语言模型(LLMs)展示了令人印象深刻的多语言机器翻译能力。然而,与编码器-解码器风格模型不同,仅解码器的LLMs缺乏源上下文和目标上下文之间的明确对齐。在生成过程中分析贡献分数显示,LLMs可能会偏向先前生成的标记而不是对应的源标记,导致不忠实的翻译。为了解决这个问题,我们提出鼓励LLMs在零样本提示中更多地关注来自源和目标两个角度的源上下文:1)调整源上下文注意力权重;2)抑制无关的目标前缀影响;此外,我们提出3)避免在指导调整中过度依赖目标前缀。来自人工收集的关于LLM生成的不忠实翻译的不忠实测试集和一般测试集的实验结果验证了我们方法在多种语言对上的有效性。进一步的人类评估显示我们方法在减少虚构翻译和促进忠实翻译生成方面的功效。

论文链接: https://arxiv.org/pdf/2406.07036

Github: https://github.com/AzureStarz/paying_attention_to_the_source

cs.CL: Crayon:通过即时适配器混合和边缘服务器混合推理实现定制化的大语言模型

原标题: Crayon: Customized On-Device LLM via Instant Adapter Blending and Edge-Server Hybrid Inference

作者: Jihwan Bang, Juntae Lee, Kyuhong Shim, Seunghan Yang, Simyung Chang

机构: 高通人工智能研究所 高通韩国YH 分别位于首尔,韩国共和国

摘要: 大语言模型(LLMs)的定制化对于用户指定的任务变得越来越重要。然而,在云服务器上维护所有定制化的LLMs会产生大量的内存和计算开销,而上传用户数据也可能引发隐私问题。在设备上的LLMs可以通过缓解这些问题提供一个有前途的解决方案。然而,设备上LLMs的性能受到小规模模型的限制。为了克服这些限制,我们首先提出了Crayon,这是一种新颖的设备上LLM定制化方法。Crayon首先通过构建一个多样化的基础适配器池开始,然后我们立即将它们混合到一个定制适配器中,无需额外训练。此外,我们开发了一种设备-服务器混合推理策略,巧妙地将更具挑战性的查询或非定制任务分配给服务器上更大、更有能力的LLM。这确保了在不牺牲设备上定制化的好处的情况下实现最佳性能。我们从多个问答数据集中精心设计了一个新颖的基准测试,并展示了我们的方法在LLM定制化方面的有效性。

论文链接: https://arxiv.org/pdf/2406.07007

cs.CL: 探讨通过过多词汇在学术写作中使用ChatGPT

原标题: Delving into ChatGPT usage in academic writing through excess vocabulary

作者: Dmitry Kobak, Rita González Márquez, Emőke-Ágnes Horvát, Jan Lause

机构: 图宾根大学 西北大学

摘要: 最近的大语言模型(LLMs)可以生成和修订具有人类水平表现的文本,并已广泛商业化应用在诸如ChatGPT之类的系统中。这些模型存在明显的局限性:它们可能会产生不准确的信息,强化现有的偏见,并容易被滥用。然而,许多科学家一直在使用它们来辅助他们的学术写作。目前学术文献中大规模使用LLM的情况有多普遍?为了回答这个问题,我们采用一种无偏见的大规模方法,不对学术LLM的使用做任何假设。我们研究了2010年至2024年间的1400万篇PubMed摘要中的词汇变化,并展示了LLM的出现如何导致某些风格词频率的突然增加。我们基于过多词语使用的分析表明,至少有10%的2024年摘要是使用LLM处理的。这个下限在不同学科、国家和期刊之间有所不同,对于某些PubMed子语料库来说,这一比例甚至高达30%。我们展示了基于LLM的写作助手的出现对科学文献产生了前所未有的影响,超过了像Covid大流行这样的重大世界事件的影响。

论文链接: https://arxiv.org/pdf/2406.07016

cs.CL: 缺失鲁棒性视频增强多模态语言障碍检测

原标题: Missingness-resilient Video-enhanced Multimodal Disfluency Detection

作者: Payal Mohapatra, Shamika Likhite, Subrata Biswas, Bashima Islam, Qi Zhu

机构: 西北大学 伍斯特理工学院

摘要: 大多数现有的语音不流畅检测技术仅依赖于声学数据。在这项工作中,我们提出了一种实用的多模态不流畅检测方法,利用可用的视频数据和音频数据。我们策划了一个音视频数据集,并提出了一种新颖的融合技术,使用统一的权重共享模态不可知编码器来学习时间和语义上下文。我们的弹性设计适应了现实世界中视频模态有时在推断过程中可能缺失的情况。当确保两种模态完整时,我们还提出了替代的融合策略。在五个不流畅检测任务的实验中,我们的统一多模态方法明显优于仅音频的单模态方法,当视频和音频模态始终可用时,平均绝对改进达到了10%(即增加了10个百分点),即使在一半样本中视频模态缺失时,也有7%的改进。

论文链接: https://arxiv.org/pdf/2406.06964

cs.CL: 在大语言模型时代减轻文本分类中的边界模糊和固有偏见

原标题: Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models

作者: Zhenyi Lu, Jie Tian, Wei Wei, Xiaoye Qu, Yu Cheng, Wenfeng xie, Dangyang Chen

机构: 华中科技大学 中国香港中文大学 平安财产保险公司

摘要: 文本分类是在实际场景中经常遇到的关键任务,然而在大语言模型(LLMs)时代仍然未被充分探索。本研究表明,LLMs对文本分类中选项数量和排列方式的变化很容易受到影响。我们广泛的实证分析揭示了关键瓶颈源自于模糊的决策边界和对特定标记和位置的固有偏见。为了缓解这些问题,我们首次尝试并提出了一种新颖的面向LLMs的两阶段分类框架。我们的方法基于实证观察,即成对比较可以有效减轻边界模糊和固有偏见。具体而言,我们首先采用自我缩减技术,有效缩小众多选项,从而减少决策空间并加快比较过程。随后,我们以一种思维链式方式使用成对对比比较,以揭示细微差别并区分易混淆的选项,从而完善模糊的决策边界。在四个数据集(Banking77、HWU64、LIU54和Clinic150)上进行的大量实验验证了我们框架的有效性。此外,受益于我们的框架,各种LLMs都能够实现一致的改进。我们的代码和数据可在\url{this https URL}上获得。

论文链接: https://arxiv.org/pdf/2406.07001

Github: https://github.com/Chuge0335/PC-CoT

cs.CL: 大语言模型的进化子网络训练

原标题: Evolving Subnetwork Training for Large Language Models

作者: Hanqi Li, Lu Chen, Da Ma, Zijian Wu, Su Zhu, Kai Yu

机构: 清华大学 百度 AI实验室

摘要: 大语言模型已经引领了人工智能研究的新时代。然而,它们巨大的训练成本阻碍了进一步的发展和广泛应用。在本文中,受大语言模型参数冗余的启发,我们提出了一种新颖的训练范式:Evolving Subnetwork Training (EST)。EST从大语言模型的各层和每一层中常用的模块Multi-Head Attention (MHA)和Multi-Layer Perceptron (MLP)中采样子网络。通过在训练过程中逐渐增加子网络的大小,EST可以节省训练成本。我们将EST应用于训练GPT2模型和TinyLlama模型,结果表明,对于GPT2可以节省26.7%的FLOPs,对于TinyLlama可以节省25.0%,而在预训练数据集上损失没有增加。此外,EST导致了下游任务性能的提升,表明它有助于泛化。此外,我们基于训练动态和Dropout理论提供直观的理论研究,以确保EST的可行性。我们的代码可以在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.06962

Github: https://github.com/OpenDFM/EST

cs.CL: 后续答案归因用于基于事实和可信长文档理解:任务、见解和挑战

原标题: Post-Hoc Answer Attribution for Grounded and Trustworthy Long Document Comprehension: Task, Insights, and Challenges

作者: Abhilasha Sancheti, Koustava Goswami, Balaji Vasan Srinivasan

机构: 马里兰大学 学院公园 阿多比研究

摘要: 将答案文本归因于其源文档对于寻求信息的问题至关重要,这有助于构建值得信赖、可靠和负责任的系统。我们提出了一个新的任务,即针对长文档理解(LDC)的事后答案归因。由于缺乏长篇抽象和信息检索型LDC数据集,我们重构现有数据集,以评估现有基于检索和提出的答案分解以及基于文本蕴涵的最佳选择归因系统在此任务中的优势和劣势。我们指出了现有数据集的局限性以及需要数据集来评估系统在这一任务上的实际表现的必要性。

论文链接: https://arxiv.org/pdf/2406.06938

cs.CL: 通过信念树传播进行大语言模型幻觉检测的概率框架

原标题: A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation

作者: Bairu Hou, Yang Zhang, Jacob Andreas, Shiyu Chang

机构: 加州大学圣巴巴拉分校 麻省理工学院-IBM沃森人工智能实验室 麻省理工学院计算机科学与人工智能实验室

摘要: 本文关注幻觉检测任务,旨在确定由LLM生成的陈述的真实性。为解决这一问题,一类流行的方法利用LLM在一组逻辑相关的增强陈述中的自洽性,这些陈述由LLM生成,不需要外部知识数据库,并且可以与白盒和黑盒LLM一起工作。然而,在许多现有方法中,增强陈述往往非常单调和无结构,这使得难以从这些陈述中整合LLM信念中的有意义信息。此外,许多方法使用LLM信念的二值化版本,而不是连续版本,这会显著丢失信息。为了克服这些限制,在本文中,我们提出了Belief Tree Propagation(BTProp),这是一种用于LLM幻觉检测的概率框架。BTProp通过递归地将父陈述分解为具有三种分解策略的子陈述,引入了一个逻辑相关陈述的信念树,并构建了一个隐藏马尔可夫树模型,以原则性地整合这些陈述中的LLM信念分数。实验结果表明,我们的方法在多个幻觉检测基准上将基线提高了3%-9%(通过AUROC和AUC-PR评估)。代码可在此https网址找到。

论文链接: https://arxiv.org/pdf/2406.06950

Github: https://github.com/UCSB-NLP-Chang/BTProp

cs.CL: Agent-SiMT: 利用大语言模型辅助的同时机器翻译

原标题: Agent-SiMT: Agent-assisted Simultaneous Machine Translation with Large Language Models

作者: Shoutao Guo, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng

机构: 中国科学院计算技术研究所(ICT/CAS)、中国科学院人工智能安全重点实验室、中国科学院大学、苏州大学未来科学与工程学院

摘要: 同时翻译(SiMT)在阅读源句时生成目标翻译。它依赖于一种策略来确定阅读句子和生成翻译的最佳时机。现有的SiMT方法通常采用传统的Transformer架构,同时确定策略并生成翻译。虽然它们擅长确定策略,但其翻译性能并不理想。相反,训练在大量语料库上的大语言模型(LLMs)具有更优秀的生成能力,但很难通过SiMT的训练方法获得翻译策略。因此,我们引入了Agent-SiMT,这是一个结合了LLMs和传统SiMT方法优势的框架。Agent-SiMT包含策略决策代理和翻译代理。策略决策代理由SiMT模型管理,使用部分源句和翻译确定翻译策略。翻译代理利用LLM,基于部分源句生成翻译。这两个代理共同合作完成SiMT。实验证明,Agent-SiMT实现了最先进的性能。

论文链接: https://arxiv.org/pdf/2406.06910

cs.CL: 用迭代学习模型对语言接触进行建模

原标题: Modeling language contact with the Iterated Learning Model

作者: Seth Bullock, Conor Houghton

机构: 布里斯托大学 智能系统实验室

摘要: 语言之间的接触有潜力传递词汇和其他语言特征;然而,并非总是发生这种情况。在这里,使用迭代学习模型以简单方式检验语言接触过程中语言变化的抵抗力。迭代学习模型是基于代理的语言变化模型,它们表明,具有表现力和组合性的语言会自发地出现,这是语言传输瓶颈的结果。最近引入的一种迭代学习模型类型,半监督ILM被用来模拟语言接触。这些模拟并未包括语言接触中涉及的许多复杂因素,并且也没有对说话者群体进行建模;尽管如此,该模型表明,在模型中导致语言自发变得具有表现力和组合性的动态,也会导致一种语言在与另一种语言混合后仍然保持其核心特征。

论文链接: https://arxiv.org/pdf/2406.06878

cs.CL: 一个用于端到端同时语音到任何语言翻译的非自回归生成框架

原标题: A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Any Translation

作者: Zhengrui Ma, Qingkai Fang, Shaolei Zhang, Shoutao Guo, Yang Feng, Min Zhang

机构: 中国科学院计算技术研究所 中国科学院智能信息处理重点实验室 中国科学院人工智能安全重点实验室 中国科学院大学 苏州大学未来科学与工程学院

摘要: 同时翻译模型在促进交流方面发挥着至关重要的作用。然而,现有研究主要集中在文本到文本或语音到文本模型上,需要额外的级联组件来实现语音到语音的翻译。这些管道方法存在错误传播,并在每个级联组件中累积延迟,导致说话者和听众之间的同步性降低。为了克服这些挑战,我们提出了一种新颖的用于同时语音翻译的非自回归生成框架(NAST-S2X),将语音到文本和语音到语音任务整合到统一的端到端框架中。我们开发了一个非自回归解码器,能够在接收到固定长度的语音块后同时生成多个文本或声学单元标记。该解码器可以生成空白或重复标记,并利用CTC解码动态调整其延迟。实验结果表明,NAST-S2X在语音到文本和语音到语音任务中优于现有模型。它在不到3秒的延迟内实现了高质量的同时口译,并在离线生成中提供了28倍的解码加速。

论文链接: https://arxiv.org/pdf/2406.06937

cs.CL: SignMusketeers:一种高效的大规模手语翻译多流方法

原标题: SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale

作者: Shester Gueuwou, Xiaodan Du, Greg Shakhnarovich, Karen Livescu

机构: 芝加哥丰田技术研究所

摘要: 在手语视频处理中,包括手语到书面语言翻译的任务中,一个持久的挑战是如何以一种有效和高效的方式学习手语的表征,以保留这些语言的重要属性,同时对于不相关的视觉差异保持不变。受手语的性质和语言学启发,我们提出的方法专注于手语视频中最相关的部分:签名者的面部、手部和身体姿势。然而,我们提出的方法不是使用现成的姿势跟踪模型的姿势估计坐标,因为这些模型在手部和面部的表现不一致,而是提出以自监督的方式学习手语的复杂手势和丰富的面部表情。我们的方法基于从单个帧学习(而不是视频序列),因此比先前关于手语预训练的工作要高效得多。与在How2Sign数据集上建立了新的手语翻译最先进技术的最近模型相比,我们的方法在使用不到3%的计算量的情况下产生了类似的翻译性能。

论文链接: https://arxiv.org/pdf/2406.06907

cs.CL: PLUM: 首选学习加测试用例产生更好的代码语言模型

原标题: PLUM: Preference Learning Plus Test Cases Yields Better Code Language Models

作者: Dylan Zhang, Shizhe Diao, Xueyan Zou, Hao Peng

机构: 伊利诺伊大学 香港科技大学 威斯康星大学麦迪逊分校

摘要: 指导微调的代码语言模型(LMs)在各种编程任务中显示出了潜力。它们是使用语言建模目标,在自然语言指令和黄金代码片段对上进行训练的。最近的证据表明,这些模型在训练过程中从未接触过错误解决方案,往往难以区分正确和错误的解决方案。这一观察引发了我们的研究:偏好学习,即训练模型更倾向于正确解决方案而不是错误解决方案,是否有助于进一步推动代码LMs的发展?我们提出了PLUM,一个新颖的\textbf{p}reference \textbf{l}earning框架,增加了专为代码LMs量身定制的测试用例。PLUM旨在探讨偏好学习在代码LMs中的关键成功因素和潜在好处,尽管在将LMs与人类价值观对齐方面取得了成功,但这一点仍然难以捉摸。PLUM包括三个阶段:(1)为自然语言指令生成测试用例,(2)从策略中抽样候选解决方案,并根据测试用例评估它们以创建偏好数据集,然后用于(3)使用偏好学习算法训练策略。实验证明,PLUM显着提高了现有代码LMs在已建立的代码生成基准上的性能,如HumanEval(+)和MBPP(+),即使是最先进的开源语言模型CodeQwen-1.5-7B-Chat。PLUM补充了监督微调(SFT)阶段,展示了协同效应。

论文链接: https://arxiv.org/pdf/2406.06887

cs.CL: 常识-T2I 挑战:文本到图像生成模型能理解常识吗?

原标题: Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

作者: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth

机构: 宾夕法尼亚大学, 加利福尼亚大学圣巴巴拉

摘要: 我们提出了一个新颖的任务和基准,用于评估文本到图像(T2I)生成模型产生符合现实生活常识的图像的能力,我们称之为Commonsense-T2I。给定两个包含相同动作词集但存在细微差异的对抗性文本提示,例如“没有电的灯泡”对比“有电的灯泡”,我们评估T2I模型是否能进行视觉常识推理,例如相应地生成符合“灯泡未点亮”与“灯泡已点亮”的图像。Commonsense-T2I提出了一个对抗性挑战,提供成对的文本提示以及期望的输出。该数据集由专家精心筛选并标注了细粒度标签,如常识类型和期望输出的可能性,以帮助分析模型行为。我们对各种最先进的T2I模型进行基准测试,令人惊讶地发现,图像合成与真实生活照片之间仍存在很大差距——即使是DALL-E 3模型在Commonsense-T2I上也只能达到48.92%的准确率,而稳定扩散XL模型仅实现了24.92%的准确率。我们的实验表明,GPT增强提示无法解决这一挑战,并对可能导致此类不足的原因进行了详细分析。我们旨在使Commonsense-T2I成为T2I常识检查的高质量评估基准,促进现实生活图像生成的进步。

论文链接: https://arxiv.org/pdf/2406.07546

cs.CL: 情境感知在3D视觉语言推理中很重要。

原标题: Situational Awareness Matters in 3D Vision Language Reasoning

作者: Yunze Man, Liang-Yan Gui, Yu-Xiong Wang

机构: 伊利诺伊大学厄巴纳-香槟分校

摘要: 能够在3D空间中执行复杂的视觉语言推理任务代表着发展家庭机器人和以人为中心的具身人工智能的重要里程碑。在这项工作中,我们展示了3D视觉语言推理中一个关键且独特的挑战是情境意识,它包括两个关键组成部分:(1)自主智能体基于语言提示确定其自身位置。(2)智能体从其计算出的位置视角回答开放性问题。为了解决这一挑战,我们引入了SIG3D,一个用于3D视觉语言推理的端到端情境感知模型。我们将3D场景标记为稀疏体素表示,并提出了一个语言感知情境估计器,随后是一个情境化问题回答模块。在SQA3D和ScanQA数据集上的实验表明,SIG3D在情境估计和问题回答方面的表现远远优于最先进的模型(例如,在情境估计准确性上提高了超过30%)。随后的分析证实了我们的架构设计选择,探讨了视觉和文本标记的不同功能,并强调了在3D问题回答领域中情境意识的重要性。

论文链接: https://arxiv.org/pdf/2406.07544

cs.CL: VideoLLaMA 2: 在视频-大语言模型中推进时空建模和音频理解

原标题: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

作者: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing

机构: 阿里巴巴集团 DAMO 学院

摘要: 在本文中,我们提出了VideoLLaMA 2,这是一组视频大语言模型(Video-LLMs),旨在增强视频和音频导向任务中的时空建模和音频理解能力。在其前身的基础上,VideoLLaMA 2 加入了一个量身定制的空间-时间卷积(STC)连接器,有效捕捉视频数据的复杂空间和时间动态。此外,我们通过联合训练将音频分支集成到模型中,从而通过无缝整合音频线索丰富模型的多模态理解能力。在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQA)和视频字幕(VC)任务上进行的全面评估表明,VideoLLaMA 2 在开源模型中始终取得竞争力结果,并且在几个基准测试中甚至接近一些专有模型。此外,VideoLLaMA 2 在现有模型的音频问答和音视频问答(AQA 和 OE-AVQA)基准测试中展现出合理的改进。这些进展突显了VideoLLaMA 2 在多模态理解方面的卓越性能,为智能视频分析系统树立了新的标准。所有模型都是公开的,以促进进一步研究。

论文链接: https://arxiv.org/pdf/2406.07476

cs.CL: 大语言模型用于基于约束的因果发现

原标题: Large Language Models for Constrained-Based Causal Discovery

作者: Kai-Hendrik Cohrs, Gherardo Varando, Emiliano Diaz, Vasileios Sitokonstantinou, Gustau Camps-Valls

机构: 西班牙瓦伦西亚大学 Image Processing Laboratory

摘要: 因果关系对于理解复杂系统至关重要,例如经济、大脑和气候。构建因果图通常依赖于数据驱动或专家驱动方法,两者都充满挑战。前者方法,如著名的PC算法,面临着数据需求和因果充分性假设的问题,而后者则需要大量时间和领域知识。本研究探讨了大语言模型(LLMs)作为因果图生成的替代方法,而非领域专家。我们将条件独立性查询构建为LLMs的提示,并使用PC算法的答案。基于已知因果图系统的LLM基础条件独立性预测器的性能表现出高度的可变性。我们通过提出的统计启发式投票模式改善了性能,该模式允许对误报和漏报率进行一定程度的控制。检查思维链论证,我们发现因果推理可以为其对概率查询的答案提供理由。我们展示了基于知识的CIT最终可能成为数据驱动因果发现的一种补充工具的证据。

论文链接: https://arxiv.org/pdf/2406.07378

cs.CL: VersiCode: 迈向可版本控制的代码生成

原标题: VersiCode: Towards Version-controllable Code Generation

作者: Tongtong Wu, Weigang Wu, Xingyu Wang, Kang Xu, Suyu Ma, Bo Jiang, Ping Yang, Zhenchang Xing, Yuan-Fang Li, Gholamreza Haffari

机构: 莫纳什大学 澳大利亚 南京邮电大学 中国 字节跳动有限公司 澳大利亚 CSIRO’s Data61 澳大利亚

摘要: 重要的研究集中在改进大语言模型在与代码相关的任务上的性能,因为这对实际意义重大。尽管性能通常是使用公共基准数据集进行评估的,但现有数据集并未考虑“版本”概念,而这在专业软件开发中至关重要。在本文中,我们介绍了VersiCode,这是第一个旨在评估大语言模型生成特定库版本可验证代码能力的全面数据集。VersiCode 包含跨越 9 年的 2,000 多个版本中的 300 个库。我们设计了两个专门的评估任务:版本特定代码补全(VSCC)和版本感知代码编辑(VACE)。进行了全面实验来评估LLM的性能,揭示了这些任务和VersiCode的挑战性质,即使是最先进的LLM也难以生成正确版本的代码。这个数据集以及提出的任务,揭示了LLM在处理版本特定代码生成方面的能力和局限性,并为进一步研究开辟了一个重要的新领域。资源可以在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2406.07411

Github: https://github.com/wutong8023/VersiCode

cs.CL: 图像文本化:用于创建准确和详细图像描述的自动框架

原标题: Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

作者: Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang

机构: 香港科技大学 武汉大学 浙江大学 伊利诺伊大学厄巴纳-香槟分校

摘要: 图像描述数据集在推动各种应用的发展中起着至关重要的作用,例如图像理解、文本到图像生成和文本图像检索。目前,图像描述数据集主要来源于两个方面。一种来源是从网络中获取图像文本对。尽管这些描述丰富,但通常质量较低且带有噪音。另一种是通过人工标注。诸如COCO之类的数据集通常非常简短且缺乏细节。尽管可以由人类对图像进行详细描述的注释,但高昂的注释成本限制了可行性。这些限制突显了需要更高效和可扩展的方法来生成准确和详细的图像描述。在本文中,我们提出了一种名为图像文本化(IT)的创新框架,通过协作方式利用现有的多模态大语言模型(MLLMs)和多个视觉专家模型,最大程度地将视觉信息转换为文本,从而自动生成高质量的图像描述。为了解决目前缺乏详细描述基准的问题,我们提出了几个全面评估的基准,验证了我们框架创建的图像描述的质量。此外,我们展示了LLaVA-7B,通过在IT策划的描述上进行训练,获得了改进的能力,能够生成更丰富的图像描述,大大增加了输出的长度和细节,减少了虚构成分。

论文链接: https://arxiv.org/pdf/2406.07502

cs.CL: DR-RAG: 将动态文档相关性应用于用于问答的检索增强生成

原标题: DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering

作者: Zijian Hei, Weiling Wei, Wenjie Ou, Juyi Qiao, Junming Jiao, Zhiqing Zhu, Guowen Song

机构: 理工大学 中山大学 东北大学 四川大学

摘要: 检索增强生成(RAG)已经显著展示了大语言模型(LLMs)在知识密集型任务中的性能,例如问答(QA)。RAG通过整合外部知识库来扩展查询上下文,以提高响应准确性。然而,为每个查询多次访问LLMs会很低效,通过单个查询检索所有相关文档也不可靠。我们发现,即使一些关键文档与查询之间的相关性较低,也可以通过将文档的部分内容与查询结合来检索其余文档。为了挖掘相关性,提出了一个名为动态相关检索增强生成(DR-RAG)的两阶段检索框架,以提高文档检索召回率和答案准确性,同时保持效率。此外,应用一个小分类器到两种不同的选择策略,以确定检索到的文档对回答查询的贡献,并检索相对相关的文档。同时,DR-RAG仅调用LLMs一次,显著提高了实验的效率。在多跳QA数据集上的实验结果显示,DR-RAG可以显著提高答案的准确性,并在QA系统中取得新的进展。

论文链接: https://arxiv.org/pdf/2406.07348

cs.CL: MM-KWS:多模态提示用于多语言用户定义关键词检测

原标题: MM-KWS: Multi-modal Prompts for Multilingual User-defined Keyword Spotting

作者: Zhiqi Ai, Zhiyong Chen, Shugong Xu

机构: 上海大学

摘要: 在这篇论文中,我们提出了 MM-KWS,这是一种利用文本和语音模板的多模态注册来进行用户定义关键词识别的新方法。与之前专注于文本或语音特征的方法不同,MM-KWS从两种模态中提取音素、文本和语音嵌入。然后,将这些嵌入与查询语音嵌入进行比较,以检测目标关键词。为了确保 MM-KWS 在不同语言中的适用性,我们利用了一个包含多个多语言预训练模型的特征提取器。随后,我们验证了其在普通话和英语任务中的有效性。此外,我们还整合了先进的数据增强工具用于难例挖掘,以增强 MM-KWS 在区分易混淆词方面的性能。在 LibriPhrase 和 WenetPhrase 数据集上的实验结果表明,MM-KWS 显著优于先前的方法。

论文链接: https://arxiv.org/pdf/2406.07310

cs.CL: AI 拖延战术:语言模型可以在评估中有意表现不佳

原标题: AI Sandbagging: Language Models can Strategically Underperform on Evaluations

作者: Teun van der Weij, Felix Hofstätter, Ollie Jaffe, Samuel F. Brown, Francis Rhys Ward

机构: 帝国理工学院 Imperial College London

摘要: 可信的能力评估对确保人工智能系统的安全至关重要,并且正在成为人工智能监管的关键组成部分。然而,人工智能系统的开发者,或者人工智能系统本身,可能会有动机使评估低估人工智能的实际能力。这些利益冲突导致了所谓的“故意表现不佳的评估”问题。在本文中,我们评估了当代语言模型(LMs)中的故意表现不佳的能力。我们促使像GPT-4和Claude 3 Opus这样的前沿LMs,在危险能力评估中选择性地表现不佳,同时在一般(无害)能力评估中保持性能。此外,我们发现模型可以在合成数据集上进行微调,以隐藏特定能力,除非给出密码。这种行为可以推广到高质量的、保留的基准数据集,如WMDP。此外,我们表明,无论是前沿模型还是较小模型,都可以被促使或者密码锁定,以针对能力评估中的特定分数。更重要的是,我们发现,一个有能力的密码锁定模型(Llama 3 70b)可以合理地模拟一个能力较弱的模型(Llama 2 7b)。总的来说,我们的结果表明,能力评估容易受到故意表现不佳的影响。这种脆弱性降低了评估的可信度,从而损害了关于先进人工智能系统开发和部署的重要安全决策。

论文链接: https://arxiv.org/pdf/2406.07358

cs.CL: 3D-Properties: 确定数据保护官(DPO)面临的挑战并制定前进路径

原标题: 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward

作者: Yuzi Yan, Yibo Miao, Jialian Li, Yipin Zhang, Jian Xie, Zhijie Deng, Dong Yan

机构: 清华大学 上海交通大学 巴川人工智能

摘要: 最近,将大型语言模型(LLMs)与人类偏好进行对齐引起了极大关注,其中经典但成本高昂的RLHF-PPO和简单直接的直接偏好优化(DPO)是两个例子。尽管DPO效率高,但在最先进的生产级LLMs中很少被使用,这暗示了其潜在的病态。在这项工作中,我们重新审视了DPO,全面检验了其实证效力,并与RLHF-PPO进行了系统比较。我们确定了DPO学习结果的\textbf{3D}特性:被拒绝响应的可能性急剧下降,降级为LLM未学习,以及对未见响应的扩散效应,通过对包括数学问题解决和遵循指令在内的任务进行实验,使用精心设计的玩具模型和实际LLMs。这些发现与相关工作的一些观察固有地相连,我们还为它们提供了一个合理的理论解释。因此,我们提出了简单的正则化方法来减轻\textbf{3D}特性引起的问题,提高DPO的训练稳定性和最终性能。我们的贡献还包括调查成对偏好数据的分布如何影响DPO的有效性。我们希望这项工作能够为缩小无奖励偏好学习方法和基于奖励的方法之间的差距提供研究方向。

论文链接: https://arxiv.org/pdf/2406.07327

cs.CL: 指导大语言模型像人类一样驾驶

原标题: Instruct Large Language Models to Drive like Humans

作者: Ruijun Zhang, Xianda Guo, Wenzhao Zheng, Chenming Zhang, Kurt Keutzer, Long Chen

机构: 中国科学院自动化研究所 武汉大学 计算机学院 加州大学伯克利分校 西安交通大学人工智能与机器人研究所 Waytous

摘要: 在复杂场景中的运动规划是自动驾驶中的核心挑战。传统方法应用预定义规则或从驾驶数据中学习以规划未来的轨迹。最近的方法寻求保存在大语言模型(LLMs)中的知识,并将其应用于驾驶场景中。尽管取得了令人期待的结果,但仍不清楚LLM是否学习了驾驶的潜在人类逻辑。在本文中,我们提出了一种InstructDriver方法,将LLM转化为具有显式指令调整的运动规划器,以使其行为与人类一致。我们基于人类逻辑(例如,不要造成碰撞)和交通规则(例如,只有绿灯时才能前行)推导驾驶指令数据。然后,我们采用可解释的InstructChain模块进一步推理反映指令的最终规划。我们的InstructDriver允许注入人类规则并从驾驶数据中学习,实现了可解释性和数据可扩展性。与在闭环或模拟设置上进行实验的现有方法不同,我们采用了真实世界的闭环运动规划nuPlan基准进行更好的评估。InstructDriver展示了LLM规划器在真实世界闭环设置中的有效性。我们的代码可以在此https URL上公开获取。

论文链接: https://arxiv.org/pdf/2406.07296

Github: https://github.com/bonbon-rj/InstructDriver

cs.CL: 通过基于大语言模型的改写和基于框的分割,推进基于多模态实体识别。

原标题: Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation

作者: Jinyuan Li, Ziyan Li, Han Li, Jianfei Yu, Rui Xia, Di Sun, Gang Pan

摘要: 跨模态命名实体识别(GMNER)任务旨在识别命名实体、实体类型及其对应的视觉区域。GMNER 任务展现出两个具有挑战性的属性:1)社交媒体上图像和文本之间脆弱的相关性导致相当大比例的命名实体无法被关联。2)在类似任务中使用的粗粒度名词短语与细粒度命名实体之间存在区别(例如,短语定位)。在本文中,我们提出 RiVEG,一个统一的框架,通过利用大型语言模型(LLMs)作为连接桥梁,将 GMNER 重新构建为联合 MNER-VE-VG 任务。这种重新构建带来两个好处:1)它使我们能够优化 MNER 模块以获得最佳的 MNER 性能,并消除了使用目标检测方法预先提取区域特征的需求,从而自然地解决了现有 GMNER 方法的两个主要局限性。2)引入实体扩展表达模块和视觉蕴涵(VE)模块统一了视觉定位(VG)和实体定位(EG)。这赋予了所提出的框架无限的数据和模型可扩展性。此外,为了解决 GMNER 中粗粒度边界框输出可能产生的歧义,我们进一步构建了新的分段式多模态命名实体识别(SMNER)任务和相应的 Twitter-SMNER 数据集,旨在生成细粒度分割掩模,并通过实验证明了使用基于框提示的“Segment Anything Model”(SAM)赋予任何 GMNER 模型完成 SMNER 任务的能力的可行性和有效性。大量实验证明,RiVEG 在 MNER、GMNER 和 SMNER 任务的四个数据集上明显优于当前最先进方法。

论文链接: https://arxiv.org/pdf/2406.07268

cs.CL: EmoBox:多语种多语料情感语音识别工具包和基准测试

原标题: EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark

作者: Ziyang Ma, Mingjie Chen, Hezhao Zhang, Zhisheng Zheng, Wenxi Chen, Xiquan Li, Jiaxin Ye, Xie Chen, Thomas Hain

机构: 上海交通大学 英国谢菲尔德大学 复旦大学

摘要: 语音情感识别(SER)是人机交互的重要组成部分,受到工业界和学术界的广泛关注。然而,当前的SER研究领域长期以来一直存在以下问题:1)数据集的合理和通用划分较少,使得比较不同模型和方法变得困难。2)没有常用的基准涵盖研究人员可参考的大量语料库和语言,使得复现成为负担。在本文中,我们提出了EmoBox,一个开箱即用的多语言多语料库语音情感识别工具包,以及适用于语料库内和跨语料库设置的基准。对于语料库内设置,我们精心设计了不同数据集的数据划分。对于跨语料库设置,我们采用了一个基础的SER模型,emotion2vec,以减轻注释错误并获得一个在说话者和情感分布上完全平衡的测试集。基于EmoBox,我们展示了10个预训练语音模型在32个情感数据集(涵盖14种语言)上的语料库内SER结果,以及在4个数据集上具有完全平衡测试集的跨语料库SER结果。据我们所知,这是跨语言范围和数量规模最大的SER基准。我们希望我们的工具包和基准可以促进社区中对SER的研究。

论文链接: https://arxiv.org/pdf/2406.07162

cs.CL: 用只有图片来翻译语音

原标题: Translating speech with just images

作者: Dan Oneata, Herman Kamper

机构: 布加勒斯特理工大学 南非斯泰伦博斯大学

摘要: 通过视觉引导的语音模型将语音与图像联系起来。我们通过将图像与文本通过现有的图像字幕系统联系起来,从而获得直接将语音音频映射到文本的能力。这种方法可以用于仅通过图像进行语音翻译,方法是让音频与生成的字幕处于不同语言。我们在一个真实的低资源语言Yorùbá上研究了这样一个系统,并提出了一个利用预训练组件的Yorùbá到英语的语音翻译模型,以便能够在低资源环境中进行学习。为了限制过拟合,我们发现使用一个能够为训练生成多样化图像字幕的解码方案是至关重要的。结果显示,预测的翻译捕捉了口头音频的主要语义,尽管以更简单和更简短的形式。

论文链接: https://arxiv.org/pdf/2406.07133

cs.CL: 一个用于个人属性推断的合成数据集

原标题: A Synthetic Dataset for Personal Attribute Inference

作者: Hanna Yukhymenko, Robin Staab, Mark Vero, Martin Vechev

机构: 苏黎世联邦理工学院 ETH Zurich

摘要: 最近,强大的大语言模型(LLMs)已经变得容易访问到全球数亿用户。然而,它们强大的能力和广泛的世界知识并非没有相关的隐私风险。在这项工作中,我们关注新兴的隐私威胁LLMs所带来的问题 - 即从在线文本准确推断个人信息的能力。尽管基于LLM的作者特征分析日益重要,但由于真实个人数据涉及的道德和隐私问题,该领域的研究受到了阻碍,缺乏合适的公共数据集。在这项工作中,我们采取两步措施来解决这个问题:(i)我们利用种子合成个人资料的LLM智能体构建了一个模拟框架,用于流行的社交媒体平台Reddit;(ii)利用这个框架,我们生成了SynthPAI,一个包含超过7800条评论的多样化合成数据集,手动标记了个人属性。我们通过人类研究验证了我们的数据集,结果显示人类在区分我们的合成评论和真实评论的任务上几乎不如随机猜测。此外,我们验证了我们的数据集通过展示在18个最先进的LLMs上,我们的合成评论使我们能够得出与真实数据相同的结论,从而促使有意义的个人属性推断研究。总的来说,这表明我们的数据集和流程为未来研究提供了一个强大且保护隐私的基础,以便理解和减轻LLMs所带来的基于推断的隐私威胁。

论文链接: https://arxiv.org/pdf/2406.07217

cs.CL: 基于大语言模型的多智能体协作的扩展

原标题: Scaling Large-Language-Model-based Multi-Agent Collaboration

作者: Chen Qian, Zihao Xie, Yifei Wang, Wei Liu, Yufan Dang, Zhuoyun Du, Weize Chen, Cheng Yang, Zhiyuan Liu, Maosong Sun

机构: 清华大学 北京邮电大学

摘要: 在大语言模型驱动的智能体方面取得的开创性进展突显了多智能体协作的设计模式,表明集体智能可以超越每个个体的能力。受神经缩放定律的启发,即增加神经元会导致新的能力,本研究调查了类似原则是否适用于增加多智能体协作中的智能体。从技术上讲,我们提出了多智能体协作网络(MacNet),利用有向无环图来组织智能体,并通过拓扑排序简化它们的交互推理,从中得出解决方案。大量实验证明,MacNet始终优于基准模型,实现了跨各种网络拓扑的有效智能体协作,并支持超过一千个智能体之间的合作。值得注意的是,我们观察到了一个小世界协作现象,其中类似小世界属性的拓扑结构实现了卓越的性能。此外,我们确定了一种协作缩放定律,表明随着智能体规模的增加,标准化解决方案质量遵循逻辑增长模式,协作的出现比以前观察到的神经出现实例要早得多。代码和数据将在此https网址上提供。

论文链接: https://arxiv.org/pdf/2406.07155

Github: https://github.com/OpenBMB/ChatDev

cs.CL: 快速上下文偏置技术用于基于CTC和转录器的语音识别模型,带有基于CTC的单词定位器。

原标题: Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter

作者: Andrei Andrusenko, Aleksandr Laptev, Vladimir Bataev, Vitaly Lavrukhin, Boris Ginsburg

机构: 英伟达 伦敦大学 维多利亚大学

摘要: 准确识别罕见和新单词仍然是上下文自动语音识别(ASR)系统面临的紧迫问题。大多数上下文偏差方法涉及修改ASR模型或波束搜索解码算法,使模型重用复杂化并减慢推理速度。本文提出了一种基于CTC的单词定位器(CTC-WS)用于CTC和传导器(RNN-T)ASR模型的快速上下文偏差方法。所提出的方法将CTC对数概率与紧凑的上下文图进行匹配,以检测潜在的上下文偏差候选词。然后,有效的候选词将在相应的帧间隔内取代它们的贪婪识别对应词。混合传导器-CTC模型使CTC-WS应用于传导器模型。结果表明,与基准方法相比,上述方法在加速上下文偏差识别的同时,在F分数和词错误率(WER)方面均有显著改善。该提出的方法已在NVIDIA NeMo工具包中公开提供。

论文链接: https://arxiv.org/pdf/2406.07096

cs.CL: 弥合音频文本检索中的语言差距

原标题: Bridging Language Gaps in Audio-Text Retrieval

作者: Zhiyong Yan, Heinrich Dinkel, Yongqing Wang, Jizhong Liu, Junbo Zhang, Yujun Wang, Bin Wang

机构: 小米公司 维护语言差距在音频文本检索中

摘要: 音频文本检索是一项具有挑战性的任务,需要在数据库中搜索音频剪辑或文本标题。现有研究主要集中在英语描述上,这在实际数据中存在大量非英语内容时会存在局限性。为了解决这些语言差异,我们提出了一种语言增强(LE)方法,使用多语言文本编码器(SONAR)来编码具有特定语言信息的文本数据。此外,我们通过应用一致的集成蒸馏(CED)优化音频编码器,增强对可变长度音频文本检索的支持。我们的方法在英语音频文本检索方面表现出色,在诸如AudioCaps和Clotho等常用数据集上展现出最先进的性能。同时,该方法在仅使用额外的10%语言增强训练数据的情况下,展现出在其他七种语言中检索内容的熟练能力,取得了令人满意的结果。源代码可在此 https URL 公开获取。

论文链接: https://arxiv.org/pdf/2406.07012

Github: https://github.com/zyyan4/ml-clap

cs.CL: MoreauPruner: 针对权重扰动的大语言模型的稳健修剪

原标题: MoreauPruner: Robust Pruning of Large Language Models against Weight Perturbations

作者: Zixiao Wang, Jingwei Zhang, Wenqian Zhao, Farzan Farnia, Bei Yu

机构: 香港中文大学

摘要: 少样本梯度方法已被广泛应用于现有的模型修剪方法中,其中模型权重被视为静态值,不考虑潜在权重扰动的影响。然而,广泛使用的大语言模型(LLMs)具有数十亿个模型参数,这可能增加少样本梯度修剪的脆弱性。在这项工作中,我们通过实验证明,一次梯度修剪算法在模型权重扰动下可能导致不稳定的结果。在bfloat16和float16数据格式之间切换的轻微错误可能导致截然不同的结果。为了解决这种不稳定性,我们利用优化分析提出了一种名为MoreauPruner的LLM结构修剪方法,具有针对权重扰动的可靠性。在MoreauPruner中,模型权重重要性是基于神经网络的Moreau包络估计的,可以灵活地与 ℓ 1 \ell_1 1-范数正则化技术结合,以诱导修剪任务中所需的稀疏性。我们在几个知名的LLMs上对MoreauPruner算法进行了广泛评估,包括LLaMA-7B、LLaMA-13B、LLaMA3-8B和Vicuna-7B。我们的数值结果表明MoreauPruner对权重扰动具有稳健性,并表明MoreauPruner在准确性评分方面相对于几种现有的修剪方法取得了成功。我们已在\url{this https URL}中发布了代码。

论文链接: https://arxiv.org/pdf/2406.07017

Github: https://github.com/ShiningSord/MoreauPruner

cs.CL: 在知识图谱中通过上下文感知查询表示学习来改进多跳逻辑推理

原标题: Improving Multi-hop Logical Reasoning in Knowledge Graphs with Context-Aware Query Representation Learning

作者: Jeonghoon Kim, Heesoo Jung, Hyeju Jang, Hogun Park

机构: 成均馆大学 印第安纳大学印第安纳波利斯

摘要: 在知识图谱上进行多跳逻辑推理是自然语言处理中的一个关键任务,有许多方法旨在回答一阶逻辑(FOL)查询。最近基于几何(例如,盒子,锥体)和概率(例如,贝塔分布)的方法有效地解决了复杂的FOL查询。然而,这些方法之间的一个共同挑战在于确定这些查询的准确几何边界或概率参数。这一挑战的出现是因为现有方法依赖于它们计算图中的线性顺序操作,忽视了查询的逻辑结构以及可以从查询的关系中获取的关系诱导信息,我们称之为查询的上下文。为了解决这个问题,我们提出了一种模型无关的方法,通过完全整合FOL查询图的上下文来增强现有的多跳逻辑推理方法的有效性。我们的方法独特地区分了(1)与查询结构固有相关的结构上下文和(2)与查询图中每个节点独特相关的关系诱导上下文,如对应知识图中所描述的那样。这种双重上下文范式有助于查询图中的节点在多跳推理步骤中获得精细的内部表示。通过对两个数据集的实验,我们的方法始终提升了三个多跳推理基础模型,性能提升高达19.5%。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.07034

Github: https://github.com/kjh9503/caqr

cs.CL: 嵌入中包含什么?任何一种嵌入都会像玫瑰一样香甜吗?

原标题: What’s in an embedding? Would a rose by any embedding smell as sweet?

作者: Venkat Venkatasubramanian

机构: 哥伦比亚大学

摘要: 大语言模型(LLMs)经常因缺乏真正的“理解”和与知识“推理”的能力而受到批评,被视为仅仅是先进的自动补全系统。我们认为,这种观点可能忽略了一个重要的见解。我们建议LLMs确实会发展一种类似于“几何”一样的经验性“理解”,这对自然语言处理、计算机视觉、编程辅助等一系列应用来说似乎是相当足够的。然而,这种从不完整和嘈杂数据中构建的“几何”理解使它们不可靠,难以泛化,并且缺乏推理能力和解释能力,类似于几十年前启发式专家系统所面临的挑战。

为了克服这些限制,我们建议LLMs应该与包含专家系统中使用的符号人工智能元素的“代数”知识表示集成。这种整合旨在创建大型知识模型(LKMs),这些模型不仅具有根植于第一原则的“深层”知识,而且具有推理和解释的能力,模仿人类专家的能力。为了安全有效地利用生成式人工智能的全部潜力,需要从LLMs转向更全面的LKMs的范式转变。

论文链接: https://arxiv.org/pdf/2406.06870

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值