NeedleBench:LLM能否在100万上下文窗口中进行检索和推理?
原标题: NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
作者: Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen
机构: 上海人工智能实验室 清华大学
摘要: 在评估大语言模型(LLMs)的长文本能力时,从原始长文档中识别与用户查询相关的内容是任何LLM回答基于长文本问题的关键先决条件。我们提出了NeedleBench,这是一个由一系列逐渐具有挑战性的任务组成的框架,用于评估双语长文本能力,跨越多个长度区间(4k、8k、32k、128k、200k、1000k及以上)和不同深度范围,允许在不同文本深度区域中策略性地插入关键数据点,以严格测试模型在不同语境中的检索和推理能力。我们使用NeedleBench框架来评估领先的开源模型在识别与问题相关的关键信息以及将该信息应用于双语长文本推理方面的表现。此外,我们提出了祖先追踪挑战(ATC),模拟了在现实世界的长文本任务中可能存在的逻辑推理挑战的复杂性,提供了一种简单的方法来评估LLMs处理复杂长文本情况的能力。我们的结果表明,当前的LLMs在实际长文本应用中仍有很大的改进空间,因为它们在处理现实世界长文本任务中可能存在的逻辑推理挑战的复杂性方面存在困难。所有代码和资源均可在OpenCompass获取:此处链接。
论文链接: https://arxiv.org/abs/2407.11963
Github: https://github.com/open-compass/opencompass
有什么问题?利用大语言模型反馈来完善会议总结
原标题: What’s Wrong? Refining Meeting Summaries with LLM Feedback
作者: Frederic Kirstein, Terry Ruas, Bela Gipp
机构: 哥廷根大学 德国 Göttingen Georg-August-Universität
摘要: 会议摘要已成为一项关键任务,因为数字会议已成为常见做法。大语言模型(LLMs)在摘要中展现出巨大潜力,相较于传统方法,它们提供了更强的连贯性和上下文理解能力。然而,它们仍然难以保持相关性并避免产生幻觉。我们引入了一种多LLM校正方法,用于会议摘要,采用了一个模拟人类审阅过程的两阶段流程:错误识别和摘要优化。我们发布了QMSum Mistake,这是一个包含200个由人类标注的自动生成会议摘要的数据集,涵盖了九种错误类型,包括结构错误、遗漏和无关错误。我们的实验表明,这些错误可以被LLM高准确度地识别出来。我们将识别出的错误转化为可操作的反馈,以提高给定摘要的质量,衡量标准包括相关性、信息量、简洁性和连贯性。这种事后优化有效地通过利用多个LLM来验证输出质量,从而提高摘要质量。我们针对会议摘要的多LLM方法展示了在需要稳健性、行动规划和朝着目标讨论的类似复杂文本生成任务中的潜力。
论文链接: https://arxiv.org/abs/2407.11919
重新思考基于Transformer的多文档摘要:实证研究
原标题: Rethinking Transformer-based Multi-document Summarization: An Empirical Investigation
作者: Congbo Ma, Wei Emma Zhang, Dileepa Pitawela, Haojie Zhuang, Yanfeng Shu
机构: 麦考瑞大学 悉尼 澳大利亚 阿德莱德大学 澳大利亚 CSIRO 澳大利亚
摘要: 基于Transformer的模型的利用促进了多文档摘要(MDS)的增长。鉴于Transformer-based模型在各种自然语言处理任务中的巨大影响和广泛应用,研究它们在MDS环境中的性能和行为对于推动该领域的发展和提高摘要质量至关重要。为了彻底检验基于Transformer的MDS模型的行为,本文提出了五项实证研究,包括:(1)定量测量文档边界分隔符的影响;(2)探索不同主流Transformer结构的有效性;(3)检查编码器和解码器的敏感性;(4)讨论不同的训练策略;以及(5)发现摘要生成中的重复现象。对流行的MDS数据集和十一个评估指标的实验结果显示了文档边界分隔符的影响,不同级别特征的粒度以及不同的模型训练策略。结果还表明,与编码器相比,解码器对噪声更为敏感。这凸显了解码器发挥的重要作用,为未来MDS研究指明了潜在方向。此外,实验结果表明,在生成的摘要中的重复问题与高不确定性得分存在相关性。
论文链接: https://arxiv.org/abs/2407.11948
在长篇问答中进行细粒度幻觉检测和缓解
原标题: Fine-grained Hallucination Detection and Mitigation in Long-form Question Answering
作者: Rachneet Sachdeva, Yixiao Song, Mohit Iyyer, Iryna Gurevych
机构: 技术大学达姆斯塔特分布式人工智能中心(Hessian.AI) 论文作者:Rachneet Sachdeva, Yixiao Song, Mohit Iyyer, Iryna Gurevych
马萨诸塞大学阿默斯特分校
摘要: 长篇问答(LFQA)旨在为复杂问题提供彻底和深入的答案,增强理解。然而,这种详细的回答容易出现幻觉和事实不一致,挑战着它们的忠实评估。这项工作介绍了HaluQuestQA,这是第一个带有人类撰写和模型生成的LFQA答案的局部错误注释的幻觉数据集。HaluQuestQA包括698个QA对,针对五种不同错误类型由专家注释者进行了4.7k个跨度级别的错误注释,同时还包括偏好判断。利用我们收集的数据,我们彻底分析了长篇答案的缺点,发现它们缺乏全面性并提供无用的参考。我们在这个数据集上训练了一个自动反馈模型,该模型可以预测具有不完整信息的错误跨度并提供相关解释。最后,我们提出了一种基于提示的方法,即错误通知改进,该方法使用来自学习反馈模型的信号来改进生成的答案,我们展示了这种方法减少了幻觉并提高了答案质量。此外,人们发现我们的方法生成的答案全面且更受欢迎(84%)比基准答案。
论文链接: https://arxiv.org/abs/2407.11930
拒绝训练在大语言模型中是否能推广到过去时态?
原标题: Does Refusal Training in LLMs Generalize to the Past Tense?
作者: Maksym Andriushchenko, Nicolas Flammarion
机构: EPFL
摘要: 拒绝训练被广泛应用于防止大语言模型生成有害、不良或非法的输出。我们揭示了当前拒绝训练方法中一个有趣的概括差距:简单地将一个有害请求改写成过去时(例如,将“如何制作一枚摩洛托夫鸡尾酒?”改为“人们如何制作一枚摩洛托夫鸡尾酒?”)通常足以越狱许多最先进的大语言模型。我们使用 GPT-3.5 Turbo 作为改写模型,在 Llama-3 8B、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o 和 R2D2 模型上系统评估了这种方法。例如,这种简单攻击对 GPT-4o 的成功率从使用直接请求的1%增加到使用来自 JailbreakBench 的有害请求的 20 个过去时改写尝试时的 88%,其中 GPT-4 作为越狱评判。有趣的是,我们还发现将请求改写为将来时不太有效,这表明拒绝防护栏倾向于认为过去历史问题比假设的未来问题更温和。此外,我们对微调 GPT-3.5 Turbo 的实验表明,当过去时的示例被明确包含在微调数据中时,防御过去改写是可行的。总的来说,我们的研究结果突显了广泛使用的对齐技术(如 SFT、RLHF 和对抗训练)在对齐研究模型时可能脆弱,并不总是按预期泛化。我们在此 https URL 提供了代码和越狱工件。
论文链接: https://arxiv.org/abs/2407.11969
Github: https://github.com/tml-epfl/llm-past-tense
一个关于自由道德基础的新词汇表
原标题: A Novel Lexicon for the Moral Foundation of Liberty
作者: Oscar Araque, Lorenzo Gatti, Sergio Consoli, Kyriaki Kalimeri
机构: 马德里理工大学 荷兰特文特大学 欧洲委员会联合研究中心(DG JRC) ISI基金会
摘要: 在涉及疫苗犹豫、气候变化或堕胎权等具有争议性的社会问题时,自由的道德价值是我们推理系统中的一个核心概念。在这里,我们提出了一个新颖的自由词汇表,经过对超过3,000个手动注释数据的评估,涵盖了领域内外的情景。通过这次评估,我们生成了一个结合了使用词嵌入相似性(WE)和组合语义(CS)生成的词汇表,这是本研究的主要成果。这个最终的词汇表融合了一系列使用词嵌入相似性和组合语义生成的词汇表的信息。我们的主要贡献包括丰富自由注释、为更广泛的应用开发强大的自由词汇表,以及揭示不同平台上与自由相关的表达的复杂性。通过评估,我们表明这一任务的困难需要设计结合知识的方法,以改进学习系统的表征。
论文链接: https://arxiv.org/abs/2407.11862
零样本跨语言转移用于语法错误检测中的合成数据生成
原标题: Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection
作者: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson
机构: Ubisoft La Forge
摘要: 语法错误检测(GED)方法在很大程度上依赖于人工标注的错误语料库。然而,在许多资源匮乏的语言中,这些注释是不可用的。在本文中,我们研究了这种情况下的GED。利用多语言预训练语言模型的零样本跨语言转移能力,我们使用来自多种语言的数据训练一个模型,以在其他语言中生成合成错误。然后,这些合成错误语料库被用来训练一个GED模型。具体而言,我们提出了一个两阶段微调流程,其中GED模型首先在目标语言的多语言合成数据上进行微调,然后在源语言的人工标注GED语料库上进行微调。这种方法胜过当前最先进的无标注GED方法。我们还分析了我们的方法和其他强基线产生的错误,发现我们的方法产生的错误更加多样化,更类似于人类错误。
论文链接: https://arxiv.org/abs/2407.11854
通过约束满足评估面向任务的对话一致性
原标题: Evaluating Task-Oriented Dialogue Consistency through Constraint Satisfaction
作者: Tiziano Labruna, Bernardo Magnini
机构: Fondazione Bruno Kessler
摘要: 任务导向对话必须在对话内部保持一致性,确保对话轮次之间的逻辑连贯性,并与会话领域保持一致,准确反映外部知识。我们提出将对话一致性概念化为约束满足问题(CSP),其中变量代表对话中涉及会话领域的部分,变量之间的约束反映对话属性,包括语言、会话和基于领域的方面。为了证明这种方法的可行性,我们利用CSP求解器来检测由LLM重新词汇化的对话中的不一致性。我们的研究结果表明:(i)CSP对于检测对话不一致性是有效的;(ii)与CSP求解器相比,对话一致性的重新词汇化对于最先进的LLM来说具有挑战性,仅在准确率方面达到了0.15。此外,通过消融研究,我们发现源自领域知识的约束最难被遵守。我们认为CSP捕捉了对话一致性的核心属性,这些属性在基于组件流水线的方法中被忽视。
论文链接: https://arxiv.org/abs/2407.11857
扩展手语翻译
原标题: Scaling Sign Language Translation
作者: Biao Zhang, Garrett Tanzer, Orhan Firat
机构: 谷歌DeepMind 谷歌
摘要: 手语翻译(SLT)解决将手语视频信息翻译成文本的问题。现有研究虽然取得了进展,但通常局限于狭窄领域和/或少数手语,并且在开放领域任务中存在困难。本文通过扩大预训练数据、模型规模和翻译方向数量,推动了手语翻译的前沿。我们在不同数据上进行大规模SLT预训练,包括:1)嘈杂的多语言YouTube SLT数据,2)平行文本语料库,3)通过使用现成的机器翻译模型将视频字幕翻译成其他语言来增强的SLT数据。我们在编码器-解码器架构下使用特定任务提示统一不同的预训练任务,并使用预训练(m/By)T5模型初始化SLT模型。在How2Sign和FLEURS-ASL#0(ASL到42种口头语言)上进行的SLT预训练结果显示了数据/模型扩展和跨语言跨模态转移的重要性,以及零样本SLT的可行性。我们在涵盖5种手语的5个下游开放领域SLT基准上微调预训练的SLT模型。实验表明,与基线方法相比,质量显著提高,大幅超越了先前的最先进技术(SOTA)。
论文链接: https://arxiv.org/abs/2407.11855
InferAct:通过先发制人评估和人类反馈为基于LLM的智能体推断安全动作
原标题: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
作者: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych
机构: 德国达姆施塔特工业大学 计算机科学系 人工智能中心(Hessian.AI) 乌比奇知识处理实验室(UKP Lab)
加拿大女王大学 电气与计算机工程系 Ingenuity Labs研究所
摘要: 在现实应用中部署基于大语言模型的 AI 智能体的一个关键要求是对风险或不可逆错误具有强大的鲁棒性。然而,现有研究缺乏对大语言模型智能体执行的推理轨迹进行预防性评估的关注,导致在确保安全可靠运行方面存在差距。为了探索更好的解决方案,本文介绍了InferAct,这是一种新颖方法,利用大语言模型的心灵理论能力来主动检测潜在错误,以避免关键操作执行之前的错误(例如,在自动在线交易或网购中的“立即购买”)。InferAct还能够整合人类反馈,以防止不可逆风险并增强执行智能体的决策过程。对三个广泛使用的任务进行的实验证明了InferAct的有效性。所提出的解决方案提供了一种新颖方法和具体贡献,可用于开发能够安全部署在涉及关键决策的不同环境中的大语言模型智能体。
论文链接: https://arxiv.org/abs/2407.11843
LoFTI:定位和事实转移到印度地区
原标题: LoFTI: Localization and Factuality Transfer to Indian Locales
作者: Sona Elza Simon (1), Soumen Kumar Mondal (1), Abhishek Singhania (2), Sayambhu Sen (2), Preethi Jyothi (1) ((1) Indian Institute of Technology Bombay, (2) Amazon Alexa)
机构: 印度理工学院孟买分校 亚马逊Alexa
摘要: 大语言模型(LLMs)通过在从互联网爬取的大规模数据集上进行训练而获得大量世界知识。然而,这些数据集通常存在对讲英语的西方国家地理偏见。这导致LLMs对需要答案定位到其他地理区域的查询产生偏见或虚构的回应。在这项工作中,我们介绍了一个名为LoFTI(Localization and Factuality Transfer to Indian Locales)的新基准,可用于评估LLM的本地化和事实文本转移能力。LoFTI包含关于源和目标位置实体的事实陈述;源位置遍布全球,目标位置全部位于印度,具有不同程度的超本地性(国家、邦、城市)。这些实体涵盖了各种类别。我们使用LoFTI来评估Mixtral、GPT-4和另外两种适用于本地化事实转移任务的基于Mixtral的方法。我们证明LoFTI是一个高质量的评估基准,所有模型,包括GPT-4,在不同程度的超本地性下产生了偏倚结果。
论文链接: https://arxiv.org/abs/2407.11833
大语言模型作为误导性对话助手
原标题: Large Language Models as Misleading Assistants in Conversation
作者: Betty Li Hou, Kejian Shi, Jason Phang, James Aung, Steven Adler, Rosie Campbell
机构: 清华大学 哈佛大学 OpenAI
摘要: 大语言模型(LLMs)能够在各种信息搜索任务中提供帮助。然而,模型的输出可能会误导,无论是无意还是有意欺骗。我们研究了LLMs在提供阅读理解任务上的帮助时是否具有欺骗性,将LLMs作为人类用户的代理。我们比较了以下几种情况的结果:(1)当模型被提示提供真实帮助时,(2)当它被提示进行微妙的误导,以及(3)当它被提示为一个错误答案进行辩护。我们的实验表明,GPT-4能够有效地误导GPT-3.5-Turbo和GPT-4,欺骗性助手导致任务准确性比使用真实助手时下降高达23%。我们还发现,向用户模型提供来自文章的额外背景信息部分缓解了欺骗模型的影响。这项工作突显了LLMs产生误导信息的能力以及这可能在现实世界中产生的影响。
论文链接: https://arxiv.org/abs/2407.11789
PipeInfer:使用异步流水线推测加速大语言模型推理
原标题: PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation
作者: Branden Butler, Sixing Yu, Arya Mazaheri, Ali Jannesari
机构: 爱荷华州立大学 德国达姆施塔特工业大学
摘要: 最近,跨计算机集群的大语言模型(LLMs)推理已成为研究的焦点,许多加速技术从CPU的推测执行中汲取灵感。这些技术减少了与内存带宽相关的瓶颈,但也增加了每次推理运行的端到端延迟,需要高推测接受率来提高性能。结合任务间接受率的变化,推测推理技术可能导致性能降低。此外,管道并行设计需要许多用户请求以保持最大利用率。作为补救措施,我们提出了PipeInfer,一种流水线化的推测加速技术,用于减少单请求场景下的词间延迟,提高系统利用率,同时提高对低推测接受率和低带宽互连的容忍度。PipeInfer在生成速度上比标准推测推理提高了最多2.15倍。PipeInfer通过持续异步推测和早期推理取消实现了改进,前者通过同时运行单词推理和多个推测运行来提高延迟和生成速度,而后者通过跳过无效运行的计算来提高速度和延迟,即使在推理过程中也是如此。
论文链接: https://arxiv.org/abs/2407.11798
SwitchCIT:大语言模型持续指导调整的切换
原标题: SwitchCIT: Switching for Continual Instruction Tuning of Large Language Models
作者: Xinbo Wu, Max Hartman, Vidhata Arjun Jayaraman, Lav R. Varshney
机构: 伊利诺伊大学厄巴纳-香槟分校
摘要: 大语言模型(LLMs)在各个领域展示了令人印象深刻的能力,特别是在一般语言理解方面。然而,这些模型虽然在大量文本数据上训练,但可能并没有针对指令触发的特定任务进行精细优化。持续的指令调整对于使LLMs适应不断变化的任务和领域至关重要,确保它们在广泛应用范围内的有效性和相关性。在持续指令调整的背景下,模型被顺序训练在不同任务上,可能会发生灾难性遗忘,导致先前学习的任务性能下降。本研究通过一种用于将计算路由到参数高效调整模型的切换机制,解决了LLMs在持续指令学习中的灾难性遗忘问题。我们通过对不同自然语言生成任务的持续指令调整实验展示了我们方法的有效性。
论文链接: https://arxiv.org/abs/2407.11780
在新闻文本中,利用 GPT 辅助注释修辞和语言特征,以便可解释地检测宣传技术。
原标题: GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text
作者: Kyle Hamilton, Luca Longo, Bojan Bozic
机构: 都柏林理工大学 Technological University Dublin
摘要: 尽管利用机器学习来检测文本中的宣传技术已经引起了相当大的关注,但大多数方法都集中在具有不透明内部工作原理的“黑盒”解决方案上。可解释的方法提供了一种解决方案,但它们依赖于精心设计的特征工程和昂贵的专家标注数据。此外,针对宣传性文本的语言特征通常是修辞学家或语言学家关注的焦点,目前没有适合机器学习的带有这些特征标签的数据集。本研究对与说服语言相关的文献中确定的22种修辞和语言特征进行了系统化,目的是为了标注一个已有的带有宣传技术标签的数据集。为了帮助人类专家使用这些特征对自然语言句子进行标注,专门设计了一个名为RhetAnn的网络应用程序,以减少原本需要的相当大的心智劳动。最后,使用少量已标注数据对 GPT-3.5 进行了微调,这是一个生成式大语言模型(LLM),用于标注其余数据,同时优化财务成本和分类准确性。本研究展示了如何将少量人工标注示例与 GPT 结合起来可以是一个有效的策略,用于以传统依赖人类专家的标注成本的一小部分来扩展标注过程。结果与当时表现最佳的模型(即 GPT-4)相当,但成本降低了10倍。我们的贡献是一组特征,它们的属性、定义和示例以及以机器可读格式提供的 RhetAnn 代码和用于推进最先进的可解释宣传技术检测的 GPT 提示和微调程序。
论文链接: https://arxiv.org/abs/2407.11827
利用大语言模型进行教育个性化学习路径规划
原标题: Educational Personalized Learning Path Planning with Large Language Models
作者: Chee Ng, Yuen Fung
机构: 马来西亚理工大学
摘要: 教育个性化学习路径规划(PLPP)旨在根据个体学习者的需求定制学习体验,提高学习效率和参与度。尽管具有潜力,传统的PLPP系统通常缺乏适应性、互动性和透明度。本文提出了一种新颖的方法,将大语言模型(LLMs)与提示工程相结合,以解决这些挑战。通过设计融入学习者特定信息的提示,我们的方法引导LLMs(如LLama-2-70B和GPT-4)生成个性化、连贯和教学上合理的学习路径。我们进行了实验,比较了我们的方法与基准方法在包括准确性、用户满意度和学习路径质量在内的各种指标上的表现。结果显示在所有领域都取得了显著改进,特别是在GPT-4上,展示了提示工程在提升PLPP方面的有效性。额外的长期影响分析进一步验证了我们的方法改善学习者表现和保留的潜力。这项研究突显了LLMs和提示工程在推进个性化教育方面的潜力。
论文链接: https://arxiv.org/abs/2407.11773
基于大语言模型的鲁棒性保护效用的文本匿名化
原标题: Robust Utility-Preserving Text Anonymization Based on Large Language Models
作者: Tianyu Yang, Xiaodan Zhu, Iryna Gurevych
机构: 德国达姆施塔特理工大学 技术大学 德国
摘要: 文本匿名化对于在保持隐私的同时共享敏感数据至关重要。现有技术面临着大语言模型(LLMs)的再识别攻击能力等新兴挑战,这些模型已经表现出在记忆详细信息和模式以及连接不同信息片段方面的先进能力。在抵御基于LLM的再识别攻击时,匿名化可能会危及结果数据在下游任务中的实用性 – 隐私与数据实用性之间的权衡需要在LLMs的背景下有更深入的理解。本文提出了一个由三个基于LLM的组件组成的框架 – 隐私评估器、实用性评估器和优化组件,它们共同协作进行匿名化。为了为大规模和实时环境提供一个实用模型,我们使用直接偏好优化(DPO)将匿名化能力提炼成一个轻量级模型。大量实验证明了所提出的模型优于基准模型,在减少再识别风险的同时保留了在下游任务中更大的数据实用性。我们的代码和数据集可在此 https URL 获取。
论文链接: https://arxiv.org/abs/2407.11770
Github: https://github.com/UKPLab/arxiv2024-rupta
Sharif-MGTD在SemEval-2024任务8中:一种基于Transformer的方法来检测机器生成文本
原标题: Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text
作者: Seyedeh Fatemeh Ebrahimi, Karim Akhavan Azari, Amirmasoud Iravani, Arian Qazvini, Pouya Sadeghi, Zeinab Sadat Taghavi, Hossein Sameti
机构: 玛什哈德费尔多西大学 科技大学 德黑兰大学 夏里夫科技大学
摘要: 检测机器生成文本(MGT)已经成为自然语言处理领域的一个重要研究领域。虽然语言模型生成文本,但它们通常会留下可辨识的痕迹,可以使用传统的基于特征的方法或更先进的神经语言模型进行审查。在这项研究中,我们探讨了对一个RoBERTa-base Transformer进行微调的有效性,这是一种强大的神经架构,用于解决MGT检测作为一个二元分类任务。我们专注于SemEval-2024竞赛框架中的子任务A(单语-英语),我们提出的系统在测试数据集上实现了78.9%的准确率,使我们在参与者中排名第57。我们的研究在考虑有限的硬件资源的情况下解决了这一挑战,导致我们的系统在识别人类编写的文本方面表现出色,但在准确辨别MGT方面遇到挑战。
论文链接: https://arxiv.org/abs/2407.11774
语言向量化
原标题: Vectoring Languages
作者: Joseph Chen
机构: 东京大学
摘要: 最近大语言模型(LLM)取得的突破引起了全球关注,自那时起,相关研究一直在不停加速。哲学家和心理学家几十年来一直在研究语言结构,但他们很难找到一种能直接受益于LLM突破的理论。在本文中,我们提出了一种反映语言模型背后机制的新颖语言结构,并展示这种结构相比先前方法更能捕捉语言的多样性。我们采用线性代数的类比来加强这一观点的基础。我们进一步讨论了这一观点与当前语言模型设计哲学之间的区别。最后,我们讨论了这一觏点如何引领我们走向可能最快加速科学进步的研究方向。
论文链接: https://arxiv.org/abs/2407.11766
大语言模型如何减轻刻板印象的伤害?从搜索引擎研究中学习
原标题: How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies
作者: Alina Leidinger, Richard Rogers
机构: 阿姆斯特丹大学
摘要: 随着 ChatGPT 发布以来大语言模型的广泛可用性和公众关注的增加,商业模型开发似乎将重点放在了关于法律责任的“安全”培训上,而牺牲了社会影响评估。这反映了我们在几年前观察到的搜索引擎自动完成的类似趋势。我们借鉴了自然语言处理和搜索引擎审计的学术成果,并提出了一个类似自动完成提示的新颖评估任务,以评估大语言模型中的刻板印象。我们使用四个指标评估大语言模型,即拒绝率、毒性、情感和尊重,带有或不带有安全系统提示。我们的研究结果表明,在系统提示的帮助下,刻板印象输出有所改善,但总体上,在研究中的大语言模型对某些被分类为有毒的伤害缺乏关注,特别是针对涉及人群/种族和性取向的提示。提及交叉身份会触发大量刻板印象。最后,我们讨论了这些关于刻板印象伤害的发现对于大语言模型和搜索之间即将出现的交织以及选择采用的刻板印象缓解政策的影响。我们呼吁模型构建者、学者、自然语言处理从业者和政策制定者,要求他们对刻板印象伤害负起责任并增强意识,无论是针对训练数据的策划、排行榜设计和使用,还是社会影响的衡量。
论文链接: https://arxiv.org/abs/2407.11733
CCoE:具有专家协作的紧凑型大语言模型
原标题: CCoE: A Compact LLM with Collaboration of Experts
作者: Shaomang Huang, Jianfeng Pan, Hanzhong Zheng
机构: 奇虎360数字安全团队
摘要: 在大语言模型(LLM)领域,LLMs展示了在自然语言理解和生成方面的显著能力。随着在各个领域应用LLMs的需求增长,如何高效地训练和构建一个在不同领域具有专业知识但训练成本较低的模型是一个研究问题。我们提出了CCoE架构,这是一个将多个强大领域专家轻松耦合在一起融入一个大型LLM的框架,提供了一种集体利用不同领域专家LLMs的方式。此外,训练多个专家LLMs的大型协作需要对训练资源有很高的要求。CCoE通过隔离其他专家并单独训练每个专家来绕过这个问题。CCoE的设计通过CoE(专家协作)层将多个专家LLMs组装在一起。每个CoE层可以拥有一个或多个专家LLMs。专家LLMs具有不同数量的层,并且已经针对不同领域任务进行了良好训练。每个专家都经过微调,以达到与SOTA领域LLMs可比较的结果。我们从代码、数学、法律、文本到SQL和医学领域开始,共有5个专家。结果表明,我们的CCoE框架可以在不同领域中轻松高效地将原始基础模型的性能提升近10%-20%,同时使用更少的训练资源和推理。
论文链接: https://arxiv.org/abs/2407.11686
ECoh:针对多语言对话的转折一致性评估
原标题: ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues
作者: John Mendonça, Isabel Trancoso, Alon Lavie
机构: INESC-ID Instituto Superior Técnico Carnegie Mellon University Phrase
摘要: 尽管被誉为对话评估的新标准,但 GPT-4 的闭源性质给社区带来了挑战。出于对轻量级、开源和多语言对话评估器的需求,本文介绍了GenResCoh(Generated Responses targeting Coherence)。GenResCoh是一个新颖的大语言模型生成的数据集,包括超过130k个负面和正面回复以及从XDailyDialog和XPersona中提取的英语、法语、德语、意大利语和中文的解释。利用GenResCoh,我们提出了ECoh(Evaluation of Coherence),这是一组经过训练的评估器,用于评估多语言环境下的回复连贯性。实验结果表明,尽管基于一个更小的架构,ECoh在GenResCoh上实现了优于教师模型(GPT-3.5-Turbo)的多语言检测能力。此外,ECoh提供的解释在质量上与教师模型生成的解释密切相关。
论文链接: https://arxiv.org/abs/2407.11660
MINI-LLM:大语言模型的内存高效结构化剪枝
原标题: MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models
作者: Hongrong Cheng, Miao Zhang, Javen Qinfeng Shi
机构: 阿德莱德大学 哈尔滨工业大学深圳
摘要: 随着大型语言模型(LLMs)的规模急剧增长,对这些模型进行压缩和加速的趋势日益增强。先前的研究已经强调了在神经网络压缩中使用梯度进行重要性评分的实用性,特别是在修剪中等规模网络方面。然而,使用反向传播计算梯度所涉及的大量内存需求阻碍了在LLM修剪中利用梯度的实现。因此,大多数针对LLMs的修剪策略依赖于无梯度的标准,例如权重大小或权重大小和激活的混合。在本文中,我们设计了一个混合修剪标准,适当地整合了大小、激活和梯度,以利用特征映射的敏感性来修剪LLMs。为了克服内存需求障碍,我们仅使用前向传递来估计梯度。基于此,我们提出了一种适用于LLMs的内存高效结构化修剪过程(MINI-LLM),以去除非关键通道和多注意力头。实验结果表明,MINI-LLM在三个LLMs上(LLaMA、BLOOM和OPT)的各种下游任务(分类、多项选择和生成)上优于现有的无梯度方法,同时MINI-LLM保持了类似无梯度方法的GPU内存占用。
论文链接: https://arxiv.org/abs/2407.11681
对大语言模型在时间事件预测上的全面评估
原标题: A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting
作者: He Chang, Chenchen Ye, Zhulin Tao, Jie Wu, Zhengmao Yang, Yunshan Ma, Xianglin Huang, Tat-Seng Chua
机构: 中国传媒大学 加州大学洛杉矶分校 加州大学洛杉矶分校 加州大学洛杉矶分校 浙江大学 新加坡国立大学 新加坡国立大学
摘要: 最近,大语言模型(LLMs)在各种数据挖掘任务中展现出巨大潜力,如知识问答、数学推理和常识推理。然而,LLMs在时间事件预测方面的推理能力尚未得到充分探索。为了系统地研究它们在时间事件预测中的能力,我们对基于LLM的方法进行了全面评估。由于缺乏涉及图形和文本数据的高质量数据集,我们首先构建了一个基准数据集,命名为MidEast-TE-mini。基于这个数据集,我们设计了一系列基线方法,其特点是各种输入格式和检索增强生成(RAG)模块。通过大量实验,我们发现直接将原始文本集成到LLM的输入中并不会提高零样本外推性能。相反,将原始文本纳入特定复杂事件并微调LLM显著提高了性能。此外,通过检索模块的增强,LLM能够有效捕捉隐藏在历史事件中的时间关系模式。与此同时,LLM中仍然存在着流行度偏见和长尾问题,特别是在基于RAG的方法中。这些发现不仅加深了我们对基于LLM的事件预测方法的理解,还突出了几个有前途的研究方向。我们认为,这一全面评估以及确定的研究机会将对通过LLM进行时间事件预测的未来研究产生重要贡献。
论文链接: https://arxiv.org/abs/2407.11638
AdaptEval:评估大语言模型在文本摘要领域适应性上的表现
原标题: AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization
作者: Anum Afzal, Ribin Chalumattu, Florian Matthes, Laura Mascarell Espuny
机构: 慕尼黑工业大学 ETH 齐默里希理工学院
摘要: 尽管使用大语言模型(LLM)在抽象摘要任务上取得了进展,但缺乏评估它们在轻松适应不同领域能力的研究。我们评估了各种LLM在不同领域的摘要任务中的领域适应能力,包括微调和上下文学习设置。我们还提出了AdaptEval,这是第一个领域适应评估套件。AdaptEval包括一个领域基准和一组指标,以便促进领域适应分析。我们的结果表明,在上下文学习设置中,LLM表现出可比较的性能,而其参数规模并不影响表现。
论文链接: https://arxiv.org/abs/2407.11591
Tokenization的基础:统计和计算上的考虑
原标题: The Foundations of Tokenization: Statistical and Computational Concerns
作者: Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell
机构: ETH Zürich City University of New York
摘要: Tokenization - 将字母表上的字符字符串转换为词汇表上的标记序列的实践 - 是自然语言处理流程中关键但理论化程度较低的一步。值得注意的是,它仍然是唯一一个尚未完全整合到广泛使用的端到端神经模型中的重要步骤。本文旨在通过从形式化角度奠定标记化的基础来填补这一理论空白。通过阐明和扩展关于随机映射类别的基本属性,我们提出了一个统一的框架,用于表示和分析标记器模型。这个框架使我们能够建立使用标记器的一般条件。特别是,我们正式建立了标记器模型保持统计估计一致性的必要和充分条件。此外,我们讨论了对于设计和实现标记器模型至关重要的统计和计算方面的问题。本文提出的框架和结果代表了迈向神经语言建模稳健理论基础的一步。
论文链接: https://arxiv.org/abs/2407.11606
在大语言模型中优化KV缓存淘汰:自适应分配以提高预算利用率
原标题: Optimizing KV Cache Eviction in LLMs: Adaptive Allocation for Enhanced Budget Utilization
作者: Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou
机构: 中国科学技术大学 计算机科学学院 生物医学工程学院 高级研究院 数据黑暗实验室 奇迹中心 苏州研究院
摘要: 大语言模型在各个领域表现出色,但由于长序列推理所需的广泛KV缓存而遇到效率限制。许多努力试图在运行时清除非关键缓存元素,从而在给定内存预算内减小缓存大小,同时保持生成质量。我们重新审视它们的基本原理发现,当前的策略基本上旨在在特定预算分配内最小化驱逐损失的上限。然而,我们观察到,在驱逐过程中均匀分配预算到不同注意力头部的当前做法往往会降低驱逐后生成质量。基于这些发现,我们提出了一种简单而有效的自适应分配算法,不仅在理论上确保其损失上限不超过先前均匀分配方法的上限,而且有效地与自注意机制的特性相一致,从而在实践中降低上限。此外,将这种算法与两种最先进的方法结合,得到了Ada-SnapKV和Ada-Pyramid。在16个数据集和“草堆中的针”测试中进行了大量实验证实,Ada-SnapKV和Ada-Pyramid实现了进一步的增强,建立了最新性能的新基准。
论文链接: https://arxiv.org/abs/2407.11550
个性特征如何影响谈判结果?基于大语言模型的模拟
原标题: How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models
作者: Yin Jou Huang, Rafik Hadfi
机构: 京都大学
摘要: 心理学证据揭示了人格特征对决策的影响。例如,宜人性通常与谈判中的积极结果相关联,而神经质往往与不太理想的结果相关联。本文介绍了一个以大语言模型(LLM)智能体为中心的模拟框架,这些智能体具有合成的人格特征。这些智能体在谈判领域内进行谈判,并具有可定制的人格特征和目标。实验结果显示,基于LLM的模拟的行为倾向可以复制人类谈判中观察到的行为模式。贡献是双重的。首先,我们提出了一种模拟方法,探讨了LLM智能体的语言和经济能力之间的一致性。其次,我们提供了关于大五人格特征对双边谈判结果的战略影响的经验见解。我们还提供了一个基于合成谈判对话的案例研究,揭示了包括欺骗和妥协行为在内的有趣行为。
论文链接: https://arxiv.org/abs/2407.11549
为增强长上下文理解和领域专业知识,对医学语言模型进行微调
原标题: Fine-Tuning Medical Language Models for Enhanced Long-Contextual Understanding and Domain Expertise
作者: Qimin Yang, Rongsheng Wang, Jiexin Chen, Runqi Su, Tao Tan
机构: 清华大学 百度
摘要: 大语言模型(LLMs)已被广泛应用于各个专业领域。通过使用特定领域的问题和答案数据集对模型进行微调,这些模型的专业领域知识和问答能力显著提高,例如,使用医生-患者问答数据进行微调的医学专业LLMs表现出非凡的疾病诊断能力。然而,我们观察到,尽管在特定领域知识方面有所改进,医学LLM在长篇文本理解方面的表现显著下降,特别是与具有相似参数的通用语言模型相比。本研究的目的是调查医学LLM在理解长篇文本方面性能下降的现象。我们设计了一系列实验,对所有模型进行开卷式专业知识考试,以评估它们阅读长篇文本的能力。通过在微调过程中调整通用数据和医学数据的比例和数量,我们可以确定最佳数据组成,优化专业模型,并在长篇文本性能和特定领域知识之间实现平衡。
论文链接: https://arxiv.org/abs/2407.11536
具有可验证答案的科学问答系统
原标题: Scientific QA System with Verifiable Answers
作者: Adela Ljajić, Miloš Košprdić, Bojana Bašaragin, Darija Medvecki, Lorenzo Cassano, Nikola Milošević
机构: 塞尔维亚新萨德人工智能研究与发展研究所 柏尔公司
摘要: 在这篇论文中,我们介绍了VerifAI项目,这是一个开创性的开源科学问答系统,旨在提供不仅被引用,而且还可以自动审核和验证的答案。该系统的组成部分包括:(1)信息检索系统,结合语义和词汇搜索技术,覆盖科学论文(PubMed);(2)检索增强生成(RAG)模块,使用经过微调的生成模型(Mistral 7B)和检索的文章生成带有对应文章引用的论断;(3)验证引擎,基于在SciFACT数据集上使用经过微调的DeBERTa和XLM-RoBERTa模型进行自然语言推理任务。验证引擎会交叉检查生成的论断和生成论断所依据的文章,验证在生成论断过程中是否存在任何幻觉。通过利用信息检索和RAG模块,该系统在从各种科学来源生成事实信息方面表现出色。同时,验证引擎严格地对这一输出进行双重检查,确保其准确性和可靠性。这一双阶段过程在获取和确认事实信息方面发挥着关键作用,显著增强了信息领域。我们的方法可以显著提高科学家的生产力,同时增强对在科学领域应用生成语言模型的信任,因为在该领域中幻觉和错误信息是不可接受的。
论文链接: https://arxiv.org/abs/2407.11485
其他链接: http://Verif.ai
不信任机器人:在野外人类-大语言模型对话中发现个人披露
原标题: Trust No Bot: Discovering Personal Disclosures in Human-LLM Conversations in the Wild
作者: Niloofar Mireshghallah, Maria Antoniak, Yash More, Yejin Choi, Golnoosh Farnadi
机构: 华盛顿大学 Allen人工智能研究所 麦吉尔大学 Mila-魁北克人工智能研究所
摘要: 在人与聊天机器人互动中测量个人披露的内容可以更好地了解用户的人工智能素养,并促进对大型语言模型(LLMs)的隐私研究。我们对真实用户向商用 GPT 模型披露的个人信息进行了广泛而细致的分析,调查了可识别个人和敏感信息的泄霏情况。为了理解用户向聊天机器人披露信息的背景,我们基于自然对话的定性和定量分析,开发了一个任务和敏感话题的分类法。我们讨论了这些潜在的隐私危害,并观察到:(1)可识别个人信息(PII)出现在意想不到的情境中,比如翻译或代码编辑(分别为48%和16%的时间),(2)仅仅检测 PII 是不足以捕捉人与聊天机器人互动中常见的敏感话题的,比如详细的性偏好或具体的药物使用习惯。我们认为这些高披露率对研究人员和数据管理员具有重要意义,并呼吁设计适当的推动机制来帮助用户调节他们的互动。
论文链接: https://arxiv.org/abs/2407.11438
隐藏在隐藏状态中的状态:LLMs隐式地产生离散状态表示
原标题: States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
作者: Junhao Chen, Shengding Hu, Zhiyuan Liu, Maosong Sun
机构: 清华大学
摘要: 大语言模型(LLMs)展示了各种新兴能力。在这些能力中,一些可能揭示了模型的内部工作机制。在本文中,我们揭示了模型中一种新兴的能力:在不依赖于思维链逐步解决方案的情况下执行扩展序列计算的内在能力。值得注意的是,最先进的模型可以直接输出长度延伸至15个加数的两位数加法的结果。我们假设模型在其隐藏状态中出现了隐式离散状态表示(IDSRs)并在内部执行符号计算。为了验证这一假设,我们设计了一系列实验来研究隐藏状态。具体而言,我们首先确认了IDSRs的存在。然后,我们提供了关于从层、数字和序列角度形成IDSRs的有趣观察。最后,我们确认模型确实使用IDSRs来产生最终答案。然而,我们还发现当前开源模型中这些状态表示远非无损,导致最终性能不准确。我们的工作展示了对LLMs符号计算能力和基本机制的新颖探索。
论文链接: https://arxiv.org/abs/2407.11421
SPINACH:基于SPARQL的信息导航,用于解决具有挑战性的现实世界问题
原标题: SPINACH: SPARQL-Based Information Navigation for Challenging Real-World Questions
作者: Shicheng Liu, Sina J. Semnani, Harold Triedman, Jialiang Xu, Isaac Dan Zhao, Monica S. Lam
机构: 斯坦福大学 维基媒体基金会
摘要: 最近的工作将大语言模型(LLMs)集成到知识库问答(KBQA)任务中,取得了显著的改进。然而,我们认为现有的KBQA数据集要么包含简单问题,要么使用合成生成的逻辑形式,要么基于小型知识库(KB)模式,无法捕捉KBQA任务的真正复杂性。
为了解决这个问题,我们引入了SPINACH数据集,这是一个专家注释的KBQA数据集,从Wikidata的“请求查询”论坛中收集,包含320个去文本化的问题-SPARQL对。相比现有数据集,SPINACH要复杂得多,需要强大的KBQA系统,这些系统不依赖于训练数据来学习KB模式,而是可以动态地探索大型且常常不完整的模式,并对其进行推理。
除了数据集,我们还引入了SPINACH智能体,这是一种新的KBQA方法,模仿人类专家如何为这些具有挑战性的问题编写SPARQL。对现有数据集的实验显示,SPINACH在KBQA方面的能力,分别在QALD-7、QALD-9 Plus和QALD-10数据集上将F1值提高了30.1%、27.0%和10.0%,并在WikiWebQuestions上接近了fine-tuned LLaMA SOTA模型的1.6%。在我们的新SPINACH数据集上,SPINACH智能体的表现优于所有基线,包括基于最佳GPT-4的KBQA智能体,F1值提高了38.1%。
论文链接: https://arxiv.org/abs/2407.11417
大语言模型在政治样本模拟中的表征偏见
原标题: Representation Bias in Political Sample Simulations with Large Language Models
作者: Weihong Qi, Hanjia Lyu, Jiebo Luo
机构: 罗切斯特大学 计算机科学系 中国家庭面板研究数据集 德国纵向选举研究 美国国家选举研究 汉语言模型
摘要: 这项研究旨在识别和量化使用大语言模型模拟政治样本中的偏见,特别关注选民选择和公众舆论。我们利用GPT-3.5-Turbo模型,利用美国国家选举研究、德国纵向选举研究、坐标数据集和中国家庭面板研究的数据来模拟选民行为和公众舆论。这种方法使我们能够检验三种类型的代表性偏见:基于国家语言、人口统计学群体和政治制度类型的差异。研究结果显示,模拟表现通常在选民选择方面优于公众舆论,在讲英语的国家中更准确,在两党制系统中比多党制系统更有效,在民主环境中比威权政权环境中更强。这些结果有助于增进我们对AI在计算社会科学领域中应用中的偏见的理解,并制定减少偏见的策略。
论文链接: https://arxiv.org/abs/2407.11409
重新审视追求模块化对代码生成的影响
原标题: Revisiting the Impact of Pursuing Modularity for Code Generation
作者: Deokyeong Kang, Ki Jung Seo, Taeuk Kim
机构: 汉阳大学
摘要: 模块化编程旨在通过集成较小、独立的构建模块来构建最终程序,在软件开发中被视为一种理想实践。然而,随着建立在大语言模型(LLMs)之上的最新代码生成智能体的兴起,一个问题出现了:这种传统实践对于这些新工具同样有效吗?在这项工作中,我们通过引入一种新的度量标准来评估模块化对代码生成的影响。令人惊讶的是,与这一主题上的传统智慧不同,我们发现模块化并不是提高代码生成模型性能的核心因素。我们还探讨了为什么大语言模型不像非模块化代码那样偏好模块化代码的潜在解释。
论文链接: https://arxiv.org/abs/2407.11406
可靠推理超越自然语言
原标题: Reliable Reasoning Beyond Natural Language
作者: Nasim Borazjanizadeh, Steven T. Piantadosi
机构: 加州大学伯克利分校 心理学系 美国大学
摘要: 尽管具有语言能力,但大语言模型(LLMs)在推理可靠性和灵活性方面经常表现出局限性。为了解决这个问题,我们提出了一种神经符号化方法,促使LLMs从问题陈述中提取和编码所有相关信息作为逻辑代码语句,然后使用逻辑编程语言(Prolog)进行显式演绎推理的迭代计算。我们的方法显著提升了LLMs在标准数学推理基准GSM8k和BIG-bench数据集中Navigate数据集上的表现。此外,我们引入了一个新颖的数据集,非线性推理(NLR)数据集,包含55个独特的单词问题,针对LLMs的下一个标记预测范式的缺点,需要复杂的非线性推理,但只需要基本的算术技能来解决。我们的研究结果表明,Prolog的整合使LLMs能够在NLR数据集上取得高性能,即使是最先进的语言模型(包括GPT4)也无法仅使用文本解决。
论文链接: https://arxiv.org/abs/2407.11373
对序列标注的偶然一致性估计
原标题: Estimating Agreement by Chance for Sequence Annotation
作者: Diya Li, Carolyn Rosé, Ao Yuan, Chunxiao Zhou
机构: Freenome Holdings, Inc Carnegie Mellon University Georgetown University National Institutes of Health
摘要: 在自然语言处理领域,对于偶然一致性的性能评估的校正在评估注释的可靠性中起着至关重要的作用。然而,尽管序列标注任务在该领域广泛存在,但关于用于评估序列标注任务可靠性的偶然一致性校正的研究明显不足。为了填补这一空白,本文介绍了一个新颖的模型用于生成随机注释,这为估计序列标注任务中的偶然一致性奠定了基础。利用提出的随机化模型和相关比较方法,我们成功推导出分布的分析形式,从而能够计算每个注释文本段的可能位置和随后的偶然一致性估计。通过组合模拟和基于语料库的评估,我们成功评估了其适用性,并验证了其准确性和有效性。
论文链接: https://arxiv.org/abs/2407.11371
InvAgent:基于大语言模型的供应链库存管理多智能体系统
原标题: InvAgent: A Large Language Model based Multi-Agent System for Inventory Management in Supply Chains
作者: Yinzhu Quan, Zefang Liu
机构: 乔治亚理工学院
摘要: 供应链管理(SCM)涉及协调货物、信息和资金在各个实体之间的流动,以有效地交付产品。在当今多变、不确定、复杂和模糊(VUCA)的世界中,有效的库存管理至关重要。先前的研究已经证明了启发式方法和强化学习在库存管理中的优越性。然而,在多智能体系统中将大语言模型(LLMs)作为自主智能体应用于库存管理的研究仍未被充分探讨。本研究介绍了一种新颖的方法,利用LLMs来管理多智能体库存系统。通过利用它们的零样本学习能力,我们的模型InvAgent增强了供应链网络的弹性,并提高了效率。我们的贡献包括利用LLMs进行零样本学习,实现自适应和明智的决策,无需事先训练,通过“思维链”(CoT)提供重要的可解释性和清晰度,并展示在最小化成本和避免缺货的同时对不同需求场景具有动态适应能力。在不同场景下进行的广泛评估突显了我们模型在SCM中的高效性。
论文链接: https://arxiv.org/abs/2407.11384
古代韩国档案翻译:统计短语对齐、大语言模型上下文学习和方法间比较分析
原标题: Ancient Korean Archive Translation: Comparison Analysis on Statistical phrase alignment, LLM in-context learning, and inter-methodological approach
作者: Sojung Lucia Kim, Taehong Jang, Joonmo Ahn
摘要: 这项研究旨在比较三种用于翻译稀疏语料库中古代文本的方法:(1)传统的短语对齐统计翻译方法,(2)上下文大语言模型学习,以及(3)提出的跨方法论方法 - 使用从统一的源-目标语料库中提取的句子片段标记的统计机器翻译方法。在本研究中,所提出的方法的性能为36.71的BLEU分数,超过了SOLAR-10.7B上下文学习和最佳现有Seq2Seq模型的分数。进一步的分析和讨论将在研究中提出。
论文链接: https://arxiv.org/abs/2407.11368
超越二元:利用生成预训练 Transformer 和端到端模型进行多类别语义转换检测
原标题: Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models
作者: Matthew Perez, Aneesha Sampath, Minxue Niu, Emily Mower Provost
机构: 密歇根大学 美国
摘要: 失语症是一种语言障碍,可能导致被称为格语错误的言语错误,其中涉及单词的误用、替换或创造。自动格语检测可以帮助那些患有失语症的人,通过促进临床评估和治疗规划选项。然而,大多数自动格语检测工作仅专注于二元检测,即仅识别格语的存在或不存在。多类格语检测代表了一个尚未开发的研究领域,重点是识别多种类型的格语以及它们在给定言语片段中的位置。我们提出了使用生成预训练Transformer(GPT)来从转录中识别格语的新方法,以及两种端到端方法,重点是将自动语音识别(ASR)和格语分类建模为多个序列与单个序列。我们证明,单个序列模型在多类格语检测方面优于GPT基线。
论文链接: https://arxiv.org/abs/2407.11345
使用大语言模型进行推理,一项调查
原标题: Reasoning with Large Language Models, a Survey
作者: Aske Plaat, Annie Wong, Suzan Verberne, Joost Broekens, Niki van Stein, Thomas Back
机构: LIACS 莱顿大学
摘要: 将语言模型扩展到数十亿个参数已经为上下文学习打开了可能性,允许在模型没有专门训练的任务上进行指导调整和少样本学习。这在语言任务(如翻译、摘要和问答)上取得了突破性表现。此外,除了这些关联的“系统1”任务外,最近在思维链提示学习方面的进展展示了强大的“系统2”推理能力,回答了关于LLM是否能够推理的人工通用智能领域的问题。该领域始于一个问题,即LLM是否能够解决小学数学应用题。本文回顾了基于提示的LLM推理领域的迅速扩展。我们的分类法确定了生成、评估和控制多步推理的不同方法。我们对核心方法和未解决问题进行了深入探讨,并提出了未来研究议程。最后,我们强调了推理与基于提示学习之间的关系,并讨论了推理、顺序决策过程和强化学习之间的关系。我们发现,通过谨慎使用提示,推理过程的自我改进、自我反思和一些元认知能力是可能的。真正的自我改进和自我推理,从LLM推理到由LLM推理,仍然是未来的工作。
论文链接: https://arxiv.org/abs/2407.11511
MMSD-Net: 迈向多模态口吃检测
原标题: MMSD-Net: Towards Multi-modal Stuttering Detection
作者: Liangyu Nie, Sudarsana Reddy Kadiri, Ruchit Agrawal
机构: 德克萨斯大学达拉斯分校 南加州大学 伯明翰大学
摘要: 口吃是一种常见的言语障碍,由言语产生中的不规则中断引起,影响全球超过7千万人。标准的自动语音处理工具不考虑言语疾病,并因此无法在输入口吃言语时生成有意义的结果。口吃的自动检测是构建高效、上下文感知的语音处理系统的重要一步。虽然先前的方法探索了统计和神经方法用于口吃检测,但所有这些方法在本质上都是单模态的。本文提出了 MMSD-Net,这是第一个用于口吃检测的多模态神经框架。实验和结果表明,将视觉信号纳入显著有助于口吃检测,我们的模型在F1分数上比现有最先进的单模态方法提高了2-17%。
论文链接: https://arxiv.org/abs/2407.11492
AI剧场的奥斯卡:关于与语言模型角色扮演的调查
原标题: The Oscars of AI Theater: A Survey on Role-Playing with Language Models
作者: Nuo Chen, Y.Wang, Yang Deng, Jia Li
机构: 香港科技大学(广州) 新加坡管理大学
摘要: 这项调查探讨了角色扮演与语言模型领域的蓬勃发展,重点关注它们从早期基于角色的模型发展到由大语言模型(LLMs)推动的高级角色驱动模拟。最初由于模型能力有限而局限于简单的角色一致性,角色扮演任务现在已扩展到涵盖复杂的角色刻画,包括角色一致性、行为对齐和整体吸引力。我们提供了一个全面的分类法,用于设计这些系统的关键组成部分,包括数据、模型和对齐、智能体架构和评估。这项调查不仅概述了当前的方法和挑战,如管理动态个人资料和实现高水平的角色一致性,还提出了未来研究改进角色扮演应用程序的深度和逼真度的途径。其目标是通过提供对当前方法的结构化概述并确定改进潜在领域,指导未来研究。相关资源和论文可在此网址获得。
论文链接: https://arxiv.org/abs/2407.11484
Github: https://github.com/nuochenpku/Awesome-Role-Play-Papers
超越正确性:为大语言模型基准多维代码生成
原标题: Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
作者: Jiasheng Zheng, Boxi Cao, Zhengzhao Ma, Ruotong Pan, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun
机构: 中国科学院软件研究所 北京 中国 中国科学院大学 北京 中国
摘要: 近年来,研究人员提出了许多基准来评估大语言模型(LLMs)出色的编码能力。然而,现有的基准主要集中在评估LLMs生成的代码的正确性,而忽视了其他同样对代码质量产生重大影响的关键方面。因此,本文提出了RACE基准,全面评估LLMs生成的代码质量在4个维度上:可读性、可维护性、正确性和效率。具体而言,考虑到除了正确性之外的维度是需求相关的特性,我们为每个维度设计了各种类型的用户需求,以评估模型生成正确代码并满足用户需求的能力。我们在RACE上评估了18个代表性的LLMs,并发现:1)当前LLMs生成按需高质量代码的能力尚未达到软件开发的要求;2)可读性作为生成代码整体质量的关键指标;3)大多数LLMs表现出对特定编码风格的固有偏好。这些发现可以帮助研究人员更深入地了解当前LLMs的编码能力,并为模型改进的未来方向提供启示。
论文链接: https://arxiv.org/abs/2407.11470
LOTUS:利用大语言模型在非结构化和结构化数据表上实现语义查询
原标题: LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data
作者: Liana Patel, Siddharth Jha, Carlos Guestrin, Matei Zaharia
机构: 斯坦福大学 加州大学伯克利分校
摘要: 语言模型(LMs)的语义能力有潜力在庞大的知识语料库上实现丰富的分析和推理。不幸的是,现有系统缺乏高级抽象,无法在规模上执行语义查询。我们引入了语义操作符,这是一个声明式编程接口,通过可组合的基于人工智能的操作扩展了关系模型,用于在数据集上进行语义查询(例如,使用自然语言标准对记录进行排序或聚合)。每个操作符可以以多种方式实现和优化,为执行计划提供了类似于关系操作符的丰富空间。我们在LOTUS中实现了这些操作符以及一些优化,LOTUS是一个具有类似Pandas API的开源查询引擎。
我们通过一系列真实应用展示了LOTUS的有效性,包括事实核查、极端多标签分类和搜索。我们发现LOTUS的编程模型非常表达力强,可以用较少的开发成本捕捉到最先进的查询流水线。具体来说,在FEVER数据集上,LOTUS的程序可以用几行代码复现最近最先进的事实核查流水线FacTool,并实现了一个新的流水线,将准确率提高了9.5%,同时执行时间降低了7-34倍。在BioDEX数据集上的极端多标签分类任务中,LOTUS通过其连接操作符复现了最先进的结果质量,同时提供了一个比朴素连接快800倍的高效算法。在搜索和排名应用中,LOTUS允许简单组合操作符以实现比普通检索器和重新排序器高5.9-49.4%的nDCG@10,同时提供了查询效率,比先前工作中使用的基于LM的排名方法执行时间降低了1.67-10倍。LOTUS可以在此https网址上公开获取。
论文链接: https://arxiv.org/abs/2407.11418
Github: https://github.com/stanford-futuredata/lotus
使用母语语料库进行 GSLM 模拟外国口音的初步研究
原标题: A Pilot Study of GSLM-based Simulation of Foreign Accentuation Only Using Native Speech Corpora
作者: Kentaro Onda, Joonyong Park, Nobuaki Minematsu, Daisuke Saito
机构: 东京大学Graduate School of Engineering
摘要: 我们提出了一种使用仅具有本地语音语料库的生成式口语语言模型(GSLM)来模拟外语口音的人类过程的方法。当一个人听外语的口语并重复时,重复的语音通常带有该听者母语的口音。据说这是因为口语被认为是母语的音素单位序列,并且这些单位被用于口头复制。我们通过将语言A的语音输入到语言B的GSLM中,以在输入语音上添加B的口音来模拟这一过程。将母语的ASR运行于外语输入语音并将ASR结果提供给母语的TTS,可以被视为这种方法的一种简单实现。我们实验的结果表明,与其母语为B的说话者生成的A的真实样本相比,输出语音的合成口音非常自然,并且口音程度是可控的。
论文链接: https://arxiv.org/abs/2407.11370
CIC-BART-SSA:具有结构化语义增强的可控图像字幕生成
原标题: CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation
作者: Kalliopi Basioti, Mohamed A. Abdelsalam, Federico Fancellu, Vladimir Pavlovic, Afsaneh Fazly
机构: 新泽西州罗格斯大学 三星人工智能中心-多伦多 都柏林的3M
摘要: 可控图像字幕生成(CIC)旨在生成自然语言描述图像的字幕,条件是根据最终用户提供的信息,例如感兴趣的区域、实体或事件。然而,现有的图像-语言数据集主要包含描述整个图像的字幕,这使它们对于训练可能关注任何子区域或关系的CIC模型效果不佳。为了解决这一挑战,我们提出了一种全新的完全自动方法,使用建立在图像的现有字幕集之上的统一结构化语义表示来采样额外的聚焦和视觉基础字幕。我们利用抽象意义表示(AMR),一种跨语言基于图的语义形式主义,来编码实体之间的所有可能的空间-语义关系,超越了当前方法仅关注典型空间关系的焦点。我们使用这种结构化语义增强(SSA)框架来增强现有的图像-字幕数据集,增加它们的空间和语义多样性以及焦点覆盖范围。然后,我们开发了一个新模型,CIC-BART-SSA,专门针对CIC任务进行了定制,它从SSA多样化数据集中获取其控制信号。我们在实证中表明,与SOTA CIC模型相比,CIC-BART-SSA生成的字幕在多样性和文本质量上更优,具有竞争力的可控性,并且重要的是,通过有效地推广到具有挑战性的高度聚焦场景,最小化了广泛和高度聚焦的受控字幕性能之间的差距。代码可在此网址获得。
论文链接: https://arxiv.org/abs/2407.11393
Github: https://github.com/SamsungLabs/CIC-BART-SSA