2024年7月22日Arxiv语言模型相关论文

评估大语言模型中自我解释的可靠性

原标题: Evaluating the Reliability of Self-Explanations in Large Language Models

作者: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren

机构: 斯德哥尔摩大学 雅典经济与商业大学 Archimedes/Athena RC

摘要: 这篇论文调查了大语言模型(LLMs)在被要求解释其先前输出时生成的解释的可靠性。我们使用三种最先进的LLMs(2B至8B参数)在两种不同的分类任务(客观和主观)上评估了这种自我解释的两种形式 - 抽取式和反事实。我们的研究结果显示,虽然这些自我解释可能与人类判断相关,但它们并没有完全准确地遵循模型的决策过程,表明了感知和实际模型推理之间存在差距。我们展示了这种差距可以被弥合,因为提示LLMs提供反事实解释可以产生忠实、信息丰富且易于验证的结果。这些反事实提供了一种有前途的替代传统的可解释性方法(例如SHAP,LIME),前提是提示要针对特定任务进行定制并检查其有效性。

论文链接: https://arxiv.org/abs/2407.14487

开放人工智能知识

原标题: Open Artificial Knowledge

作者: Vadim Borisov, Richard H. Schreiber

摘要: 像ChatGPT、Claude和Gemini这样基于聊天的人工智能系统取得了巨大成功,这源自于在大量数据集上训练的大语言模型(LLMs)。然而,获取高质量、多样化和道德来源的训练数据仍然是一个重大挑战。我们介绍了开放人工知识(OAK)数据集,这是一个庞大的资源,目前拥有超过5亿个标记(在撰写本文时)。OAK利用一组最先进的LLMs集成,包括GPT4o、LLaMa3-70B、LLaMa3-8B、Mixtral-8x7B、Gemma-7B和Gemma-2-9B,以跨领域生成高质量文本,受维基百科的主要类别指导。我们的方法确保了广泛的知识覆盖范围,同时保持连贯性和事实准确性。OAK数据集旨在促进更有能力和对齐的语言模型的发展,同时解决LLM训练中的数据稀缺和隐私等关键问题,并且可以在此http网址上免费获取。

论文链接: https://arxiv.org/abs/2407.14371

其他链接: http://www.oakdataset.org

检查-评估:基于清单的方法用于评估文本质量

原标题: Check-Eval: A Checklist-based Approach for Evaluating Text Quality

作者: Jayr Pereira, Roberto Lotufo

机构: 联邦大学卡里里(UFCA) 州立大学坎皮纳斯(UNICAMP) NeuralMind.ai

摘要: 评估大语言模型(LLMs)生成文本的质量仍然是一个重要挑战。传统指标通常无法很好地与人类判断相一致,特别是在需要创造力和细微差别的任务中。在本文中,我们提出了Check-Eval,这是一个利用LLMs来通过基于清单的方法评估生成文本质量的新颖评估框架。Check-Eval可以作为无参考和有参考的评估方法,提供了对文本质量的结构化和可解释的评估。该框架包括两个主要阶段:清单生成和清单评估。我们在两个基准数据集上验证了Check-Eval:葡萄牙语法律语义文本相似性和SummEval。我们的结果表明,与现有的指标(如G-Eval和GPTScore)相比,Check-Eval与人类判断之间的相关性更高,突显了它作为自然语言生成任务更可靠和有效的评估框架的潜力。我们实验的代码可在https://anonymous.4open.science/r/check-eval-0DB4找到。

论文链接: https://arxiv.org/abs/2407.14467

ChatQA 2:弥合专有LLMs在长文本和RAG功能中的差距

原标题: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

作者: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

机构: NVIDIA

摘要: 在这项工作中,我们介绍了ChatQA 2,这是一个基于Llama3的模型,旨在弥合开放获取的大语言模型(LLMs)和领先的专有模型(例如GPT-4-Turbo)在长上下文理解和检索增强生成(RAG)能力方面的差距。这两种能力对于LLMs处理无法适应单个提示的大量信息至关重要,并且相互补充,取决于下游任务和计算预算。我们提出了一个详细的持续训练配方,将Llama3-70B-base的上下文窗口从8K扩展到128K个标记,以及一个三阶段指令调整过程,以增强模型的指令遵循、RAG性能和长上下文理解能力。我们的结果表明,Llama3-ChatQA-2-70B模型在许多长上下文理解任务上实现了与GPT-4-Turbo-2024-0409相当的准确性,并在RAG基准上超越了它。有趣的是,我们发现最先进的长上下文检索器可以缓解RAG中的top-k上下文碎片化问题,进一步改善了基于RAG的长上下文理解任务的结果。我们还使用最先进的长上下文LLMs对RAG和长上下文解决方案进行了广泛比较。

论文链接: https://arxiv.org/abs/2407.14482

大语言模型中的内部一致性和自我反馈:一项调查

原标题: Internal Consistency and Self-Feedback in Large Language Models: A Survey

作者: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

机构: IEEE 组织 暨南大学

摘要: 大语言模型(LLMs)被期望能够准确回答问题,但通常表现出推理不足或生成幻觉内容。为了解决这些问题,一些以“自我-”为前缀的研究,如自我一致性、自我改进和自我完善已经开始进行。它们有一个共同点:涉及LLMs评估和更新自身以减轻问题。然而,这些努力缺乏对总结的统一视角,因为现有的调查主要侧重于分类,而没有审视这些工作背后的动机。
在本文中,我们总结了一个名为内部一致性的理论框架,该框架为缺乏推理和存在幻觉等现象提供了统一的解释。内部一致性根据抽样方法评估LLMs的潜在层、解码层和响应层之间的一致性。在内部一致性框架的基础上,我们引入了一个简化但有效的理论框架,能够挖掘内部一致性,名为自我反馈。自我反馈框架包括两个模块:自我评估和自我更新。这个框架已经在许多研究中使用。
我们通过任务和工作线路系统地对这些研究进行分类;总结相关的评估方法和基准;并深入探讨“自我反馈真的有效吗?”这个问题。我们提出了几个关键观点,包括“内部一致性的沙漏演化”、“一致性即(几乎)正确性”假设和“潜在推理和显式推理的悖论”。此外,我们概述了未来研究的有前途的方向。我们已经开源了实验代码、参考文献列表和统计数据,可在\url{此https网址}上获得。

论文链接: https://arxiv.org/abs/2407.14507

Github: https://github.com/IAAR-Shanghai/ICSFSurvey

如何吸引读者?生成引导性问题以促进主动阅读

原标题: How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading

作者: Peng Cui, Vilém Zouhar, Xiaoyu Zhang, Mrinmaya Sachan

机构: 瑞士苏黎世联邦理工学院 计算机科学系 ETH Zürich Department of Computer Science ETH AI Center

摘要: 在书面文本中使用问题是增强可读性的有效策略。然而,什么使得一个主动阅读问题好,这些问题的语言角色是什么,以及它们对人类阅读的影响仍未得到充分研究。我们引入了GuidingQ,这是一个包含来自教科书和科学文章的1万个文本内问题的数据集。通过分析这个数据集,我们提供了对这些问题的使用、分布和语言特征的全面理解。然后,我们探讨了使用语言模型生成这些问题的各种方法。我们的结果突显了捕捉问题之间关系的重要性,以及在生成这些问题时问题位置识别的挑战。最后,我们进行了一项人类研究,以了解这些问题对阅读理解的影响。我们发现生成的问题质量很高,并且在提高读者记忆和理解方面几乎与人工撰写的问题一样有效。

论文链接: https://arxiv.org/abs/2407.14309

大语言模型左右中:评估 GPT 从网络域名中标记政治偏见的能力

原标题: LLMs left, right, and center: Assessing GPT’s capabilities to label political bias from web domains

作者: Raphael Hernandes

机构: 剑桥大学 智能未来中心

摘要: 这项研究调查了OpenAI的GPT-4,一种最先进的大型语言模型,是否能够准确地根据它们的URL来分类新闻来源的政治偏见。考虑到政治标签的主观性,第三方偏见评级(如Ad Fontes Media、AllSides和Media Bias/Fact Check (MBFC)等)经常被用于研究分析新闻来源的多样性。该研究旨在确定GPT-4是否能够在一个七级标度(从“极左”到“极右”)上复制这些人类评级。该分析将GPT-4的分类结果与MBFC的结果进行比较,并利用Open PageRank分数控制网站的流行程度。研究结果显示,GPT-4的评级与MBFC的评级之间存在很高的相关性( Spearman’s  ρ = . 89 \text{Spearman's } \rho = .89 Spearman’s ρ=.89, n = 5 , 877 n = 5,877 n=5,877, p < 0.001 p < 0.001 p<0.001),表明该模型具有潜在的可靠性。然而,GPT-4放弃了大约 2 3 \frac{2}{3} 32的数据集的分类,特别是对较不流行和较不偏见的来源。该研究还发现,与MBFC相比,GPT-4的分类略微向左倾斜。分析表明,虽然GPT-4可以成为一种可扩展、具有成本效益的工具,用于对新闻网站的政治偏见进行分类,但其使用应结合人类判断以减少偏见。建议进一步研究探索该模型在不同环境、语言和额外数据集中的性能。

论文链接: https://arxiv.org/abs/2407.14344

利用大视觉-语言模型进行多模态虚假信息检测

原标题: Multimodal Misinformation Detection using Large Vision-Language Models

作者: Sahar Tahmasebi, Eric Müller-Budack, Ralph Ewerth

机构: TIB信息中心 科技莱布尼茨信息中心;L3S研究中心 莱布尼茨大学汉诺威分校

摘要: 随着虚假信息的不断传播及其令人担忧的影响,行业和学术界都被激励着开发虚假信息检测和事实核查的方法。最近大语言模型(LLMs)的进展在各种任务中表现出色,但LLMs如何帮助虚假信息检测的问题仍相对未被深入探讨。大多数现有的最先进方法要么不考虑证据,仅专注于与声明相关的特征,要么假定提供证据。少数方法将证据检索视为虚假信息检测的一部分,但依赖于微调模型。在本文中,我们研究了在零样本设置下利用LLMs进行虚假信息检测的潜力。我们将证据检索组件纳入流程中,因为从各种来源收集相关信息以检测声明的真实性至关重要。为此,我们提出了一种新颖的多模态证据检索重新排序方法,同时利用LLMs和大视觉语言模型(LVLM)。检索到的证据样本(图像和文本)作为基于LVLM的多模态事实验证方法(LVLM4FV)的输入。为了进行公平评估,我们通过为图像和文本检索注释更完整的证据样本,解决了现有证据检索数据集中证据样本地面真相不完整的问题。我们在两个数据集上的实验结果表明,所提出的方法在证据检索和事实验证任务上均具有优越性,并且相对于监督基线具有更好的跨数据集泛化能力。

论文链接: https://arxiv.org/abs/2407.14321

CoVoSwitch:基于语调单元的合成混合代码文本机器翻译

原标题: CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units

作者: Yeeun Kang

机构: 耶鲁大学 沃尔沃公司

摘要: 多语言代码切换研究通常受到可用数据集的缺乏和语言偏见状态的阻碍。为了扩展语言表示,我们通过替换通过PSST检测到的语调单元来合成代码切换数据,PSST是从OpenAI的Whisper微调而来的语音分割模型,使用了一个语音到文本翻译数据集CoVoST 2。通过我们的数据集CoVoSwitch,涵盖了13种语言,我们评估了两个多语言翻译模型M2M-100 418M和NLLB-200 600M的代码切换翻译性能。我们发现,包含代码切换单元会导致比单语设置更高的翻译性能,并且模型在将代码切换翻译成英语时比非英语更好。此外,资源稀缺的语言在将代码切换单元整合到英语翻译中时获益最大,但在翻译成非英语时获益要少得多。翻译成资源稀缺语言的结果甚至比原始代码切换输入还要差。我们发现系统擅长复制英语标记,但在处理非英语标记时遇到困难,在单语设置中的偏离问题在代码切换设置中也是相关的,并且模型在代码切换翻译中会产生幻觉,引入了原始源句中都不存在的单词。CoVoSwitch和代码可以在此网址找到。

论文链接: https://arxiv.org/abs/2407.14295

Github: https://github.com/sophiayk20/covoswitch

人群中的声音:寻找独特观点的聚类

原标题: Voices in a Crowd: Searching for Clusters of Unique Perspectives

作者: Nikolas Vitsakis, Amit Parekh, Ioannis Konstas

机构: 赫瑞瓦特大学 Heriot-Watt University

摘要: 语言模型已被证明会复制其训练数据中存在的基本偏见,这默认情况下是占主导地位的观点。提出的解决方案旨在通过建模注释者之间的分歧或基于共享元数据对注释者进行分组来捕捉少数群体的观点,但这两种方法都面临重大挑战。我们提出了一个框架,该框架在不编码注释者元数据的情况下训练模型,提取由注释者行为信息驱动的潜在嵌入,并创建类似意见的簇,我们称之为“voices”。通过内部和外部定量指标以及定性分析验证了生成的簇,以确定每个簇代表的声音类型。我们的结果表明了我们框架的强大泛化能力,表现为生成的簇足够稳健,同时基于不同人口统计因素捕捉了两个不同数据集中的少数群体观点。

论文链接: https://arxiv.org/abs/2407.14259

为信息检索调整 Chat-GPT:Unipa-GPT 案例研究

原标题: Conditioning Chat-GPT for information retrieval: the Unipa-GPT case study

作者: Irene Siragusa, Roberto Pirrone

机构: 帕勒莫大学

摘要: 本文阐述了Unipa-GPT的架构和训练,这是一个依赖于大语言模型的聊天机器人,旨在帮助学生选择巴勒莫大学的学士/硕士课程。Unipa-GPT依赖于gpt-3.5-turbo,在欧洲研究人员之夜(SHARPER night)的背景下进行了展示。在我们的实验中,我们采用了检索增强生成(RAG)方法和微调来开发系统。展示了Unipa-GPT的整个架构,比较了RAG和微调系统,并对它们的性能进行了简要讨论。还对与其他大语言模型的进一步比较以及SHARPER之夜期间的实验结果进行了阐述。

论文链接: https://arxiv.org/abs/2407.14246

广播新闻中新闻主题的自动分类:应用于性别偏见表征分析

原标题: Automatic Classification of News Subjects in Broadcast News: Application to a Gender Bias Representation Analysis

作者: Valentin Pelloin, Lena Dodson, Émile Chapuis, Nicolas Hervé, David Doukhan

机构: 法国国家音频视听研究所(INA) 法国数字通信监管局(ARCOM)

摘要: 这篇论文介绍了一个计算框架,旨在揭示法国电视和广播新闻报道的主题中存在的性别分布偏见。我们转录了一份包含11.7k小时内容的数据集,这些内容是在2023年由21个法国频道播出的。我们使用了一个大语言模型(LLM)在少样本对话模式下,对这些转录内容进行主题分类。利用生成的LLM注释,我们探讨了对一个专门的较小分类模型进行微调,以减少计算成本。为了评估这些模型的性能,我们构建并注释了一个包含804个对话的数据集。这个数据集可以免费供研究目的使用。我们展示了在体育、政治和冲突等主题中,女性明显被低估。相反,在天气、商业和健康等主题上,女性的发言时间比她们在所有主题中的平均发言时间要多。我们还观察到私营和公共服务频道之间的表现差异。

论文链接: https://arxiv.org/abs/2407.14180

我了解“上”!通过3D重建增强视觉语言模型的空间推理

原标题: I Know About “Up”! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction

作者: Zaiqiao Meng, Hao Zhou, Yifang Chen

机构: 广东工业大学

摘要: 视觉语言模型(VLMs)对于各种任务至关重要,特别是对于视觉推理任务,这是因为它们具有强大的多模态信息集成能力、视觉推理能力和上下文意识。然而,现有的VLMs的视觉空间推理能力通常是不足的,甚至在识别左右等基本任务上也很困难。为了解决这个问题,我们提出了\ours{}模型,旨在增强VLMs的视觉空间推理能力。ZeroVLM采用Zero-1-to-3,一个用于获取输入图像不同视图的3D重建模型,并结合提示机制进一步改善视觉空间推理。对四个视觉空间推理数据集的实验结果显示,我们的\ours{}实现了高达19.48%的准确率提升,这表明我们的ZeroVLM的3D重建和提示机制的有效性。

论文链接: https://arxiv.org/abs/2407.14133

LeKUBE:法律知识更新基准

原标题: LeKUBE: A Legal Knowledge Update BEnchmark

作者: Changyue Wang, Weihang Su, Hu Yiran, Qingyao Ai, Yueyue Wu, Cheng Luo, Yiqun Liu, Min Zhang, Shaoping Ma

机构: 清华大学 MegaTech.AI

摘要: 最近大语言模型(LLMs)的进展显著地塑造了人工智能在多个领域的应用,包括法律智能的研究。在广泛的法律文本,包括法规和法律文件上训练,法律LLMs能够有效地捕捉重要的法律知识/概念,并为法律咨询等下游法律应用提供重要支持。然而,法律法规和解释的动态性也给LLMs在法律应用中的使用带来了新挑战。特别是,如何有效高效地更新LLMs的法律知识已经成为实践中的一个重要研究问题。现有用于评估知识更新方法的基准大多设计用于开放领域,并不能解决法律领域的特定挑战,如新法律知识的微妙应用、法规的复杂性和冗长性,以及法律推理的错综复杂性。为了填补这一空白,我们引入了法律知识更新基准,即LeKUBE,它评估了针对法律LLMs的知识更新方法在五个维度上的表现。具体来说,我们借助法律专业人士对法律领域的知识更新需求进行分类,然后聘请法学院的标注者为中国刑法和民法创造合成更新,并提出一系列问题,这些问题的答案在更新后会发生变化。通过对最先进的知识更新方法进行全面评估,我们揭示了现有知识更新方法与法律领域独特需求之间的显著差距,强调了需要进一步研究和开发专门针对法律LLMs的知识更新机制的必要性。

论文链接: https://arxiv.org/abs/2407.14192

一种改进的类别特定关键词提取方法:德国商业注册案例研究

原标题: An Improved Method for Class-specific Keyword Extraction: A Case Study in the German Business Registry

作者: Stephen Meisenbacher, Tim Schopf, Weixin Yan, Patrick Holl, Florian Matthes

机构: 慕尼黑工业大学 Fusionbase GmbH

摘要: 关键词提取 \textit{关键词提取} 关键词提取任务通常是无监督信息提取中的重要初始步骤,为主题建模或文档分类等任务奠定基础。尽管最近的方法在关键词提取方面已被证明相当有效,但识别 特定类别 \textit{特定类别} 特定类别的关键词,或者仅涉及预定义类别的关键词,仍然具有挑战性。在这项工作中,我们提出了一种改进的特定类别关键词提取方法,该方法基于流行的 KeyBERT \textbf{KeyBERT} KeyBERT库,仅识别与由 种子关键词 \textit{种子关键词} 种子关键词描述的类别相关的关键词。我们使用德国工商注册条目数据集对该方法进行测试,其目标是根据经济部门对每家企业进行分类。我们的结果显示,我们的方法极大地改进了先前的方法,为 特定类别 \textit{特定类别} 特定类别关键词提取设立了新标准。

论文链接: https://arxiv.org/abs/2407.14085

模型规模对数据到文本生成中微调大语言模型性能的影响:一项最新调查

原标题: Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation

作者: Joy Mahapatra, Utpal Garain

机构: 印度统计研究所 加尔各答

摘要: 数据文本生成(D2T)旨在从半结构化数据(如表格和图表)生成人类可读的文本。D2T 的最新成功很大程度上归因于大语言模型的进展。尽管大语言模型取得了成功,但尚未进行研究来阐明模型大小对于微调后的大语言模型在 D2T 任务性能上的影响。D2T 模型性能通常基于三个关键品质进行评估:\textit{可读性}(表示流畅性和连贯性)、\textit{信息量}(衡量内容相似性)和\textit{忠实度}(评估事实信息的一致性)。目前尚不确定增加大语言模型的大小是否有效地提高了在这三个品质上的 D2T 任务性能。本研究的目标是调查微调后的大语言模型在 D2T 任务中的性能,重点关注模型大小。通过广泛的比较分析,我们旨在阐明跨五个广泛使用的 D2T 数据集(E2E、ViGGo、WikiTableText、DART 和 WebNLG)和来自五个不同大语言模型系列(T5、BART、OPT、BLOOM 和 Llama 2)的十二种最先进的大语言模型的大小变化对模型性能的优势和局限性。为了全面涵盖 D2T 模型的三个基本品质,我们结合了六种广泛认可的自动评估指标 – \textsc{BLEU}、\textsc{METEOR}、\textsc{BERTScore}、\textsc{MoverScore}、\textsc{Parent} 和 \textsc{BARTScore}。我们还对大语言模型在源参考分歧存在时的性能进行了深入分析,这是 D2T 任务的一个关键方面。我们的调查显示,增加大语言模型的大小提高了 D2T 任务中的\textit{可读性}和\textit{信息量},但更大(在大小方面)的大语言模型可能会牺牲\textit{忠实度}。此外,当源参考分歧存在时,小型大语言模型比较大的模型表现出更强的韧性。

论文链接: https://arxiv.org/abs/2407.14088

LazyLLM:用于高效长上下文大语言模型推理的动态 Token 剪枝

原标题: LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

作者: Qichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

机构: 苹果 元AI

摘要: 基于Transformer的大语言模型的推理包括两个连续阶段:1) 预填充阶段用于计算提示的KV缓存并生成第一个标记,2) 解码阶段用于生成后续标记。对于长提示,KV缓存必须在预填充阶段为所有标记计算,这可能会显著增加生成第一个标记所需的时间。因此,预填充阶段可能成为生成过程中的瓶颈。一个悬而未决的问题是是否所有提示标记对于生成第一个标记都是必要的。为了回答这个问题,我们引入了一种新颖的方法,LazyLLM,它在预填充和解码阶段中有选择地计算对下一个标记预测重要的标记的KV。与一次性修剪提示的静态修剪方法相反,LazyLLM允许语言模型在不同生成步骤中动态选择来自上下文的不同标记子集,即使它们在先前的步骤中可能已被修剪。在各种任务的标准数据集上进行的大量实验表明,LazyLLM是一种通用方法,可以与现有语言模型无缝集成,显著加速生成速度而无需微调。例如,在多文档问答任务中,LazyLLM将LLama 2 7B模型的预填充阶段加速了2.34倍,同时保持准确性。

论文链接: https://arxiv.org/abs/2407.14057

Rasa:在低资源环境中为印度语言构建具有表现力的语音合成系统

原标题: Rasa: Building Expressive Speech Synthesis Systems for Indian Languages in Low-resource Settings

作者: Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra

机构: 印度理工学院马德拉斯分校 AI4Bharat

摘要: 我们发布了 Rasa,这是第一个针对任何印度语言的多语言表达性 TTS 数据集,其中包含每种 6 种 Ekman 情绪的中性语音 10 小时和表达性语音 1-3 小时,涵盖了阿萨姆语、孟加拉语和泰米尔语三种语言。我们的消融研究表明,仅使用 1 小时的中性数据和 30 分钟的表达性数据就可以产生一个根据 MUSHRA 评分指示为公平的系统。将中性数据增加到 10 小时,再加上少量的表达性数据,显著增强了表现力。这为资源受限的语言提供了一个实用的方法,优先考虑易获得的中性数据以及较少的表达性数据。我们展示了音节平衡数据和汇集情绪以增强表现力的重要性。我们还强调了在生成特定情绪(例如恐惧和惊讶)方面的挑战。

论文链接: https://arxiv.org/abs/2407.14056

触发式方面关键点分析用于定量审查摘要

原标题: Prompted Aspect Key Point Analysis for Quantitative Review Summarization

作者: An Quang Tang, Xiuzhen Zhang, Minh Ngoc Dinh, Erik Cambria

机构: 皇家墨尔本理工大学 新加坡南洋理工大学

摘要: 关键点分析(KPA)旨在定量总结,提供关键点(KPs)作为简明的文本摘要,并量化它们的普遍性。文献中已经报道了关于论点和评论的KPA研究。大多数评论的KPA研究采用监督学习来提取短句作为KPs,然后将KPs与评论进行匹配,以量化KP的普遍性。最近的抽象方法仍然基于句子生成KPs,通常导致KPs存在重叠和虚构的观点,以及不准确的量化。在本文中,我们提出了用于定量评论总结的提示性方面关键点分析(PAKPA)。PAKPA采用方面情感分析和大语言模型(LLMs)中的提示性上下文学习,以生成和量化基于业务实体方面的KPs,实现了忠实的KPs和准确的量化,并消除了对大量带标注数据进行监督训练的需求。在流行的评论数据集Yelp和面向方面的评论总结数据集SPACE上的实验表明,我们的框架实现了最先进的性能。源代码和数据可在此https URL找到。

论文链接: https://arxiv.org/abs/2407.14049

Github: https://github.com/antangrocket1312/PAKPA

ECCO:我们可以在不牺牲功能正确性的情况下提高模型生成的代码效率吗?

原标题: ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness?

作者: Siddhant Waghjale, Vishruth Veerendranath, Zora Zhiruo Wang, Daniel Fried

机构: 卡内基梅隆大学 Language Technologies Institute

摘要: 尽管大语言模型(LLMs)在生成功能正确的程序方面取得了巨大成功,但在确保正确性的同时调节模型以生成高效解决方案仍然是一个挑战。此外,在针对流行的解释性语言(如Python)的各种硬件规格进行基准测试代码效率时存在不稳定性。在本文中,我们提出了ECCO,这是一个可重现的基准测试,用于通过两种范式评估程序效率:基于自然语言(NL)的代码生成和基于历史的代码编辑。在ECCO上,我们调整并深入研究了三种最有前途的现有基于LLM的方法:上下文学习、迭代改进与执行或NL反馈,以及基于执行和编辑历史的微调。虽然大多数方法会降低功能正确性并适度提高程序效率,但我们发现添加执行信息通常有助于保持功能正确性,而NL反馈更有助于提高效率。我们发布了我们的基准测试,以支持未来基于LLM生成高效代码的工作。

论文链接: https://arxiv.org/abs/2407.14044

BERTer:高效的模型

原标题: BERTer: The Efficient One

作者: Pradyumna Saligram, Andrew Lanpouthakoun

机构: 斯坦福大学

摘要: 我们探索了先进的微调技术,以提升BERT在情感分析、释义检测和语义文本相似性方面的性能。我们的方法利用SMART正则化来对抗过拟合,改进超参数选择,采用交叉嵌入孪生架构来改进句子嵌入,并引入创新的早期退出方法。我们目前的微调研究结果显示,在结合多种微调架构时,模型的效率和有效性均有显著提升,在测试集上实现了最先进的性能得分,超越了当前的基准,并突显了BERT在多方面语言任务中的适应性。

论文链接: https://arxiv.org/abs/2407.14039

HeCiX:将知识图谱和大语言模型整合到生物医学研究中

原标题: HeCiX: Integrating Knowledge Graphs and Large Language Models for Biomedical Research

作者: Prerana Sanjay Kulkarni, Muskaan Jain, Disha Sheshanarayana, Srinivasan Parthiban

机构: PES大学 IIT马德拉斯分校 Manipal大学 印度科学教育与研究学院

摘要: 尽管药物开发策略取得了进展,但90%的临床试验失败。这表明目标验证和药物优化中存在被忽视的方面。为了解决这个问题,我们引入了HeCiX-KG,即Hetionet-Clinicaltrials neXus知识图谱,这是从该http URL和Hetionet中的数据融合而成的单一知识图谱的创新。HeCiX-KG结合了来自该http URL先前进行的临床试验的数据,以及来自Hetionet的有关疾病和基因的领域专业知识。这为临床研究人员提供了一个全面的资源。此外,我们引入了HeCiX,这是一个利用LangChain将HeCiX-KG与GPT-4集成的系统,以提高其可用性。HeCiX在针对一系列临床相关问题进行评估时表现出很高的性能,证明该模型有望增强临床研究的效果。因此,这种方法提供了对临床试验和现有生物数据更全面的视角。

论文链接: https://arxiv.org/abs/2407.14030

其他链接: http://ClinicalTrials.gov

NeLLCom-X:一个全面的神经-智能体框架,用于模拟语言学习和群体沟通

原标题: NeLLCom-X: A Comprehensive Neural-Agent Framework to Simulate Language Learning and Group Communication

作者: Yuchen Lian, Tessa Verhoef, Arianna Bisazza

机构: 西安交通大学 莱顿大学 格罗宁根大学

摘要: 最近在计算语言学领域取得的进展包括使用相互作用的神经网络智能体模拟人类语言的出现,从一组随机符号开始。最近引入的NeLLCom框架(Lian等,2023)允许智能体首先学习一种人工语言,然后用它进行交流,旨在研究特定语言学属性的出现。我们通过引入更加现实的角色交替智能体和群体交流来扩展这一框架(NeLLCom-X),以研究语言可学性、交流压力和群体规模效应之间的相互作用。我们通过复制先前研究中模拟词序/格标记权衡出现的关键发现来验证NeLLCom-X。接下来,我们研究交互如何影响语言收敛和权衡的出现。这一新颖框架有助于未来模拟各种语言方面,强调了互动和群体动态在语言演变中的重要性。

论文链接: https://arxiv.org/abs/2407.13999

RAG-QA竞技场:评估长文检索增强问答的领域鲁棒性

原标题: RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering

作者: Rujun Han, Yuhao Zhang, Peng Qi, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli

机构: AWS AI实验室 谷歌 Samaya.ai Orby.ai 加州大学圣巴巴拉分校

摘要: 基于检索增强生成的问答(RAG-QA)是自然语言处理中的一个重要研究课题,具有广泛的实际应用。然而,目前针对这一任务的大多数现有数据集要么是使用单个源语料库构建的,要么由短的抽取式答案组成,这些都无法对基于大语言模型(LLM)的RAG-QA系统在跨领域泛化上进行评估。为了解决这些限制,我们创建了长格式鲁棒问答(LFRQA)数据集,其中包含人工撰写的长格式答案,将来自多个文档的短抽取式答案整合成一个连贯的叙述,涵盖了26K个查询和七个不同领域的大型语料库。我们进一步提出了RAG-QA Arena,通过直接比较模型生成的答案与LFRQA答案,使用LLM作为评估器。我们通过大量实验证明,RAG-QA Arena和人类对答案质量的判断高度相关。此外,仅有41.3%最具竞争力的LLM答案优于LFRQA答案,表明RAG-QA Arena是一个具有挑战性的评估平台,可用于未来研究。

论文链接: https://arxiv.org/abs/2407.13998

重新审视自动语音识别性能中的种族差异:通过来源混杂的作用

原标题: Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance

作者: Changye Li, Trevor Cohen, Serguei Pakhomov

机构: 华盛顿大学 明尼苏达大学

摘要: 在大量音频数据上训练的自动语音识别(ASR)模型现在被广泛应用于各种应用程序,从视频字幕到在医疗保健和其他领域中使用的自动助手,将语音转换为书面文本。因此,重要的是ASR模型及其使用是公平和公正的。之前的研究检查商业ASR系统在区域非裔美国人语料库(CORAAL)上的表现表明,非裔美国英语(AAE)的ASR表现明显较差。当前研究旨在通过检查当前最先进的基于神经网络的ASR系统(Whisper,OpenAI)在CORAAL数据集上的表现,以了解导致这种差异的因素。由于当前研究已经确定了两个关键发现。第一个确认了之前的研究结果,即即使在相邻社区之间也存在显着的方言变化,以及在AAE上较差的ASR表现,可以通过对ASR模型进行微调在一定程度上得到改善。第二个是一个在CORAAL之前的研究中没有讨论过的新发现:数据集内的音频录制实践差异对ASR准确性产生了显著影响,导致了“来源混杂”的效应,其中语言使用和录制质量在研究地点上存在差异。这些发现突显了有必要进一步系统地调查录制质量和固有语言多样性对神经ASR模型中存在的公平性和偏见的影响,因为ASR准确性中的任何偏见可能会对ASR技术在各个领域中使用时的生活中的不平等产生负面影响。

论文链接: https://arxiv.org/abs/2407.13982

关于为图表理解定制的多模态语言模型预训练

原标题: On Pre-training of Multimodal Language Models Customized for Chart Understanding

作者: Wan-Cyuan Fan, Yen-Chun Chen, Mengchen Liu, Lu Yuan, Leonid Sigal

机构: 英属哥伦比亚大学 微软 Vector Institute for AI CIFAR AI Chair

摘要: 最近的研究定制多模态大语言模型(MLLMs)用于特定领域任务已经取得了令人振奋的成果,特别是在科学图表理解领域。这些研究通常利用专门数据集进行视觉指导调整,以增强图表领域内问题和答案(QA)的准确性。然而,它们经常忽视自然图像标题预训练数据与数字图表图像QA数据之间的根本差异,特别是模型从图表中提取基础数值的能力。本文通过探索改进MLLMs对图表理解的训练过程来解决这一疏忽。我们提出了三个关键发现:(1)在对齐预训练中合并原始数据值显著提高了对图表数据的理解。(2)在端到端微调中随机用文本表示替换图像可以将语言推理能力转移到图表解释技能上。(3)要求模型首先提取潜在的图表数据,然后在微调中回答问题可以进一步提高准确性。因此,我们介绍了CHOPINLLM,一个专为深入理解图表而定制的MLLM。CHOPINLLM有效地解释各种类型的图表,包括未注释的图表,同时保持强大的推理能力。此外,我们建立了一个新的基准来评估MLLMs对不同图表类型在各种理解水平上的理解能力。实验结果表明,CHOPINLLM在理解各种类型的已注释和未注释图表方面表现出色。

论文链接: https://arxiv.org/abs/2407.14506

自主计算的愿景:LLM能否使其成为现实?

原标题: The Vision of Autonomic Computing: Can LLMs Make It a Reality?

作者: Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

机构: 南京大学 微软

摘要: 提出的自主计算(ACV)愿景已有二十多年的历史,设想计算系统能够像生物有机体一样自我管理,在不断变化的环境中无缝适应。尽管经过几十年的研究,由于现代计算系统的动态和复杂性,实现ACV仍然具有挑战性。最近大语言模型(LLMs)的进展为这些挑战提供了有希望的解决方案,利用它们广泛的知识、语言理解和任务自动化能力。本文通过基于LLM的多智能体框架探讨了实现ACV的可行性,用于微服务管理。我们引入了一个五级分类法,用于自主服务维护,并提出了一个基于Sock Shop微服务演示项目的在线评估基准,以评估我们框架的性能。我们的研究结果显示在实现第3级自主性方面取得了显著进展,突出了LLMs在检测和解决微服务架构中问题方面的有效性。这项研究通过首次将LLMs集成到微服务管理框架中,推动了自主计算的进展,为更具适应性和自我管理能力的计算系统铺平了道路。代码将在此https网址上提供。

论文链接: https://arxiv.org/abs/2407.14402

其他链接: https://aka.ms/ACV-LLM

AudioInsight:从语音中检测与社交焦虑相关的社交背景

原标题: AudioInsight: Detecting Social Contexts Relevant to Social Anxiety from Speech

作者: Varun Reddy, Zhiyuan Wang, Emma Toner, Max Larrazabal, Mehdi Boukhechba, Bethany A. Teachman, Laura E. Barnes

机构: 弗吉尼亚大学 约翰逊和约翰逊创新药物

摘要: 在社交互动过程中,理解上下文的复杂性可能至关重要,特别是对于社交焦虑的个体。尽管先前的研究发现社交互动的存在可以从环境音频中检测到,但影响交互引发焦虑程度的社交背景细微差别仍然很少被探讨。作为传统繁琐方法的替代,本研究提出了一种利用环境音频片段来检测社交威胁背景的新方法。我们关注两个关键维度:互动伙伴数量(二人对话 vs. 小组)和评估威胁程度(明确评估 vs. 非明确评估)。基于 Zoom 社交互动研究的数据(样本量为 52 名大学生,其中大多数为社交焦虑者,人数为 45 人),我们采用深度学习方法实现了强大的检测性能。在全样本 5 折交叉验证(CV)下,我们的模型将二人对话与小组互动区分度达到 90%,检测到评估威胁为 83%。使用留一小组外 CV,准确率分别为 82% 和 77%。虽然我们的数据基于疫情限制而是基于虚拟互动,但我们的方法有潜力扩展到多样的现实世界环境。这项研究强调了被动感知和人工智能区分复杂社交背景的潜力,并最终可能推动具有上下文感知能力的数字干预为个性化心理健康支持提供帮助。

论文链接: https://arxiv.org/abs/2407.14458

System-1.x: 通过语言模型学习平衡快速规划和慢速规划

原标题: System-1.x: Learning to Balance Fast and Slow Planning with Language Models

作者: Swarnadeep Saha, Archiki Prasad, Justin Chih-Yao Chen, Peter Hase, Elias Stengel-Eskin, Mohit Bansal

机构: 北卡罗来纳大学教堂山

摘要: 语言模型可以用于解决长期规划问题,有两种不同的模式:快速的“系统-1”模式,直接生成计划而无需任何显式搜索或回溯,以及缓慢的“系统-2”模式,通过明确搜索可能的行动来逐步规划。虽然系统-2通常更有效,但也更耗费计算资源,使其在长期计划或大型行动空间中变得不可行。此外,孤立的系统-1或2忽略了用户的最终目标,未能提供控制模型行为的方法。为此,我们提出了System-1.x Planner,这是一个具有LLMs的可控规划框架,能够生成混合计划,并根据手头问题的难度在两种规划模式之间取得平衡。System-1.x包括(i)一个控制器,(ii)一个系统-1规划器,和(iii)一个系统-2规划器。根据用户指定的混合因子(x)来控制系统-1和2之间的混合比例,控制器将问题分解为子目标,并将其分类为易解或难解,分别由系统-1或2来解决。我们在单个基础LLM之上对这三个组件进行微调,只需要搜索轨迹作为监督。通过对迷宫导航和Blocksworld这两个不同的规划任务进行实验,结果显示我们的System-1.x Planner优于System-1 Planner、训练用于近似A搜索的System-2 Planner,以及符号规划器(A)。我们展示了我们的规划器具有以下关键特性:(1)可控性:增加混合因子(例如System-1.75 vs 1.5)会进行更多搜索,提高性能,(2)灵活性:通过构建一个神经符号变体,具有神经系统-1和符号系统-2,我们可以使用现有的符号方法,以及(3)泛化性:通过能够从不同的搜索算法中学习,我们的方法对搜索算法的选择具有鲁棒性。

论文链接: https://arxiv.org/abs/2407.14414

通过利用查询上下文信号来提高赞助搜索中的检索

原标题: Improving Retrieval in Sponsored Search by Leveraging Query Context Signals

作者: Akash Kumar Mohankumar, Gururaj K, Gagan Madan, Amit Singh

机构: 微软印度

摘要: 在赞助搜索中,准确检索与用户查询相关的竞价关键词至关重要,但对于短、含糊不清的查询而言仍然具有挑战性。现有的密集和生成式检索模型在这些情况下往往无法捕捉到用户意图的微妙之处。为了解决这个问题,我们提出了一种增强查询理解的方法,通过从网络搜索结果和大型语言模型中提取的丰富上下文信号来增强查询,这些信号存储在在线缓存中。具体而言,我们使用网络搜索标题和摘要将查询与现实世界信息联系起来,并利用 GPT-4 生成查询重写和解释,以澄清用户意图。这些信号通过基于 Fusion-in-Decoder 的 Unity 架构进行高效集成,实现了与传统无上下文模型相当的服务成本的密集和生成式检索。为了解决缓存中无法获取上下文的情况,我们引入了上下文扫视,这是一种课程学习策略,即使在推断过程中没有上下文信号,也能提高模型的鲁棒性和性能。大量离线实验表明,我们的上下文感知方法明显优于无上下文模型。此外,在涵盖160多个国家的知名搜索引擎上进行的在线 A/B 测试显示,用户参与度和收入均有显著提高。

论文链接: https://arxiv.org/abs/2407.14346

在非结构化环境中的自主机器人基础模型

原标题: Foundation Models for Autonomous Robots in Unstructured Environments

作者: Hossein Naderi, Alireza Shojaei

机构: 弗吉尼亚理工学院(Myers-Lawson School of Construction)

摘要: 通过在非结构化环境中使用机器人自动化活动,比如建筑工地,一直以来都是人们的愿望。然而,在这些环境中高度不可预测的事件导致相比更为结构化的环境(比如制造业)采用程度要低得多,因为在更为结构化的环境中,机器人可以被硬编码或者在狭义数据集上进行训练。最近,预训练的基础模型,比如大语言模型(LLMs),通过提供零样本解决方案展示了出色的泛化能力,解决了训练数据中不存在的问题,因此被提议作为将机器人引入非结构化环境的潜在解决方案。为此,本研究从多维度角度探讨了预训练基础模型的潜在机遇和挑战。研究系统地审查了基础模型在机器人和非结构化环境领域的应用,然后将它们与审慎行为理论综合起来。研究结果显示,LLMs的语言能力已被更多地用于改善人机交互中的感知,而另一方面,研究结果显示,LLMs的应用在建筑项目管理和安全以及灾害管理中的自然灾害检测方面展示出更多的应用。综合这些发现,我们将该领域的当前最先进水平定位在了五级自动化的水平上,将其置于有条件的自动化。然后,这一评估被用来设想未来的场景、挑战和解决方案,以实现自主安全的非结构化环境。我们的研究可以被视为追踪我们朝着未来进展的基准。

论文链接: https://arxiv.org/abs/2407.14296

分层窗口图注意力网络和用于孤立印度手语识别的大规模数据集

原标题: Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition

作者: Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta

机构: RKMVERI FDMSE RKMVC Chennai

摘要: 在计算机视觉领域,自动手语(SL)识别是一项重要任务。为了构建一个稳健的SL识别系统,我们需要大量数据,特别是在印度手语(ISL)领域数据匮乏。本文提出了一个大规模的孤立ISL数据集,并基于骨架图结构提出了一种新颖的SL识别模型。该数据集包含由20名聋哑成年手语使用者(10名男性和10名女性)录制的2002个日常常用词的视频(共40033个视频)。我们提出了一种SL识别模型,即分层窗口图注意力网络(HWGAT),通过利用人体上半身骨架图结构。HWGAT试图通过关注由人体骨架图结构引起的不同身体部位来捕捉独特的动作。通过大量实验评估了所提出数据集的实用性以及我们模型的有效性。我们在所提出的数据集上对模型进行了预训练,并在不同手语数据集上进行了微调,相对于现有最先进的基于骨架的模型,在INCLUDE、LSA64、AUTSL和WLASL上性能分别提高了1.10、0.46、0.78和6.84个百分点。

论文链接: https://arxiv.org/abs/2407.14224

盲文到语音生成器:基于CLIP和Fastspeech2联合微调的音频生成

原标题: Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2

作者: Chun Xu, En-Wei Sun

机构: 新疆财经大学

摘要: 越来越多的中国人受不同程度的视力障碍困扰,这使得视觉领域中单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder和Im2Wav等深度学习技术使得英语音频合成或图像到声音匹配能够以自监督方式进行。然而,用于训练的音频数据有限,而英语并非对所有视力障碍程度和教育水平的人都通用。因此,为了解决数据量和语言适用性问题,提高视障人士的阅读效率,构建了基于中文背景的图像到语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用独立预训练和联合微调的策略。首先,在两个公共数据集MUGE和Baker上分别对中文CLIP和Fastspeech2文本到语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建的盲文图像数据集进行联合微调。在诸如VGGSound、Flickr8k、ImageHear和自建的盲文数据集BIT-DP等多个公共数据集上的实验结果显示,该模型改善了诸如BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)甚至推理速度等客观指标。这证实了在有限数据下构建的模型仍具有合成高质量语音的能力,并证明了整合多个基础模型的联合训练策略的有效性。

论文链接: https://arxiv.org/abs/2407.14212

领域特定的语言模型预训练:医学领域的比较研究

原标题: Domain-Specific Pretraining of Language Models: A Comparative Study in the Medical Field

作者: Tobias Kerner

机构: Technische Hochschule Ingolstadt

摘要: 有许多情况下,大语言模型被用于单一领域的特定任务。这些通常需要更少的通用知识,但更多的是领域特定知识。像GPT-4或Claude-3-opus这样功能强大的通用最先进语言模型通常可以用于这些任务,但它们非常庞大,即使它们不是专有的也无法在本地运行。在处理敏感数据时,这可能会成为一个问题。本文侧重于领域特定和混合领域预训练,作为专门语言模型比通用预训练更有效的方法。我们将研究与领域特定预训练相关的工作,特别是在医学领域,并将专门语言模型的基准结果与通用语言模型进行比较。

论文链接: https://arxiv.org/abs/2407.14076

PassTSL:通过两阶段学习对人类创建的密码进行建模

原标题: PassTSL: Modeling Human-Created Passwords through Two-Stage Learning

作者: Yangde Wang, Haozhang Li, Weidong Qiu, Shujun Li, Peng Tang

机构: 上海交通大学 坎特伯雷大学

摘要: 文本密码仍然是最广泛使用的用户认证机制。由于文本密码与自然语言之间的密切关系,自然语言处理(NLP)和机器学习(ML)中的先进技术可以用于对密码进行建模,以研究人类创建密码的行为,并开发更先进的密码破解方法,从而为改进防御机制提供信息。在本文中,我们提出了PassTSL(通过两阶段学习对人类创建的密码进行建模),受到了NLP和深度学习(DL)中流行的预训练微调框架的启发。我们报告了不同的预训练设置如何影响PassTSL,并通过将其应用于六个大型泄露的密码数据库来证明其有效性。实验结果表明,在密码猜测方面,PassTSL在最大点上的表现优于五种最先进的密码破解方法,优势范围从4.11%到64.69%不等。基于PassTSL,我们还实现了一个密码强度计量器(PSM),我们的实验表明,它能够更准确地估计密码强度,比其他两种最先进的PSM(在产生相同比例的安全错误(低估密码强度)时)造成更少的不安全错误(高估密码强度):一个基于神经网络的方法和zxcvbn。此外,我们探讨了多种微调设置,我们的评估结果显示,即使是少量的额外训练数据,例如仅为预训练数据的0.1%,平均可以导致密码猜测的改进超过3%。我们还提出了一种基于JS(Jensen-Shannon)散度选择微调密码的启发式方法,实验结果验证了其实用性。总之,我们的贡献展示了将先进的NLP和ML方法应用于密码建模和破解的潜力和可行性。

论文链接: https://arxiv.org/abs/2407.14145

通过直接偏好优化增强的编码器-解码器模型进行临床阅读理解

原标题: Clinical Reading Comprehension with Encoder-Decoder Models Enhanced by Direct Preference Optimization

作者: Md Sultan Al Nahian, Ramakanth Kavuluru

机构: 医学院 格鲁吉亚理工学院

摘要: 在临床文本中进行抽取式问答是一项至关重要的需求,有助于处理医院产生的大量临床文本。虽然编码器模型(例如BERT)在这种阅读理解任务中很受欢迎,但最近编码器-解码器模型(例如T5)正在兴起。还出现了偏好优化技术,以使解码器专用的大语言模型与人类偏好保持一致。在本文中,我们将编码器-解码器模型与直接偏好优化(DPO)方法相结合,通过提高RadQA放射学问答任务的先前最先进水平12-15个F1分数。据我们所知,这一努力是首次表明DPO方法也适用于阅读理解,通过新颖的启发式方法生成偏好数据,无需人类输入。

论文链接: https://arxiv.org/abs/2407.14000

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值