AI推介-大语言模型LLMs论文速览(arXiv方向):2024.04.15-2024.04.20

文章目录~

1.Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction

标题:实现 LLM 中可靠的潜在知识估计:上下文学习与基于提示的事实知识提取

author:Qinyuan Wu, Mohammad Aflah Khan, Soumi Das, Vedant Nanda, Bishwamittra Ghosh, Camila Kolling, Till Speicher, Laurent Bindschaedler, Krishna P. Gummadi, Evimaria Terzi

date Time:2024-04-19

paper pdf:http://arxiv.org/pdf/2404.12957v1

摘要
我们提出了一种估算大型语言模型(LLM)内含潜在知识的方法。我们利用 LLM 的上下文学习(ICL)能力来估算 LLM 对知识库中存储的事实的了解程度。我们的知识估算器避免了以往基于提示的方法所存在的可靠性问题,在概念上更简单,应用起来也更容易,而且我们证明它可以揭示出更多蕴藏在 LLM 中的潜在知识。我们还研究了不同的设计选择如何影响基于 ICL 的知识估计的性能。使用所提出的估计器,我们对各种开源 LLM(如 OPT、Pythia、Llama(2)、Mistral、Gemma 等)的事实知识进行了大规模评估,评估范围包括维基数据知识库中的大量关系和事实。我们观察到不同模型系列和不同规模的模型之间在事实知识方面的差异,一些关系始终比其他关系更为人所知,但模型在它们所知道的精确事实方面存在差异,而且基础模型和经过微调的对应模型在知识方面也存在差异。

2.Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation

标题:在知识密集检索–增强生成中挖掘多视角洞察力

author:Guanhua Chen, Wenhan Yu, Lei Sha

date Time:2024-04-19

paper pdf:http://arxiv.org/pdf/2404.12879v1

摘要
虽然检索增强生成(RAG)在大语言模型(LLM)的应用中发挥着至关重要的作用,但法律和医学等知识密集型领域的现有检索方法仍然缺乏多视角视图,而多视角视图对于提高可解释性和可靠性至关重要。以往关于多视角检索的研究往往只关注查询的不同语义形式,而忽视了特定领域知识视角的表达。本文介绍了一种为知识密集型领域量身定制的新型多视角 RAG 框架 MVRAG,它利用从多个领域视角出发的意图感知查询重写来提高检索精度,从而改善最终推理的有效性。在法律和医疗案例检索方面进行的实验表明,我们的框架显著提高了召回率和精确率。我们的多视角检索方法释放了多视角信息增强 RAG 任务的潜力,加速了 LLM 在知识密集型领域的进一步应用。

3.Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks

标题:Mathify:评估数学问题解决任务中的大型语言模型

author:Avinash Anand, Mohit Gupta, Kritarth Prasad, Navya Singla, Sanjana Sanjeev, Jatin Kumar, Adarsh Raj Shivam, Rajiv Ratn Shah

publish:10 pages, 3 figures, NeurIPS 2023 Workshop on Generative AI for
Education (GAIED)

date Time:2024-04-19

paper pdf:http://arxiv.org/pdf/2404.13099v1

摘要
自然语言处理(NLP)系统领域的飞速发展和大型语言模型(LLM)的扩展为教育和教学方法领域带来了众多机遇。这些进步为量身定制的学习体验和即时反馈提供了可能,而所有这些都是通过方便且具有成本效益的服务提供的。这一技术进步的一个显著应用领域是数学问题的解决。数学问题的解决不仅需要破译复杂问题陈述的能力,还需要在解决问题过程的每一步都进行精确运算的技能。然而,对大型语言模型运算能力的评估仍然是一个关注度相对较低的领域。为此,我们引入了一个名为 "MathQuest "的广泛数学数据集,该数据集来自第 11 和 12 级标准数学 NCERT 教科书。该数据集包含不同复杂程度的数学挑战,涵盖广泛的数学概念。利用这个数据集,我们对三个著名的 LLM 进行了微调实验:LLaMA-2、WizardMath 和 MAmmoTH。这些经过微调的模型是评估它们在数据集上性能的基准。我们的实验表明,在这三个模型中,MAmmoTH-13B 的能力最强,在解决所提出的数学问题方面达到了最高水平。因此,MAmmoTH-13B 成为了解决 NCERT 数学问题的强大而可靠的基准。

4.Dubo-SQL: Diverse Retrieval-Augmented Generation and Fine Tuning for Text-to-SQL

标题:Dubo-SQL:文本到 SQL 的多样化检索增强生成和微调

author:Dayton G. Thorpe, Andrew J. Duberstein, Ian A. Kinsey

publish:10 pages, 3 figures, 3 tables

date Time:2024-04-19

paper pdf:http://arxiv.org/pdf/2404.12560v1

摘要
根据 BIRD-SQL 基准的执行准确性(EX)衡量,目前最先进的自动文本到 SQL(SOTA)仍然远远达不到人类专家的水平。最精确的方法也是缓慢而昂贵的。为了在降低成本和提高速度的同时推进文本到 SQL 的 SOTA,我们探索了低成本微调、多样化检索增强生成 (RAG) 的新方法以及帮助大型语言模型 (LLM) 实现更高 EX 的新输入和输出格式的组合。我们介绍了两种新方法:Dubo-SQL v1 和 v2。Dubo-SQL v1 在 BIRD-SQL 的保留测试集上创下了 EX 新纪录。Dubo-SQL v2 在 BIRD-SQL 开发集上取得了更高的性能。Dubo-SQL v1依赖于OpenAI的LLM,但使用的是低成本的GPT-3.5 Turbo,其性能超过了使用OpenAI的次优模型,后者使用的是更昂贵的GPT-4。Dubo-SQL v1 的性能比使用 GPT-3.5 的次优机型高出 20% 以上。Dubo-SQL v2 使用 GPT-4 Turbo 和 RAG 代替微调,以提高 EX。

5.When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes

标题:当 LLM 不合适时,使用 FastFit:快速有效地进行多类文本分类

author:Asaf Yehudai, Elron Bendel

publish:Accepted to NAACL

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12365v1

摘要
我们介绍的 FastFit 是一种方法,也是一个 Python 软件包,旨在提供快速、准确的少量分类,尤其是在有许多语义相似类别的情况下。FastFit 采用了一种新颖的方法,将批量对比学习和标记级相似性得分整合在一起。与现有的少量学习软件包(如 SetFit、Transformers 或通过 API 调用对大型语言模型进行少量提示)相比,FastFit 在 FewMany、我们新策划的英语基准和多语言数据集上显著提高了多类分类的速度和准确性。FastFit 的训练速度提高了 3-20 倍,只需几秒钟就能完成训练。FastFit 软件包现已在 GitHub 和 PyPi 上发布,为 NLP 从业人员提供了用户友好型解决方案。

6.V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

标题:V2Xum-LLM:跨模态视频摘要与时态提示指令调整

author:Hang Hua, Yunlong Tang, Chenliang Xu, Jiebo Luo

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12353v1

摘要
视频摘要旨在为较长的视频创建简短、准确和连贯的摘要。尽管存在各种视频摘要数据集,但其显著的局限性在于源视频数量有限,这妨碍了对先进的大型视觉语言模型(VLM)进行有效的微调。此外,大多数现有数据集都是为视频到视频摘要而创建的,忽略了当代多模态视频内容摘要的需求。最近,人们努力将单模态视频摘要扩展到多模态视频摘要,根据摘要的模态将任务分为三个子任务:视频到视频(V2V)、视频到文本(V2T)以及视频和文本组合摘要(V2VT)。然而,以往多模态数据集中的文本摘要并不完善。为了解决这些问题,我们引入了Instruct-V2Xum,这是一个跨模态视频摘要数据集,包含30,000个来自YouTube的不同视频,视频长度从40秒到940秒不等,平均摘要率为16.39/%。Instruct-V2Xum 中的每个视频摘要都与引用特定帧索引的文本摘要配对,从而有助于生成对齐的视频和文本摘要。此外,我们还提出了一个新的视频摘要框架,名为 V2Xum-LLM。V2Xum-LLM,特别是本研究中的 V2Xum-LaMA,是第一个将不同的视频摘要任务统一到一个大语言模型(LLM)文本解码器中的框架,并通过时间提示和任务指示实现了任务可控的视频摘要。实验表明,V2Xum-LaMA 在多个视频摘要任务中的表现优于强基准模型。此外,我们还针对 V2V 和 V2VT 摘要任务提出了增强型评估指标。

7.Large Language Models in Targeted Sentiment Analysis

标题:目标情感分析中的大型语言模型

author:Nicolay Rusnachenko, Anton Golubev, Natalia Loukachevitch

publish:Fine-tuned Flan-T5-xl outperforms the top #1 results of
transformer-based classifier in RuSentNE-2023 competition, to appear in
Lobachevskii Journal of Mathematics No.8/2024 proceedings

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12342v1

摘要
在本文中,我们研究了如何使用基于解码器的生成转换器来提取俄语新闻文章中命名实体的情感。我们研究了指令调整大型语言模型(LLM)的情感分析能力。我们在研究中考虑了 RuSentNE-2023 数据集。第一组实验旨在评估 LLMs 在封闭和开放透明环境下的零拍摄能力。第二组实验使用 “思维链”(CoT)三跳推理框架(THoR)对 Flan-T5 进行微调。我们发现,零镜头方法的结果与基于编码器的基线微调变换器(BERT-base)所取得的结果相似。采用 THoR 的微调 Flan-T5 模型的推理能力与基准模型相比至少提高了 5%。经过微调的 Flan-T5-xl 在 RuSentNE-2023 上取得了情感分析的最佳结果,超过了以前基于变换器的最先进分类器的结果。我们的 CoT 应用框架已公开发布:https://github.com/nicolay-r/Reasoning-for-Sentiment-Analysis-Framework

8.Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting

标题:通过基于大语言模型的文本丰富和重写提高嵌入性能

author:Nicholas Harris, Anand Butani, Syed Hashmy

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12283v1

摘要
嵌入模型对各种自然语言处理任务至关重要,但可能会受到词汇量有限、缺乏上下文和语法错误等因素的限制。本文提出了一种提高嵌入性能的新方法,即利用大型语言模型(LLM)在嵌入过程之前丰富和重写输入文本。通过利用 ChatGPT 3.5 来提供额外的上下文、纠正不准确之处并纳入元数据,所提出的方法旨在提高嵌入模型的实用性和准确性。我们在三个数据集上评估了这种方法的有效性:Banking77Classification、TwitterSemEval 2015 和 Amazon Counter-factual Classification。结果表明,与基线模型相比,TwitterSemEval 2015 数据集上的嵌入模型有了明显改善,表现最好的嵌入模型获得了 85.34 分,而之前在大规模文本嵌入基准(MTEB)排行榜上的最好成绩是 81.52 分。然而,在其他两个数据集上的表现则不尽如人意,这突出表明了考虑特定领域特征的重要性。研究结果表明,基于 LLM 的文本浓缩在提高嵌入性能方面取得了可喜的成果,尤其是在某些领域。因此,可以避免嵌入过程中的诸多限制。

9.OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

标题:OpenBezoar:根据混合教学数据训练的小型、经济高效的开放式模型

author:Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake

publish:25 pages, 27 Figures, 8 Tables

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12195v1

摘要
针对各种下游任务对预先训练的 LLM 进行微调的教学已经取得了显著的成功,并引起了学术界和实践者的兴趣。为确保微调后的 LLM 符合人类偏好,出现了 RLHF 和 DPO 等技术。与此同时,人们对模型的较小参数数也越来越感兴趣。在这项工作中,我们以 OpenLLaMA 3Bv2 为基础模型,介绍了用于微调 OpenBezoar 模型系列的方法。在此配方中首先,我们使用 Falcon-40B 模型的开放式非限制性指令微调变体,根据以下三种方案生成合成指令微调数据:LaMini-LM、WizardLM/Evol-Instruct(以 databricks-dolly-15k 为种子数据集)和 Orca(以 Flan Collection 为种子数据集),然后使用 GPT-4 作为人类代理对这些生成的数据进行过滤。然后,我们对每种方案依次进行基于 QLoRA 的高性价比监督微调。在使用 DPO 损失获得最终检查点之前,使用 HH-RLHF 数据集的子集进一步微调所得到的检查点,以尽量减少分布偏移。评估使用了 LM Eval Harness 任务/度量标准,以及使用 Claude 2.1 的 "LLM-as-a-judge "框架在 MT-Bench 上进行,结果发现最终检查点 "OpenBezoar-HH-RLHF-DPO "在 3B 参数规模下表现出优于许多模型的性能,甚至超过了 Huggingface Open LLM Leaderboard 上某一类别中的顶级模型。我们发布了 “OpenBezoar-SFT”、“OpenBezoar-HH-RLHF-SFT”、"OpenBezoar-HH-RLHF-DPO "检查点,以及我们在 HuggingFace 上生成的数据集(https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc)和我们的代码库(https://bitbucket.org/paladinanalytics/workspace/projects/OP)。

10.LongEmbed: Extending Embedding Models for Long Context Retrieval

标题:LongEmbed:为长语境检索扩展嵌入模型

author:Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li

publish:Fix results for Nomic

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12096v2

摘要
嵌入模型在 IR 和 RAG 等现代 NLP 应用中发挥着举足轻重的作用。虽然 LLM 的上下文限制已超过 100 万个词组,但嵌入模型仍被限制在不超过 8k 词组的狭窄上下文窗口内,无法应用于法律合同等需要长输入的应用场景。本文探讨了现有嵌入模型的上下文窗口扩展,在不需要额外训练的情况下将上限提高到 32k。首先,我们在新构建的 LongEmbed 基准上检验了现有嵌入模型在长上下文检索方面的性能。LongEmbed 包括两个合成任务和四个精心挑选的实际任务,其特点是文档长短不一,目标信息分散。基准测试结果表明,这些模型还有巨大的改进空间。在此基础上,综合实验表明,免训练上下文窗口扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展数倍,无论其原始上下文是 512 还是超过 4k。此外,对于采用绝对位置编码(APE)的模型,我们展示了进一步微调的可能性,从而在严格保留短输入原始行为的同时,获得显著的性能提升。对于采用旋转位置嵌入(RoPE)的模型,当采用特定于 RoPE 的方法(如 NTK 和 SelfExtend)时,可以观察到显著的增强,这表明 RoPE 在上下文窗口扩展方面优于 APE。为促进未来研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 以及 LongEmbed 基准。

11.RAGAR, Your Falsehood RADAR: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models

标题:RAGAR,您的谬误雷达:使用多模态大语言模型进行政治事实检查的 RAG 增强推理法

author:M. Abdul Khaliq, P. Chang, M. Ma, B. Pflugfelder, F. Miletić

publish:8 pages, submitted to ACL Rolling Review

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12065v1

摘要
错误信息带来的挑战不断升级,尤其是在政治言论方面,这就需要先进的事实核查解决方案。我们引入了创新方法,通过将大语言模型(LLM)与基于检索增强生成(RAG)的高级推理技术相结合,提高多模态事实检查的可靠性和效率。这项工作提出了两种新方法:RAG 链(CoRAG)和 RAG 树(ToRAG)。这两种方法的设计目的是通过推理需要根据以前的证据回答的下一个问题来处理多模态索赔。与传统的事实检查方法相比,我们的方法提高了真实性预测和解释生成的准确性,而传统的事实检查方法是通过思维链真实性预测生成子问题。通过采用善于分析文本和图像的多模态 LLM,这项研究提高了自动系统识别和反击错误信息的能力。

12.Can We Catch the Elephant? The Evolvement of Hallucination Evaluation on Natural Language Generation: A Survey

标题:我们能抓住大象吗?自然语言生成中幻觉评估的演变:调查

author:Siya Qi, Yulan He, Zheng Yuan

publish:19 pages in total, with 9 pages as main body. Under review as a
conference paper at CoLM 2024

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12041v1

摘要
自然语言生成(NLG)中的幻觉就像房间里的大象,显而易见却常常被忽视,直到最近的成果显著提高了生成文本的流畅性和语法准确性。对于大型语言模型(LLM)来说,幻觉可能发生在各种下游任务和闲聊中,需要进行准确评估以提高可靠性和安全性。然而,目前关于幻觉评估的研究千差万别,人们仍然难以梳理和选择最合适的评估方法。此外,随着NLP研究逐渐转向LLM领域,也给这一方向带来了新的挑战。本文对幻觉评价方法的发展进行了全面考察,旨在解决三个关键方面的问题:1)事实的不同定义和粒度;2)自动评价器的类别及其适用性;3)未解决的问题和未来方向。

13.Exploring the landscape of large language models: Foundations, techniques, and challenges

标题:探索大型语言模型的前景:基础、技术和挑战

author:Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.11973v1

摘要
在这篇综述论文中,我们深入探讨了大型语言模型(LLMs)领域,涵盖了其基本原理、各种应用和细微的训练过程。文章阐明了语境中学习的机制和一系列微调方法,并特别关注优化参数使用效率的方法。此外,文章还探讨了如何通过创新的强化学习框架和其他结合人类反馈的新方法,使 LLM 更贴近人类的偏好。文章还探讨了将外部知识整合到 LLM 中的新兴检索增强生成技术。文章还讨论了部署 LLM 的道德层面,强调了谨慎和负责任地应用 LLM 的必要性。这篇综述以对未来研究轨迹的展望作为结束语,简洁而全面地概述了 LLM 不断发展的现状和新兴趋势,为人工智能研究人员和从业人员提供了富有洞察力的指导。

14.CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment

标题:CrossIn:跨语言知识对齐的高效指令调整方法

author:Geyu Lin, Bin Wang, Zhengyuan Liu, Nancy F. Chen

publish:11 pages

date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.11932v1

摘要
多语言能力对大型语言模型(LLM)来说是一个巨大的挑战。以英语为中心的模型通常在其他语言中表现不佳,尤其是那些在语言上与英语相距甚远的语言。这种性能差异主要源于在预训练和指令调整阶段,训练数据在不同语言间的分布不平衡。为解决这一问题,我们提出了一种名为 CrossIn 的新方法,它利用了跨语言指令调整数据的混合组合。我们的方法利用各种语言共享的压缩表示法,在单个过程中有效提高模型的任务解决能力和多语言能力。此外,我们还引入了一个多任务和多方面的基准来评估 CrossIn 的有效性。实验结果表明,我们的方法大大提高了跨任务和跨语言的性能,我们还就跨语言数据量和翻译数据整合对提高多语言一致性和准确性的影响提供了广泛的见解。

15.Position Engineering: Boosting Large Language Models through Positional Information Manipulation

标题:位置工程:通过位置信息处理提升大型语言模型

author:Zhiyuan He, Huiqiang Jiang, Zilong Wang, Yuqing Yang, Luna Qiu, Lili Qiu

date Time:2024-04-17

paper pdf:http://arxiv.org/pdf/2404.11216v1

摘要
大型语言模型(LLM)的性能在很大程度上受提示质量的影响。为此,研究人员开发了大量提示工程策略,旨在修改提示文本以提高任务性能。在本文中,我们介绍了一种称为 "位置工程 "的新技术,它为引导大型语言模型提供了一种更有效的方法。提示工程需要花费大量精力来修改提供给 LLM 的文本,而位置工程则不同,它只需修改提示中的位置信息,而无需修改文本本身。我们在两种广泛使用的 LLM 场景中对位置工程进行了评估:检索增强生成(RAG)和上下文学习(ICL)。我们的研究结果表明,在这两种情况下,位置工程都大大提高了基线的性能。因此,位置工程是利用大型语言模型能力的一种很有前途的新策略。

16.LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs

标题:LLMem:估算微调预训练 LLM 的 GPU 内存使用量

author:Taeho Kim, Yanming Wang, Vatshank Chaturvedi, Lokesh Gupta, Seyeon Kim, Yongin Kwon, Sangtae Ha

publish:9 pages, 9 figures, accepted to IJCAI 2024

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10933v1

摘要
由于 GPU 内存限制,在硬件有限的情况下对预训练的大型语言模型(LLM)进行微调是一项挑战。为了缓解 GPU 的内存限制,人们提出了各种分布式微调方法。然而,如何确定最有效的方法,既能实现快速微调,又能在特定环境中防止 GPU 内存不足问题,目前仍不清楚。为了应对这一挑战,我们引入了 LLMem,这是一种在多个 GPU 上应用分布式微调方法时估算 GPU 内存消耗并确定最佳方法的解决方案。我们利用基于变压器的解码器模型的基本结构和每种方法的内存用量分布,在微调之前进行 GPU 内存用量估算。实验结果表明,LLMem 能准确估算单个 GPU 的峰值 GPU 内存使用量,误差率高达 1.6%。此外,当在多 GPU 设置上对参数超过 10 亿的 LLM 应用分布式微调方法时,它显示出 3.0% 的平均错误率。

17.Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

标题:在 LLM 对齐方面,DPO 是否优于 PPO?综合研究

author:Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu

publish:16 pages, 2 figures, 14 tables

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10719v2

摘要
从人类反馈中强化学习(RLHF)是目前最广泛使用的一种方法,用于使大型语言模型(LLM)与人类偏好相一致。现有的 RLHF 方法大致可分为基于奖励和无奖励两种。ChatGPT 和 Claude 等新应用利用基于奖励的方法,首先学习奖励模型,然后应用演员批评算法,如临近策略优化 (PPO)。然而,在学术基准中,最先进的结果往往是通过无奖励方法实现的,如直接偏好优化(DPO)。DPO 真的优于 PPO 吗?为什么 PPO 在这些基准测试中表现不佳?在本文中,我们首先对 DPO 的算法特性进行了理论和实证研究,结果表明 DPO 可能存在根本性的局限。此外,我们还全面研究了 PPO,并揭示了 PPO 在微调 LLM 时取得最佳性能的关键因素。最后,我们在一系列从对话到代码生成的 RLHF 测试平台上对 DPO 和 PPO 进行了基准测试。实验结果表明,PPO 能够在所有情况下超越其他对齐方法,并在具有挑战性的代码竞赛中取得最先进的结果。

18.Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

标题:自动评估自动驾驶角落案例中的大型视觉语言模型

author:Yanze Li, Wenhua Zhang, Kai Chen, Yanxin Liu, Pengxiang Li, Ruiyuan Gao, Lanqing Hong, Meng Tian, Xinhai Zhao, Zhenguo Li, Dit-Yan Yeung, Huchuan Lu, Xu Jia

publish:Project Page: https://coda-dataset.github.io/coda-lm/

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10595v1

摘要
大型视觉语言模型(LVLMs)具有理解图像和视频的卓越视觉推理能力,在自动驾驶领域受到广泛关注,极大地推动了可解释端到端自动驾驶的发展。然而,目前对 LVLM 的评估主要集中在普通场景下的多方面能力,缺乏自动驾驶背景下的量化和自动化评估,更不用说连最先进的自动驾驶感知系统都难以处理的严重道路拐角情况。在本文中,我们提出了用于自动驾驶的新型视觉语言基准 CODA-LM,它首次为可解释的自动驾驶提供了 LVLM 的自动定量评估,包括一般感知、区域感知和驾驶建议。CODA-LM 利用文本来描述道路图像,在没有图像输入的情况下利用强大的纯文本大语言模型(LLM)来评估 LVLM 在自动驾驶场景中的能力,结果表明它比 LVLM 裁判更符合人类偏好。实验证明,即使是 GPT-4V 这样的闭源商业 LVLM 也无法很好地处理道路拐角情况,这表明我们离强大的 LVLM 驱动的智能驾驶代理还很遥远,希望我们的 CODA-LM 能够成为推动未来发展的催化剂。

19.Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering

标题:高效知识路径推理:知识图谱指导领域问题解答的大型语言模型

author:Yuqi Wang, Boran Jiang, Yi Luo, Dawei He, Peng Cheng, Liangcai Gao

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10384v1

摘要
大型语言模型(LLM),如 GPT3.5、GPT4 和 LLAMA2,在许多任务中的表现都出人意料地好,超过了人类专家。然而,在许多特定领域的评估中,由于相关语料的训练不足,这些 LLM 经常出现幻觉问题。此外,对大型模型进行微调可能会面临一些问题,如 LLMs 不开源或难以构建高质量的领域指导。因此,知识图谱等结构化知识数据库能更好地为 LLM 提供领域背景知识,充分发挥 LLM 的推理和分析能力。在以往的一些工作中,通过问题检索子图时,LLM 会被多次调用,以确定当前三元组是否适合包含在子图中。特别是对于需要多跳推理路径的问题,频繁调用 LLM 会消耗大量计算能力。此外,在选择推理路径时,每一步都会调用一次 LLM,如果其中一步选择错误,就会导致后续步骤的错误累积。本文集成并优化了基于 LLM 的从 KG 中选择推理路径的流水线,可以减少对 LLM 的依赖。此外,我们还提出了一种基于思维链(CoT)和页面等级的简单有效的子图检索方法,可以返回最有可能包含答案的路径。我们在三个数据集上进行了实验:我们在三个数据集上进行了实验:GenMedGPT-5k [14]、WebQuestions [2] 和 CMCQA [21]。最后,RoK 可以证明,使用较少的 LLM 调用就能获得与以前的 SOTAs 模型相同的结果。

20.Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards

标题:自我探索,避开陷阱:通过细粒度奖励提高语言模型的推理能力

author:Hyeonbin Hwang, Doyoung Kim, Seungone Kim, Seonghyeon Ye, Minjoon Seo

publish:Preprint Under Review

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10346v3

摘要
对大量理由进行训练(即 CoT 微调)可有效提高大型语言模型(LLM)的推理能力。然而,从专有模型中获取人类撰写的推理或增强推理的成本很高,而且无法扩展。在本文中,我们研究了 LLM 能否自我提高推理能力的问题。为此,我们提出了 “自我探索”(Self-Explore)方案,即让 LLM 负责探索推理中的第一个错误步骤(即第一个坑),并将这些信号作为细粒度奖励,用于进一步改进。在 GSM8K 和 MATH 测试集上,与监督微调(SFT)相比,Self-Explore 在三个 LLM 中分别取得了 11.57% 和 2.89% 的平均改进。我们的代码见 https://github.com/hbin0701/Self-Explore。

21.Towards Complex Ontology Alignment using Large Language Models

标题:利用大型语言模型实现复杂本体对齐

author:Reihaneh Amini, Sanaz Saki Norouzi, Pascal Hitzler, Reza Amini

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10329v1

摘要
本体对齐是语义网(Semantic Web)中检测不同本体之间关系的一个关键过程,传统上侧重于通过类标签和属性比较来识别所谓 "简单 "的一对一关系。对更复杂的配准进行更实用的探索仍然是一个难以自动化的问题,因此在很大程度上还没有得到充分的探索,也就是说,在应用实践中,通常是由本体和领域专家手工完成的。最近,在大型语言模型(LLMs)的推动下,自然语言处理(NLP)能力激增,为增强本体工程实践(包括本体对齐任务)带来了新的机遇。本文研究了如何应用 LLM 技术来应对复杂的本体对齐挑战。利用基于提示的方法并整合丰富的本体内容所谓模块,我们的工作在实现复杂对齐任务自动化方面取得了重大进展。

22.LLMs4OM: Matching Ontologies with Large Language Models

标题:LLMs4OM:用大型语言模型匹配本体

author:Hamed Babaei Giglou, Jennifer D’Souza, Felix Engel, Sören Auer

publish:8 pages, 1 figure, accepted to ESWC 2024 Special Track on LLMs for
Knowledge Engineering
(https://2024.eswc-conferences.org/call-for-papers-llms/)

date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10317v2

摘要
本体匹配(OM)是知识集成中的一项关键任务,通过对异构本体进行匹配,可以促进数据互操作性和知识共享。传统的本体匹配系统通常依赖于专家知识或预测模型,对大型语言模型(LLM)潜力的挖掘有限。我们提出了 LLMs4OM 框架,这是一种评估 LLMs 在 OM 任务中有效性的新方法。该框架利用两个模块分别进行检索和匹配,并在概念、概念-父模块和概念-子模块这三种本体表示中通过零点提示进行增强。通过使用来自不同领域的 20 个 OM 数据集进行综合评估,我们证明了 LLMs4OM 框架下的 LLMs 可以媲美甚至超越传统 OM 系统的性能,尤其是在复杂的匹配场景中。我们的研究结果凸显了 LLMs 在 OM 领域做出重大贡献的潜力。

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值