文章目录~
- 1.Improving LLM-based Document-level Machine Translation with Multi-Knowledge Fusion
- 2.Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection
- 3.HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models
- 4.Text Compression for Efficient Language Generation
- 5.LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMs
- 6.Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models
- 7.Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning
- 8.RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models
- 9.New Trends for Modern Machine Translation with Large Reasoning Models
- 10.KV-Distill: Nearly Lossless Learnable Context Compression for LLMs
- 11.Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation
- 12.Retrieval-Augmented Generation with Hierarchical Knowledge
- 13.AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation
- 14.ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs
- 15.Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval
- 16.Cost-Optimal Grouped-Query Attention for Long-Context LLMs
- 17.Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
- 18.A Survey on Enhancing Causal Reasoning Ability of Large Language Models
- 19.Leveraging Knowledge Graphs and LLMs for Context-Aware Messaging
- 20.I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?
- 21.Exploring the Word Sense Disambiguation Capabilities of Large Language Models
- 22.Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
- 23.DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process
- 24.Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models
- 25.OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning
- 26.Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos
- 27.DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch
- 28.Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method
- 29.LLM-Powered Knowledge Graphs for Enterprise Intelligence and Analytics
- 30.EFPC: Towards Efficient and Flexible Prompt Compression
1.Improving LLM-based Document-level Machine Translation with Multi-Knowledge Fusion
标题:利用多知识融合改进基于 LLM 的文档级机器翻译
author:Bin Liu, Xinglin Lyu, Junhui Li, Daimeng Wei, Min Zhang, Shimin Tao, Hao Yang
date Time:2025-03-15
paper pdf:http://arxiv.org/pdf/2503.12152v1
摘要:
近期针对文档级机器翻译(DMT)的大语言模型(LLM)提示研究主要集中在将源文件平铺成一个长序列的句子间上下文上。这种方法完全依赖于文档中的句子序列。然而,文档级序列的复杂性大于较短的句子级序列,这可能会限制 LLM 在仅使用这种单一源知识时的 DMT 能力。在本文中,我们提出了一种增强型方法,即结合文档摘要和实体翻译等多源知识来提高基于 LLM 的 DMT 性能。给定源文件后,我们首先通过 LLM 获取其摘要和实体翻译作为附加知识。然后,我们利用 LLM,通过融合这两个单一知识源,分别生成源文档的两种翻译。最后,考虑到不同的知识源可能会帮助或阻碍不同句子的翻译,我们利用多知识融合策略对译文进行完善和排序,以确保获得最佳结果。八项文档级翻译任务的实验结果表明,在 LLaMA3-8B-Instruct、Mistral-Nemo-Instruct 和 GPT-4o-mini 中,我们的方法比没有额外知识的基线平均分别提高了 0.8、0.6 和 0.4 个 COMET 分数。
2.Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection
标题:语义剪辑:利用语义引导的视觉选择进行高效视觉语言建模
author:Bangzheng Li, Fei Wang, Wenxuan Zhou, Nan Xu, Ben Zhou, Sheng Zhang, Hoifung Poon, Muhao Chen
date Time:2025-03-14
paper pdf:http://arxiv.org/pdf/2503.11794v1
摘要:
视觉语言模型(VLM)利用对齐的视觉编码器将图像转换为视觉标记,使其能够由骨干大语言模型(LLM)进行类似于文本的处理。这种统一的输入范式使视觉语言模型在视觉问题解答(VQA)等视觉语言任务中表现出色。为了改进细粒度视觉推理,视觉语言建模的最新进展是引入图像裁剪技术,将所有编码子图像输入模型。然而,这种方法大大增加了视觉标记的数量,导致效率低下,并可能分散 LLM 的注意力。为了解决 VLM 中图像表示的通用化难题,我们提出了一种轻量级通用框架,可与现有的 VLM 无缝集成,以增强其处理细粒度细节的能力。我们的方法利用文本语义识别关键视觉区域,无需对 VLM 进行任何重新训练即可提高 VQA 性能。此外,它还将文本信号纳入了视觉编码过程,从而提高了效率和效果。所提出的 SEMCLIP 方法在 7 项基准测试中平均提高了 7B VLM、LLaVA-1.5 的视觉理解能力 3.3%,特别是在具有挑战性的详细理解基准测试 V* 中提高了 5.3%。
3.HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models
标题:HiTVideo:利用自回归大语言模型增强文本到视频生成的分层标记器
author:Ziqin Zhou, Yifan Yang, Yuqing Yang, Tianyu He, Houwen Peng, Kai Qiu, Qi Dai, Lili Qiu, Chong Luo, Lingqiao Liu
date Time:2025-03-14
paper pdf:http://arxiv.org/pdf/2503.11513v1
摘要:
由于视频数据跨越时间和空间维度,其固有的复杂性给文本到视频的生成带来了巨大挑战。它带来了额外的冗余、突变以及语言和视觉标记生成之间的领域差距。要应对这些挑战,就需要一种有效的视频标记符号生成器,它既能对视频数据进行高效编码,又能保留重要的语义和时空信息,是连接文本和视觉的重要桥梁。受 VQ-VAE-2 和传统动画工作流程的启发,我们提出了使用分层标记符号生成文本到视频的 HiTVideo。它利用具有多层离散标记框架的三维因果 VAE,将视频内容编码为分层结构的编码本。高层以更高的压缩率捕捉语义信息,而低层则专注于细粒度的时空细节,在压缩效率和重构质量之间取得平衡。我们的方法能有效地编码较长的视频序列(如 8 秒、64 帧),与基线标记化器相比,每像素比特数(bpp)减少了约 70%,同时保持了有竞争力的重建质量。我们探索了压缩和重建之间的权衡,同时强调了高压缩语义标记在文本到视频任务中的优势。HiTVideo 旨在解决现有视频标记符号生成器在文本到视频生成任务中的潜在局限性,努力实现更高的压缩率,并简化语言指导下的 LLMs 建模,为推进文本到视频生成提供一个可扩展且前景广阔的框架。演示页面:https://ziqinzhou66.github.io/project/HiTVideo。
4.Text Compression for Efficient Language Generation
标题:文本压缩促进高效语言生成
author:David Gu, Peter Belcak, Roger Wattenhofer
publish:accepted to NAACL SRW 2025
date Time:2025-03-14
paper pdf:http://arxiv.org/pdf/2503.11426v1
摘要:
我们要挑战的是,LLM 必须完全依赖子词标记才能生成高质量文本的普遍假设。为此,我们提出了 “Generative Pretrained Thoughtformer”(GPTHF),这是一种分层转换语言模型,能够通过将文本压缩为句子嵌入并采用句子关注机制来生成文本。GPTHF 保留了 GPT 的架构,仅通过动态稀疏注意力掩码修改标记交互。 我们的实验表明,与同等大小的 GPT 模型相比,GPTHF 的 FLOPs 效率提高了一个数量级,运行速度提高了三倍。这是通过一种独特的生成方法实现的,这种方法可以缓存和重用句子嵌入,从而使输入的大部分内容绕过网络的大部分。
5.LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMs
标题:LLaVA-MLB:减轻和利用注意力偏差,实现无训练视频 LLM
author:Leqi Shen, Tao He, Guoqiang Gong, Fan Yang, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Guiguang Ding
date Time:2025-03-14
paper pdf:http://arxiv.org/pdf/2503.11205v1
摘要:
免训练视频大语言模型(LLM)利用预训练图像 LLM 处理视频内容,无需进一步训练。此类方法面临的一个主要挑战是,受限于图像 LLM 的标记限制,难以保留基本的视觉和时间信息。为了解决这个问题,我们提出了一种基于 LLM 注意力分数选择查询相关标记的两阶段方法:压缩视频序列,然后扩展序列。然而,在压缩阶段,图像 LLM 通常会在视频序列中表现出位置注意力偏差,即注意力过度集中在后面的帧上,导致早期帧信息未得到充分利用。为了缓解序列压缩过程中的这种注意力偏差,我们提出了网格化注意力池,以保留时空结构。此外,我们还引入了视觉总结尾部技术,以有效利用这种偏差,从而在序列扩展过程中促进对视频的整体理解。通过这种方式,我们的方法有效地缓解并利用了注意力偏差(LLaVA-MLB),使冷冻图像 LLM 能够用于详细的视频理解。对多个基准的实验表明,我们的方法优于最先进的方法,在效率和准确性方面都取得了卓越的表现。我们的代码即将发布。
6.Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models
标题:揭示 DeepSeek 模型中的数学推理:大型语言模型比较研究
author:Afrar Jahin, Arif Hassan Zidan, Yu Bao, Shizhe Liang, Tianming Liu, Wei Zhang
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10573v1
摘要:
随着人工智能(AI)的飞速发展,大型语言模型(LLM)重塑了医疗保健、公共卫生、工程、科学、农业、教育、艺术、人文和数学推理等各个领域的前沿。在这些进步中,DeepSeek 模型已成为值得关注的竞争者,展示了使其有别于同类产品的强大能力。虽然以往的研究已经对 LLM 进行了比较分析,但很少有研究对各种 LLM 的数学推理进行全面评估。在这项工作中,我们旨在通过开展深入的比较研究来弥补这一差距,重点研究 DeepSeek 模型与其领先同行相比的优势和局限性。特别是,我们的研究通过三个独立的基准数据集,系统地评估了两个DeepSeek模型和五个著名LLM的数学推理性能。研究结果揭示了几个重要的见解:1).DeepSeek-R1在三个数据集中的两个数据集上始终保持最高准确率,展示了强大的数学推理能力。2).与同类产品相比,LLMs 的提炼变体表现明显不佳,这凸显了使用提炼技术的潜在缺陷。3).在响应时间方面,Gemini 2.0 Flash 的处理速度最快,在效率方面优于其他模型,而这正是实时应用的关键因素。除了这些量化评估,我们还深入研究了架构、训练和优化如何影响 LLM 的数学推理。此外,我们的研究还超越了单纯的性能比较,确定了 LLM 驱动的数学推理未来发展的关键领域。这项研究增强了我们对 LLM 数学推理的理解,并为未来的进步奠定了基础。
7.Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning
标题:通过语境外表征学习了解大型语言模型的逻辑能力
author:Jonathan Shaki, Emanuele La Malfa, Michael Wooldridge, Sarit Kraus
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10408v1
摘要:
我们研究了大型语言模型(LLM)在二元关系上的能力,二元关系是数学中无处不在的概念,被大多数推理、数学和逻辑基准所采用。这项工作的重点是等价、不等价和包含,以及它们所满足的属性,如ir/反身性、a/对称性、反转性和逻辑复杂性(如推理 "跳 "的次数)。我们提出了一种语境内学习的替代方法,即语境外表征学习,它只训练新引入标记的表征。这种方法可以减轻模型中已经存在的语言偏差,而且与上下文学习不同,它不依赖于外部信息或说明。我们认为,语境外表征学习是比语境内学习和微调更好的替代方法,可用于评估 LLM 在逻辑任务上的能力,而逻辑任务是更复杂推理基准的基石。
8.RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models
标题:RealGeneral:通过时态上下文学习与视频模型统一视觉生成
author:Yijing Lin, Mengqi Huang, Shuhan Zhuang, Zhendong Mao
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10406v1
摘要:
在单一框架内统一各种图像生成任务仍然是视觉生成领域的一项基本挑战。虽然大型语言模型(LLM)通过任务无关的数据和生成实现了统一,但现有的视觉生成模型却无法满足这些原则。目前的方法要么依赖于每个任务的数据集和大规模训练,要么对预先训练好的图像模型进行特定任务的修改,从而限制了它们的通用性。在这项工作中,我们利用视频模型固有的时间相关性建模能力,探索将视频模型作为统一图像生成的基础。我们引入了 RealGeneral,这是一个新颖的框架,它将图像生成重新表述为条件帧预测任务,类似于 LLM 中的上下文学习。为了缩小视频模型与条件图像对之间的差距,我们提出了(1)用于多模态对齐的统一条件嵌入模块和(2)具有解耦自适应层规范和注意力掩码的统一流 DiT 块,以减轻跨模态干扰。RealGeneral 在多个重要的视觉生成任务中都显示出了有效性,例如,它在定制生成任务中提高了 14.5% 的主体相似度,在 "狡猾的图像 "任务中提高了 10% 的图像质量。项目页面: https://lyne1.github.io/RealGeneral/
9.New Trends for Modern Machine Translation with Large Reasoning Models
标题:利用大型推理模型实现现代机器翻译的新趋势
author:Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Zifu Shang
publish:arXiv admin note: text overlap with arXiv:1701.04715 by other authors
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10351v2
摘要:
大型推理模型(LRMs),尤其是那些利用思维链推理(CoT)的大型推理模型的最新进展,为机器翻译(MT)带来了全新的可能性。本立场文件认为,LRMs 通过将翻译重构为一项动态推理任务,需要对语境、文化和语言的理解与推理,从而大大改变了传统的神经 MT 以及基于 LLMs 的 MT 范式。我们确定了三个基本转变:1)语境连贯性,即 LRM 通过对跨句子和复杂语境甚至缺乏语境的明确推理来解决歧义并保留话语结构;2)文化意向性,使模型能够通过推断说话者意图、受众期望和社会语言规范来调整输出;3)自我反思,LRM 可以在推理过程中进行自我反思,以纠正翻译中的潜在错误,尤其是在噪音极大的情况下,与简单映射 X->Y 翻译相比,LRM 表现出更好的鲁棒性。我们探讨了翻译中的各种情况,包括风格化翻译、文档级翻译和多模态翻译,并通过实证案例证明了 LRM 在翻译中的优越性。我们还发现了 LRM 在 MT 中的几个有趣现象,包括自动枢轴翻译以及翻译中的过度本地化和推理效率等关键挑战。总之,我们认为 LRMs 不仅将翻译系统重新定义为文本转换器,还将其定义为能够推理文本之外意义的多语言认知代理。这种范式的转变提醒我们在考虑翻译问题时,要超越传统的翻译场景,在更广阔的背景下考虑 LRMs - 我们能在其基础上实现什么。
10.KV-Distill: Nearly Lossless Learnable Context Compression for LLMs
标题:KV-Distill:针对 LLM 的近乎无损的可学习上下文压缩
author:Vivek Chari, Guanghui Qin, Benjamin Van Durme
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10337v1
摘要:
序列到序列任务通常受益于较长的上下文,但标准变形器中自我关注的二次方复杂性使得这并非易事。在生成过程中,存储在所谓的 KV 缓存中的临时表示占 GPU 内存使用量的很大一部分,并随上下文长度线性扩展。我们引入了 KV-Distill,这是一个 Transformer 压缩框架,它能以一种与问题无关的方式将较长的上下文 KV 缓存蒸馏为明显较短的表示。KV-Distill 可作为预训练模型的参数高效适配器进行训练,在保留预训练模型能力的同时,还能压缩上下文的任意跨度。我们将压缩-未压缩缓存视为学生-教师配对,并应用 KL 型发散来匹配生成的输出。在最坏情况下的提取任务中,KV-Distill 的性能优于其他压缩技术,在长上下文问题解答和摘要中,它的性能接近于未压缩的性能,而且它可以根据特定领域的上下文进行微调,在保持下游性能的同时,将长度减少多达 99%。我们展示了 KV-Distill 在各种模型大小和架构中的通用性。
11.Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation
标题:基于 LLM 的语音翻译的自适应内部语音-文本对齐
author:Henglyu Liu, Andong Chen, Kehai Chen, Xuefeng Bai, Meizhi Zhong, Yuan Qiu, Min Zhang
publish:12 pages, 7 figures
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10211v1
摘要:
近年来,大型语言模型(LLM)的发展在各种任务中取得了重大突破,为开发基于 LLM 的语音翻译系统奠定了基础。现有方法主要关注跨模态输入和输出的对齐,却忽视了模型表征内部更深层次的语义对齐。为了解决这一局限性,我们提出了一种自适应内部语音-文本对齐(AI-STA)方法,通过在 LLM 中选定的层明确对齐语音和文本表征来弥合模态差距。为此,我们利用最优传输(OT)理论来量化语音和文本之间的细粒度表征差异。此外,我们还利用跨模态检索技术来识别最适合对齐的层,并在这些层上进行联合训练。语音翻译(ST)任务的实验结果表明,AI-STA 显著提高了大型语音-文本模型(LSM)的翻译性能,优于之前最先进的方法。我们的研究结果凸显了 LLM 内层语音-文本对齐的重要性,并为增强跨模态学习提供了新的见解。
12.Retrieval-Augmented Generation with Hierarchical Knowledge
标题:利用分层知识进行检索-增强生成
author:Haoyu Huang, Yongfeng Huang, Junjie Yang, Zhenyu Pan, Yongqiang Chen, Kaili Ma, Hongzhi Chen, James Cheng
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10150v1
摘要:
基于图的检索增强生成(RAG)方法大大提高了大型语言模型(LLM)在特定领域任务中的性能。然而,现有的 RAG 方法没有充分利用人类认知中自然固有的分层知识,这限制了 RAG 系统的能力。在本文中,我们介绍了一种新的 RAG 方法,称为 HiRAG,它利用层次知识来增强 RAG 系统在索引和检索过程中的语义理解和结构捕捉能力。我们的大量实验证明,与最先进的基线方法相比,HiRAG 的性能有了显著提高。我们提出的方法的代码可在(href{https://github.com/hhy-huang/HiRAG}{https://github.com/hhy-huang/HiRAG})上查阅。
13.AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation
标题:AttentionRAG:检索增强生成中的注意力引导上下文剪枝
author:Yixiong Fang, Tianran Sun, Yuling Shi, Xiaodong Gu
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10720v1
摘要:
虽然 RAG 在 LLM 应用中表现出了非凡的能力,但其有效性却因检索上下文的长度不断增加而受到阻碍,这就带来了信息冗余和大量的计算开销。现有的上下文剪枝方法(如 LLMLingua)缺乏上下文意识,在控制压缩率方面的灵活性有限,往往导致剪枝不足或信息丢失过多。在本文中,我们提出了针对 RAG 系统的注意力引导上下文剪枝方法 AttentionRAG。AttentionRAG 的核心理念在于其注意力集中机制,该机制将 RAG 查询重新编排为下一个标记预测范式。该机制将查询的语义焦点隔离到单个标记,从而在查询和检索上下文之间实现精确高效的注意力计算。在 LongBench 和 Babilong 基准上进行的大量实验表明,AttentionRAG 实现了高达 6.3 美元/次的上下文压缩,同时在关键指标上优于 LLMLingua 方法约 10%。
14.ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs
标题:ZSMerge:零镜头 KV 缓存压缩,实现内存高效的长上下文 LLM
author:Xin Liu, Pei Liu, Guoming Tang
date Time:2025-03-13
paper pdf:http://arxiv.org/pdf/2503.10714v2
摘要:
键值(KV)缓存内存的线性增长和注意力机制复杂性的二次计算,对长语境处理中的大型语言模型(LLM)构成了重大瓶颈。虽然现有的 KV 缓存优化方法通过标记剪枝或特征合并来应对这些挑战,但它们往往会造成不可逆的信息损失,或需要代价高昂的参数重新训练。为此,我们提出了 ZSMerge,这是一种动态 KV 缓存压缩框架,旨在实现高效的缓存管理,具有三个关键操作:(1) 在头级粒度的多维标记重要性指标指导下进行细粒度内存分配;(2) 通过补偿注意力评分保留关键上下文的残差合并机制;(3) 与各种 LLM 架构兼容的零次适应机制,无需重新训练。ZSMerge 显著提高了内存效率和推理速度,而不同 LLM 的性能下降几乎可以忽略不计。当应用于 LLaMA2-7B 时,它展示了键值缓存保留的 20:1 压缩比(将内存占用减少到基线的 5/%),同时保持了可比的生成质量,在消除内存外故障的极端 54k 令牌上下文中,吞吐量提高了三倍。代码可在 https://github.com/SusCom-Lab/ZSMerge 上获取。
15.Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval
标题:注意力揭示的不仅仅是代币:注意力引导检索下的免训练长语境推理
author:Yuwei Zhang, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
publish:Work in progress
date Time:2025-03-12
paper pdf:http://arxiv.org/pdf/2503.09819v1
摘要:
大型语言模型(LLMs)的有效上下文长度往往大大短于其宣称的能力,尤其是在处理复杂的推理任务时,这些任务需要整合长上下文多个部分的信息并执行多步推理。虽然 “思维链”(CoT)提示在降低任务复杂性方面已显示出前景,但我们的实证分析表明,它并不能完全解决这一局限性。通过对照实验,我们发现对隐含事实的回忆能力差是导致推理失败的主要原因,这极大地影响了推理成绩。有趣的是,我们观察到,从生成的 CoT 标记中获得的内部注意力权重可以有效地将隐含事实作为基础,即使这些事实没有被明确地回忆出来。基于这一洞察力,我们提出了一种新颖的免训练算法–Attrieval,该算法利用注意力权重从长语境中检索相关事实,并将其纳入推理过程。此外,我们还发现从 CoT 标记中选择上下文标记可进一步提高性能。我们的研究结果表明,在使用各种模型的合成和真实世界质量保证数据集上,Attrieval 都能显著提高长语境推理能力。
16.Cost-Optimal Grouped-Query Attention for Long-Context LLMs
标题:长语境 LLM 的成本最优分组查询注意力
author:Yingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun
publish:16 pages, 17 figures
date Time:2025-03-12
paper pdf:http://arxiv.org/pdf/2503.09579v1
摘要:
最近,建立有效且高效的基于变换器的大型语言模型(LLM)已成为研究重点,这要求最大限度地提高模型的语言能力,同时最大限度地降低训练和部署成本。现有研究主要描述了模型性能、参数大小和数据大小之间的复杂关系,并寻找训练 LLM 的最佳计算分配。但是,它们忽略了上下文长度和注意力头配置(分组查询注意力中查询头和键值头的数量)对训练和推理的影响。在本文中,我们从模型性能、计算成本和内存成本的角度,系统地比较了不同参数大小、上下文长度和注意力头配置的模型。然后,我们扩展了现有的仅基于参数大小和训练计算的缩放方法,以指导在训练和推理过程中构建成本最优的 LLM。我们的定量缩放研究表明,在处理足够长的序列时,采用较少注意头的较大模型可以获得较低的损失,同时产生较低的计算和记忆成本。我们的研究结果为开发实用的 LLM 提供了宝贵的见解,尤其是在长语境处理场景中。我们将公开发布我们的代码和数据。
17.Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
标题:搜索-R1:利用强化学习训练 LLM,使其能够推理并利用搜索引擎
author:Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han
publish:31 pages
date Time:2025-03-12
paper pdf:http://arxiv.org/pdf/2503.09516v3
摘要:
有效获取外部知识和最新信息对于大型语言模型(LLM)的有效推理和文本生成至关重要。在推理过程中,提示具有推理能力的高级 LLM 使用搜索引擎往往不是最佳选择,因为 LLM 可能并不完全具备如何与搜索引擎进行最佳交互的能力。本文介绍了 Search-R1,它是强化学习(RL)在推理框架中的扩展,LLM 可学习在逐步推理过程中自主生成(多个)搜索查询,并进行实时检索。Search-R1 通过多轮搜索交互优化 LLM 的推理轨迹,利用检索标记掩码进行稳定的 RL 训练,并采用简单的基于结果的奖励函数。在七个问题解答数据集上进行的实验表明,在相同设置下,Search-R1 的性能比各种 RAG 基线分别提高了 41% (Qwen2.5-7B)和 20% (Qwen2.5-3B)。本文进一步提供了关于检索增强推理中的 RL 优化方法、LLM 选择和响应长度动态的经验见解。代码和模型检查点见 https://github.com/PeterGriffinJin/Search-R1。
18.A Survey on Enhancing Causal Reasoning Ability of Large Language Models
标题:关于增强大型语言模型因果推理能力的调查
author:Xin Li, Zhuo Cai, Shoujin Wang, Kun Yu, Fang Chen
date Time:2025-03-12
paper pdf:http://arxiv.org/pdf/2503.09326v1
摘要:
大型语言模型(LLMs)最近在语言任务及其他任务中表现出了卓越的性能。然而,由于其固有的因果推理能力有限,大型语言模型在处理需要强大因果推理能力的任务(如医疗保健和经济分析)时仍然面临挑战。因此,越来越多的研究集中于提高语言学者的因果推理能力。尽管研究方兴未艾,但目前还缺乏一份调查报告,对这一领域的挑战、进展和未来方向进行全面回顾。为了弥补这一重大空白,我们在本文中系统回顾了有关如何加强法学硕士因果推理能力的文献。我们首先介绍了这一主题的背景和动机,然后总结了这一领域的主要挑战。随后,我们提出了一种新颖的分类法,对现有方法进行系统分类,并对各类方法内部和之间进行详细比较。此外,我们还总结了评估 LLM 因果推理能力的现有基准和评价指标。最后,我们概述了这一新兴领域的未来研究方向,为该领域的研究人员和从业人员提供见解和启发。
19.Leveraging Knowledge Graphs and LLMs for Context-Aware Messaging
标题:利用知识图谱和 LLM 进行情境感知信息传递
author:Rajeev Kumar, Harishankar Kumar, Kumari Shalini
date Time:2025-03-12
paper pdf:http://arxiv.org/pdf/2503.13499v1
摘要:
个性化信息在改善医疗保健、教育和职业参与等领域的沟通方面发挥着至关重要的作用。本文介绍了一个使用知识图谱(KG)的框架,该框架通过整合个人和上下文特定数据,动态地重新表述书面交流内容。知识图谱将个人、地点和事件表示为关键节点,将信息中提到的实体与其相应的图谱节点联系起来。提取的相关信息(如偏好、职业角色和文化规范)与原始信息相结合,并通过大型语言模型(LLM)进行处理,从而生成个性化回复。该框架在不同领域的信息接受率显著提高:医疗保健领域为 42%,教育领域为 53%,专业招聘领域为 78%。通过整合实体链接、事件检测和语言建模,该方法为上下文感知、受众特定的通信提供了结构化和可扩展的解决方案,促进了不同领域的高级应用。
20.I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?
标题:我预测故我在:下一个代币预测足以从数据中学习人类可解释的概念吗?
author:Yuhang Liu, Dong Gong, Erdun Gao, Zhen Zhang, Biwei Huang, Mingming Gong, Anton van den Hengel, Javen Qinfeng Shi
date Time:2025-03-12
paper pdf:http://arxiv.org/pdf/2503.08980v1
摘要:
大型语言模型(LLMs)取得的卓越成就让许多人得出结论,认为它们展现了一种智能。这与基于其对海量数据进行相对简单操作的能力而对其能力做出的解释截然不同。为了阐明这些解释之间的区别,我们引入了一个新颖的生成模型,该模型根据人类可解释的概念生成标记,这些概念被表示为潜在的离散变量。在温和的条件下,即使从潜在空间到观察空间的映射是不可反转的,我们也建立了一个可识别的结果:LLM 通过下一个标记预测学习到的表征可以近似地建模为这些潜在离散概念的后验概率的对数,直至可反转的线性变换。这一理论发现不仅提供了 LLMs 捕捉潜在生成因素的证据,还有力地加强了线性表征假说,即 LLMs 学习人类可解释概念的线性表征。在经验方面,我们通过对模拟数据以及 Pythia、Llama 和 DeepSeek 模型系列进行评估,验证了我们的理论结果。
21.Exploring the Word Sense Disambiguation Capabilities of Large Language Models
标题:探索大型语言模型的词义消歧能力
author:Pierpaolo Basile, Lucia Siciliani, Elio Musacchio, Giovanni Semeraro
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08662v1
摘要:
词义消歧(WSD)是计算语言学的一项历史性任务,多年来一直备受关注。然而,随着大型语言模型(LLM)的出现,人们对这项任务(按其经典定义)的兴趣有所下降。在本研究中,我们评估了各种 LLM 在 WSD 任务中的性能。我们扩展了以前的基准(XL-WSD),重新设计了两个适合 LLM 的子任务:1)给定句子中的一个单词,LLM 必须生成正确的定义;2)给定句子中的一个单词和一组预定义,LLM 必须选择正确的定义。扩展基准是使用 XL-WSD 和 BabelNet 建立的。结果表明,LLM 在零点学习中表现良好,但无法超越当前最先进的方法。然而,具有中等参数数量的微调模型却优于所有其他模型,包括最先进的模型。
22.Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
标题:利用指令跟随检索器进行恶意信息检索
author:Parishad BehnamGhader, Nicholas Meade, Siva Reddy
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08644v1
摘要:
在实际应用中,指令跟踪检索器已被广泛采用,与 LLMs 并驾齐驱,但很少有人研究过围绕其不断增强的搜索能力所存在的安全风险。我们对检索器满足恶意查询的能力进行了实证研究,无论是直接使用还是在基于检索增强生成的设置中使用。具体来说,我们研究了包括 NV-Embed 和 LLM2Vec 在内的六种主要检索器,发现在给定恶意请求的情况下,大多数检索器都可以(在大于 50% 的查询中)选择相关的有害段落。例如,LLM2Vec 能为 61.35% 的恶意查询正确选择段落。我们进一步揭示了指令跟踪检索器正在出现的风险,即利用其指令跟踪功能,可以浮现出高度相关的有害信息。最后,我们还发现,即使是 Llama3 等安全对齐的 LLM,在获得有害检索段落的情况下,也能满足恶意请求。总之,我们的研究结果凸显了与提高检索器能力相关的恶意误用风险。
23.DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process
标题:DeepReview:利用类人深度思维过程改进基于 LLM 的论文评审
author:Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08569v1
摘要:
大语言模型(LLM)越来越多地被用于科研评估,尤其是自动论文评审。然而,现有的基于 LLM 的评审系统面临着巨大的挑战,包括有限的领域专业知识、幻觉推理以及缺乏结构化评估。为了解决这些局限性,我们引入了 DeepReview,这是一个多阶段框架,旨在通过整合结构化分析、文献检索和基于证据的论证来模拟专家审稿人。我们使用 DeepReview-13K 这个具有结构化注释的数据集训练 DeepReviewer-14B,它以更少的标记超越了 CycleReviewer-70B。在最佳模式下,DeepReviewer-14B在评估中对GPT-o1和DeepSeek-R1的胜率分别达到88.21%和80.20%。我们的工作为基于 LLM 的论文评审树立了新的标杆,所有资源都是公开的。代码、模型、数据集和演示已在 http://ai-researcher.net 上发布。
24.Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models
标题:利用结构化知识增强大型语言模型加强多跳事实验证
author:Han Cao, Lingwei Wei, Wei Zhou, Songlin Hu
publish:Accepted by AAAI 2025
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08495v1
摘要:
社交平台的快速发展加剧了错误信息的传播,从而激发了对事实验证的研究。近期的研究倾向于利用语义特征将这一问题作为单跳任务来解决。然而,验证一个主张的过程需要多个具有复杂内在逻辑和关系的证据,才能在现实世界中验证给定的主张。最近的研究试图同时提高理解能力和推理能力以提高性能,但它们忽略了实体之间的关键关系,而这些关系有利于模型更好地理解和促进预测。为了强调关系的重要性,我们采用了大型语言模型(LLM),因为它们具有出色的理解能力。与其他将 LLMs 作为预测器的方法不同,我们将其作为关系提取器,因为根据实验结果,LLMs 在理解而非推理方面做得更好。因此,为了解决上述挑战,我们提出了一种新颖的基于 LLM 的结构化知识增强网络(LLM-SKAN),用于多跳事实验证。具体来说,我们利用 LLM 驱动的知识提取器来捕捉细粒度信息,包括实体及其复杂关系。此外,我们还利用知识增强关系图融合模块与每个节点交互,全面学习更好的主张-证据表征。在四个常用数据集上的实验结果证明了我们模型的有效性和优越性。
25.OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning
标题:OpenRAG:通过上下文检索学习优化端到端 RAG
author:Jiawei Zhou, Lei Chen
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08398v1
摘要:
在本文中,我们分析并实证证明,在传统信息检索(IR)场景中学习到的相关性在检索增强生成(RAG)场景中可能不一致。为了弥补这一差距,我们引入了 OpenRAG,这是一种通过调整检索器来捕捉上下文相关性,从而进行端到端优化的 RAG 框架,能够适应多样化和不断发展的需求。在广泛的任务中进行的大量实验表明,OpenRAG 通过对检索器进行端到端调整,比原始检索器的性能持续提高了 4.0%,比现有的最先进检索器的性能持续提高了 2.1%。此外,我们的研究结果表明,在某些任务中,端到端调整的 0.2B 检索器可以实现超过面向 RAG 或指令调整的 8B 大型语言模型(LLM)的改进,这突出表明了我们的方法在增强 RAG 系统方面的成本效益。
26.Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos
标题:Prompt2LVideos:探索用于理解长篇多模态视频的提示语
author:Soumya Shamarao Jahagirdar, Jayasree Saha, C V Jawahar
publish:CVIP 2024
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08335v1
摘要:
学习多模态视频理解通常依赖于由视频片段和人工注释字幕组成的数据集。然而,在教育和新闻领域,由于需要更多具有学科专业知识的注释者,在处理从几分钟到几小时的长视频时,这就变得更具挑战性。因此,需要自动化解决方案。大型语言模型(LLM)的最新进展有望通过自动语音识别(ASR)和光学字符识别(OCR)技术来捕捉简洁、翔实的内容,从而帮助理解整个视频。ASR 从音频中提供文本内容,而 OCR 则从特定帧中提取文本内容。本文介绍了一个包含长篇讲座和新闻视频的数据集。我们介绍了基线方法,以了解它们在该数据集上的局限性,并提倡探索及时工程技术,以全面理解长格式多模态视频数据集。
27.DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch
标题:DeepRAG:从零开始构建用于检索增强生成的自定义印地语嵌入模型
author:Nandakishor M
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08213v1
摘要:
在本文中,我将介绍我们在 DeepRAG 方面的工作,这是我们专为 RAG 系统中的印地语建立的专用嵌入模型。尽管 LLM 在生成文本方面已经非常出色,但它们在检索任务中的表现仍然在很大程度上取决于高质量的嵌入模型–尽管印地语是世界上使用人数最多的语言之一,但却一直缺乏高质量的嵌入模型。为了解决这个问题,我们从头开始创建嵌入式模型,而不仅仅是对现有模型进行微调。我们的工作包括收集各种印地语文本(超过 270 万个样本),训练能真正理解印地语词形的定制 SentencePiece tokenizer,设计具有印地语特定注意机制的转换器架构,以及通过对比学习进行优化。老实说,结果比我预想的要好–与大家一直在使用的多语言模型相比,我们的检索精度提高了 23%。这篇论文详细介绍了我们的方法,我认为这可以帮助其他研究低资源语言的人,因为一刀切的多语言模型无法满足他们的需求。我们还将嵌入式与 LangChain 整合在一起,建立了完整的印地语 RAG 系统,这对实践者可能会有所帮助。虽然还有大量工作需要探索,但我相信这项工作解决了印地语 NLP 的一个关键缺口,并证明了为什么特定语言的方法很重要。
28.Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method
标题:将遥感物体检测引入自然语言模型:使用 SFT 方法
author:Fei Wang, Chengcheng Chen, Hongyu Chen, Yugang Chang, Weiming Zeng
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.08144v2
摘要:
最近,大型语言模型(LLMs)和视觉语言模型(VLMs)取得了巨大成功,在理解各种图像和视频,特别是在分类和检测任务中表现出了非凡的能力。然而,由于遥感图像与传统光学图像之间存在巨大差异,这些模型在理解方面面临着相当大的挑战,尤其是在检测任务中。直接向 VLM 发出检测指令往往会导致不理想的结果。为解决这一问题,本文探讨了如何将 VLMs 应用于遥感图像中的物体检测。具体来说,我们利用公开的遥感物体检测数据集(包括 SSDD、HRSID 和 NWPU-VHR-10)构建了监督微调(SFT)数据集。在这些新数据集中,我们将注释信息转换为符合 JSON 标准的自然语言描述,从而更有效地理解和训练 VLM。然后,我们评估了 VLM 各种微调策略的检测性能,并得出了用于遥感图像中物体检测的优化模型权重。最后,我们利用自然语言查询评估了模型的先验知识能力。实验结果表明,在不修改模型架构的情况下,仅使用自然语言就能有效实现遥感物体检测。此外,该模型还展示了执行某些视觉问题解答(VQA)任务的能力。我们的数据集和相关代码即将发布。
29.LLM-Powered Knowledge Graphs for Enterprise Intelligence and Analytics
标题:为企业智能和分析提供由 LLM 驱动的知识图谱
author:Rajeev Kumar, Kumar Ishan, Harishankar Kumar, Abhinandan Singla
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.07993v1
摘要:
企业内部互不关联的数据孤岛阻碍了可操作洞察力的提取,降低了产品开发、客户参与、会议准备和分析驱动决策等领域的效率。本文介绍了一种使用大型语言模型(LLM)将各种数据源统一为一个全面的、以活动为中心的知识图谱的框架。该框架可自动执行实体提取、关系推理和语义丰富等任务,从而在电子邮件、日历、聊天、文档和日志等数据类型中实现高级查询、推理和分析。它专为企业灵活性而设计,支持诸如上下文搜索、任务优先级排序、专业知识发现、个性化推荐和高级分析等应用,以确定趋势和可操作的见解。实验结果表明,它在发现专业知识、任务管理和数据驱动决策方面取得了成功。通过将 LLM 与知识图谱整合在一起,该解决方案架起了互不关联的系统之间的桥梁,并提供了由智能分析驱动的企业工具。
30.EFPC: Towards Efficient and Flexible Prompt Compression
标题:EFPC:实现高效灵活的即时压缩
author:Yun-Hao Cao, Yangsong Wang, Shuzheng Hao, Zhenxing Li, Chengjun Zhan, Sichao Liu, Yi-Qi Hu
publish:10 pages, 6 figures
date Time:2025-03-11
paper pdf:http://arxiv.org/pdf/2503.07956v1
摘要:
像 GPT-4 这样的大型语言模型(LLM)的出现彻底改变了自然语言处理(NLP),使各种复杂的任务成为可能。然而,大量的标记数导致了高昂的计算和财务负担。为解决这一问题,我们提出了高效灵活的提示压缩(EFPC),这是一种将任务感知压缩和任务无关压缩统一起来的新方法,可实现良好的准确性和效率权衡。EFPC 使用 GPT-4 生成压缩提示,并将其与原始提示整合起来进行训练。在训练和推理过程中,我们根据预测概率有选择地预置用户指令和压缩提示。EFPC 具有很高的数据效率,能以最少的数据实现显著的性能。与最先进的 LLMLingua-2 方法相比,EFPC 在压缩率为 4 倍的情况下,只需增加 1%的数据,F1 分数就能相对提高 4.8%;在 LongBench 单文档 QA 基准测试中,只需增加 10%的数据,F1 分数就能提高 11.4%。EFPC 的统一框架支持广泛的适用性,并提高了各种模型、任务和领域的性能,为 NLP 带来了切实的进步。
1万+

被折叠的 条评论
为什么被折叠?



