AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.11.10-2024.11.15

最新推荐文章于 2025-05-19 10:04:29 发布

小小帅AIGC

最新推荐文章于 2025-05-19 10:04:29 发布

阅读量643

点赞数 22

分类专栏： LLMs论文时报文章标签：人工智能语言模型深度学习自然语言处理 LLM 大语言模型论文推送

本文链接：https://blog.csdn.net/weixin_44362044/article/details/147876977

版权

LLMs论文时报专栏收录该内容

69 篇文章

订阅专栏

文章目录～

1.Squeezed Attention: Accelerating Long Context Length LLM Inference
2.Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment
3.Cut Your Losses in Large-Vocabulary Language Models
4.CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt
5.Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models
6.Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding
7.Retrieval Augmented Time Series Forecasting
8.Challenges in Guardrailing Large Language Models for Science
9.Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion
10.Large Language Models Can Self-Improve in Long-context Reasoning
11.TIPO: Text to Image with Text Presampling for Prompt Optimization
12.Grounded Video Caption Generation
13.DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises
14.Toward Optimal Search and Retrieval for RAG
15.LongSafetyBench: Long-Context LLMs Struggle with Safety Issues
16.LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models

1.Squeezed Attention: Accelerating Long Context Length LLM Inference

标题:挤压的注意力：加速长语境长度 LLM 推断

author:Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

date Time:2024-11-14

paper pdf:http://arxiv.org/pdf/2411.09688v2

摘要：
新兴的大语言模型（LLM）应用需要较长的输入提示来执行复杂的下游任务，如文档分析和代码生成。对于这些长上下文长度的应用，输入提示的长度对推理效率构成了巨大挑战，因为推理成本随序列长度线性增加。不过，对于许多此类应用来说，提示中的大部分上下文在不同用户输入时都是固定的，因此有机会在收到用户输入时进行离线优化，以快速处理用户输入。在这项工作中，我们提出了 “挤压注意力”（Squeezed Attention）机制，用于加速大部分输入提示是固定的 LLM 应用程序。我们首先利用 K-means 离线聚类，根据语义相似性对固定上下文的关键字进行分组，并用单个中心点值表示每个聚类。在推理过程中，我们将用户输入的查询词组与中心点进行比较，以预测固定上下文中哪些键在语义上相关，需要在推理过程中加载。然后，我们只使用固定上下文中的这些重要关键字来计算精确关注度，从而减少带宽和计算成本。我们还扩展了我们的方法，使用分层中心点查找来识别重要关键字，这可以将注意力的复杂度从与上下文长度有关的线性降低到对数。我们实现了优化的 Triton 内核，用于中心点比较和具有重要关键字的稀疏 FlashAttention，在长上下文推理的预填充和生成阶段都实现了 4 倍以上的提速。此外，我们还在包括 LongBench 在内的各种长上下文基准测试中对我们的方法进行了广泛评估，结果表明，在不损失精度的情况下，我们的方法将 KV 缓存预算降低了 3 倍，在各种模型中，我们的方法将 KV 缓存预算降低了 8 倍，精度差距小于 0.5 点。

2.Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment

标题:近似变式贝叶斯逆强化学习用于大型语言模型对齐

author:Yuang Cai, Yuyu Yuan, Jinsheng Shi, Qinhong Lin

date Time:2024-11-14

paper pdf:http://arxiv.org/pdf/2411.09341v1

摘要：
大型语言模型（LLM）的对齐对于生成有益和无害的内容至关重要。现有方法利用基于偏好的人类反馈数据来学习奖励函数，并将 LLM 与反馈数据对齐。不过，这些方法侧重于对被选和被拒演示之间的奖励差异进行建模，而不是直接对每个演示的真实奖励进行建模。此外，这些方法假定只有在句子结束时才能获得奖励，从而忽略了中间奖励的建模。这些问题导致反馈数据中训练信号的使用不足，限制了奖励的表征和泛化能力，并可能导致奖励黑客。在本文中，我们将 LLM 对齐表述为贝叶斯逆强化学习（BIRL）问题，并提出了一种新的训练目标–近似变异对齐（AVA），通过近似变异奖励模仿学习（AVRIL）来执行 LLM 对齐。BIRL 方案有利于在每个单次演示中进行中间奖励建模和直接奖励建模，从而提高了反馈数据中训练信号的利用率。实验表明，AVA 在奖励建模、RL 微调和直接优化方面优于现有的 LLM 配对方法。

3.Cut Your Losses in Large-Vocabulary Language Models

标题:减少大词汇量语言模型的损失

author:Erik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl

publish:Code is available at https://github.com/apple/ml-cross-entropy

date Time:2024-11-13

paper pdf:http://arxiv.org/pdf/2411.09009v1

摘要：
随着语言模型规模的不断扩大，其词汇量也在不断增加。这使得 LLM 在训练过程中的内存占用不成比例地转移到了单层上：损失计算中的交叉熵。交叉熵建立了一个对数矩阵，其中包含每一对输入词组和词汇项的条目，对于小型模型来说，其消耗的内存比 LLM 其他部分的总和还要多出一个数量级。我们提出的切分交叉熵（CCE）是一种计算交叉熵损失的方法，无需将所有词库的对数具体化到全局内存中。相反，CCE 只计算正确标记的对数，并即时评估所有对数的对数总和。我们实施了一个自定义内核，在闪存中对词汇进行矩阵乘法和对数求和-exp 缩减，从而使交叉熵计算的全局内存消耗微乎其微。这样做的效果非常显著。以 Gemma 2 (2B) 模型为例，CCE 将损失计算的内存占用从 24 GB 减少到 1 MB，分类器头部的总训练时间内存消耗从 28 GB 减少到 1 GB。为了提高 CCE 的吞吐量，我们利用 softmax 固有的稀疏性，建议跳过梯度计算中对梯度贡献微不足道（即低于数值精度）的元素。实验证明，在不牺牲训练速度或收敛性的情况下，可以显著减少内存消耗。

4.CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt

标题:CoCoP：通过代码完成提示使用 LLM 增强文本分类功能

author:Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi

date Time:2024-11-13

paper pdf:http://arxiv.org/pdf/2411.08979v1

摘要：
文本分类是自然语言处理（NLP）中的一项基本任务，大型语言模型（LLM）已经证明了它们在不同领域执行这项任务的能力。然而，LLMs 的性能在很大程度上取决于其输入提示的质量。最近的研究还表明，LLMs 在与代码相关的任务中表现出了不俗的成绩。为了充分利用 LLM 在文本分类方面的能力，我们提出了代码完成提示（CoCoP）方法，它将文本分类问题转化为代码完成任务。通过利用 LLMs 的代码完成能力，CoCoP 在不同的数据集上大大提高了文本分类性能。例如，CoCoP 使 SST2 数据集的准确率提高了 20% 以上。此外，当 CoCoP 与专门为代码相关任务设计的 LLM（代码模型）（如 CodeLLaMA）集成时，该方法的性能优于或可媲美少量学习技术，而使用的模型大小只有其十分之一。我们提出的方法的源代码将在论文被接受后公开。

5.Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models

标题:动态奖励与提示优化实现了语言模型的免调整自对齐

author:Somanshu Singla, Zhen Wang, Tianyang Liu, Abdullah Ashfaq, Zhiting Hu, Eric P. Xing

publish:EMNLP 2024 Main

date Time:2024-11-13

paper pdf:http://arxiv.org/pdf/2411.08733v2

摘要：
对齐大型语言模型（LLM）传统上依赖于昂贵的训练和人工偏好注释。自对齐旨在通过让模型自行对齐来减少这些开支。为了进一步降低成本，并在不进行任何昂贵的调整或注释的情况下实现对齐，我们引入了一种新的免调整自对齐方法–动态奖励与提示优化（DRPO）。我们的方法利用基于搜索的优化框架，让 LLM 不断自我完善，制作出最佳的配准指令，而无需额外的培训或人工干预。DRPO的核心是一种动态奖励机制，它能识别并纠正特定模型的配准弱点，使LLM能有效地适应各种配准挑战。对八种最新的 LLM（包括开源和闭源 LLM）进行的实证评估表明，DRPO 显著提高了配准性能，基本模型的性能优于经过 SFT/RLHF 调整的对应模型。此外，DRPO 自动优化的提示超过了人类专家策划的提示，进一步验证了我们方法的有效性。我们的研究结果凸显了当前 LLM 通过推理时间优化实现自适应对齐的巨大潜力，是对基于调整的对齐方法的补充。

6.Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding

标题:表树：释放 LLM 的力量，增强对大规模表格的理解

author:Deyi Ji, Lanyun Zhu, Siqi Gao, Peng Xu, Hongtao Lu, Jieping Ye, Feng Zhao

date Time:2024-11-13

paper pdf:http://arxiv.org/pdf/2411.08516v1

摘要：
表格作为半结构化数据，在各个领域中无处不在，其价值不言而喻，因此有必要采用先进的方法来理解其复杂性和海量信息。尽管大型语言模型（LLM）在推进自然语言理解前沿方面的能力令人印象深刻，但它们在大规模表格数据中的应用却面临着巨大的挑战，特别是在表格规模和复杂错综的关系方面。现有的研究成果在处理小规模表格时表现出了良好的前景，但在处理实际场景中相互关联的大型表格所要求的复杂推理时，往往会陷入困境。为了弥补这一不足，我们引入了 “表树”，这是一种新颖的方法，旨在增强 LLM 对大型复杂表格的推理能力。我们的方法采用表格浓缩和分解技术，将相关数据提炼和重组为易于管理的格式，然后构建分层表树，以促进树形结构推理。通过缜密的表树执行过程，我们系统地解开了树状结构推理链，从而得出解决方案。在 WikiTQ、TableFact、FeTaQA 和 BIRD 等不同数据集上进行的实验表明，表树以其卓越的性能树立了新的标杆，在大规模表格推理中展示了非凡的效率和泛化能力。

7.Retrieval Augmented Time Series Forecasting

标题:检索增强时间序列预测

author:Kutay Tire, Ege Onur Taga, Muhammed Emrullah Ildiz, Samet Oymak

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.08249v1

摘要：
检索增强生成（RAG）是现代 LLM 系统的核心组成部分，尤其是在最新信息对准确响应用户查询至关重要或查询超出训练数据范围的情况下。时间序列基础模型（TSFM）（如 Chronos）的出现，以及对各种时间序列领域有效零点预测性能的需求，促使人们提出了这样一个问题：RAG 的优势是否同样适用于时间序列预测？在本文中，我们认为时间序列数据的动态性和事件驱动性使 RAG 成为 TSFM 的重要组成部分，并为时间序列预测引入了一个原则性的 RAG 框架，称为检索增强预测（RAF）。在 RAF 框架内，我们开发了检索相关时间序列示例并将其纳入预测的高效策略。通过实验和机理研究，我们证明 RAF 确实提高了不同时间序列领域的预测准确性，而且对于较大的 TSFM 大小，其改进效果更为显著。

8.Challenges in Guardrailing Large Language Models for Science

标题:为科学建立大型语言模型所面临的挑战

author:Nishan Pantha, Muthukumaran Ramasubramanian, Iksha Gurung, Manil Maskey, Rahul Ramachandran

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.08181v2

摘要：
大型语言模型（LLM）的快速发展改变了自然语言处理和理解（NLP/NLU）的面貌，为各个领域带来了巨大的好处。然而，当这些功能强大的模型应用于科学研究时，却表现出与科学完整性和可信度相关的关键失效模式。现有的通用 LLM 防范措施不足以应对科学领域的这些独特挑战。我们为在科学领域部署 LLM 防护装置提供了全面的指导。我们确定了具体的挑战–包括时间敏感性、知识上下文化、冲突解决和知识产权问题–并提出了能够满足科学需求的护栏指导框架。这些护栏包括可信度、道德与偏见、安全性和法律方面。我们还详细概述了采用白盒、黑盒和灰盒方法的实施策略，这些策略可以在科学环境中执行。

9.Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion

标题:检索、推理、重新排序：知识图谱补全的语境丰富框架

author:Muzhi Li, Cehao Yang, Chengjin Xu, Xuhui Jiang, Yiyan Qi, Jian Guo, Ho-fung Leung, Irwin King

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.08165v1

摘要：
知识图谱补全（KGC）任务旨在从不完整的三元组中推断出缺失的实体。现有的基于嵌入的方法仅依赖于知识图谱中的三元组，容易受到似是而非的关系模式和长尾实体的影响。另一方面，基于文本的方法要解决 KG 三元组与自然语言之间的语义鸿沟问题。除了三元组，实体上下文（如标签、描述、别名）在增强 KG 方面也发挥着重要作用。为了解决这些局限性，我们提出了 KGR3，一个用于 KGC 的上下文丰富框架。KGR3 由三个模块组成。首先，检索模块从 KG 中收集支持性三元组，从基础嵌入模型中收集可信的候选答案，并检索每个相关实体的上下文。然后，推理模块利用大型语言模型为每个查询三元组生成潜在答案。最后，重新排序模块将来自上述两个模块的候选答案结合起来，并对 LLM 进行微调，以提供最佳答案。在广泛使用的数据集上进行的大量实验表明，KGR3 不断改进各种 KGC 方法。具体来说，KGR3 的最佳变体在 FB15k237 和 WN18RR 数据集上的绝对命中率@1 分别提高了 12.3% 和 5.6%。

10.Large Language Models Can Self-Improve in Long-context Reasoning

标题:大型语言模型可在长语境推理中自我完善

author:Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam

publish:Project Page: https://github.com/SihengLi99/SEALONG

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.08147v1

摘要：
大型语言模型（LLMs）在处理长语境方面取得了长足的进步，但在长语境推理方面仍然举步维艰。现有的方法通常涉及使用合成数据对 LLM 进行微调，这依赖于人类专家或 GPT-4 等高级模型的注释，从而限制了进一步的发展。为了解决这个问题，我们研究了 LLM 在长语境推理中自我完善的潜力，并提出了一种专门为此设计的方法–\ours。这种方法简单明了：我们对每个问题的多个输出进行采样，用最小贝叶斯风险（Minimum Bayes Risk）对它们进行评分，然后根据这些输出进行有监督的微调或偏好优化。在几个领先的 LLM 上进行的广泛实验证明了 \ours 的有效性，Llama-3.1-8B-Instruct 的绝对值提高了 4.2$ 分。此外，与之前依赖于人类专家或高级模型生成的数据的方法相比，\ours 实现了更优越的性能。我们预计，这项工作将为长语境场景下的自我改进技术开辟新的途径，这对 LLM 的持续进步至关重要。

11.TIPO: Text to Image with Text Presampling for Prompt Optimization

标题:TIPO：文本到图像，带文本预采样，用于提示优化

author:Shih-Ying Yeh, Sang-Hyun Park, Giyeong Oh, Min Song, Youngjae Yu

publish:26 pages, 19 figures

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.08127v2

摘要：
TIPO（文本到图像的提示优化文本预采样）是一个创新框架，旨在通过语言模型（LM）增强文本到图像（T2I）的生成，实现自动提示工程。通过完善和扩展用户提供的提示，TIPO 缩小了简单输入与高质量图像生成所需的详细提示之间的差距。与以往依赖大型语言模型（LLM）或强化学习（RL）的方法不同，TIPO 可根据训练有素的提示数据集的分布情况调整用户输入提示，从而无需通过轻量级模型支付复杂的运行成本。这种预抽样方法以模型的训练分布为基础，实现了高效、可扩展的提示优化。实验结果表明，TIPO 在提高美学评分、减少图像损坏以及使生成的图像与数据集分布更加一致方面非常有效。这些发现凸显了提示工程在 T2I 系统中的关键作用，并为自动提示优化的更广泛应用开辟了道路。

12.Grounded Video Caption Generation

标题:地基视频字幕生成

author:Evangelos Kazakos, Cordelia Schmid, Josef Sivic

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.07584v1

摘要：
我们提出了一种新的任务、数据集和模型，用于生成接地视频字幕。这项任务将视频中的字幕和对象接地统一起来，字幕中的对象通过时间上一致的边界框接地到视频中。我们的贡献如下。首先，我们为这项任务提供了任务定义和人工标注的测试数据集，称为 “GROunded Video Caption Generation (GROC)”。其次，我们介绍了一种大规模自动注释方法，该方法利用了现有的静态图像字幕接地模型和 LLM，可将帧级字幕总结为视频中时间一致的字幕。此外，我们还促使 LLM 按语言进行跟踪–将帧级字幕中的名词短语分类为视频级生成字幕中的名词短语。我们将这种方法应用于 HowTo100M 数据集中的视频，从而产生了一个名为 HowToGround 的新的大规模训练数据集，其中包含自动注释的字幕和时空一致的边界框，以及连贯的自然语言标签。第三，我们引入了一个名为 VideoGround 的新基础视频字幕生成模型，并在新的自动注释 HowToGround 数据集上对该模型进行了训练。最后，VideoGround 模型的结果为基础视频标题生成这一新任务设定了技术状态。我们进行了广泛的消减，并证明了我们模型的关键技术贡献的重要性。

13.DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises

标题:DecoPrompt ：解码提示可减少大型语言模型遇到错误前提时产生的幻觉

author:Nan Xu, Xuezhe Ma

date Time:2024-11-12

paper pdf:http://arxiv.org/pdf/2411.07457v1

摘要：
虽然大型语言模型（LLMs）已显示出越来越强大的功能，但它们也需要对其偏离事实正确陈述的幻觉输出进行研究。在本文中，我们将重点关注虚假前提的一种重要情况，即尽管模型拥有准确回答原始问题所需的事实知识，但 LLM 会被错误的说法所干扰。假前提提示的熵与诱发幻觉产生的可能性密切相关，受这一观察结果的启发，我们提出了一种新的提示算法，名为 DecoPrompt，以减少幻觉的产生。DecoPrompt 利用 LLM 来 "解码 "虚假提示，而不会真正从 LLM 中诱发幻觉输出。我们在两个数据集上进行了实验，证明 DecoPrompt 可以有效减少来自不同 LLM 的幻觉输出。此外，DecoPrompt 还具有跨模型可移植性，这有助于它在大型 LLM 或不可用模型对数等情况下的应用。

14.Toward Optimal Search and Retrieval for RAG

标题:为 RAG 实现最佳搜索和检索

author:Alexandria Leto, Cecilia Aguerrebere, Ishwar Bhati, Ted Willke, Mariano Tepper, Vy Ai Vo

publish:Accepted to NeurIPS 2024 Workshop ATTRIB

date Time:2024-11-11

paper pdf:http://arxiv.org/pdf/2411.07396v1

摘要：
检索增强生成（RAG）是一种很有前途的方法，可以解决与大型语言模型（LLM）相关的一些内存挑战。RAG 管道由两个独立的系统（检索器和阅读器）构成，而这两个系统对下游任务性能的影响尚未得到很好的理解。在这里，我们的目标是了解如何针对常见任务（如问题解答 (QA)）的 RAG 管道优化检索器。我们的实验重点是 QA 和归因 QA 的检索和 RAG 性能之间的关系，并揭示了一些对开发高性能 RAG 管道的从业人员有用的见解。例如，降低搜索准确率对 RAG 性能影响不大，但却有可能提高检索速度和内存效率。

15.LongSafetyBench: Long-Context LLMs Struggle with Safety Issues

标题:长安本：长语境 LLM 与安全问题作斗争

author:Mianqiu Huang, Xiaoran Liu, Shaojun Zhou, Mozhi Zhang, Chenkun Tan, Pengyu Wang, Qipeng Guo, Zhe Xu, Linyang Li, Zhikai Lei, Linlin Li, Qun Liu, Yaqian Zhou, Xipeng Qiu, Xuanjing Huang

date Time:2024-11-11

paper pdf:http://arxiv.org/pdf/2411.06899v1

摘要：
随着大型语言模型（LLM）的发展，这些模型的序列长度不断增加，引起了人们对长语境语言模型的极大关注。然而，对这些模型的评估主要局限于其能力，缺乏对其安全性的研究。现有的工作，如 ManyShotJailbreak，在一定程度上证明了长语境语言模型可能存在安全问题。然而，所使用的方法是有限的，而且缺乏全面性。为此，我们引入了 \textbf{LongSafetyBench}，这是首个旨在客观、全面地评估长语境模型安全性的基准。LongSafetyBench 包含 10 个任务类别，平均长度为 41,889 个单词。在 LongSafetyBench 上测试了八个长语境语言模型后，我们发现现有模型普遍表现出安全能力不足。大多数主流长语境 LLM 的安全响应比例低于 50%。此外，模型在长语境场景中的安全性能并不总是与短语境场景中的安全性能一致。进一步调查发现，长文本模型往往会忽略长文本中的有害内容。我们还提出了一个简单而有效的解决方案，使开源模型能够达到与顶级闭源模型相媲美的性能。我们相信，LongSafetyBench 可以作为评估长文本语言模型安全性的重要基准。我们希望我们的工作能鼓励更广泛的社区关注长语境模型的安全性，并为开发提高长语境 LLM 安全性的解决方案做出贡献。

16.LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models

标题:LLM-Neo：大型语言模型的参数高效知识提炼

author:Runming Yang, Taiqiang Wu, Jiahao Wang, Pengfei Hu, Ngai Wong, Yujiu Yang

publish:ICASSP 25’ under review

date Time:2024-11-11

paper pdf:http://arxiv.org/pdf/2411.06839v1

摘要：
在本文中，我们提出了一种新颖的 LLM-Neo 框架，它能有效地将知识从大型语言模型（LLM）教师转移到紧凑型学生身上。首先，我们重新审视了知识提炼（KD）和低秩自适应（LoRA），认为它们具有相同的范式。受这一观点的启发，我们探索了将 LoRA 和 KD 结合起来以提高知识传输效率的策略。我们首先总结了这一设计的一些指导原则，并进一步开发了 LLM-Neo。压缩 Llama 2 和 Llama 3 的实验结果表明，LLM-Neo 的性能优于各种基线。进一步的分析表明，所提出的 LLM-Neo 对 LoRA 变体具有鲁棒性。训练好的模型可以在 \href{https://huggingface.co/collections/yang31210999/llm-neo-66e3c882f5579b829ff57eba}{这个资源库}中找到。