AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.05-2024.06.10

最新推荐文章于 2024-06-22 23:30:00 发布

小小帅AIGC

最新推荐文章于 2024-06-22 23:30:00 发布

阅读量1k

点赞数 24

分类专栏： LLMs论文时报文章标签：人工智能语言模型自然语言处理 LLM 深度学习大语言模型论文推送

本文链接：https://blog.csdn.net/weixin_44362044/article/details/139829287

版权

LLMs论文时报专栏收录该内容

29 篇文章 9 订阅

订阅专栏

文章目录～

1.Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
2.Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies
3.Low-Rank Quantization-Aware Training for LLMs
4.MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows
5.LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages
6.Language Models Resist Alignment
7.Can I understand what I create? Self-Knowledge Evaluation of Large Language Models
8.Recurrent Context Compression: Efficiently Expanding the Context Window of LLM
9.Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context
10.Are Large Language Models Actually Good at Text Style Transfer?
11.Distributional Preference Alignment of LLMs via Optimal Transport
12.LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning
13.MrRank: Improving Question Answering Retrieval System through Multi-Result Ranking Model
14.Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions
15.LLM-Enhanced Bayesian Optimization for Efficient Analog Layout Constraint Generation

1.Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

标题:自回归模型击败扩散模型可扩展图像生成的喇嘛

author:Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan

publish:Codes and models: \url{https://github.com/FoundationVision/LlamaGen}

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06525v1

摘要：
我们介绍的 LlamaGen 是一个新的图像生成模型系列，它将大型语言模型的原始 "下一个标记预测 "范式应用于视觉生成领域。这是对香草自回归模型（如 Llama）在视觉信号上没有归纳偏差的情况下能否在适当扩展的情况下实现最先进的图像生成性能的肯定回答。我们重新研究了图像标记化器的设计空间、图像生成模型的可扩展性能及其训练数据质量。这一探索的成果包括(1) 在 ImageNet 基准上，图像标记器的下采样率为 16，重构质量为 0.94 rFID，编码本使用率为 97%。(2) 一系列类别条件图像生成模型，参数范围从 111M 到 3.1B，在 ImageNet 256x256 基准上达到 2.18 FID，优于 LDM、DiT 等流行的扩散模型。(3) 通过在 LAION-COCO 和高美学质量图像上进行两阶段训练，建立了具有 775M 参数的文本条件图像生成模型，在视觉质量和文本对齐方面表现出了竞争力。(4) 我们验证了 LLM 服务框架在优化图像生成模型推理速度方面的有效性，并实现了 326% - 414% 的提速。我们发布了所有模型和代码，以促进视觉生成和多模态基础模型的开源社区。

2.Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies

标题:代币经济中的推理：对 LLM 推理策略的预算意识评估

author:Junlin Wang, Siddhartha Jain, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06461v2

摘要：
为了激发大型语言模型的能力，人们提出了各种各样的推理策略。然而，我们在本文中指出，传统的评估只关注性能指标，却忽略了一个关键因素：额外计算带来的效率提升。由于忽略了这一点，人们对策略效率的看法往往有失偏颇。本文介绍了一种将计算预算纳入评估的框架，提供了一种同时考虑性能指标和计算成本的更具参考价值的比较方法。从这种预算意识的角度来看，我们发现复杂的推理策略通常不会纯粹因为算法的巧妙而超越简单的基线，而是因为分配了更多的计算资源。当我们提供像思维链自洽性这样的简单基线，并提供可比的计算资源时，其推理策略往往优于文献中提出的推理策略。从规模感知的角度来看，我们发现与自洽性不同，如果使用更多计算资源，某些策略（如多代理辩论或 Reflexion）可能会变得更糟。

3.Low-Rank Quantization-Aware Training for LLMs

标题:LLM 的低库量化感知训练

author:Yelysei Bondarenko, Riccardo Del Chiaro, Markus Nagel

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06385v1

摘要：
大型语言模型（LLM）无处不在，但由于其对计算和内存的需求不断增加，实际部署具有挑战性。量化是提高计算和内存效率的最有效方法之一。量化感知训练（QAT）方法通常能产生最佳的量化性能，但其代价是可能需要较长的训练时间和过多的内存使用，因此在应用 LLM 时并不实用。受参数高效微调（PEFT）和低秩自适应（LoRA）文献的启发，我们提出了 LR-QAT – 一种轻量级、内存高效的 LLM QAT 算法。LR-QAT 采用了多个组件来节省内存，同时不影响预测性能：(a) 知道量化网格的低秩辅助权重；(b) 使用定点或双包整数的下播算子；© 检查点。与大多数相关工作不同的是，我们的方法(i) 推理效率高，与传统的 PTQ 相比不会产生额外的开销；(ii) 可被视为一个通用的扩展预训练框架，这意味着所得到的模型仍可用于之后的任何下游任务；(iii) 可应用于各种量化设置，如不同的选择量化粒度、激活量化，并与许多 PTQ 技术无缝结合。我们将 LR-QAT 应用于 LLaMA-2/3 和 Mistral 模型系列，并在多个下游任务中验证了其有效性。我们的方法优于常见的训练后量化（PTQ）方法，其内存使用量仅为全模型 QAT 的一小部分，却能达到与全模型 QAT 相同的模型性能。具体来说，我们可以在一个拥有 24GB 内存的消费级 GPU 上训练一个 7B 的 LLM。

4.MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows

标题:MASSW：人工智能辅助科学工作流的新数据集和基准任务

author:Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan, Qijia Liu, Ziyang Xiong, Tolga Ergen, Dongsub Shim, Honglak Lee, Qiaozhu Mei

publish:arXiv admin note: text overlap with arXiv:1706.03762 by other authors

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06357v1

摘要：
科学创新依赖于详细的工作流程，其中包括分析文献、产生想法、验证这些想法、解释结果和启发后续研究等关键步骤。然而，记录这些工作流程的科学出版物内容广泛且无序。这使得人类研究人员和人工智能系统都难以有效地浏览和探索科学创新的空间。为了解决这个问题，我们推出了 MASSW，一个关于科学工作流程多方面总结的综合文本数据集。MASSW 包含过去 50 年间 17 个主要计算机科学会议上发表的 152,000 多篇经同行评审的论文。利用大型语言模型（LLM），我们自动从这些出版物中提取了五个核心方面–上下文、关键观点、方法、结果和预期影响–它们对应于研究工作流程中的五个关键步骤。这些结构化摘要为各种下游任务和分析提供了便利。通过与人类注释进行比较，我们验证了 LLM 提取摘要的质量。我们通过多个新颖的机器学习任务展示了 MASSW 的实用性，这些任务可以使用这个新数据集进行基准测试，在科学工作流程中提出各种类型的预测和建议。MASSW 具有巨大的潜力，可帮助研究人员创建新的人工智能方法并对其进行基准测试，从而优化科学工作流程，促进该领域的科学创新。我们的数据集可在（url{https://github.com/xingjian-zhang/massw}）上公开获取。

5.LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages

标题:LINGOLY：低资源语言和绝迹语言奥林匹克级语言推理难题基准

author:Andrew M. Bean, Simi Hellsten, Harry Mayne, Jabez Magomere, Ethan A. Chi, Ryan Chi, Scott A. Hale, Hannah Rose Kirk

publish:9 pages, 5 figures, 16 pages supplemental materials

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06196v2

摘要：
在本文中，我们介绍了LingOly基准，这是一种针对大型语言模型高级推理能力的新型基准。利用具有挑战性的语言奥林匹克谜题，我们评估了 (i) 在极低资源或已灭绝语言中进行上下文识别和概括语言模式的能力，以及 (ii) 遵循复杂任务指令的能力。LingOly 基准涵盖 90 多种低资源语言，最大程度地减少了数据污染问题，并包含 1,133 个问题，涉及 6 种格式和 5 个人类难度级别。我们通过直接准确性和与无语境基线的比较来评估性能，以惩罚记忆。11 个最先进的 LLM 的得分表明该基准具有挑战性，模型在难度较高的问题上表现不佳。在难度较高的问题上，即使是顶级模型也只达到了 38.7% 的准确率，比无上下文基线提高了 24.7%。大型封闭模型的表现通常优于开放模型，而且一般来说，语言资源越丰富，得分越高。这些结果表明，在没有记忆的情况下，真正的多步骤域外推理对当前的语言模型来说仍然是一个挑战。

6.Language Models Resist Alignment

标题:语言模型抵制对齐

author:Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Yaodong Yang

publish:21 pages

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06144v1

摘要：
大型语言模型（LLM）可能会表现出不良行为。最近的工作重点是对这些模型进行对齐，以防止有害行为的产生。尽管做出了这些努力，但研究表明，即使是进行得很好的对齐过程，也很容易被有意或无意地规避。对齐微调对模型有强大的影响，还是只是表面现象？在这项工作中，我们通过理论和实证手段回答了这个问题。从经验上讲，我们证明了对齐后模型的弹性，即在进一步微调后，模型会倾向于恢复到训练前阶段形成的行为分布。利用压缩理论，我们正式推导出，与训练前相比，这种微调过程（textit{disproportionately}）会破坏对齐，其程度可能会达到数量级。我们进行了实验验证，以确认不同类型和规模的模型都存在弹性。具体来说，我们发现模型性能在恢复到训练前的分布之前会迅速下降，之后下降速度会显著降低。我们进一步发现，弹性与模型规模的增加和训练前数据的扩大呈正相关。我们的发现表明了驯服 LLM 固有弹性的重要性，从而克服了 LLM 对排列微调的抵制。

7.Can I understand what I create? Self-Knowledge Evaluation of Large Language Models

标题:我能理解自己创造的东西吗？大型语言模型的自我知识评估

author:Zhiquan Tan, Lai Wei, Jindong Wang, Xing Xie, Weiran Huang

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06140v1

摘要：
大型语言模型（LLMs）在语言学任务中取得了显著的进步，这就需要一个强大的评估框架来了解它们的能力和局限性。受费曼 "通过创造来理解 "原理的启发，我们引入了一个易于实施的自我知识评估框架，根据模型理解和回答自我生成问题的能力对其进行评估。我们在不同任务中对多个模型进行测试的结果表明，模型的自知能力存在明显差距。进一步分析表明，这些差距可能是由于与人类注意力机制不一致造成的。此外，对自我生成的数学任务进行微调可能会提高模型的数学表现，这凸显了该框架在高效、深入的模型评估方面的潜力，同时也有助于改进 LLM。

8.Recurrent Context Compression: Efficiently Expanding the Context Window of LLM

标题:None

author:Chensen Huang, Guibo Zhu, Xuepeng Wang, Yifei Luo, Guojing Ge, Haoran Chen, Dong Yi, Jinqiao Wang

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06110v1

摘要：
为了扩展基于变换器的大型语言模型（LLM）的上下文长度并提高理解能力，我们常常面临计算资源和内存存储容量的限制。这项工作介绍了一种名为 “循环上下文压缩”（RCC）的方法，旨在有限的存储空间内有效扩展 LLM 的上下文窗口长度。我们还研究了下游任务中指令和上下文都被压缩时模型响应不佳的问题，并提出了一种指令重构方法来缓解这一问题。我们在多个任务中验证了我们的方法的有效性，在文本重构任务中实现了高达 32 倍的压缩率，BLEU4 分数接近 0.95，在序列长度为 1M 的密钥检索任务中准确率接近 100%。最后，与非压缩方法相比，我们的方法在长文本问答任务中表现出了竞争力，同时在长文本推理任务中显著节省了存储资源。我们的代码、模型和演示可在 https://github.com/WUHU-G/RCC_Transformer 上获取。

9.Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

标题:不确定环境下的 LLM 决策行为评估框架

author:Jingru Jia, Zehua Yuan, Junhao Pan, Paul McNamara, Deming Chen

publish:Jingru Jia and Zehua Yuan has equal contribution

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.05972v1

摘要：
在不确定情况下做出决策时，个体往往会偏离理性行为，而理性行为可以从三个维度进行评估：风险偏好、概率加权和损失厌恶。鉴于大语言模型（LLMs）在决策过程中的广泛应用，评估其行为是否符合人类规范和道德期望或表现出潜在偏差至关重要。已有多项实证研究对大型语言模型的理性和社会行为表现进行了调查，但对其内部决策倾向和能力的了解仍然不足。本文以行为经济学为基础，提出了一个评估法律硕士决策行为的框架。通过多选列表实验，我们估算了三种商业 LLM 在无上下文环境下的风险偏好、概率加权和损失厌恶程度：ChatGPT-4.0-Turbo、Claude-3-Opus 和 Gemini-1.0-pro。我们的结果表明，LLMs 通常表现出与人类相似的模式，如风险规避和损失规避，并倾向于过度重视小概率事件。不过，不同的 LLM 在表达这些行为的程度上存在很大差异。我们还探讨了这些行为在嵌入社会人口特征时的表现，发现了显著的差异。例如，当克劳德-3-奥普斯的模型中包含性少数群体或身体残疾的属性时，他就会表现出更强的风险规避能力，从而做出更保守的选择。这些发现强调，在决策场景中使用 LLMs 时，需要仔细考虑道德影响和潜在偏见。因此，本研究提倡制定标准和指南，以确保 LLM 在道德范围内运行，同时提高其在复杂决策环境中的实用性。

10.Are Large Language Models Actually Good at Text Style Transfer?

标题:大型语言模型是否真的擅长文本风格转换？

author:Sourabrata Mukherjee, Atul Kr. Ojha, Ondřej Dušek

date Time:2024-06-09

paper pdf:http://arxiv.org/pdf/2406.05885v1

摘要：
我们分析了大型语言模型（LLMs）在文本风格转换（TST）方面的性能，尤其侧重于三种语言的情感转换和文本解毒：英语、印地语和孟加拉语。文本风格转换涉及修改文本的语言风格，同时保留其核心内容。我们在公开可用的数据集上使用零次和少量提示以及参数高效微调评估了预训练 LLM 的能力。我们使用自动指标、GPT-4 和人工评估进行的评估显示，虽然一些提示式 LLM 在英语中表现出色，但它们在其他语言（印地语、孟加拉语）中的表现仍然一般。不过，与 "零次 "和 "少量 "提示相比，"微调 "能明显改善结果，使其媲美以前的最先进水平。这突出表明，要实现有效的 TST，必须要有专用的数据集和专门的模型。

11.Distributional Preference Alignment of LLMs via Optimal Transport

标题:通过最优传输调整 LLM 的分配偏好

author:Igor Melnyk, Youssef Mroueh, Brian Belgodere, Mattia Rigotti, Apoorva Nitsure, Mikhail Yurochkin, Kristjan Greenewald, Jiri Navratil, Jerret Ross

date Time:2024-06-09

paper pdf:http://arxiv.org/pdf/2406.05882v1

摘要：
None

12.LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

标题:LGR2：语言引导奖励重标记，加速分层强化学习

author:Utsav Singh, Pramit Bhattacharyya, Vinay P. Namboodiri

date Time:2024-06-09

paper pdf:http://arxiv.org/pdf/2406.05881v1

摘要：
开发能利用自然语言指令解决复杂机器人控制任务的交互系统，一直是机器人界孜孜以求的目标。大型语言模型（LLM）在处理逻辑推理、上下文学习和代码生成等复杂任务方面表现出了卓越的能力。然而，使用 LLM 预测低级机器人动作却面临着巨大挑战。此外，此类任务的复杂性通常要求获得执行不同子任务的策略，并将它们结合起来以实现最终目标。分层强化学习（HRL）是解决此类任务的一种优雅方法，它提供了时间抽象和改进探索的直观优势。然而，HRL 面临着一个反复出现的问题，即由于低级基元行为不稳定而导致的非稳态性。在这项工作中，我们提出了一种新颖的 HRL 框架 LGR2，该框架利用语言指令为高层策略生成静态奖励函数。由于语言指导的奖励不受低级基元行为的影响，LGR2 可减轻非稳态性，因此是一种利用语言指令解决机器人控制任务的优雅方法。为了分析我们方法的有效性，我们进行了实证分析，证明 LGR2 能有效缓解 HRL 中的非稳态性。在具有挑战性、奖励稀少的机器人导航和操纵环境中，我们的方法获得了超过 70% 的成功率，而在这些环境中，基线方法未能取得任何显著进展。此外，我们还进行了真实世界的机器人操纵实验，证明 CRISP 在真实世界场景中表现出令人印象深刻的泛化能力。

13.MrRank: Improving Question Answering Retrieval System through Multi-Result Ranking Model

标题:MrRank：通过多结果排序模型改进问题解答检索系统

author:Danupat Khamnuansin, Tawunrat Chalothorn, Ekapol Chuangsuwanich

publish:To be published in Findings of ACL 2024

date Time:2024-06-09

paper pdf:http://arxiv.org/pdf/2406.05733v1

摘要：
大型语言模型（LLMs）经常在幻觉和过时信息中挣扎。为了解决这个问题，可以采用信息检索（IR）系统，用最新的知识来增强 LLM。然而，现有的信息检索技术存在缺陷，造成了性能瓶颈。鉴于 IR 系统种类繁多，将各种方法结合起来是一种可行的策略。然而，之前的尝试效果有限。在这项工作中，我们提出了一种利用学习排名技术来组合异构 IR 系统的方法。我们在两个检索问题解答（ReQA）任务中演示了这种方法。我们的实证研究结果表明，该方法的性能显著提高，在 ReQA SQuAD 上的表现优于之前的方法，并达到了最先进的水平。

14.Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions

标题:同行评审是基于角色互动的多轮长语境对话

author:Cheng Tan, Dongxin Lyu, Siyuan Li, Zhangyang Gao, Jingxuan Wei, Siqi Ma, Zicheng Liu, Stan Z. Li

publish:Under review

date Time:2024-06-09

paper pdf:http://arxiv.org/pdf/2406.05688v1

摘要：
大型语言模型（LLM）在各个领域都有广泛的应用，并在学术同行评审过程中显示出巨大的潜力。然而，现有的应用主要局限于根据提交的论文生成静态评审，无法捕捉现实世界中同行评审的动态和迭代性质。在本文中，我们将同行评审过程重新表述为一个多回合、长语境的对话过程，其中包含了作者、审稿人和决策者的不同角色。我们构建了一个全面的数据集，其中包含 26,841 篇论文和 92,017 条评审意见，这些意见来自多个来源，包括顶级会议和著名期刊。该数据集经过精心设计，可有效模拟完整的同行评审流程，从而促进 LLM 在多轮对话中的应用。此外，我们还提出了一系列指标来评估 LLMs 在这一重新制定的同行评审环境下每个角色的表现，从而确保评估的公平性和全面性。我们相信，这项工作提供了一个很有前景的视角，即通过纳入动态的、基于角色的互动，来增强由 LLM 驱动的同行评审流程。它与现实世界中学术同行评审的迭代和互动性质密切相关，为这一领域未来的研究和发展奠定了坚实的基础。我们将数据集开源于 https://github.com/chengtan9907/ReviewMT。

15.LLM-Enhanced Bayesian Optimization for Efficient Analog Layout Constraint Generation

标题:用于高效模拟布局约束生成的 LLM 增强型贝叶斯优化技术

author:Guojin Chen, Keren Zhu, Seunggeun Kim, Hanqing Zhu, Yao Lai, Bei Yu, David Z. Pan

date Time:2024-06-07

paper pdf:http://arxiv.org/pdf/2406.05250v1

摘要：
模拟布局合成面临着巨大的挑战，因为它依赖于手工流程，需要大量的时间，而且性能不稳定。目前基于贝叶斯优化（BO）的模拟布局合成技术尽管具有自动化的潜力，但收敛速度慢、数据需求量大，限制了其实际应用。本文介绍了 \texttt{LLANA} 框架，这是一种利用大型语言模型（LLM）的新方法，通过利用 LLM 的少量学习能力来增强 BO，从而更高效地生成与模拟设计相关的参数约束。实验结果表明，\texttt{LLANA}不仅实现了与最先进的（SOTA）BO方法相当的性能，而且由于 LLM 卓越的上下文理解能力和学习效率，还能更有效地探索模拟电路设计空间。代码可在（url{https://github.com/dekura/LLANA}.

小小帅AIGC

关注

24
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.05-2024.06.10

我们介绍的 LlamaGen 是一个新的图像生成模型系列，它将大型语言模型的原始 "下一个标记预测 "范式应用于视觉生成领域。这是对香草自回归模型（如 Llama）在视觉信号上没有归纳偏差的情况下能否在适当扩展的情况下实现最先进的图像生成性能的肯定回答。我们重新研究了图像标记化器的设计空间、图像生成模型的可扩展性能及其训练数据质量。这一探索的成果包括(1) 在 ImageNet 基准上，图像标记器的下采样率为 16，重构质量为 0.94 rFID，编码本使用率为 97%。
复制链接

扫一扫