LLM每周速递！| 涉及多模态、测试时对齐、大模型Agent、RAG优化、模型分布训练等

Python编程杰哥

于 2025-05-22 10:45:00 发布

阅读量1.2k

点赞数 35

文章标签：人工智能 eureka 云原生数据库语言模型

本文链接：https://blog.csdn.net/xx_nm98/article/details/148081829

版权

引言

紧跟技术发展趋势，快速了解大模型最新动态。今天继续总结最近一周的研究动态，本片文章共计梳理了10篇有关大模型(LLMs)的最新研究进展，其中主要包括：大模型测试时对齐方法、长上下文编码器、大模型Agent、RAG检索增强、大模型指令遵循提升、开源多模态模型、开源大模型、TTS语音合成、分布式训练等热门研究。

华盛顿 | 测试时对齐

https://arxiv.org/pdf/2504.03790

当无法对模型进行微调时，增加测试时计算量是提升语言模型性能的一个方法，但现有测试时搜索方法因过度优化有缺陷的奖励代理，随着计算量增加质量会下降。本文作者提出**「QALIGN，一种新测试时对齐方法」，随着测试时计算量增加，会收敛到为每个单独提示采样最优对齐分布，借助马尔可夫链蒙特卡洛在文本生成的最新进展，「无需修改底层模型或访问 logits 即可实现更好对齐输出」**。在数学推理基准测试（GSM8K 和 GSM-Symbolic）上，使用任务特定奖励模型，QALIGN 比现有测试时计算方法（如最佳 n 选一和多数投票）表现更好；在更真实奖励模型上，也优于直接偏好优化等方法。

UCLA | 医学长上下文编码器

https://arxiv.org/pdf/2504.03964

自BERT出现后，仅Transformer编码器架构在NLP领域就起到关键作用，尽管近期解码器模型在生成类任务上受关注，但编码器在一些需精细语义区分的任务上更具优势，且近年来架构上也有诸多创新。本文作者在大规模生物医学文献、临床笔记和医学本体上预训练出Clinical ModernBERT，「它基于ModernBERT架构，融入旋转位置Embedding、Flash Attention等升级，将上下文长度拓展至8192个token」，针对生物医学和临床领域专门调整，能为长上下文任务生成语义丰富的表示。最后作者通过分析预训练权重和在一系列临床NLP基准测试上的实证评估，验证了其出色性能。

Skoltech | LLM自适应检索方法

https://arxiv.org/pdf/2505.04253

大型语言模型（LLMs）在问答（QA）等任务中表现出色，但易出现幻觉，检索增强生成（RAG）虽能缓解此问题，却计算成本高且有引入错误风险，现有自适应检索方法依赖LLM不确定性估计，效率低不实用。为此，「本文作者提出基于外部信息（如实体流行度、问题类型等）的轻量级LLM独立自适应检索方法」，研究27个特征及混合组合。在6个QA数据集上评估，该方法与复杂LLM方法性能相当，效率显著提高，减少了LLM调用次数。

PSU |多Agent故障归因自动化

https://arxiv.org/pdf/2505.00212

在LLM多Agent系统中，故障归因即确定导致任务失败的Agent及步骤，对系统调试至关重要，但目前该过程多为手动，劳动密集且依赖专业知识。本文作者提出并定义了LLM多Agent系统的自动化故障归因研究领域，引入Who&When数据集，包含127个系统的故障日志及精细标注，基于此开发评估了三种自动化故障归因方法。实验结果表明：在识别故障责任Agent上准确率为53.5%，定位故障步骤准确率仅14.2%，部分方法表现低于随机水平，像OpenAI o1等SOTA推理模型也难以实用，凸显了该任务复杂性及需进一步研究。

复旦 | LLMs指令遵循能力提升

https://arxiv.org/pdf/2505.07591

指令遵循用于评估大型语言模型（LLMs）生成符合用户约束输出的能力，但现有基准多依赖模板化约束提示，缺乏现实多样性且限制性能细致评估。为此，本文作者提出了多维约束框架，「涵盖三种约束模式、四类约束（分为十三个子类）和四个难度等级」，基于此开发自动化指令生成流程，进行约束扩展、冲突检测和指令重写，生成1200个可验证指令遵循测试样本。评估19个LLMs，发现不同约束形式下性能差异大，如从一级77.67%降至四级32.96%。利用该方法为强化学习生成数据，显著提升指令遵循能力且不降低通用性能，主要源于模型注意力模块参数修改，增强约束识别与遵循。

a-m-team | AM-Thinking-v1模型

https://arxiv.org/pdf/2505.08311

在开源语言模型领域，如何在32B规模实现优异推理能力是重要挑战。本文作者基于开源的Qwen2.5-32B基础模型，利用精心设计的后训练流程，结合监督微调和强化学习，构建了AM-Thinking-v1。开源32B模型其相关能力能力已经赶超DeepSeek-R1-671B大模型。该模型在AIME 2024、AIME 2025、LiveCodeBench等推理基准测试中，分别取得85.3、74.4、70.3的高分，数学和编码能力出色，与领先MoE模型相媲美，且已在Hugging Face开源。

小米 |MiMo-7B模型

https://arxiv.org/pdf/2505.07608

大型语言模型在推理任务上有待提升，需优化预训练和后训练阶段。本文作者在**「预训练时增强数据预处理流程」，采用三阶段数据混合策略，用25万亿标记训练MiMo-7B-Base，增加多标记预测目标提升性能和推理速度；「后训练时整理13万可验证数学编程问题数据集用于强化学习」**，整合测试难度驱动代码奖励方案，采用策略性数据重采样稳定训练。实验结果显示MiMo-7B-Base，超越更大32B模型，最终RL调整模型MiMo-7B-RL在数学、代码和通用推理任务上表现优异，超过OpenAI o1-mini。

MiniMax |自回归TTS模型

https://arxiv.org/pdf/2505.07916

基于编解码器的模型推动了语音合成（TTS）技术的显著进步，其在大规模数据集上训练后，基于几秒的参考音频就可以生成高质量语音，其应用范围非常广泛。本文作者提出MiniMax-Speech，这是一个基于Transformer的自回归TTS模型，「其关键创新能从参考音频提取音色特征而无需转录，以零样本方式生成与参考音色一致的富有表现力的语音，还支持单样本声音克隆，且通过提出的Flow-VAE提升合成音频整体质量，该模型支持32种语言」。在多个客观和主观评估指标上表现出色，于客观声音克隆指标（词错误率和说话者相似性）上达到SOTA水平，并在公共TTS Arena排行榜上位居榜首，还因说话者编码器的稳健和解耦表征，可拓展应用于任意声音情感控制、文本到声音以及专业声音克隆等，无需修改基础模型。

字节 |视觉语言模型：Seed1.5-VL

https://arxiv.org/pdf/2505.07062

推进通用多模态理解与推理是人工智能领域的重要目标，但现有模型在多模态任务中存在性能瓶颈。本文作者构建了Seed1.5-VL，「由 532M 参数视觉编码器和 20B 活动参数的混合专家（MoE）LLM 组成」，尽管架构相对紧凑，但表现出色。在 60 个公共基准测试中，有 38 个达到最先进的性能，在 GUI 控制和游戏玩法等以代理为中心的任务上，超越了 OpenAI CUA 和 Claude 3.7 等领先多模态系统，还展现出强大的多模态推理能力。

https://arxiv.org/pdf/2505.07291传统集中式训练存在局限，如资源受限、易受单点故障影响等。本文作者提出了INTELLECT-2，「这是首个全球分布式强化学习（RL）训练运行的320亿参数语言模型」。与传统的集中式训练不同，INTELLECT-2利用完全异步的强化学习。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述