贝壳：通过强化学习提升音频推理

最新推荐文章于 2025-05-18 20:17:36 发布

大模型任我行

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量947

点赞数 30

分类专栏：大模型-模型训练大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147582495

版权

大模型-模型训练同时被 2 个专栏收录

280 篇文章

订阅专栏

大模型-推理优化

124 篇文章

订阅专栏

在这里插入图片描述

📖标题：SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning
🌐来源：arXiv, 2504.15900

🌟摘要

🔸最近的研究表明，强化学习（RL）可以通过促使大型语言模型（LLM）“先思考后回答”来显著提高其推理能力。然而，这些增益是否以及如何转移到音频语言推理中，在很大程度上仍未得到探索。
🔸我们将组相对策略优化（GRPO）框架从DeepSeek-R1扩展到大型音频语言模型（LALM），并构建了一个32k样本的多项选择语料库。我们使用两阶段方案对结构化和非结构化思维链进行监督微调，然后是课程指导的GRPO，系统地比较了相同架构下的隐式与显式、结构化与自由形式推理。我们的结构化音频推理模型SARI（通过课程引导的强化学习进行结构化音频推理）比基础模型Qwen2-audio-7B-Instruct的平均准确率提高了16.35%。此外，基于Qwen2.5-Omni构建的变体在MMAU测试迷你基准上达到了67.08%的最新性能。
🔸消融实验表明，在我们使用的基础模型上：（i）SFT预热对于稳定的RL训练很重要，（ii）结构化链比非结构化链产生更稳健的泛化，以及（iii）易于理解的课程加速收敛并提高最终性能。这些发现表明，明确的、结构化的推理和课程学习大大提高了对音频语言的理解。

🛎️文章简介

🔸研究问题：如何通过强化学习（RL）和课程学习来提升音频语言推理模型的能力？
🔸主要贡献：论文提出了一种基于课程引导的强化学习训练方案，显著提升了音频问答的推理性能，超越了传统的监督微调和之前的RL基线。

📝重点思路

🔸构建了一个包含约32000个多选音频问题的数据集，每个问题都有四个答案选项。
🔸采用GRPO算法对大音频语言模型进行强化学习微调，以提升其在音频问答任务中的推理能力。
🔸引入课程学习方法，从简单到困难逐步训练模型，避免模型一开始就接触到过于复杂的问题。
🔸对不同的推理策略进行了系统比较，包括显式推理与隐式推理、结构化思维与非结构化思维。
🔸利用结构化推理格式，将推理过程分为规划、说明、推理和总结四个部分，以提高推理的清晰度和准确性。

🔎分析总结

🔸通过实验，模型在MMAU和MMSU基准测试中达到了最先进的性能，证明了显式推理模型在音频推理任务中的优势。
🔸课程学习显著提高了模型的稳定性和推理能力，使其能更好地处理复杂问题。
🔸结构化推理比非结构化推理在准确性上表现更佳，表明明确的推理路径对模型性能有积极影响。
🔸实验结果显示，使用课程引导的GRPO方法，模型在音频理解任务中取得了显著的性能提升，验证了该方法的有效性。