📖标题:SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning
🌐来源:arXiv, 2504.15900
🌟摘要
🔸最近的研究表明,强化学习(RL)可以通过促使大型语言模型(LLM)“先思考后回答”来显著提高其推理能力。然而,这些增益是否以及如何转移到音频语言推理中,在很大程度上仍未得到探索。
🔸我们将组相对策略优化(GRPO)框架从DeepSeek-R1扩展到大型音频语言模型(LALM),并构建了一个32k样本的多项选择语料库。我们使用两阶段方案对结构化和非结构化思维链进行监督微调,然后是课程指导的GRPO,系统地比较了相同架构下的隐式与显式、结构化与自由形式推理。我们的结构化音频推理模型SARI(通过课程引导的强化学习进行结构化音频推理)比基础模型Qwen2-audio-7B-Instruct的平均准确率提高了16.35%。此外,基于Qwen2.5-Omni构建的变体在MMAU测试迷你基准上达到了67.08%的最新性能。
🔸消融实验表明,在我们使用的基础模型上:(i)SFT预热对于稳定的RL训练很重要,(ii)结构化链比非结构化链产生更稳健的泛化,以及(iii)易于理解的课程加速收敛并提高最终性能。这些发现表明,明确的、结构化的推理和课程学习大大提高了对音频语言的理解。
🛎️文章简介
🔸研究问题:如何通过强化学习(RL)和课程学习来提升音频语言推理模型的能力?
🔸主要贡献:论文提出了一种基于课程引导的强化学习训练方案,显著提升了音频问答的推理性能,超越了传统的监督微调和之前的RL基线。
📝重点思路
🔸构建了一个包含约32000个多选音频问题的数据集,每个问题都有四个答案选项。
🔸采用GRPO算法对大音频语言模型进行强化学习微调,以提升其在音频问答任务中的推理能力。
🔸引入课程学习方法,从简单到困难逐步训练模型,避免模型一开始就接触到过于复杂的问题。
🔸对不同的推理策略进行了系统比较,包括显式推理与隐式推理、结构化思维与非结构化思维。
🔸利用结构化推理格式,将推理过程分为规划、说明、推理和总结四个部分,以提高推理的清晰度和准确性。
🔎分析总结
🔸通过实验,模型在MMAU和MMSU基准测试中达到了最先进的性能,证明了显式推理模型在音频推理任务中的优势。
🔸课程学习显著提高了模型的稳定性和推理能力,使其能更好地处理复杂问题。
🔸结构化推理比非结构化推理在准确性上表现更佳,表明明确的推理路径对模型性能有积极影响。
🔸实验结果显示,使用课程引导的GRPO方法,模型在音频理解任务中取得了显著的性能提升,验证了该方法的有效性。
💡个人观点
论文的创新点在于将课程学习与结构化推理结合应用于音频语言模型,展现了在多模态推理任务中显式思维的重要性。