贝壳:通过强化学习提升音频推理

在这里插入图片描述

📖标题:SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning
🌐来源:arXiv, 2504.15900

🌟摘要

🔸最近的研究表明,强化学习(RL)可以通过促使大型语言模型(LLM)“先思考后回答”来显著提高其推理能力。然而,这些增益是否以及如何转移到音频语言推理中,在很大程度上仍未得到探索。
🔸我们将组相对策略优化(GRPO)框架从DeepSeek-R1扩展到大型音频语言模型(LALM),并构建了一个32k样本的多项选择语料库。我们使用两阶段方案对结构化和非结构化思维链进行监督微调,然后是课程指导的GRPO,系统地比较了相同架构下的隐式与显式、结构化与自由形式推理。我们的结构化音频推理模型SARI(通过课程引导的强化学习进行结构化音频推理)比基础模型Qwen2-audio-7B-Instruct的平均准确率提高了16.35%。此外,基于Qwen2.5-Omni构建的变体在MMAU测试迷你基准上达到了67.08%的最新性能。
🔸消融实验表明,在我们使用的基础模型上:(i)SFT预热对于稳定的RL训练很重要,(ii)结构化链比非结构化链产生更稳健的泛化,以及(iii)易于理解的课程加速收敛并提高最终性能。这些发现表明,明确的、结构化的推理和课程学习大大提高了对音频语言的理解。

🛎️文章简介

🔸研究问题:如何通过强化学习(RL)和课程学习来提升音频语言推理模型的能力?
🔸主要贡献:论文提出了一种基于课程引导的强化学习训练方案,显著提升了音频问答的推理性能,超越了传统的监督微调和之前的RL基线。

📝重点思路

🔸构建了一个包含约32000个多选音频问题的数据集,每个问题都有四个答案选项。
🔸采用GRPO算法对大音频语言模型进行强化学习微调,以提升其在音频问答任务中的推理能力。
🔸引入课程学习方法,从简单到困难逐步训练模型,避免模型一开始就接触到过于复杂的问题。
🔸对不同的推理策略进行了系统比较,包括显式推理与隐式推理、结构化思维与非结构化思维。
🔸利用结构化推理格式,将推理过程分为规划、说明、推理和总结四个部分,以提高推理的清晰度和准确性。

🔎分析总结

🔸通过实验,模型在MMAU和MMSU基准测试中达到了最先进的性能,证明了显式推理模型在音频推理任务中的优势。
🔸课程学习显著提高了模型的稳定性和推理能力,使其能更好地处理复杂问题。
🔸结构化推理比非结构化推理在准确性上表现更佳,表明明确的推理路径对模型性能有积极影响。
🔸实验结果显示,使用课程引导的GRPO方法,模型在音频理解任务中取得了显著的性能提升,验证了该方法的有效性。

💡个人观点

论文的创新点在于将课程学习与结构化推理结合应用于音频语言模型,展现了在多模态推理任务中显式思维的重要性。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值