摘要
本文首次将可验证奖励强化学习(RLVR)应用于全模态大语言模型的情感识别任务。我们利用RLVR优化Omni模型,显著提升了其在三个关键方面的性能:推理能力、情感识别准确性和泛化能力。RLVR的引入不仅提高了模型在分布内数据上的整体性能,还在分布外数据集评估中展现出优越的鲁棒性。更重要的是,改进的推理能力使模型能够清晰分析不同模态(特别是视觉和音频信息)在情感识别过程中的贡献,为多模态大语言模型的优化提供了宝贵见解。
1 引言
DeepSeek R1引入的关键创新是可验证奖励强化学习(RLVR),它利用基于规则的奖励机制以高效可靠的方式优化模型。最近的研究将这种方法扩展到多模态大语言模型(MLLMs),进一步展示了其多功能性。例如,R1-V已应用于几何推理和视觉计数等任务,使用RLVR训练的MLLMs不仅展示出强大的推理能力,还在领域内测试中达到与监督微调(SFT)相当的性能,同时在分布外(OOD)评估中显著优于SFT模型。
在另一项值得注意的工作Visual-RFT中,作者验证了RLVR在图像分类和目标检测等经典计算机视觉任务上的有效性。他们的结果表明,RLVR在几乎所有类别中都持续优于SFT,突显了其广泛的适用性和鲁棒性。
尽管取得了这些进展,RLVR与MLLMs的集成迄今仅限于图像-文本模态。据我们所知,尚无先前工作探索将RLVR应用于包含更丰富信息源(如音频和动态视觉内容)的基于视频的多模态模型。为弥补这一差距,我们首次探索RLVR与视频全模态模型的结合,专注于情感识别任务——一个视觉和音频模态都提供关键线索的领域。
在本研究中,我们基于HumanOmni(一个为人类中心场景理解设计的首个开源Omni模型)进行构建。通过将RLVR应用于HumanOmni,我们旨在研究其在提升情感识别性能方面的潜力。我们的发现揭示了几个关键见解:
- 增强的推理能力:R1-Omni展示出卓越的推理能力,使我们能够更清晰地理解视觉和音频信息如何贡献于情感识别。
- 提升的理解能力:与SFT相比,RLVR显著提升了情感识别任务的性能。
- 更强的泛化能力:RLVR模型表现出明显更好的泛化能力,特别是在分布外场景中表现卓越。
2 预备知识
2.1 可验证奖励强化学习
可验证奖励强化学习代表一种新型训练范式,旨在优化模型用于可客观验证结果的任务。此类任务的例子包括数学问题求解、编码挑战和其他具有明确正确性标准的领域。与传统方法(如基于人类反馈的强化学习RLHF)不同,RLHF依赖于在人类偏好上训练的单独奖励模型,而RLVR通过直接利用验证函数评估输出,消除了中间奖励建模的需求。
RLVR的核心是简化奖励机制,同时确保与任务固有的正确性标准保持一致。给定输入问题q,策略模型πθ生成响应o,然后使用可验证奖励函数R(q, o)进行评估。该奖励函数确定生成的输出是否与真实值匹配,分配二元分数:
这里,πref表示优化前的参考模型,R(q, o)是可验证奖励函数,β是控制KL散度(正则化项,当前后的策略变化较大时,KL散度较大)的影响力的超参数。
在本工作中,我们将RLVR的应用扩展到多模态情感识别领域,其中视觉和音频模态都贡献于最终预测。具体来说,我们利用MAFW和DFEW数据集的训练集,包含总共15,306个视频样本,来训练我们的Omni多模态模型。值得注意的是,这些数据集仅提供情感类别的注释,没有任何关于推理过程的显式标签或监督。尽管有这一限制,通过利用RLVR,我们旨在提升Omni多模态模型在这一具有挑战性任务中的推理能力、性能和泛化能力。
2.2 群组相对策略优化(GRPO)
群组相对策略优化(GRPO)代表一种新型强化学习方法,与传统方法如近端策略优化(PPO)有所不同。与PPO不同,PPO依赖于评论家模型来评估候选策略的性能,而GRPO通过直接比较生成响应组来消除对额外评论家的需求。这种简化机制简化了训练过程,同时保持了强大的优化能力。
GRPO的核心思想是评估组内多个候选响应的相对质量。对于给定输入问题q,GRPO首先使用当前策略πθold生成G个不同响应{o1, o2, ..., oG}。然后根据通过预定义奖励函数获得的相应奖励{r1, r2, ..., rG}评估这些响应。为确定每个响应的相对质量,GRPO通过计算其均值和标准差来标准化奖励:
其中Ai表示指示第i个响应相对质量的标准化分数。
通过利用这种标准化评分机制,GRPO鼓励模型优先考虑组内具有更高奖励值的响应。这种方法不仅减少了对外部评论家模型的依赖,还增强了模型有效区分高质量和低质量输出的能力。
遵循DeepSeek R1提出的方法,我们将GRPO与RLVR结合,利用两种方法的优势。这种集成使我们能够实现卓越的推理、泛化和情感识别能力。
2.3 Human-Omni基座介绍
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
在人类中心场景中,理解和处理视觉与听觉信息至关重要。文章指出,当前方法大多关注于视觉-语言模型,但缺乏对音频输入的处理能力,导致对场景的理解不完整。
近期一些可以同时处理视频+音频的模型被提出,但是由于缺乏大中心规模专门的人类数据集以及缺乏针对人物场景的针对性网络架构,导致其对于人物中心场景的理解能力还有较大的提升空间。
论文主要创新:
- 提出了HumanOmni,首个专注于人物中心场景理解的可以同时处理视觉+声音的多模态大语言模型。
- 构建了包含240万个人类中心视频片段的数据集,使用多个先进的模型进行联合校验,生成超过1400万条指令,以促进对多样化人类中心场景的理解。
- 人工对5w条视频片段进行标注,产生了超过10w条高质量指令,这些数据进一步提升了我们对于人物场景的理解能力。在情绪识别、面部描述、动作理解等多个人物相关的任务下,我们的HumanOmni均达到了sota的水平,同时我们实验验证了视觉+音频的联合输入相比单独使用视觉和单独使用音频的优势。
视觉组件:为理解以人为中心的视频内容,设计了面部相关分支、身体相关分支和交互相关分支。面部相关分支采用细节敏感的投影仪 MLP2xGeLU,更好地捕捉面部细微变化。身体相关分支和交互相关分支使用时空投影仪 STC,处理连续动作和交互场景。
三个分支的特征通过指令驱动的融合模块,依据用户指令动态调整权重进行融合。即利用 BERT 对用户指令进行编码,再通过两个 MLP 生成特征权重,以选择最适合任务的视觉特征。
听觉组件:遵循已有方法,使用 Whisper-large-v3 的音频预处理器和编码器处理音频数据,通过 MLP2xGeLU 将音频特征映射到文本域。
文本处理:直接使用大语言模型的文本编码器对文本进行编码。
音频、视觉和文本特征在统一的表示空间中通过特定标记连接,然后输入到 LLM 解码器进行进一步处理。
模型训练
模型训练分为三个阶段
第一阶段是视觉能力构建,在这一阶段,我们利用生成的指令数据以及人工标注的指令数据构建了模型的视觉能力,其中我们更新了三个分支的视觉映射器的参数、指令驱动的融合模块的参数以及大语言模型的参数。
第二阶段是听觉能力发展,在这一阶段,我们基于第一阶段的大语言模型的参数,利用大规模音频数据进行训练,只更新音频映射器的参数,使得模型具备对语音的理解和解释能力。
第三阶段是跨模态交互集成阶段。这一阶段基于前两阶段的模型参数,利用结合视觉和音频数据,提升模型处理和关联不同模态信息的能力
3. R1-Omni
3.1 使用 EMER 数据集进行冷启动
为了确保 RLVR 的训练顺利进行,我们采用了一种冷启动策略,这种策略受到 DeepSeek R1 训练方法的启发。具体来说,我们通过在一个组合数据集上微调 HumanOmni-0.5B 模型来初始化它。该数据集由以下两部分组成:
- EMER 数据集:包含 232 个样本,专为可解释的多模态情感推理任务设计。
- 手动标注的 HumanOmni 数据集:包含 348 个样本。
总计 580 个视频样本。这一步骤对于在进入 RLVR 训练之前,为模型提供初步的推理能力至关重要。
EMER 数据集专门用于可解释的情感推理任务。它包含多模态数据(视觉和音频)以及详细的注释,描述了情感识别背后的推理过程。通过在冷启动阶段利用该数据集,我们使 HumanOmni 模型能够初步理解视觉和音频线索如何共同作用于情感识别。
以下是冷启动阶段使用的 EMER 数据的具体格式示例:
3.2 RLVR(可验证奖励强化学习)
在我们的框架中,RLVR 的训练过程旨在优化 HumanOmni-0.5B 模型,使其能够处理包括视频和音频数据在内的多模态输入,用于情感识别任务。RLVR 的训练流程如下:
- 输入处理:策略模型 πθ 接收多模态输入数据(包括视频帧和对应的音频流),并生成一组候选响应。
- 响应生成:每个候选响应都包含详细的推理过程,解释模型如何整合视觉和音频信息得出预测。
- 奖励评估:使用可验证奖励函数对这些候选响应进行评估。
奖励函数设计
RLVR 的奖励函数由两个部分组成:准确性奖励(Racc)和格式奖励(Rformat)。这两个部分结合形成总奖励 R,定义为:
- 格式奖励(Rformat):确保模型的输出符合指定的结构化格式。模型的输出需要包括以下两部分:
- 推理过程:用 `` 标签包裹,解释模型如何整合视觉和音频线索得出预测。
- 最终情感标签:用
<answer></answer>
标签包裹,表示预测的情感。
如果输出满足这些格式要求,格式奖励被赋值为 1;否则为 0。
奖励函数的作用
通过结合准确性奖励和格式奖励,RLVR 的奖励函数不仅鼓励模型生成正确的情感预测,还确保输出结构化且易于解释。这种设计使得模型的输出既准确又具有可解释性,便于后续分析和评估。
KL 散度正则化
为了防止模型在优化过程中偏离原始参考模型 πref 太远,RLVR 在优化目标中加入了 KL 散度正则化项。完整的优化目标公式为:
- KL 散度:衡量当前模型 πθ 和参考模型 πref 在生成输出 o 时的概率分布差异。
- β:超参数,用于控制奖励最大化与保持模型稳定性之间的权衡。
通过 KL 散度正则化,RLVR 确保模型在提升任务性能的同时,保留其原始能力,避免过度拟合特定任务。
3.3 冷启动与 RLVR 的结合
为了顺利进行 RLVR 训练,我们在冷启动阶段对 HumanOmni-0.5B 模型进行了初步微调,使其具备基本的推理能力。冷启动阶段的训练数据包括:
- EMER 数据集:提供了详细的多模态情感推理注释。
- 手动标注的 HumanOmni 数据集:补充了更多样化的情感场景。
在完成冷启动后,模型已经能够生成结构化的输出,包括推理过程和最终情感预测。接下来,我们使用 RLVR 对模型进行进一步优化,重点提升以下能力:
- 推理能力:通过奖励函数鼓励模型生成更详细、更准确的推理过程。
- 情感识别准确性:通过准确性奖励直接优化模型的情感预测能力。
- 泛化能力:通过 KL 散度正则化,确保模型在分布外数据上的鲁棒性。
这种冷启动与 RLVR 的结合,使得 R1-Omni 模型在多模态情感识别任务中表现出色,不仅能够准确预测情感,还能提供清晰的推理过程,解释预测背后的依据。
3.4 RLVR与GRPO的结合
RLVR 和 GRPO 的关系
RLVR 的作用
RLVR 是一种奖励机制,核心在于提供一个明确的、可验证的奖励函数,用于评估模型输出的质量。它的奖励函数由两部分组成:
- 准确性奖励:评估模型预测是否正确。
- 格式奖励:确保输出符合指定的结构化格式。
RLVR 的奖励函数是整个强化学习过程的核心,因为它定义了优化目标,指导模型生成高质量的输出。
GRPO 的作用
GRPO 是一种优化策略,用于训练强化学习模型。它的核心思想是通过比较一组候选响应的相对质量,优化模型的策略。GRPO 不直接定义奖励,而是依赖于外部提供的奖励函数来评估候选响应的质量。
两者的关系
- RLVR 提供奖励函数:RLVR 定义了奖励函数 R(q,o)R(q, o)R(q,o),用于评估候选响应的质量。
- GRPO 使用 RLVR 的奖励函数:GRPO 通过 RLVR 提供的奖励函数对候选响应进行评分,并基于这些评分优化模型的策略。
因此,RLVR 和 GRPO 是互补的:RLVR 定义了奖励机制,而 GRPO 是实现优化的具体方法。
2. RLVR 和 GRPO 在 R1-Omni 中的使用方式
冷启动阶段
在冷启动阶段,RLVR 的奖励函数被用来对模型进行初步优化。这一阶段的目标是让模型具备基本的推理能力和情感识别能力。此时,RLVR 的奖励函数直接用于指导模型的训练,帮助模型生成符合任务需求的输出。
强化学习阶段
在强化学习阶段,GRPO 被引入作为优化策略。此时,RLVR 的奖励函数仍然是核心,用于评估候选响应的质量。GRPO 使用 RLVR 提供的奖励函数对一组候选响应进行评分,并通过比较这些响应的相对质量来优化模型的策略。
关键点
-
RLVR 的奖励函数贯穿始终:无论是冷启动阶段还是强化学习阶段,RLVR 的奖励函数始终是评估模型输出质量的核心。
-
GRPO 是强化学习阶段的优化工具:在强化学习阶段,GRPO 使用 RLVR 的奖励函数对候选响应进行相对优化。
4 实验
在本节中,我们呈现实验结果,验证我们的RLVR在增强HumanOmni-0.5B能力方面的有效性。我们将R1-Omni(RLVR训练)与三个模型进行比较:
- HumanOmni-0.5B
- EMER-SFT:在EMER数据集上训练的监督微调模型(冷启动阶段)
- MAFW-DFEW-SFT:基于HumanOmni-0.5B直接在MAFW和DFEW训练集上训练的监督微调模型
(图一节选)
我们的实验系统地评估了R1-Omni的性能,揭示了三个关键优势:
(1) 它通过为其预测生成详细和可解释的解释,展示了增强的推理能力;
(2) 它实现了对多模态数据的改进理解,导致情感识别任务中更高的准确性;
(3) 它表现出对分布外数据更强的泛化能力,展示了跨多样场景的鲁棒性。
4.1 增强的推理能力
我们的R1-Omni最显著的优势之一是其卓越的推理能力。为说明R1-Omni的推理能力,我们在图1中呈现了一组可视化示例,可以观察到,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型展示出有限的推理能力。虽然EMER-SFT展示了一定程度的推理能力,但其推理过程连贯性相对较差,容易产生幻觉。例如,在MAFW和DFEW数据集上测试时,R1-Omni通过提供更连贯、准确和可解释的推理过程,持续优于这些基线。这种增强的推理能力不仅提高了模型的整体性能,还为视觉和音频信息如何在情感识别任务中相互作用提供了更深入的见解。
4.2 提升的理解能力
为定量评估R1-Omni的理解能力,我们将其性能与MAFW和DFEW数据集上的其他模型进行了比较。用于评估的指标是非加权平均召回率(UAR)和加权平均召回率(WAR),它们衡量模型在不同类别中准确分类情感的能力。重要的是,所有评估都使用开放词汇情感测试(OV-emotion)协议进行。在这种设置中,模型不提供预定义的情感类别,而是直接从输入数据生成情感标签。
从表1中呈现的结果,我们观察到R1-Omni在两个数据集上持续优于其他模型,实现了最高的UAR和WAR分数。
4.3 更强的泛化能力
为评估R1-Omni的泛化能力,我们在RAVDESS数据集(域外数据集)上进行了实验,该数据集作为分布外(OOD)测试集。与主要由电影片段组成的MAFW和DFEW数据集不同,RAVDESS数据集特点是专业演员用中性北美口音发声词汇匹配的陈述。这种数据分布的显著差异使RAVDESS成为评估模型泛化到未见场景能力的理想基准。
从表1中呈现的实验结果可以看出,R1-Omni模型在RAVDESS数据集上相比MAFW-DFEW-SFT模型展示了实质性改进。具体来说,R1-Omni模型实现了43.00%的UAR和44.69%的WAR,超过了SFT模型29.33%的UAR和30.75%的WAR性能。这一显著差距突显了R1-Omni的卓越泛化能力。
5 局限性
尽管R1-Omni取得了显著改进,仍存在几个值得进一步研究的局限性。为说明这些挑战,我们在图3中呈现了三个代表性示例。
5.1 不准确的字幕识别
在第一个示例中,尽管模型产生了正确的情感预测,我们观察到字幕识别的不准确性仍然是潜在的局限性。这一问题出现是因为HumanOmni基础模型和后续的SFT和RLVR训练过程都没有明确关注改进字幕识别能力。解决这一局限性将需要整合更强大的字幕处理技术,如在专门数据集上微调或纳入高级自然语言理解模型。
5.2 推理中的幻觉
第二个示例展示了一个常见问题——幻觉,即模型生成的推理输出没有基于视频的实际内容。例如,陈述"旁白揭示了她最初的中性反应,随着时间的推移逐渐转变为轻微的兴奋和愤怒"与视频的实际情感轨迹不一致。这种虚构的推理导致模型错误地将情感预测为惊讶,突显了需要确保模型输出忠于输入数据的机制。
5.3 音频线索的利用不足
第三个示例强调了模型充分利用音频线索(如语气和语调)的能力有限,这对准确的情感识别至关重要。尽管我们的模型能够通过整合音频和视觉信息来推理情感,但在某些情况下,音频特征的使用似乎不如视觉线索那样彻底或有效。在这个特定实例中,角色的声音传递提供了强烈的情感信号,但模型未能充分将这些细微差别纳入其推理过程。
5.4 对未来研究的启示
我们分析中确定的局限性突显了几个有前途的未来研究方向,以进一步增强R1-Omni的能力。具体来说,我们提出以下关键探索领域:
-
加强基础模型的能力
虽然RLVR显著增强了基础模型的推理和泛化能力,但基础模型的固有性能仍然是整体成功的关键决定因素。因此,持续努力改进底层Omni模型,如通过更大规模的预训练、更多样化的数据集或先进的架构设计,对于释放RLVR基础方法的全部潜力至关重要。 -
减轻推理输出中的幻觉
由于多模态数据的固有挑战,如视频和音频标记内的因果关系比文本标记弱,以及缺乏对推理内容的显式监督,在模型的推理过程中可能会出现幻觉。这些不准确不仅降低了性能,还对用户体验产生负面影响。开发检测和减轻幻觉的机制对于提高模型的可靠性和可用性至关重要。 -
增强音频线索利用
音频线索(如语调和语调)的利用不足代表了当前模型的一个局限性。未来工作应专注于提高模型有效提取和整合音频特征的能力。 -
增强推理深度和情感智能
当前的推理过程往往有些机械化,主要关注直接可观察的特征,如视觉线索和音频信号。然而,人类情感识别通常涉及更深层次的心理洞察,如理解个体的动机、意图或内部状态。通过引导模型探索更细微的推理方面,如推断心理活动或情感驱动因素,我们可以提升其情感智能并增强其捕捉复杂情感动态的能力。这一进步将使模型能够在现实场景中更好地模拟类人共情和推理。