微软:通过强化学习优化LLM的医学推理

在这里插入图片描述

📖标题:Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning
🌐来源:arXiv, 2502.19655

🌟摘要

🔸来自可验证奖励的强化学习(RLVR)最近引起了人们的关注,因为它能够在没有明确推理监督的情况下从基础语言模型中引出自我进化的推理能力,正如DeepSeekR1所证明的那样。虽然之前关于RLVR的工作主要集中在数学和编码领域,但它对其他任务和领域的适用性仍未得到探索。
🔸在这项工作中,我们研究了RLVR是否可以产生医学推理。我们引入MED-RLVR作为医学领域RLVR的初步研究,利用医学多项选择题回答(MCQA)数据作为可验证的标签。
🔸我们的结果表明,RLVR不仅对数学和编码有效,而且成功地扩展到医疗问答。值得注意的是,MED-RLVR在分布内任务上实现了与传统监督微调(SFT)相当的性能,同时显著提高了分布外的泛化能力,精度提高了8分。对训练动态的进一步分析表明,在没有明确推理监督的情况下,推理来自3B参数库模型。这些发现强调了RLVR在数学和编码之外的领域的潜力,为其在医学等知识密集型领域的应用开辟了新的途径。

🛎️文章简介

🔸研究问题:如何在医学领域利用强化学习与可验证奖励(RLVR)的方法,从小型基模型中引出医疗推理,而无需显式的推理监督。
🔸主要贡献:论文的贡献在于提出了MED-RLVR方法,通过对医学多项选择题的强化学习训练,展示了医疗推理能力的出现,并在一些任务中超越了传统的监督微调(SFT)方法。

📝重点思路

🔸使用MedQA-USMLE数据集进行训练,该数据集包含来自专业医学考试的多项选择题,涵盖广泛的医学主题。
🔸采用近端策略优化(PPO)作为强化学习算法,通过多次小批量更新进行策略优化,以确保更新不会偏离先前的策略过多。
🔸设计了一种基于规则的奖励函数,该函数通过检查模型输出的格式和正确性来计算奖励,只有正确且符合格式的输出才能获得正奖励。
🔸进行比较实验,将MED-RLVR与传统的监督微调(SFT)基线进行对比,评估其在分布内和分布外任务的表现。

🔎分析总结

🔸MED-RLVR在分布内的MedQA测试集上与SFT表现相当,但在分布外的MMLU-Pro-Health任务上显著优于SFT,准确率提高约8个百分点。
🔸强化学习方法能够使医疗推理能力在没有显式监督的情况下从小型基模型中自发出现。
🔸观察到模型在训练过程中存在“奖励黑客”行为,即模型通过简化推理过程或直接给出答案来获取高奖励,从而影响推理的质量。

💡个人观点

论文的核心是通过可规则验证的奖励信号进行强化学习,复现R1的推理能力。

🧩附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值