OpenAI开源HealthBench:重塑医疗AI评估标准

想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659

在医疗领域,大模型的应用前景广阔,但其评估标准一直存在局限。近日,OpenAI 发布了 HealthBench,一款开源评估框架,专为测量大模型在真实医疗场景中的表现和安全性而设计,为医疗领域大模型的评估提供了全新的解决方案。

告别局限:真实评估大模型医疗表现

以往的医疗大模型评估多依赖选择题或简短问答形式,与实际医疗场景复杂性脱节。HealthBench 摒弃传统方式,采用 5000 个真实多轮对话,涵盖紧急转诊、全球健康等七大主题,对话由 262 名医生精心设计,跨越 60 个国家医疗场景。医生还为每个对话制定专属评分标准,共 48562 个,全面考察模型准确性、沟通质量等行为维度。

图 1 :以对话为基础,结合医生编写的评分细则对大模型回答进行评价。这种模式突破传统评估局限,让评估结果更贴合实际医疗需求。

性能跃升:模型表现显著进步

HealthBench 对比了不同时期的大模型表现。GPT-3.5 Turbo 初始得分为 16%,到 GPT-4o 提升至 32%,而最新 o3 模型更是达到 60%,两年间稳步增长,近期进步加速。小型模型也有亮眼表现,GPT-4.1 nano 凭借更优推理成本,性能超越 GPT-4o,成本却低 25 倍。

图 2 清晰呈现了不同模型在性能与推理成本上的对比。可以看到,随着模型迭代更新,性能与成本效益不断优化,新一代模型在医疗场景中更具实用潜力。

多维度洞察:深入剖析模型优势与不足

HealthBench 设计七大主题,如紧急转诊、专家定制沟通等,及五大评估维度,包括准确性、完整性等。评估结果显示,模型在不同主题和维度表现各异。在紧急转诊和专家定制沟通主题中得分较高,而在情境探求、健康数据任务和全球健康主题上还有提升空间。

图 5 展示了不同模型在七大主题上的得分情况。从图中可以直观看出,近期模型在多数主题上表现更优,但也存在明显薄弱环节,为后续模型优化指明方向。

图 6 则聚焦于五大评估维度。模型在完整性和情境感知维度得分相对较低,而 o3 在完整性上较前代模型有显著改进,显示模型在关键能力上的进步与不足。

挑战与进阶:推动模型持续优化

HealthBench 还推出两个变体。HealthBench Consensus 聚焦 34 个关键行为维度,经医生共识验证,更精准反映模型在重要医疗场景的表现。HealthBench Hard 则精选 1000 个当前模型难以应对的难题,为未来模型研发树立挑战性目标。

图 10 展示了不同模型在 HealthBench Hard 上的表现。即使是表现最佳的 o3 模型,得分也降至 32%,凸显了模型改进空间,激励研发者突破现有技术瓶颈。

医患协作:与医生表现对比分析

OpenAI 还邀请医生参与评估,医生在无模型辅助和有模型辅助下分别撰写回答。结果显示,近期模型回答质量已高于无辅助医生,但在特定情境下,医生借助模型回答可进一步优化。

图 11 对比了医生与模型回答的得分。这表明大模型可成为医生有力帮手,但模型仍有提升空间,未来医患协作有望推动医疗服务质量跃升。

HealthBench 的发布,为医疗领域大模型评估提供了全面、可靠的标尺。它不仅推动模型技术进步,更助力医疗服务提质增效,为 AI 赋能医疗开启新篇章。随着研究深入和模型优化,大模型在医疗领域应用将更广泛,为人类健康福祉添砖加瓦。

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

GitHub - openai/simple-evals

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值