HuatuoGPT, Towards Taming Language Models To Be a Doctor 阅读笔记

皮卡丘ZPC

已于 2024-03-30 22:41:25 修改

阅读量591

点赞数 16

分类专栏： AIGC for GPT 评分体系构架文章标签：语言模型笔记人工智能

于 2024-03-30 22:17:24 首次发布

本文链接：https://blog.csdn.net/weixin_51657614/article/details/137180937

版权

论文地址: https://arxiv.org/pdf/2305.15075.pdf

code:GitHub - FreedomIntelligence/HuatuoGPT: HuatuoGPT, Towards Taming Language Models To Be a Doctor. (An Open Medical GPT)

摘要: 在本文中，我们提出了一个用于医疗咨询的大型语言模型(LLM) HuatuoGPT。HuatuoGPT的核心配方是在监督微调阶段利用ChatGPT的提炼数据和医生的真实数据。这不仅是因为纯粹使用chatgpt提炼的数据可能会导致“模型崩溃”，还因为来自医生的真实世界数据将与chatgpt提炼的数据相补充。ChatGPT的回答通常是详细的，表达得很好，流利的，并且遵循指导，但在许多方面它不能像医生一样表现。用于交互式诊断。因此，额外的医生数据可以驯服一个精炼的语言模型，使其表现得像医生一样。为了协同这两个数据源的优势，我们引入了RLMF(混合反馈强化学习)，其中训练奖励模型以使语言模型与两个数据源(ChatGPT和医生)带来的优点保持一致。实验结果(GPT-4评估、人体评估和医疗基准数据集)表明，华图医学在开源llm之间进行医疗会诊方面达到了最先进的水平。值得注意的是，通过使用额外的真实世界数据和RLMF，蒸馏语言模型(即HuatuoGPT)在大多数情况下优于其教师模型(即ChatGPT)。

1介绍

医学是人类生存的重要支柱，其有效性在很大程度上依赖于专业人员的专业知识和经验。然而，像ChatGPT这样的大型语言模型(llm)的出现预示着这种经验驱动领域的变革时代(Wang et al, 2023a)。llm通过利用回顾性数据和生成前瞻性来学习和模仿人类语言输出。考虑到法学硕士和医学的经验驱动型基金会的融合，我们认为法学硕士在改善医疗咨询和诊断支持方面具有巨大的潜力。向ChatGPT学习?近期研究(Taori et al .， 2023;Chiang et al .， 2023;Chen等人，2023)表明，从ChatGPT中提取可以使语言模型在一些常见场景中具有流畅的聊天功能。然而，与领域专家相比，ChatGPT，甚至GPT-4在垂直领域(如医学)中表现出相对较差的性能。造成这种现象的一个原因是，ChatGPT的注释者没有达到专家水平，缺乏医生所拥有的医学知识的熟练程度。因此，纯粹从一个糟糕的老师(即ChatGPT)那里提取医学法学硕士学位是有问题的，就像流行的一般民主化的法学硕士那样(Chiang等人，2023;Chen et al .， 2023)。此外，纯粹使用chatgpt提取的数据可能会导致“模型崩溃”(Shumailov等人，2023)，因此限制了医学法学模型的推广。向医生学习?另一方面，当一个模型只从现实世界的医疗诊断对话中学习时(Wei et al, 2018;Xu et al .， 2019;夏等，2020;Zeng等人，2020)，由于医生在诊断过程中面临的时间限制，它产生的反应过于简洁，缺乏必要的细节水平，导致信息的表达过于浓缩。与ChatGPT的回答相比，医生的回答在耐心、细节水平和逻辑组织方面不够友好。ChatGPT的回答详细且呈现良好(例如，有组织良好的段落、表格和要点)。为了克服上述问题，这项工作的核心方法是利用来自医生和医生的真实数据

从ChatGPT中提取数据。我们将我们的型号命名为华图ogpt1，主要是为中国人设计的。从技术上讲，我们提出了一个两阶段的培训框架，充分利用了ChatGPT和医生的优势。第2节将进一步讨论来自医生的真实医疗数据与来自ChatGPT的提炼数据之间的互补性。
在监督微调(SFT)阶段，我们利用来自医生的真实数据和来自ChatGPT的提炼数据。从ChatGPT中提取的数据被用来驯服语言模型，以遵循医疗指示并流利地交谈。额外的真实医疗数据不仅将医学知识注入到语言模型中，而且还驯服了语言模型，使其能够像医生一样进行医学诊断。此外，通过角色增强促进和ChatGPT抛光，两个数据源相互对齐。在SFT阶段之后，为了进一步利用ChatGPT和医生的优势，同时减轻他们的弱点，我们提出了混合反馈强化学习(RLMF)，灵感来自RLHF (Ouyang et al .， 2022)和RLAIF (Bai et al, 2022)。它用于奖励生成的响应，这些响应不仅对患者友好(从ChatGPT学习，具有更好的演示质量、详细、指导能力和流畅的聊天)，而且像医生一样(从医生那里学习，具有专业和交互式的诊断)。我们提出了一种包括人工和自动评估的医学法学硕士综合评估方法，涵盖单轮和多轮医学咨询。实验结果表明，我们的HuatuoGPT在自动和手动评估方面都优于现有的开源医学llm和ChatGPT。更令人印象深刻的是，我们的模型在自动评估和医生评估方面都超过了gpt -3.5 turbo的性能。
此外，HuatuoGPT在CmedQA (Zhang et al .， 2018)、webmedQA (He et al .， 2019)和huatu26m (Li et al .， 2023a)数据集等多个医疗基准中实现了最先进(SOTA)的零射击性能。我们将在https://github.com/ FreedomIntelligence/Hua

最低0.47元/天解锁文章

皮卡丘ZPC

关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
HuatuoGPT, Towards Taming Language Models To Be a Doctor 阅读笔记

医学是人类生存的重要支柱，其有效性在很大程度上依赖于专业人员的专业知识和经验。然而，像ChatGPT这样的大型语言模型(llm)的出现预示着这种经验驱动领域的变革时代(Wang et al, 2023a)。llm通过利用回顾性数据和生成前瞻性来学习和模仿人类语言输出。考虑到法学硕士和医学的经验驱动型基金会的融合，我们认为法学硕士在改善医疗咨询和诊断支持方面具有巨大的潜力。向ChatGPT学习?近期研究(Taori et al .， 2023;
复制链接

扫一扫

专栏目录