HuatuoGPT, Towards Taming Language Models To Be a Doctor 阅读笔记

论文地址: https://arxiv.org/pdf/2305.15075.pdf

code:GitHub - FreedomIntelligence/HuatuoGPT: HuatuoGPT, Towards Taming Language Models To Be a Doctor. (An Open Medical GPT)

摘要: 在本文中,我们提出了一个用于医疗咨询的大型语言模型(LLM) HuatuoGPT。HuatuoGPT的核心配方是在监督微调阶段利用ChatGPT的提炼数据和医生的真实数据。这不仅是因为纯粹使用chatgpt提炼的数据可能会导致“模型崩溃”,还因为来自医生的真实世界数据将与chatgpt提炼的数据相补充。ChatGPT的回答通常是详细的,表达得很好,流利的,并且遵循指导,但在许多方面它不能像医生一样表现。用于交互式诊断。因此,额外的医生数据可以驯服一个精炼的语言模型,使其表现得像医生一样。为了协同这两个数据源的优势,我们引入了RLMF(混合反馈强化学习),其中训练奖励模型以使语言模型与两个数据源(ChatGPT和医生)带来的优点保持一致。实验结果(GPT-4评估、人体评估和医疗基准数据集)表明,华图医学在开源llm之间进行医疗会诊方面达到了最先进的水平。值得注意的是,通过使用额外的真实世界数据和RLMF,蒸馏语言模型(即HuatuoGPT)在大多数情况下优于其教师模型(即ChatGPT)。

1介绍

医学是人类生存的重要支柱,其有效性在很大程度上依赖于专业人员的专业知识和经验。然而,像ChatGPT这样的大型语言模型(llm)的出现预示着这种经验驱动领域的变革时代(Wang et al, 2023a)。llm通过利用回顾性数据和生成前瞻性来学习和模仿人类语言输出。考虑到法学硕士和医学的经验驱动型基金会的融合,我们认为法学硕士在改善医疗咨询和诊断支持方面具有巨大的潜力。向ChatGPT学习?近期研究(Taori et al ., 2023;Chiang et al ., 2023;Chen等人,2023)表明,从ChatGPT中提取可以使语言模型在一些常见场景中具有流畅的聊天功能。然而,与领域专家相比,ChatGPT,甚至GPT-4在垂直领域(如医学)中表现出相对较差的性能。造成这种现象的一个原因是,ChatGPT的注释者没有达到专家水平,缺乏医生所拥有的医学知识的熟练程度。因此,纯粹从一个糟糕的老师(即ChatGPT)那里提取医学法学硕士学位是有问题的,就像流行的一般民主化的法学硕士那样(Chiang等人,2023;Chen et al ., 2023)。此外,纯粹使用chatgpt提取的数据可能会导致“模型崩溃”(Shumailov等人,2023),因此限制了医学法学模型的推广。向医生学习?另一方面,当一个模型只从现实世界的医疗诊断对话中学习时(Wei et al, 2018;Xu et al ., 2019;夏等,2020;Zeng等人,2020),由于医生在诊断过程中面临的时间限制,它产生的反应过于简洁,缺乏必要的细节水平,导致信息的表达过于浓缩。与ChatGPT的回答相比,医生的回答在耐心、细节水平和逻辑组织方面不够友好。ChatGPT的回答详细且呈现良好(例如,有组织良好的段落、表格和要点)。为了克服上述问题,这项工作的核心方法是利用来自医生和医生的真实数据

从ChatGPT中提取数据。我们将我们的型号命名为华图ogpt1,主要是为中国人设计的。从技术上讲,我们提出了一个两阶段的培训框架,充分利用了ChatGPT和医生的优势。第2节将进一步讨论来自医生的真实医疗数据与来自ChatGPT的提炼数据之间的互补性。
在监督微调(SFT)阶段,我们利用来自医生的真实数据和来自ChatGPT的提炼数据。从ChatGPT中提取的数据被用来驯服语言模型,以遵循医疗指示并流利地交谈。额外的真实医疗数据不仅将医学知识注入到语言模型中,而且还驯服了语言模型,使其能够像医生一样进行医学诊断。此外,通过角色增强促进和ChatGPT抛光,两个数据源相互对齐。在SFT阶段之后,为了进一步利用ChatGPT和医生的优势,同时减轻他们的弱点,我们提出了混合反馈强化学习(RLMF),灵感来自RLHF (Ouyang et al ., 2022)和RLAIF (Bai et al, 2022)。它用于奖励生成的响应,这些响应不仅对患者友好(从ChatGPT学习,具有更好的演示质量、详细、指导能力和流畅的聊天),而且像医生一样(从医生那里学习,具有专业和交互式的诊断)。我们提出了一种包括人工和自动评估的医学法学硕士综合评估方法,涵盖单轮和多轮医学咨询。实验结果表明,我们的HuatuoGPT在自动和手动评估方面都优于现有的开源医学llm和ChatGPT。更令人印象深刻的是,我们的模型在自动评估和医生评估方面都超过了gpt -3.5 turbo的性能。
此外,HuatuoGPT在CmedQA (Zhang et al ., 2018)、webmedQA (He et al ., 2019)和huatu26m (Li et al ., 2023a)数据集等多个医疗基准中实现了最先进(SOTA)的零射击性能。我们将在https://github.com/ FreedomIntelligence/Hua

  • 16
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值