论文阅读：很火的chatdoctor_chatdoctor: a medical chat model fine-tuned on a l-CSDN博客

本文链接：https://blog.csdn.net/weixin_73479446/article/details/131919573

起源：之前课题组的学长分享过chatdoctor，感觉对于我来说，chatdoctor从情感上更亲近一点，所以才选择这个主题来阅读。

ps：得到一点小意见，分享给大家，看论文的时候先看英文版的，看不懂再看中文，因为涉及专业方面的话，翻译器翻译过来，总是有点别扭。

进入正文：

论文：ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge

医学领域中的chatgpt

摘要

目的

本研究的主要目的是通过创建一个专业的语言模型来提高医疗建议的准确性，从而解决诸如ChatGPT等流行的大型语言模型(此后都用llm代替)在医学知识方面的局限性。

方法

我们通过使用来自广泛使用的在线医疗咨询平台的100,000个患者-医生对话的大型数据集，调整和改进大型语言模型元ai (LLaMA)来实现这一目标。为了尊重隐私，这些对话经过了清理和匿名处理。除了模型改进之外，我们还集成了一个自我导向的信息检索机制，允许模型访问和利用来自维基百科等在线资源的实时信息和来自精心策划的离线医疗数据库的数据。

结果

将模型与现实世界的医患互动进行微调，显著提高了模型理解患者需求和提供明智建议的能力。通过为模型配备从可靠的在线和离线来源进行自我导向的信息检索，我们观察到其响应的准确性有了实质性的提高。

总结

我们提出的ChatDoctor代表了llm的重大进步，在理解患者询问和提供准确建议方面取得了重大进步。鉴于医疗领域的高风险和低容错性，这种提供准确可靠信息的增强不仅有益而且必不可少。

介绍

公共领域模型没有经过专门或详细地捕获医学领域知识的训练，从而导致模型经常提供不正确的医学响应。

由于流行的ChatGPT模型不是开源的，我们使用Meta的公共大语言模型Meta - ai (LLaMA)模型作为开发和评估的平台。具体来说，我们首先使用来自斯坦福大学指令跟随数据，训练了一个基于LLaMA的通用会话模型。然后，我们在从在线医疗咨询网站(www.healthcaremagic.com)收集的100K患者-医生对话数据集上对对话模型进行了微调。通过大量的实验，我们发现通过医患对话进行微调的模型在准确率、召回率和F1分数方面都优于ChatGPT。此外，自主ChatDoctor模型能够检索最新的在线/离线信息，还可以回答关于相对较新的疾病的医学问题，这些疾病没有包括在医患培训对话中，例如猴痘。

3点贡献：

1.我们建立了一个微调的llm在医学领域应用的方法。

2. 我们编译并公开共享了一个包含10万次医患互动的综合数据集，作为改进llm的培训资源。该数据集包括丰富的术语、知识和专业知识，这对于培训医学领域的llm至关重要。此外，我们策划并公开共享了另一个数据集，

该数据集由来自单独来源(www.icliniq.com)的10,000个患者-医生对话组成，作为模型的测试资源。为了支持和激励医疗保健领域对话模型开发的未来进展（10万个训练集和1万个测试集）

3.我们提出了一个自主的ChatDoctor模型，该模型可以检索在线和离线的医学领域知识，以回答有关最新医学术语和疾病的医学问题

材料与方法

改进我们模型的第一步涉及管理一个包含患者-医生互动的数据集。通常，病人用随意和有些肤浅的语言描述他们的症状。

因此，我们选择收集真实的医患对话，从在线医疗咨询网站HealthCareMagic收集了大约10万次这样的互动。对数据进行了手动和自动过滤。具体来说，我们会自动过滤掉那些太短的对话，其中大部分都没有回答任何有实际意义的问题。我们手动过滤了有错误的回复内容。为了保护隐私，我们删除了所有识别医生或患者的信息，并使用LanguageTool来纠正任何语法错误。

建立外部知识库

llm通常预测序列中的下一个单词，导致潜在的不准确或错误的问题回答。此外，模型的输出在一定程度上是不可预测的，这在医学领域是不可接受的。然而，如果这些模型能够基于可靠的知识库生成或评估响应，那么它们的准确性可以得到显著提高。因此，我们整理了一个数据库，其中包括疾病、症状、相关医学测试/治疗程序和潜在药物。这个数据库是ChatDoctor的外部和离线知识大脑。无需模型再培训即可持续更新，该数据库可以针对特定疾病或医学专业进行定制。我们使用MedlinePlus来构建这个疾病数据库，但也可以使用其他可靠的来源。此外，像维基百科这样的在线信息源可以补充我们自治模型的知识库。值得注意的是，维基百科可能不是一个完全可靠的数据库，但我们的框架可以很容易地扩展到更可靠的在线数据库，如著名的学术期刊。

运行实例：

可靠的数据库的实例

具有知识大脑的自主聊天医生的开发

通过构造适当的提示来输入ChatDoctor模型来完成的。具体来说，我们设计了关键字挖掘提示，作为ChatDoctor从患者查询中提取关键词以进行相关知识搜索的第一步。基于这些关键词，使用术语匹配检索系统从知识脑中检索排名靠前的信息[。考虑到llm的字数限制(令牌大小)，我们将要阅读的文本分成相等的部分，并根据关键字命中数对每个部分进行排名。然后，ChatDoctor模型依次读取前N个部分(我们研究中使用了五个部分)，通过提示选择和总结相关信息。最终，该模型处理和编译所有知识条目以生成最终响应。这种信息检索方法确保患者获得由可靠来源支持的准确、知情的响应，并可作为ChatDoctor生成的响应的验证方法。

结果

为了评估自主ChatDoctor模型的熟练程度，我们使用各种当代医学查询对其进行了测试。其中一个问题包括与“Monkeypox”(缩写为Mpox)相关的问题，如图7所示。猴痘最近于2022年11月28日被世界卫生组织(WHO)指定为猴痘，使其成为一个相对较新的术语。虽然ChatGPT无法提供令人满意的答案，但ChatDoctor由于其自主知识检索功能，能够从维基百科中提取有关猴痘的相关信息并提供精确的答案。

同样的，一般的医疗查询，如“中耳炎”，如图8所示，ChatDoctor能够在检索相关知识后提供可靠的响应。在另一个例子中，关于2023年3月获得FDA批准的药物“Daybue”的问题，我们的模型在自主检索相关信息后准确地解决了问题，显示出优于ChatGPT的优势。

为了对ChatDoctor的性能进行定量评估，我们利用独立来源的iCliniq数据库中的问题作为输入，并将实际人类医生的相应回答作为基准或“基本事实”。我们将这些与ChatDoctor和ChatGPT生成的响应进行了比较。在这次评估中，我们使用BERTScore来计算ChatDoctor和ChatGPT的Precision、Recall和F1分数。BERTScore利用预训练的BERT通过余弦相似度来匹配候选句子和参考句子中的单词，选择BERTScore是因为它能够评估我们模型的响应与参考句子之间的语义相似度，我们认为这在医学语境中是至关重要的。这种评估方法在句子和系统层面上都与人类的判断密切一致。在这三个指标中，值越高表示匹配越好。如表所示的结果所示，经过微调的ChatDoctor模型在所有三个指标上都优于ChatGPT。

讨论

ChatDoctor已经对医疗数据进行了微调，具有广泛的潜在用途。

这些措施包括从初步患者评估和自动病例裁决到主动医疗保健措施。然而，由于医疗信息的复杂性，诊断和健康建议中任何隐藏的不准确都可能导致严重的后果。众所周知，llm偶尔会对超出其知识专长的领域产生错误和有害的断言(幻觉)，可能导致医疗事故。为了缓解这种情况，ChatDoctor已经接受了现实世界医患互动的培训，以更好地理解患者的问题，并提供更有知识的回答。为了使模型最能回答有关最新医学术语(可能不包含在训练数据集中)的问题，并引入额外的外部参考文献进行验证，我们还为ChatDoctor模型配备了从外部知识大脑中自主检索信息以提供答案的能力，进一步增强了模型的可信度。这种外部知识检索可以通过在模型中输入预先配置的提示来调用。在未来的发展中，ChatDoctor模型的内部先验知识(通过训练获得)和外部知识大脑可以通过训练ChatDoctor进一步结合，选择一个更可信的答案，或者合并融合两个答案，或者提供替代意见。

局限

需要强调的是，目前的ChatDoctor模型仍处于调查阶段，仅用于学术研究。实际临床使用中存在答案错误的风险。、，并且在医学诊断中使用专门的llm暂时仍然存在假阳性和假阴性的困扰。需要额外的安全措施，包括自动参考检查和人工专家评估，来交叉验证ChatDoctor提供的答案，以标记可能不准确的答案，防止出现幻觉。这些安全措施的确切设计、开发和部署仍然是一个需要进一步研究的重要课题。在这个阶段，一个更安全的应用是使用法学硕士来协助医生进行面对面的咨询。医生和ChatDoctor共同努力，不仅确保技术与临床实践相一致，而且确保患者的安全。对用于医疗保健相关目的的此类工具的评估和潜在批准也需要进一步调查。