Nature 子刊论文：预训练的多模态大语言模型使用SkinGPT-4增强皮肤病学诊断

最新推荐文章于 2024-11-09 07:04:00 发布

Python编程杰哥

最新推荐文章于 2024-11-09 07:04:00 发布

阅读量1.6k

点赞数 22

文章标签：语言模型人工智能自然语言处理 prompt 算法数据库前端

本文链接：https://blog.csdn.net/xx_nm98/article/details/141504330

版权

01 摘要

近年来，大型语言模型(LLMs)在推进医学诊断方面具有巨大的潜力，特别是在皮肤病诊断方面，这是一项非常重要的任务，因为皮肤和皮下疾病是全球非致命疾病负担的主要贡献者之一。本文提出SkinGPT-4，这是一个基于多模态大语言模型的交互式皮肤病诊断系统。本文通过收集广泛的皮肤病图像(包括52,929张公开可用和专有图像)以及临床概念和医生笔记，并设计了两步训练策略，将预训练的视觉转换器与名为Llama-2-13b-chat的LLM对齐。本文已经与委员会认证的皮肤科医生对150例实际病例进行了SkinGPT-4定量评估。通过SkinGPT-4，用户可以上传自己的皮肤照片进行诊断，系统可以自主评估图像，识别皮肤状况的特征和类别，进行深入分析，并提供交互式治疗建议。

论文地址：https://www.nature.com/articles/s41467-024-50043-3

02 引言

皮肤和皮下疾病是全球非致命性疾病负担的第四大主要原因，影响相当大比例的个体，在所有年龄和区域的患病率为30%至70%。然而，皮肤科医生一直供不应求，特别是在农村地区，咨询费用也在上升。因此，诊断的责任往往落在非专业人员身上，如初级保健医生、执业护士和医师助理，他们的知识和培训可能有限，诊断的准确性很低。为了扩大医疗专业人员可获得的服务范围，使用存储转发远程皮肤病学已经变得非常流行，这涉及将受影响皮肤区域的数字图像(通常使用数码相机或智能手机拍摄)和其他相关医疗信息从用户传输到皮肤科医生。然后，皮肤科医生远程审查病例，并就诊断、检查、治疗和后续建议提出建议。尽管如此，皮肤科诊断领域面临着三个重大障碍。首先，能够诊断病人的皮肤科医生短缺，特别是在农村地区。其次，准确解读皮肤病图像带来了相当大的挑战。最后，对皮肤科医生来说，生成对患者友好的诊断报告通常是一项耗时费力的任务。

技术的进步导致了各种工具和技术的发展，以帮助皮肤科医生在他们的诊断。例如，深度学习(DL)的最新进展使人工智能(AI)工具的开发成为可能，以帮助从图像中诊断皮肤疾病，例如皮肤癌分类，皮肤病理学，预测新的风险因素或流行病学，识别甲真菌病，量化斑秃，从痘病毒感染中分类皮肤病变等。其中，大多数研究主要集中在通过皮肤镜图像识别皮肤病变。然而，在皮肤科诊所之外，皮肤镜检查通常不容易获得。一些研究探索了在教育网站上使用皮肤癌、甲癣和皮肤病变的临床照片。然而，这些方法是为特定的诊断目标量身定制的分类任务，他们的方法仍然需要皮肤科医生进一步分析，以发布报告和做出临床决策。这些方法无法自动生成自然语言的详细报告，也无法与患者进行互动对话。目前，还没有这样的诊断系统可以让用户通过提交图像来自我诊断皮肤状况，这些图像可以自动交互式地分析并生成易于理解的文本报告。

在过去的几个月里，大型语言模型(LLMs)领域取得了重大进展，提供了卓越的语言理解能力和执行复杂语言任务的潜力。最令人期待的模型之一是GPT-4，这是一个大规模的多模态模型，它已经展示了特殊的功能，例如生成准确和详细的图像描述，为非典型视觉现象提供解释，基于手写文本描述构建网站，甚至充当家庭医生。尽管有这些显著的进步，GPT-4的一些功能仍然无法向公众开放，并且是闭源的。用户需要通过API付费并使用某些功能。ChatGPT也由OpenAI开发，作为一种可访问的替代方案，它已经证明了通过与患者交谈来协助疾病诊断的潜力。通过利用其先进的自然语言处理能力，ChatGPT可以解释患者提供的症状和病史，并为潜在的诊断提供建议，或向适当的皮肤科专家推荐。然而，值得注意的是，目前大多数法学硕士仅局限于文本交互。然而，医学诊断的多模态大语言模型的发展仍处于早期阶段，特别是考虑到基于图像的数据在医学诊断领域的普及，其中皮肤科诊断是一项非常重要的任务，但缺乏使用多模态大语言模型增强诊断的相关研究。

直接提供皮肤图像用于皮肤自动诊断并生成文本报告的想法可以极大地帮助解决皮肤诊断领域的上述三个挑战。然而，目前还没有办法做到这一点。但在相关领域，ChatCAD是最先进的方法之一，它设计了各种网络来分析x射线、CT扫描和核磁共振成像图像，并生成各种输出，然后将其转换为文本描述。这些描述被组合为ChatGPT的输入，生成一个浓缩的报告，并根据给定的图像提供交互式解释和医疗建议。然而，他们提出的视觉-文本模型仅限于某些任务。同时，对于ChatCAD来说，用户需要使用ChatGPT的API来上传文本描述，这可能会引起数据隐私问题，因为医学图像和文本描述都包含患者的私人信息。为了解决这些问题，MiniGPT-4是一种开源方法，允许用户在本地部署与最先进的llm接口图像，并使用自然语言进行交互，而无需微调预训练的大型模型和只有一个小的对齐层。MiniGPT-4旨在将大型语言模型的功能与从预训练的视觉编码器获得的视觉信息相结合。为了实现这一点，该模型使用Vicunaas作为其语言解码器，它建立在LLaMA之上，能够执行复杂的语言任务。为了处理视觉信息，使用了与blp -2相同的视觉编码器，该编码器由ViTbackbone结合预训练的Q-Former组成。语言和视觉模型都是开源的。为了弥合视觉编码器和语言模型之间的差距，MiniGPT-4利用了一个线性投影层。然而，MiniGPT-4是在Conceptual Caption、SBU和LAION的组合数据集上训练的，这些数据集与医学图像，特别是皮肤图像无关。因此，将MiniGPT-4直接应用于正式皮肤科诊断等特定领域仍然具有挑战性。同时，由于Vicuna的限制，MiniGPT-4不能支持商业用途，也可以通过结合其他最先进的大型语言模型来进一步改进。

图1 SkinGPT-4示意图。SkinGPT-4是一个基于多模态大语言模型的交互式皮肤病诊断系统。为了实现SkinGPT- 4，本文设计了一个框架，将一个预先训练好的视觉转换器与一个名为Llama-2-13b-chat的大型语言模型对齐。SkinGPT-4是在大量(52,929)公开和内部皮肤病图像上进行训练的，并附有临床概念和医生笔记。通过SkinGPT-4，用户可以上传自己的皮肤照片进行诊断，SkinGPT-4可以自主确定皮肤状况的特征和类别，进行分析，提供治疗建议，并允许交互式诊断。右边是交互式诊断的一个例子。

受当前最先进的多模态大语言模型的启发，本文提出了SkinGPT-4，这是一个基于多模态大语言模型的交互式皮肤病诊断系统。(图1). SkinGPT-4在两个方面带来了创新。首先，SkinGPT-4是一个与lama-2-13b-chat一致的多模态大型语言模型。其次，SkinGPT-4是为皮肤病诊断设计的多模态大语言模型。为了实现SkinGPT-4，本文设计了一个框架，将一个预训练的视觉转换器与一个名为Llama-2-13b-chat的预训练大型语言模型对齐。为了训练SkinGPT-4，本文收集了大量的皮肤病图像(包括52929张公开和专有的图像)以及临床概念和医生的记录(表1)。本文设计了一个两步的训练过程来开发SkinGPT-4，如图2所示。在最初的步骤中，SkinGPT-4将视觉和文本临床概念对齐，使其能够识别皮肤病图像中的医学特征，并用自然语言表达这些医学特征。在接下来的步骤中，SkinGPT-4学会准确诊断特定类型的皮肤病。这种全面的训练方法确保了系统在分析和分类各种皮肤状况方面的熟练程度。使用SkinGPT-4，用户可以上传自己的皮肤照片进行诊断。该系统自主评估图像，识别皮肤状况的特征和类别，进行深入分析，并提供交互式治疗建议(图3)。同时，SkinGPT-4的本地部署能力和对用户隐私的承诺也使其成为寻求可靠和精确诊断皮肤疾病的患者的一个有吸引力的选择。为了证明SkinGPT-4的稳健性，本文对150个真实病例进行了定量评估，这些病例由委员会认证的皮肤科医生独立审查(图4和补充信息)。结果表明，SkinGPT-4始终如一地提供了皮肤病的准确诊断。虽然SkinGPT-4不是医生的替代品，但它极大地增强了用户对其医疗状况的了解，促进了患者和医生之间的沟通，加快了皮肤科医生的诊断过程，促进了分诊，并有可能促进以人为本的护理和医疗公平，特别是在服务不足的地区。综上所述，SkinGPT-4是大语言模型时代皮肤科诊断领域的一次重大飞跃，是医学诊断中多模态大语言模型的一次有价值的探索。

03 结果

The overall design of SkinGPT-4

SkinGPT-4是一个交互式系统，旨在提供基于自然语言的皮肤病图像诊断，如图1所示。该过程在用户上传皮肤图像时开始，该图像由视觉转换器(Vision Transformer, ViT)和Q-Former进行编码

模型来理解它的内容。ViT模型将图像分割成更小的块，并提取边缘、纹理和形状等重要特征。之后，Q-Former模型根据ViT模型识别的特征生成图像的嵌入，这是通过使用基于转换器的体系结构来完成的，该体系结构允许模型考虑图像的上下文。对齐层促进了视觉信息和自然语言的同步，Llama-2-13b-chat大型语言模型生成基于文本的诊断。SkinGPT-4使用大型皮肤病图像以及临床概念和医生笔记进行训练，以便进行交互式皮肤病学诊断。该系统可以提供一种交互式和用户友好的方式来帮助用户自我诊断皮肤病。

Interactive, informative, and understandable dermatology diagnosis of SkinGPT-4

SkinGPT-4为患者和皮肤科医生带来了众多优势。一个显著的好处在于它利用了全面和值得信赖的医学知识，专门针对皮肤疾病。这使得SkinGPT-4能够提供皮肤病的交互式诊断、解释和建议(补充影片1)，这对MiniGPT-4来说是一个挑战。MiniGPT-4缺乏相关医学知识和特定领域适应的培训，而SkinGPT-4克服了这一限制，提高了其在皮肤病学领域的熟练程度。为了证明SkinGPT-4相对于MiniGPT-4的优势，本文给出了两个现实生活中的交互式诊断示例，如图3所示。在图3a中，呈现了一幅老年人面部光化性角化病的图像。在补充图S1中，提供了具有湿疹指尖的患者的图像。

对于光化性角化病病例(图3a)， MiniGPT-4识别出小而红色的肿块等特征，并错误地将该皮肤病诊断为痤疮，而SkinGPT-4识别出斑块、结节、脓疱和疤痕等特征，并将该皮肤病诊断为光化性角化病，这是一种由长期暴露于太阳紫外线(UV)引起的常见皮肤病71。在互动对话中，SkinGPT-4还建议皮肤疾病的原因是阳光照射，这也得到了委员会认证的皮肤科医生的证实。以指尖湿疹为例(补充图S1)， MiniGPT-4识别了一些特征，如裂纹和皮肤片状，但不能准确诊断病情，并将皮肤病的原因归因于干燥的天气和过度洗手。相比之下，SkinGPT-4将皮肤病的特征识别为皮肤干燥、瘙痒和片状，并将皮肤病的类型诊断为指尖湿疹，这也得到了委员会认证的皮肤科医生的验证。

总之，缺乏皮肤病学知识和特定领域的适应对MiniGPT- 4在实现准确的皮肤病学诊断方面构成了重大挑战。相比之下，SkinGPT-4成功准确地识别了图像中显示的皮肤病的特征。它不仅提示了潜在的疾病类型，还提供了潜在的治疗建议。这进一步强调了区域特异性适应对于SkinGPT-4在皮肤病诊断中的作用至关重要。

SkinGPT-4 masters medical features to improve diagnosis with the two-step training

为了进一步说明SkinGPT-4通过学习皮肤病图像中的医学特征来增强皮肤病诊断的能力，本文进行了消融研究，如图3所示，通过单独使用步骤1数据集或步骤2数据集训练SkinGPT-4。如图2所示，本文为SkinGPT-4设计了一个两步训练过程。最初，我们利用第一步数据集使SkinGPT-4熟悉皮肤病学图像中存在的医学特征，并允许SkinGPT-4用自然语言表达皮肤病图像中的医学特征。随后，作者使用步骤2的数据集来训练SkinGPT-4，以实现更精确的疾病类型诊断。

在这里插入图片描述

图2 SkinGPT-4两步训练的数据集说明。每张图片下面的说明说明了皮肤病的临床概念和类型。此外，作者有来自委员会认证的皮肤科医生对步骤2数据集中图像的详细描述。为了避免引起不适，作者使用了一个半透明的灰色盒子来模糊显示的皮肤病图像。

在这里插入图片描述

图3 由SkinGPT-4、SkinGPT-4(仅步骤1)、SkinGPT-4(仅步骤2)、MiniGPT-4和皮肤科医生生成的诊断。此图显示一个光化性角化病病例。

在光化性角化病的例子中(图3a)，仅在步骤1数据集上训练的SkinGPT-4显示出其在识别斑块、结痂、红斑和脐化等相关医学特征方面的熟练程度。这些精确而全面的形态学描述准确地捕捉到了图像中所描绘的皮肤病的特征。然而，当SkinGPT-4在第1步数据集上进行专门训练时，它错误地将皮肤状况诊断为病毒感染，这表明结合第2步数据集对于更准确地识别疾病的重要性。相比之下，当仅在步骤2数据集上进行训练时，SkinGPT-4未能捕获皮肤病的准确形态学描述，而是错误地将其诊断为皮脂分泌过多的结果。它强调了整合第1步数据集的必要性，以有效地识别和理解精确皮肤病诊断所必需的特定医学特征。相比之下，经过作者两步训练的SkinGPT-4同时识别了医学特征，并将该皮肤病诊断为光化性角化病。对于简单的病例，如补充图S1所示的指尖湿疹病例，SkinGPT-4还可以提供更详细的皮肤病图像描述，包含医学特征，准确识别皮肤病类型。总之，作者实施的两步训练过程使SkinGPT-4能够有效地理解和掌握皮肤病图像中的医学特征，从而显着提高诊断的准确性，这对于精确识别医学特征对于准确确定疾病类型至关重要的具有挑战性的病例尤为重要。

Clinical evaluation of SkinGPT-4 by board-certified dermatologists

为了评估SkinGPT-4的可靠性和稳健性，作者进行了一项涉及大量实际病例(150例)的综合研究，并将其诊断与委员会认证的皮肤科医生的诊断进行了比较。结果如表2和补充信息所示，表明SkinGPT-4始终如一地提供准确的诊断，与图4所示的委员会认证皮肤科医生的诊断一致，并在补充信息中详细说明了所有病例。

在这里插入图片描述

图4 通过委员会认证的线下和在线皮肤科医生对SkinGPT-4的临床评估。a. 线下皮肤科医生对SkinGPT-4的问卷评估。柱状图表示皮肤科医生同意的皮肤病病例的百分比。b. 与在线咨询皮肤科医生(n = 20)相比，SkinGPT-4的反应时间(n = 20)较低(双尾学生t检验，P < 0.00001)。所有箱形图表示第一个四分位数、中位数和第三个四分位数。上须表示最大值不超过第三个四分位数的四分位数间距的1.5倍。较低的晶须表示最小值不超过第一个四分位数的四分位数间距的1.5倍。源数据作为源数据文件提供。c. SkinGPT-4反应一致性检验。x轴表示检测样本，y轴表示诊断结果。

如图4a所示，在150例病例中，SkinGPT-4的诊断被委员会认证的皮肤科医生评估为正确或相关的比例很高(80.63%)。该评价包括强烈同意(75.00%)和同意(5.63%)。此外，医生认为SkinGPT- 4关于疾病原因和潜在治疗方法的反馈信息丰富(82.50%)，有用(85.63%)。此外，SkinGPT-4被证明是医生在诊断过程中(87.50%)和患者更好地了解其疾病(83.70%)的有价值的工具。SkinGPT-4支持本地部署、确保用户隐私的能力获得了很高的认同(92.50%)，进一步增强了使用SkinGPT-4的意愿(77.50%)。

总的来说，该研究表明，SkinGPT-4提供了可靠的诊断，在诊断过程中帮助医生，促进患者理解，并优先考虑用户隐私，使其成为皮肤科领域的宝贵资产。

SkinGPT-4 acts as a 24/7 on-call family doctor

与皮肤科医生的在线咨询(通常需要等待几分钟才能得到答复)或与皮肤科医生的面对面咨询(通常需要等待数周才能预约)相比，SkinGPT-4提供了几个优势。首先，它是24/7全天候服务，确保不断获得医疗建议。此外，SkinGPT-4提供快速的反应时间，通常在几秒钟内，如图4b所示，这使得它成为在常规办公时间以外需要立即诊断的患者的快速和方便的选择。

此外，SkinGPT-4提供初步诊断的能力使患者能够做出明智的决定，是否寻求亲自就医。这一功能可以帮助减少不必要的就诊次数，为患者节省时间和金钱。在农村地区或皮肤科医生稀缺的地区，改善医疗保健服务的潜力尤为重要。在这些地区，患者往往要等待很长时间，或者必须走很远的路才能看到皮肤科医生。通过利用SkinGPT-4，患者可以快速方便地接受初步诊断，潜在地减少了亲自就诊的需求，并减轻了这些服务不足地区医疗保健系统的压力

Consistency of SkinGPT-4’s diagnosis

GPT倾向于根据概率以各种格式生成结果，因此必须仔细考虑与人工智能生成内容相关的风险和一致性，特别是在医疗诊断中。为了证明SkinGPT-4结果的一致性，我们随机选择了45个样本(每个类别5个，如表2所示)。对于每个样本，作者进行了10次独立诊断。如图4c所示，同一图上的诊断一致，一致性比为93.73%。对于不一致的病例，经委员会认证的皮肤科医生可以观察到多种可能的皮肤类型的特征，例如良性肿瘤很容易与黑色素瘤皮肤癌混淆。总的来说，SkinGPT-4的诊断是一致和可靠的。

04 讨论

本文的研究展示了在llm中利用视觉输入来增强皮肤病学诊断的潜力。随着GPT-4等更先进的LLMs即将发布，诊断的准确性和质量可能会进一步提高。然而，必须解决与使用ChatGPT和GPT-4等llm作为API相关的潜在隐私问题，因为它需要用户上传他们的私人数据。相反，SkinGPT-4为这个隐私问题提供了解决方案。通过允许用户在本地部署模型，可以有效地解决有关数据隐私的问题。用户可以在自己的系统范围内自主使用SkinGPT-4，从而确保其个人信息的安全性和保密性。

在实际场景中部署SkinGPT-4可能会带来潜在的挑战，特别是由于患者提交的图像的可变性。造成这种差异的因素包括智能手机相机质量的差异、图像预处理和后处理的差异、不同的角度和不同的照明条件。此外，处理不同严重程度的皮肤病是另一项挑战。在SkinGPT-4的训练过程中，作者缺乏使该模型能够准确识别皮肤病严重程度所需的具体数据。然而，如补充图S2所示，SkinGPT-4在不同角度、光照条件、像素密度和不同痤疮严重程度分辨率下拍摄的皮肤病图像时仍然表现出稳健和可接受的性能，这些图像是根据中国痤疮治疗指南(修订2019)74进行分类的。如图补充图S3所示，作者还为用户提供了一个指导方针，提示他们尽可能适当地捕捉图像。该方法旨在标准化上传图像的格式，促进SkinGPT-4有效识别皮肤病特征的能力。

复杂皮肤病的诊断对SkinGPT-4提出了额外的挑战。在实践中，复杂的皮肤病经常发生，包括多种皮肤病的组合，表现出多种特征。目前，缺乏包含多标签皮肤病图像以及相应皮肤科医生诊断的数据集。解决这一数据缺口是未来研究工作的重点，将SkinGPT-4应用于临床复杂皮肤病的诊断。

LLMs的幻觉带来了另一个潜在的挑战。在医疗诊断领域，错误信息对患者的影响可能是致命的。鉴于目前的LLMs是在多个来源的培训，确保生成的医学事实的绝对准确性是进一步调查的一个必要领域。潜在的解决方案可能需要为医疗目的培训更专业的LLMs，并使用类似投票的机制实现迭代诊断生成。这进一步强调了基于LLMs的方法在医学中的作用，作为一种工具，旨在增强医生提供以人为本的诊断的能力，而不是取代他们。

目前对Fitzpatrick V-VI(深色肤色)的研究相对有限，最先进的皮肤病学人工智能算法对深色皮肤病变的表现明显不如对浅色皮肤病变的效果，特别是在活检证实的病例中。主要的挑战来自于某些深色皮肤疾病不太明显的早期特征，从而导致更具挑战性的诊断53。因此，肤色较深的人往往在较晚的阶段才被诊断出来，从而导致更高的发病率、死亡率和相关费用75,76。使这一问题更加复杂的是Fitzpatrick V-VI数据的缺乏，例如多样化皮肤病学图像(DDI)数据，这不足以训练深度学习模型，特别是那些基于llm(如SkinGPT-4)的模型。在这项研究中，作者的数据集主要包括菲茨帕特里克I-IV肤色，无意中限制了该模型在诊断菲茨帕特里克V-VI个体皮肤病方面的功效。为了解决这一局限性，未来的研究工作将包括系统地收集Fitzpatrick V-VI数据，并有针对性地训练SkinGPT-4，以提高其对Fitzpatrick V-VI患者的诊断能力。

在病人向皮肤科医生咨询的过程中，医生经常会问一些额外的问题，以收集有助于准确诊断的关键信息。相反，SkinGPT-4依赖于用户提供的信息来协助诊断过程。此外，医生经常与患者进行移情互动，因为情感联系有助于诊断过程。由于这些因素，目前SkinGPT-4要完全取代皮肤科医生仍然是一个挑战。然而，SkinGPT-4作为患者和皮肤科医生的工具仍然具有重要的价值。它可以大大加快诊断过程，增强整体服务。通过利用其功能，SkinGPT-4使患者能够获得对其皮肤状况的初步了解，并帮助皮肤科医生提供更有效的护理。虽然它可能不能完全取代皮肤科医生的专业知识和同理心，但SkinGPT-4在皮肤科诊断领域是一个有价值的补充资源。

随着SkinGPT-4等基于llms的应用程序不断发展和改进，获得了更可靠的医疗培训数据，在线医疗服务取得重大进展的潜力是巨大的。SkinGPT-4可在改善全球患者获得医疗保健和提高医疗服务质量方面发挥关键作用。必须强调的是，没有一个人工智能系统是绝对可靠的，完全没有错误信息和误诊。因此，SkinGPT-4不是为了取代皮肤科医生而设计的，而是作为一个不断发展和不断优化的工具，作为促进患者和医生之间沟通的助手。作者对SkinGPT-4的期望是为患者提供更多关于皮肤病的信息，同时也为医生在诊断过程中提供宝贵的帮助。因此，作者在软件页面上包含了明确的免责声明和指导。这包括一个突出的建议，强调遵守医疗建议的重要性，并强烈建议咨询合格的医生的具体诊断结果。这些预防措施是为了鼓励负责任地使用，并确保用户了解软件在医疗环境中的局限性。作者将继续在这一领域的研究，进一步发展和完善这项技术。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述