Nature Communications | 基于预训练多模态大模型的皮肤病诊断SkinGPT-4!

文章摘要

大型语言模型(LLMs)最近被认为在推进医学诊断方面具有巨大的潜力,特别是在皮肤科诊断方面,这是一个非常重要的任务,因为皮肤和皮下疾病在全球非致命疾病负担中排名靠前。在这里,作者介绍了SkinGPT-4,这是一个基于多模态大型语言模型的交互式皮肤科诊断系统。**通过收集大量的皮肤病图像(包括52,929张公开可用和专有图像)以及临床概念和医生的笔记,并且设计了一个两步训练策略,将一个预训练的视觉变换器与名为Llama-2-13b-chat的LLM对齐。在150个真实病例上对SkinGPT-4进行了定量评估,这些病例由董事会认证的皮肤科医生进行评估。通过SkinGPT-4,用户可以上传自己的皮肤照片进行诊断,系统可以自主评估图像,识别皮肤状况的特征和类别,进行深入分析,并提供交互式治疗建议。

学术地址:

https://www.nature.com/articles/s41467-024-50043-3

代码地址:

https://github.com/JoshuaChou2018/SkinGPT

前世今生

皮肤和皮下疾病是全球非致命疾病负担的第四大原因,影响着相当比例的人群,其发病率在所有年龄和地区中从30%到70%不等。然而,皮肤科医生始终供不应求,特别是在农村地区,咨询费用也在上升。因此,诊断的责任经常落在非专科医生身上,如全科医生、执业护士和医生助理,他们可能知识有限,培训不足,并且在诊断上的准确性较低。**为了扩大医疗专业人员可获得的服务范围,存储和转发远程皮肤科变得非常流行,这涉及到传输受影响皮肤区域的数字图像(通常使用数字相机或智能手机拍摄)和其他相关的医疗信息。然后,皮肤科医生远程审查病例并就诊断、工作流程、治疗和后续建议提供咨询。尽管如此,皮肤科诊断领域面临三个重大障碍。首先,缺乏可访问的皮肤科医生来诊断患者,特别是在农村地区。其次,准确解释皮肤病图像是一个相当大的挑战。最后,为患者生成友好的诊断报告通常是皮肤科医生耗时且劳动密集的任务。技术的进步导致了各种工具和技术的发展,以帮助皮肤科医生进行诊断。例如,通过深度学习的最新进展,开发了人工智能工具来帮助从图像中诊断皮肤疾病,如皮肤癌分类、皮肤病理学、预测新的风险因素或流行病学、识别甲真菌病、量化斑秃、从猴痘病毒感染中分类皮肤病变等。在这些研究中,大多数研究主要集中在通过皮肤镜图像识别皮肤病变。然而,皮肤镜通常不在皮肤科诊所之外容易获得。一些研究已经探索了使用皮肤癌、甲真菌病和教育网站上皮肤病变的临床照片。然而,这些方法针对特定的诊断目标作为分类任务,它们的方法仍然需要皮肤科医生进一步分析以发布报告并做出临床决策。这些方法无法自动生成详细的自然语言报告并允许与患者进行交互对话。目前,还没有这样的诊断系统可供用户通过提交图像来自我诊断皮肤状况,这些系统可以自动和交互地分析并生成易于理解的文本报告。

在过去的几个月里,大型语言模型(LLMs)领域取得了显著进展,提供了卓越的语言理解能力,并有潜力执行复杂的语言任务。其中最受期待的模型之一是GPT-4,这是一个大规模多模态模型,展示了生成准确和详细图像描述、为非典型视觉事件提供解释、基于手写文本描述构建网站,甚至充当家庭医生等特殊能力。尽管取得了这些显著进步,GPT-4的一些特性仍然不对公众开放,并且是闭源的。用户需要付费并通过API使用某些特性。作为一个可访问的替代方案,由OpenAI开发的ChatGPT已经展示了通过与患者对话来协助疾病诊断的潜力。通过利用其先进的自然语言处理能力,ChatGPT可以解释患者提供的症状和医疗史,并为可能的诊断或转诊到适当的皮肤科专家提出建议。然而,需要注意的是,大多数LLMs目前仅限于文本交互。尽管如此,多模态大型语言模型在医学诊断领域的开发仍处于初期阶段,特别是考虑到医学诊断领域中基于图像的数据的普遍性,其中皮肤科诊断是一个非常重要的任务,但缺乏使用多模态大型语言模型增强诊断的相关研究。

直接提供皮肤图像以自动进行皮肤科诊断并生成文本报告的想法可以极大地帮助解决上述皮肤科诊断领域的三个挑战。然而,目前还不存在完成此任务的方法。但在相关领域,ChatCAD是最先进的方法之一,它设计了各种网络来分析X射线、CT扫描和MRI图像并生成不同的输出,然后将这些输出转换为文本描述。这些描述被组合为ChatGPT的输入,以生成浓缩报告并根据给定的图像提供交互式解释和医疗建议。然而,他们提出的视图-文本模型仅限于某些任务。与此同时,对于ChatCAD,用户需要使用ChatGPT的API上传文本描述,这可能会引发数据隐私问题,因为医疗图像和文本描述都包含患者的私人信息。为了解决这些问题,MiniGPT-4是一个开源方法,允许用户本地部署以将图像与最先进的LLMs接口并使用自然语言进行交互,无需微调两个预训练的大型模型和仅有的小对齐层。MiniGPT-4旨在结合大型语言模型的力量和从预训练的视觉编码器获得的视觉信息。为了实现这一点,该模型使用Vicuna作为其语言解码器,它建立在LLaMA之上,并且能够执行复杂的语言任务。为了处理视觉信息,采用了BLIP中使用的视觉编码器,它由ViT骨干和预训练的Q-Former组成。语言和视觉模型都是开源的。为了弥合视觉编码器和语言模型之间的差距,MiniGPT-4使用了一个线性投影层。然而,MiniGPT-4是在与医学图像无关的组合数据集Conceptual Caption、SBU和LAION上训练的,特别是皮肤科图像。因此,直接将MiniGPT-4应用于特定领域,如正式的皮肤科诊断,仍然是具有挑战性的。同时,由于Vicuna的限制,MiniGPT-4无法支持商业用途,也可以通过整合其他最先进的大型语言模型进一步改进。

受到当前最先进的多模态大型语言模型的启发,作者介绍了SkinGPT-4,这是一个基于多模态大型语言模型的交互式皮肤科诊断系统。SkinGPT-4在两个方面带来了创新。首先,SkinGPT-4是一个与Llama-2-13b-chat对齐的多模态大型语言模型。其次,SkinGPT-4是一个为皮肤科诊断设计的多模态大型语言模型。为了实现SkinGPT-4,设计了一个框架,将预训练的视觉变换器与名为Llama-2-13b-chat的预训练大型语言模型对齐。为了训练SkinGPT-4,收集了大量的皮肤病图像(包括52,929张公开可用和专有图像)以及临床概念和医生的笔记。设计了一个两步训练过程来开发SkinGPT-4,如图2所示。在第一步中,SkinGPT-4对齐视觉和文本临床概念,使其能够在皮肤病图像中识别医疗特征,并用自然语言表达这些医疗特征。在随后的步骤中,SkinGPT-4学习准确诊断特定类型的皮肤病。这种全面的训练方法确保了系统在分析和分类各种皮肤状况方面的熟练程度。有了SkinGPT-4,用户有能力上传自己的皮肤照片进行诊断。系统自主评估图像,识别皮肤状况的特征和类别,进行深入分析,并提供交互式治疗建议。同时,SkinGPT-4的本地部署能力和对用户隐私的承诺也使其成为寻求可靠和精确诊断皮肤疾病的患者的有吸引力的选择。为了展示SkinGPT-4的稳健性,在150个真实病例上进行了定量评估,这些病例由董事会认证的皮肤科医生独立审查。结果表明,SkinGPT-4始终提供了准确的皮肤疾病诊断。虽然SkinGPT-4不是医生的替代品,但它极大地增强了用户对自己医疗状况的理解,促进了患者和医生之间的沟通,加快了皮肤科医生的诊断过程,促进了分诊,并有可能推进以人为本的护理和医疗公平,特别是在服务不足的地区。总之,SkinGPT-4代表了大型语言模型时代皮肤科诊断领域的重大进步,也是在医学诊断中探索多模态大型语言模型的宝贵尝试。

匠心独运

图1 | SkinGPT-4的说明。SkinGPT-4是一个基于多模态大型语言模型的交互式皮肤科诊断系统。为了实现SkinGPT-4,设计了一个框架,将一个预训练的视觉变换器与一个名为Llama-2-13b-chat的大型语言模型对齐。SkinGPT-4在大量(52,929张)公共和内部的皮肤病图像上进行了训练,这些图像伴随着临床概念和医生的笔记。有了SkinGPT-4,用户可以上传自己的皮肤照片进行诊断,SkinGPT-4能够自主确定皮肤状况的特征和类别,进行分析,提供治疗建议,并允许交互式诊断。右侧是交互式诊断的一个示例。

图2 | SkinGPT-4两步训练数据集的说明。每个图像下方的注释表明了临床概念和皮肤病类型。此外,还有来自董事会认证的皮肤科医生对第二步数据集中图像的详细描述。为了避免引起不适,使用半透明的灰色框来模糊显示的皮肤病图像。

卓越性能

图4 | 董事会认证的离线和在线皮肤科医生对SkinGPT-4的临床评估。a 离线皮肤科医生基于问卷对SkinGPT-4进行评估。条形图表示皮肤科医生达成一致意见的皮肤病病例的百分比。b SkinGPT-4(n = 20)的响应时间比在线咨询皮肤科医生(n = 20)低(双尾学生t检验,P < 0.00001)。所有箱形图表示第一四分位数、中位数和第三四分位数。上须表示不超过第三四分位数1.5倍四分位距的最大值。下须表示不低于第一四分位数1.5倍四分位距的最小值。源数据提供为源数据文件。c SkinGPT-4响应的一致性测试。x轴表示测试样本,y轴表示诊断结果。

总结展望

作者的研究展示了在LLMs中利用视觉输入增强皮肤科诊断的有希望的潜力。随着像GPT-4这样更先进的LLMs的即将发布,诊断的准确性和质量可能会进一步提高。然而,有必要解决与使用ChatGPT和GPT-4等LLMs作为API相关的潜在隐私问题,因为这要求用户上传他们的私人数据。相比之下,SkinGPT-4提供了解决这一隐私问题的方法。通过允许用户本地部署模型,有关数据隐私的担忧得到了有效解决。用户有权在自己的系统范围内使用SkinGPT-4,确保他们的个人信息安全和保密。

在现实世界场景中部署SkinGPT-4可能会带来潜在挑战,特别是由于患者提交的图像的变异性。导致这种变异性的因素包括智能手机相机质量的差异、图像预处理和后处理的变化、不同的角度和不同的照明条件。此外,解决皮肤病严重程度的多样性也构成了另一个挑战。在训练SkinGPT-4的过程中,缺乏特定数据,无法使模型准确识别皮肤病的严重程度。尽管如此,如补充图S2所示,SkinGPT-4在呈现在不同角度、照明条件、像素密度和分辨率下捕获的皮肤病图像时,仍然显示出强大且可接受的性能,这些图像的严重程度是根据2019年修订的中国痤疮治疗指南进行分类的。对SkinGPT-4来说,复杂皮肤病的诊断构成了额外的挑战。在实践中,复杂的皮肤病经常发生,包括表现出多种特征的不同皮肤病的组合。目前,缺乏包含多标签皮肤病图像及相应皮肤科医生诊断的数据集。解决这一数据缺口是未来研究工作将SkinGPT-4应用于复杂皮肤病诊断的关键重点。LLMs的幻觉呈现了另一个潜在挑战。在医学诊断领域,错误信息对患者的潜在后果可能是致命的。鉴于当前的LLMs是在多个来源上训练的,确保生成的医疗事实的绝对准确性是一个需要进一步调查的重要领域。可能的解决方案可能包括为医疗目的训练更专业的LLMs,并实施具有类似投票机制的迭代诊断生成。这进一步强调了基于LLM的医学方法作为工具的作用,旨在增强医生提供以人为本诊断的能力,而不是取代他们。

随着基于LLMs的应用如SkinGPT-4不断发展和改进,并获取更可靠的医学培训数据,在线医疗服务取得重大进展的潜力是巨大的。SkinGPT-4在改善全球患者获得医疗保健的机会和提高医疗服务质量方面可以发挥关键作用。至关重要的是要强调,没有任何AI系统是无懈可击的,完全没有错误信息和误诊的风险。因此,SkinGPT-4的设计目的不是取代皮肤科医生,而是作为一个不断发展和持续优化的工具,作为促进患者和医生之间沟通的助手。对SkinGPT-4的期望是为患者提供更多关于皮肤病的信息,同时也为医生在诊断过程中提供宝贵的帮助。因此,在软件页面上包括了明确的免责声明和指导。这包括一个突出的咨询,强调遵守医疗建议的重要性,并强烈建议咨询合格医生以获取具体的诊断结果。这些预防措施旨在鼓励负责任的使用,并确保用户理解软件在医学背景下的限制。将继续在这一领域进行研究,以进一步发展和完善这项技术。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值