0. 论文介绍
0.1 简介
GPT-4V(ision)可以用于医疗应用吗?GPT-4V用于多模态医学诊断的案例研究
2023年 10月,上海交通大学 Chaoyi Wu 等在 ArXiv 上发布研究报告:Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis(GPT-4V(ision)可以用于医疗应用吗?GPT-4V用于多模态医学诊断的案例研究)。
本文通过不同案例的测试来回答 “GPT-4V(视觉)能否服务于医疗应用?” 这个问题。
本研究旨在评估OpenAI最新模型GPT-4V(vision)的性能,特别是在多模态医学诊断领域。我们的评估涵盖17个人体系统,包括中枢神经系统、头颈、心脏、胸部、血液、肝胆、胃肠、泌尿生殖、妇科、产科、乳腺、肌肉骨骼、脊柱、血管、肿瘤、创伤、儿科,并从日常临床常规使用的8种方式获取图像,例如x射线、计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、数字减影血管造影(DSA)、乳房x光摄影、超声波和病理学。
我们探索了 GPT-4V 在多种临床任务中的能力,包括成像模式和解剖识别、疾病诊断、报告生成、疾病定位。
结论表明,虽然 GPT-4V 在区分医学图像模式和解剖学方面表现出熟练程度,但它在疾病诊断和生成综合报告方面面临重大挑战。这些发现强调,尽管大型多模态模型在计算机视觉和自然语言处理方面取得了重大进展,但它还远远不能有效地用于支持现实世界的医疗应用和临床决策。
论文下载:arxiv, ar5iv, 百度网盘
Github:Github-chaoyi-wu
0.2 论文摘要
在大型基础模型的推动下,人工智能的发展最近取得了巨大的进步,引起了公众的普遍兴趣。在本项研究中,我们的目标是评估OpenAI最新模型GPT-4V(ision)的性能,特别是在多模态医学诊断领域。
-
我们的评估包括17个人体系统,包括:中枢神经系统、头颈部、心脏、胸部、血液学、肝胆、胃肠道、泌尿生殖道、妇科、产科、乳腺、肌肉骨骼、脊柱、血管、肿瘤学、创伤、儿科,图像取自日常临床常规中使用的8种模态,如X射线、计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、数字减影血管造影(DSA)、乳房X线、超声和病理学。
-
我们评估了 GPT-4V 在提供或不提供患者历史信息情况下执行多个临床任务中的能力,任务包括:影像模态和解剖学识别、疾病诊断、报告生成和疾病定位。
-
我们的观察表明,尽管大规模的多模态模型在计算机视觉和自然语言处理方面取得了重大进展,但它们距离能够有效支持现实世界中的医学应用和临床决策还有很长的路要走。
本报告中使用的所有图像都可以在https://github.com/chaoyi-wu/GPT-4V_Medical_Evaluation.
1. 介绍
大型语言模型(LLM),特别是OpenAI开发的GPT系列,在广泛的领域,甚至在医学和法律等专业领域都表现出了非凡的能力[20,3,19,9]。虽然GPT系列中的先前模型在医学相关语言任务中显示出了潜力[17,21,8],甚至在美国医学执照考试(USMLE)中取得了很高的成绩,但由于其无法读取视觉信号,它们在日常临床实践中受到了根本的限制。受此启发,在医学界,许多视觉或多模态基础模型[12]也在出现,例如眼底[27]、病理学[10]、放射学[23]或普通医学图像[26,22,13]。
自2023年 9月以来,最新版本GPT-4V[24]开始支持多模式输入,从投入使用的那一刻起就引发了人们对其有效性的好奇。在这份报告中,我们的目标是通过提出一个问题来启动一项关于GPT-4V在多模式医疗诊断中的能力的研究:“GPS-4V能否服务于医疗应用?”这是一个至关重要的问题,不仅对人工智能社区,而且对临床医生、患者和医疗管理人员来说都是如此。
1.1 研究的目的
在本报告中,我们的目标是对GPT-4V在多模态医学诊断方面的能力进行系统评估。具体而言,我们对17个人体系统进行了病例级研究,包括中枢神经系统、头颈部、心脏、胸部、血液学、肝胆、胃肠、泌尿生殖、妇科、产科、乳腺、肌肉骨骼、脊柱、血管、肿瘤学、创伤、儿科,并使用了8种模态的图像,如X射线、计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、数字减影血管造影(DSA)、乳房X线、超声和病理学。
图1:医疗系统和成像模式图。在本文中,我们综合考虑了17个医疗系统(图a),我们的病例可以涵盖8种不同的成像方式(图b),即从左到右的X射线、CT、MRI、PET、DSA、乳腺X线、超声、病理学。
我们对GPT-4V的探索以以下问题为指导。
- GPT-4V能否识别医学图像的形态和解剖结构?识别各种模态(如X射线、CT、MRI、超声和病理学)并识别这些图像中的不同解剖结构是更复杂诊断的基础。
- GPT-4V能否在医学图像中定位不同的解剖结构?在图像中精确定位特定的解剖结构对于识别异常至关重要,确保在正确的解剖背景下解决潜在问题。
- GPT-4V能否发现并定位医学图像中的异常?检测异常,如肿瘤、骨折或感染,是医学图像分析的主要目标。为了使人工智能模型在临床环境中被认为是可靠的,不仅需要发现这些异常,还需要准确地定位它们,促进有针对性的干预或治疗。
- GPT-4V可以结合多个图像进行诊断吗?医学诊断通常需要整体视图,结合来自不同成像方式或视图的信息。因此,探索GPT-4V组合和分析多幅图像信息的能力至关重要。
- GPT-4V可以写医疗报告,描述异常和相关的正常发现吗?对于放射科医生和病理学家来说,撰写报告是一项耗时的任务。如果GPT-4V能够通过生成准确和临床相关的报告来协助这一过程,那么它肯定会提高整个工作流程的效率。
- GPT-4V在解读医学图像时能否整合患者病史?患者的基本信息和既往病史会极大地影响当前医学图像的解读。在模型预测过程中考虑这些信息将导致更个性化、可能更准确的分析,同时考虑所有相关的患者特异性因素。
- GPT-4V能否在多轮交互中保持一致性和内存?在某些医疗场景中,单次分析可能还不够。这种在扩展的对话或分析中保持连贯可靠的上下文的能力,特别是在数据连续性至关重要的复杂医疗环境中。
1.2 样本的选择
在上述问题的指导下,我们对各种任务进行了全面的案例研究。
对于放射学图像识别、诊断和报告生成,我们利用最著名的放射学资源网站——Radiopaedia。
对于病理图像分析,我们收集了Hematoxylin and Eosin (H&E)染色的恶性肿瘤组织切片图像,这些图像来自专业病理学网站PathologyOutlines。
对于定位能力分析,我们从几个公共医学图像分割和检测基准中选择样本[11,5,4,2,15,16,6,18,1,25,14,7]。
1.3 测试的流程
我们使用GPT-4V的在线聊天页面对其进行评估。我们以输入图像开始对话。通常,我们可能会为每个案例提出一到两个问题,随后的问题是多轮对话。当转向新病例时,我们会启动一个新的聊天窗口,以确保GPT-4V不会错误地利用与其他病例相关的先前对话中的信息。
对于病理学评估,在所有图像中利用两轮对话。第一轮询问是否可以仅基于输入图像生成报告。这一轮的目的是评估GPT-4V是否可以在没有任何相关医疗提示的情况下识别图像模态和组织来源。在第二轮中,我们提供了正确的组织来源,并询问GPT-4V是否可以根据病理图像及其组织来源的信息进行诊断。我们希望GPT-4V修改其报告并提供明确的诊断结果。
在定位评估中,我们遵循循序渐进的方式:首先测试GPT-4V是否识别出所提供图像中目标的存在;然后我们要求它根据图像的左上角为(x,y)=(0,0),右下角为(y,x)=(w,h)生成目标的边界框坐标。我们对每个定位任务重复评估几次,以获得至少4个预测的边界框,计算它们的IOU分数,并选择最高的一个来展示其上限性能;然后,我们推导出平均边界框并计算IOU得分,以证明其平均性能。特别是,我们注意到,要求GPT-4V识别异常的存在可能会触发其保护机制,导致其在进一步的对话中不回答或生成坐标。因此,我们直接要求它在这种情况下定位所提供的异常。
1.4 案例演示。
我们在图2中显示了每个评估案例。“提示”表示用户输入的句子或图像。“GPT-4V”表示GPT-4Vs的响应。请注意,在保护机制下,GPT-4V倾向于总是声称其作为放射科医生的无能,为了更好的可读性,我们默认省略这些声明。“参考答案”表示根据电台提供的描述指示的参考。
我们在图2中显示了每个评估案例。“提示”表示用户输入的句子或图像。“GPT-4V”表示GPT-4Vs的响应。请注意,在保护机制下,GPT-4V倾向于总是声称其作为放射科医生的无能,为了更好的可读性,我们默认省略这些声明。“参考答案”表示根据电台提供的描述指示的参考。
我们使用红色来强调GPT-4V回复中的错误陈述。参考答案中的相同颜色表示我们认为答案不正确的依据。同样,绿色用于突出显示正确的内容,在参考中使用相同的颜色表示用于判断的句子,黄色用于不确定或模糊的内容。定位评估中的每个案例如图3所示。我们用绿色显示生成的边界框,用红色显示平均边界框,并用蓝色显示地面真实分割/边界框。为了突出感兴趣的区域,我们在可视化中稍微降低了输入图像的强度。
图3:本地化评估的演示案例。上图是GPT-4V的输入,而下图则显示了预测和地面实况。生成的边界框为绿色,平均边界框为红色,地面真实分割/边界框为蓝色。为了突出感兴趣的区域,我们在可视化中稍微降低了输入图像的强度。
1.5 本报告的局限性
本报告评估 GPT-4V用于多模态医学诊断所存在的局限性:
- 仅进行定性评估。鉴于GPT-4V仅提供在线网页界面,我们只能手动上传测试用例,导致此评估报告的可扩展性有限,因此只能提供定性评估。
- 样本偏差。所选样本来源于在线网站,可能无法反映日常诊所的数据分布。具体来说,大多数评估案例都是异常案例,这可能会在我们的评估中引入潜在的偏差。
- 注释或参考说明不完整。从Radiopaedia/pathology Outlines网站获得的参考报告大多是非结构化的,没有标准化的放射学/病理学报告格式。特别是,这些报告中的大多数主要侧重于描述异常情况,而不是对病例进行全面描述。
- 只有2D切片输入。在真实的临床环境中,包括CT、MRI扫描在内的放射学图像通常采用3D DICOM格式,然而,由于GPT-4V最多只支持四幅2D图像作为输入,我们只能输入2D关键切片或小块(用于病理学)。
总之,虽然我们的评估可能并不详尽,但我们相信,这项分析为研究人员和医疗专业人员提供了宝贵的见解,它阐明了多模态基础模型的当前能力,并可能激励未来建立医疗基础模型的工作。
2. 发现
在本节中,我们根据第1.1节中列出的问题,总结了案例研究的观察结果。我们的评估包括对VQA、报告生成和放射学图像疾病诊断任务的全面评估,涵盖了从17个系统中获得的92个病例,总共涉及266幅图像。此外,我们在第3.18节中深入研究了12个具体本地化任务的详细评估。
此外,对于病理图像,我们还评估了报告生成和医学诊断任务,进行了包括来自不同组织的20种不同恶性肿瘤的补丁级研究。病理图像的具体观察结果详见第4节。
2.1 GPT-4V可以识别医学图像的模态和解剖。
-
模态识别。
对于我们检查的大多数病例,GPT-4V能够正确识别成像模式,如以下示例所示,乳房X线摄影(图62和93)、X射线(图48、50、53、56、79、80、85、59、10和17)、CT(图21、82和16)、MRI(图53、81、61、18和119)、超声(图67、58和15)、核成像(图83)、病理学(图140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157 158和159)。然而,在某些情况下,模型在确定模式方面仍面临挑战。例如,在图66中,确定输入是MRI还是CT存在不确定性。然而,鉴于MRI很少用于乳腺成像,这种犹豫是可以接受的。 -
解剖学识别。
在大多数评估样本中,GPT-4V可以正确识别目标解剖结构,如以下示例所示:头颈部(图16、18和19)、脊柱(图80、81、82、84、85和86)、乳房(图62、63、64和67)、胸部和心脏(图30和48)、腹部和骨盆(图47、50、52、54、56和79)、肌肉骨骼(图46和74)、血管(图88和90)和其他(图10、59和61)。在涉及多个图像的情况下,GPT-4V可以识别图像中需要特别注意的身体部位,并分别进行分析,即使分析结果不正确,如图28所示。然而,在图53中,GPT-4V将骨盆MRI误分类为膝关节MRI。 -
影像平面识别。
如图62、47、79、81、82、84、60、61、16、37、23、98和100所示,GPT-4V在区分各种成像平面方面表现出了有前景的性能,无论是矢状面、轴向面还是冠状面。如图62所示,它甚至可以正确区分成像轴(乳房X线摄影的中外侧斜(MLO)或头尾(CC))。而在图52、53和18中,GPT-4V无法预测第一张图像的平面。
2.2 GPT-4V 难以准确诊断
OpenAI似乎已经设置了强大的安全防护系统,严格避免对GPT-4V进行直接诊断。如图62、63、4、8、10、17和58所示,GPT-4V可能无法给出明确的诊断结论。虽然GPT-4V在大多数情况下都有反应,但它仍然远远不能满足临床诊断的需求,它只是根据一般医学知识列出不同的疾病,而不是诊断感兴趣的图像(图143、83和21),或者完全失败(图68)。在几种情况下,正常和异常区域之间的对比非常显著,它可以定位异常图48和71。鉴于准确诊断在医学领域的至关重要性,这是一个显著的限制。
2.3 GPT-4V 可以生成结构化的报告,但内容并不总是准确的。
我们探讨了GPT-4V生成医疗报告的能力,并提供了涵盖各种解剖区域的示例,例如头颈部(图18和19)、脊柱(图80和81)、乳房(图62和64)、胸部和心脏(图28、33和24)、腹部和骨盆(图47、49、50、52、54、56、36、79和86)、肌肉骨骼(图34)、血管(图87)、肿瘤学(图93)。
可以观察到,GPT-4V总是以结构化模板生成报告,这与手动编写的临床报告不同,后者在内容上往往更灵活。例如,在生成乳房X线摄影报告的情况下,GPT-4V将始终逐项响应,即使报告中列出的大多数方面都是正常的,没有什么值得注意的。然而,当面对由各种成像模态组成的输入时(图67和81),它可能无法写出典型的报告,退化为逐图描述,并且无法结合所有图像得出全面的结论。
总体而言,尽管GPT-4V生成的报告是结构化的,并且通常考虑了感兴趣的解剖区域,但报告内容并不总是正确的。
2.4 GPT-4V 可以识别图像中的文字和标记,但缺乏理解。
GPT-4V显示了光学字符识别(OCR)的能力,即从图像中提取和解释文本(图65、49、57和99)。对于这种情况,GPT-4V可能会关注文本内容而忽略图像内容本身,如图91和92所示。如图24、25、26和121所示,可以观察到图像中的文本或标记往往对模型的预测产生重大影响。
此外,GPT-4V能够识别和解释医学图像中的各种视觉标记,如箭头(图158、47和35)和圆圈,这可以指导模型识别和分析感兴趣的区域,为诊断过程提供有价值的线索。当在箭头旁边添加文本注释时,如图30所示,GPT-4V能够准确识别文本并呈现完整准确的放射学报告。
值得注意的是,尽管GPT-4V具有很强的OCR能力,但其鲁棒性需要进一步提高,因为它也可能无法识别图像上的文本(图90)或误解图像上的医学注释(图65)。
2.5 GPT-4V 可以识别医疗设备及其在图像中的位置。
GPT-4V在各种模态图像中准确识别医疗器械并指示其位置方面表现令人满意,如图22、33和115所示。这可能表明GPT-4V对相对突兀的物体更敏感,因为它们比病理性物体具有更多的特征。
2.6 GPT-4V 在分析多幅图像时面临困难。
当使用不同模态的多个图像作为输入时,GPT-4V总是倾向于分别分析每个图像(图51、52、54、31、38、5、14、16、18、60、61和101)。在大多数情况下,无论输入图像是否具有相同的成像模态,它都能清楚地识别输入图像的数量并全面描述其内容,如图106、82和31所示。然而,我们也发现,如果输入图像达到了限制,即四个图像,GPT-4V可能会忽略文本上下文(图105和107)。
2.7 GPT-4V 的预测很大程度上依赖于患者的病史
提示中包含患者信息和病史对模型的输出有显著影响,如图50、17、18、19和58所示。文本信息可以帮助GPT-4V专注于特定的感兴趣区域,从而更容易获得准确的结果,如图89和35所示。当这些上下文细节不存在时,当呈现医学图像时,该模型倾向于通过正常诊断进行预测(图96)。相比之下,当提供全面的患者信息和病史时,该模型展示了根据患者过去的医疗状况推断图像中潜在异常的能力,以告知其反应(图97)。
2.8 GPT-4V 不能定位医学图像中的解剖结构或异常。
如图124至图139所示,GPT-4V在定位医学图像中的解剖结构或异常方面表现不佳。我们基于以下观察得出这样的结论:(i)GPT-4V可以生成远离地面真相的无理边界框,在每轮预测中获得0.0 IOU分数,如图138、127和139所示;(ii)尽管GPT-4V有时会在一个回合内给出可接受的预测,但在重复多次评估后,它显示出很高的方差,因此平均边界框的IOU得分较低,如图128、129、130和124所示;(iii)GPT-4V在某些情况下显示出强烈的偏差,例如骶骨位于脊柱MRI图像的底部,小脑位于大脑MRI图像的下方。因此,无论输入图像如何,它都会做出预测,如图132和图134所示;(iv)所有个案的欠条平均分数只有0.16,远不可靠。
2.9 GPT-4V 可以在多轮互动中通过引导改变答案
如图53、121、122和33所示,在适当的引导下,GPT-4V可以在一系列相互作用中修改其响应以使其正确。例如,在图53所示的情况下,我们输入了子宫内膜异位症的MRI图像。GPT-4V最初将骨盆MRI误分类为膝盖MRI,从而产生了错误的反应。通过涉及用户校正的多轮交互,该模型最终做出了准确的诊断。
2.10 GPT-4V 存在幻觉问题
幻觉是指产生的反应听起来很自然,但实际上是不正确的、荒谬的或对提供的源输入不忠实的。以报告生成任务为例(图86、20、93、118、123和88),尽管GPT-4V可以生成符合标准结构模板的报告。然而,这些报告中的内容往往不准确,即使图像中存在明显的异常(图95)或某些已经识别的区域(图103)。
2.11 性能变化和不一致
与罕见的成像模式(图8、10、12、14、17和61)相比,GPT-4V在分析不同身体系统的常见成像模式时(图5、6、15、16和58)表现出显著的性能差异。此外,它对同一医学图像的分析可能会在不同的提示下产生不一致的结果,例如,如图4所示,GPT-4V最初在提示“这个大脑CT的诊断是什么?”时预测给定的图像是异常的,但后来它会生成一份报告,认为同一图像是正常的。这种不一致性突显了GPT-4Vs在临床诊断中的性能可能不稳定和不可靠的事实。
2.12 安全问题
我们发现GPT-4V已经建立了防止潜在滥用的保护措施,确保用户在使用前了解其功能。例如,当被要求进行诊断时,例如“请提供这张胸部X光片的诊断”,它可能会拒绝提供答案,或者强调“我不能代替专业医疗建议”,或者包括“似乎”或“可能”等短语,以表达不确定性,如图87所示。
3. 放射学定性分析
3.1 中枢神经系统
中枢神经系统包括大脑、脊髓、其相关的血管结构和被称为脑膜的包被膜。中枢神经系统检查通常包括颅神经检查、运动系统检查、感觉系统检查、生理/病理反射检查和自主神经系统检查等。中枢神经系统检查的成像方式包括CT、MRI、X射线、超声、血管造影和核医学成像。我们在图4、5、6、7、8、9、10、11、12、13和14中显示了七种情况。
3.2 头部和颈部
在放射学中,“头颈部”是指该区域除中枢神经系统外的所有解剖结构。许多疾病仅限于头部和颈部的特定区域,因此将人体的这一部分分开非常有用。CT、MRI、X射线、超声和血管造影通常用于诊断相关疾病。我们在图15、16、17、18和19中显示了五个案例。
3.3 心脏
心脏系统是人体生理学的核心,从放射学的进步中受益匪浅。放射学在诊断、监测和管理心脏病方面是不可或缺的。根据从Radiopedia收集的数据,主要的成像方式是CT和X射线。此外,MRI、超声和其他模式也存在,尽管它们的数量相对较少。图20、21、22、23、24、25、26和27显示了不同情况下不同模式的示例以及不同评估设置之间的比较。
3.4 胸部
胸部的放射学检查包括一系列成像方式,包括PET、CT、MRI、X射线和超声波。这些诊断工具为肺部、心脏、胸壁、纵隔和胸部结构的复杂解剖和病理提供了宝贵的见解。它们在各种胸部疾病的检测、诊断、监测和治疗计划中起着关键作用。图28、29、30、31和32展示了不同模态的示例。
3.5 血液学
血液学的放射学报告在血液疾病的诊断、分期和监测中起着至关重要的作用。CT、MRI、X射线和超声波提供了一种非侵入性的方法来评估血液学状况的各个方面。这些模式能够可视化和表征淋巴结、脾脏、肝脏、骨髓和其他相关结构,有助于检测和评估原发性和转移性血液系统恶性肿瘤以及非恶性血液系统疾病。我们在图33、34、35、36、37和38中显示了五个案例。
3.6 肝胆
肝胆系统对消化至关重要,由胆道和肝脏组成。肝脏位于腹部,是最大的器官,在体内平衡中起着至关重要的作用,包括代谢、糖原储存、药物解毒、各种血清蛋白的产生和胆汁分泌。我们在图39、40、41、42、43、44、45和46中展示了示例。
3.7 胃肠道
胃肠系统包括胃肠道和附属器官。胃肠道由口腔、咽、食管、胃、小肠、大肠和肛管组成。附属器官包括牙齿、舌头和腺体,如唾液腺、肝脏、胆囊和胰腺。胃肠系统检查的成像方式包括X射线、CT、MRI和超声。我们在图47、48、49、50和51中展示了示例。
3.8 泌尿生殖系统
泌尿生殖系统由泌尿和生殖器官组成,在放射学评估中具有重要意义。鉴于其结构和功能的复杂性,准确和详细的理解对于诊断影响这些区域的病理至关重要。放射学在与肾脏、输尿管、膀胱、尿道、前列腺、睾丸、卵巢和其他相关结构相关的疾病的可视化、诊断和管理中起着重要作用。用于泌尿生殖系统评估的常见成像方式包括CT(包括注释)、MRI、X射线(包括荧光透视)、超声。这些工具不仅有助于识别异常,而且有助于在必要时进行治疗干预。图115、116、118、119、120、121、122和123显示了不同评估设置之间的不同模式和比较示例。
3.9 妇科
妇科系统侧重于女性生殖系统,特别是子宫、卵巢和其他相关器官。我们在图52、53、54、55和56中显示了五个案例。
3.10 产科
产科是研究妊娠、分娩和产后时期的领域。检查中使用的最常见的成像方式是超声波。MRI、CT和X射线也可用于筛查和诊断。我们在图57、58、59、60和61中展示了示例。
3.11 乳房
乳腺系统包括多种放射学检查,重点检查乳房,主要成像方式是乳房X光检查,使用低剂量X射线拍摄乳房,筛查乳腺癌症。此外,超声、MRI和CT也可用于筛查或诊断。我们在图62、63、64、65、66、67和68中展示了示例。
3.12 肌肉骨骼
肌肉骨骼系统通过运动能力支持我们的身体。它可以分为两大系统,肌肉系统,涵盖了身体中所有类型的肌肉,以及由骨骼组成的骨骼系统。我们在图69、70、71、72、73、74、75、76、77和78中展示了示例。
3.13 脊柱系统
脊柱系统包括椎骨、小关节、椎间盘、脊髓、神经和软组织。在本节中,我们将介绍不同模式的各种检查,包括X射线、CT、MRI和核医学。我们在图79、80、81、82、83、84、85和86中展示了示例。
3.14血管
放射学报告提供了血管系统的详细评估和诊断,并指导相关的治疗和干预措施。血管放射学报告利用各种成像技术,如CT、MRI、荧光镜、核医学和超声,提供有关血管解剖、血流动力学和血管病理的信息。我们在图87、88、89、90、91和92中展示了示例。
3.15肿瘤学
放射学在肿瘤学中起着关键作用,有助于癌症的检测、分期和监测。X射线、CT、MRI、PET和超声等先进成像技术可深入了解肿瘤形态、转移扩散和治疗反应。这些诊断工具不仅有助于表征肿瘤,而且在治疗计划和治疗后监测中也起着重要作用。如图93、94、95、96、97、98、99、100、101、102和103所示,有11个案例采用了这些模式,并在不同的评估设置之间进行了比较。
3.16创伤
创伤系统是指专注于治疗身体伤害的医学专业,通常是严重的,这些伤害通常是由事故、跌倒、运动损伤和暴力造成的。X射线是最常用的成像方式,此外,有时还会使用CT和MRI。我们在图104、105、106、107和108中展示了示例。
3.17儿科
儿科是医学的一个分支,致力于婴儿、儿童和青少年的医疗护理,从出生到18岁(有时甚至更大)。由于最常见的患者是成年人,因此该系统中的病例可能被视为很难的例子。CT、MRI、X射线和超声都是该系统中常用的成像技术。我们在图109、110、111、112、113和114中展示了示例。
3.18本地化
解剖结构和异常的定位是医学诊断中的关键步骤,有助于分析、诊断和治疗。根据临床需求,定位任务可以应用于不同模态上的广泛目标。在本次评估中,我们考虑了12项具体的定位任务:胸部X射线图像中气胸的定位(图124);胸部X射线图像中心脏肥大的定位(图137);乳房X射线图像中的肿块定位(图138)和手掌X射线图像上的骨折定位(图139);腹部CT图像中脾脏的定位(图125);腹部CT图像中肝脏和肝脏肿瘤的定位(图126和127);腹部CT图像中肾脏和肿瘤的定位(图128、129和130);脊柱MRI图像中骶骨的定位(图131和132);小脑在脑MRI图像中的定位(图133和134);MRI图像中脑肿瘤的定位(图135和136)。
4. 病理定性分析
病理诊断是目前临床应用中检查恶性肿瘤的金标准。在本节中,为了研究GPT-4V在病理图像的报告生成和医学诊断方面的能力,我们进行了补丁级研究,涵盖了来自不同组织的20种不同恶性肿瘤。
4.1 病理评估程序
我们在所有测试用例中与GPT-4V进行了两轮对话。在第一轮中,我们输入了一张病理图像和一个格式化问题“您可以为这张图像写一份报告吗?”。这是为了测试GPT-4V是否可以识别图像模态,然后在没有提供医疗提示的情况下为这张病理图像写一个结构化的报告。在第二轮中,将每张病理图像的组织来源馈送给GPT-4V了,并输入了一个格式化的问题“根据图像和报告最有可能的诊断结果是什么?”。我们希望探索GPT-4Vs用新的医疗提示修改报告的能力,从而对给定的病理图像做出明确的诊断。
4.2 GPT-4V 在病理图像分析方面的优缺点
-
优点 P1:模式识别。
GPT-4v 可以识别所有测试病理图像的形态(组织样本的H&E染色显微视图)。 -
优点 P2:报告生成。
给定一张没有任何医学提示的病理图像,GPT-4V可以生成一份结构化和详细的报告来描述图像特征。
在20例病例中的7例中,GPT-4V令人印象深刻地按术语逐项列出了其观察结果,如“组织结构”、“细胞特征”、“基质”、“腺体结构”和“核”等。令人鼓舞的是,GPT-4V可以从不同组织的病理图像中正确识别腺体结构和上皮特征。 -
优点 P3:及时指导修改。
在第二轮对话中,GPT-4V可以根据组织来源的新医疗提示对其报告进行大幅修改,并为预测的正常病例提供一个确定的诊断图,或为预测的异常病例提供几个潜在的选择。 -
缺点 C1:基于知识的描述尽管GPT-4V可以为病理图像编写结构化报告,但许多关于细胞和细胞核的详细描述都是H&E染色图像的一般特征,而不是图像特定的模式。
例如,图141中“紫色染色的细胞核被粉红色的细胞质包围”和图146中“组织切片显示上皮细胞层,细胞核被苏木精染成深紫色。细胞的细胞质被伊红染成粉红色”的描述。此外,GPT-4V提供的诊断结果也可能来自一般医学知识,而不是给定病理图像的形态结构。 -
缺点 C2:诊断性能有限。
综上所述,GPT-4V误诊4例为正常组织,正确诊断膀胱、中枢神经系统和口腔组织中的3例肿瘤,其余13例恶性肿瘤诊断模糊。特别是对于肛门组织、子宫组织,GPT-4V的诊断结果从正常组织到恶性肿瘤各不相同,表明GPT-4Vs可能无法从这些病理图像中真正检测到异常。
5. 小结
github-GPT-4V_Medical_Evaluation
版权说明:
本文由 youcans@xidian 对研究报告:【Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis】 进行摘编和翻译。该论文版权属于原文作者,本译文只供研究学习使用。
youcans@xidian 作品,转载必须标注原文链接:
【医学影像 AI】GPT-4V 用于多模态医学诊断的案例研究 (https://youcans.blog.csdn.net/article/details/145710285)
Crated:2025-02