Nature发表哈佛团队关于生成式医学模型的最新研究,提倡“AI住院医师”模式

在医学领域,准确解读医学图像并生成报告对患者护理至关重要,但给临床专家带来沉重负担。

多模态生成式人工智能(GenMI)为医学图像解读和报告生成带来新机遇,有望实现部分流程自动化。

这篇25-03-26发表于Nature的文章,围绕GenMI在医学报告生成中的应用展开深入探讨,对从事医学AI研究的人员极具参考价值。

https://www.nature.com/articles/s41586-025-08675-y#/https://www.nature.com/articles/s41586-025-08675-y#/

作者身份姓名单位
第一作者Vishwanatha M. Rao哈佛医学院生物医学信息学系、宾夕法尼亚大学佩雷尔曼医学院
通讯作者Eric J. Topol斯克里普斯研究所
通讯作者Pranav Rajpurkar哈佛医学院生物医学信息学系

文章首先阐述GenMI在医学报告生成方面的进展。

传统医学报告生成框架多由视觉编码器和语言解码器构成,而基础模型的出现促使新型GenMI解决方案发展。这些方案借助大型语言模型(LLMs)等,在处理多模态数据、执行下游任务及生成报告上表现更优。

然而,LLMs存在偏差、幻觉和不准确等问题,多模态处理和临床准确性方面也有待提升。同时,GenMI在其他专科的应用尚处于探索阶段,面临数据和模型等多方面挑战。

为更好发挥GenMI的作用,文章倡导“AI住院医师”范式。*AI住院医师可辅助撰写报告、提供实时交互专业知识、助力医学教育*

img

但要实现这些,需解决诸多挑战,如建立更有效的评估指标、防止临床医生和患者过度依赖、处理数据集和模型的偏差、拓展新模态和专科应用等。

总之,GenMI前景光明,但在临床应用前,需解决上述关键问题,确保安全有效地辅助医疗工作。

一、引言

医学报告生成是将医学图像和视频等视觉数据转化为具有深刻见解的书面文本的过程,这一过程对于跨多个专业传达检查结果和指导医疗护理而言不可或缺。

在放射学领域,报告需求正迅速增长,部分原因是计算机断层扫描(CT)、磁共振成像(MRI)及其他需要专业知识进行解读的复杂检查技术的进步 1 。

心脏导管插入术、超声心动图和内窥镜检查的报告是患者管理的核心,且这些检查的信息通常需要与从其他成像方式中获得的结果相结合。例如,对患者心脏状况的全面总结可能需要考虑从心血管造影、心脏灌注研究、心脏MRI、超声心动图和心脏CT报告中获取的信息。

将这些检查过程中大量的视觉数据综合成连贯、简洁的文本总结是一项巨大的挑战 2,3 ,并且不可避免地会导致信息丢失 4,5 。此外,擅长对复杂检查方式进行报告的专家短缺,会导致报告周转延迟和错误,这会对患者护理产生重大影响 6,7 。


人工智能报告生成工具在应对这些挑战方面显示出了潜力。

人工智能可以对检查进行初步解读并起草初步报告,使临床医生能够更快速地处理病例,缩短周转时间,扩大获得专业水平报告的机会,并最终减轻医疗保健系统的压力。

在没有专科医生的偏远地区,人工智能工具可能可以像远程放射学服务一样,完全自主地进行初步解读 8 。除了提高临床效率外,自动报告生成还可以直接改善患者护理。

随着使用更强大的数据集进一步开发人工智能模型,它们将能够更好地预测治疗效果和疾病,并且更有效地向患者传达健康信息。

人工智能模型还具有可扩展性,就如同一个放射科专家小组相比单个专家能更准确地筛查疾病一样,部署多种人工智能模型可能会带来更大的性能提升 9 。


现代人工智能算法的交互能力也为其作为 “人工智能住院医师” 发挥更广泛的作用打开了大门,这一灵感来自于学术医院的工作流程 10 。

除了单纯的报告生成外,人工智能助手可以通过与相似图像及其报告进行比较来改善医学教育。它们提供实时帮助的能力对于增强临床医生和患者的理解也很重要。

一个 “人工智能住院医师” 可以使治疗临床医生(如全科医生)在相应图像的背景下探究报告的细节,并获得更深入的见解。

患者在监督下可以向其提问,以快速获得对自身病情的新认识。算法甚至可以生成有依据且交互式的报告,将特定的句子和检查结果与图像的相关区域联系起来。

尽管人工智能有潜力,但大多数现有的人工智能解决方案专注于实现医学成像中单一任务的自动化,比如在单个检查方式中检测特定病症。

例如,算法可以对胸部X光片进行分诊以检查气胸等病症 11 ,作为计算机辅助检测工具标记CT中的肺部结节 12 或结肠镜检查中的结肠息肉 13 等可能的病变,或者对乳房X光检查中的异常进行定位和特征描述 14 。

这些都代表了人工智能重要但非常有限的应用,并没有考虑到放射学和临床成像中所涉及的更全面和综合的分析。


解读检查需要综合多个成像方式的检查结果,将观察结果与患者的临床背景相关联,并通过报告传达综合的见解 15 。

目前大多数人工智能工具缺乏摄取多模态数据、将异常情况情境化并生成总结印象的叙述的广度 16 。因此,它们大幅减轻放射科医生和其他成像专家工作量的能力仍然有限。它们在识别和描述罕见病症或新出现的疾病方面也不够有效,这可能会阻碍它们在改善患者护理和教育学生方面的效果。

人工智能有一个重大机会,即以生成式医学成像(GenMI)的形式对医学成像和报告采取更广泛的方法。GenMI模型很快将能够撰写涵盖多个专业的引人注目的报告,如图1所示,未来的模型可以摄取多种检查方式和临床数据,以生成更准确、流畅且可解释的报告。

图1图1

这张图片展示了六个医学专科领域的相关信息,包括放射学(Radiology)、心脏病学(Cardiology)、皮肤病学(Dermatology)、病理学(Pathology)、眼科学(Ophthalmology)和胃肠病学(Gastroenterology ) 。

放射学(Radiology)

  • 任务:定位和识别放射学特征
  • 成像方式:X射线、CT、MRI、乳房X光检查等
  • 输入类型:2D或3D图像
  • 样本报告:指征为发热和咳嗽,结果显示肺部清晰无局灶性浸润,印象为无急性肺部异常,标记为肉芽肿

心脏病学(Cardiology)

  • 任务:手术操作、血管通路、心脏功能评估
  • 成像方式:血管造影、超声心动图、CT、心电图
  • 输入类型:2D/3D图像、心导管检查测量数据
  • 样本报告:印象为严重冠状动脉疾病,总结心室收缩功能情况,进行了左心导管插入术 ,患者被带入实验室等

皮肤病学(Dermatology)

  • 任务:定位和识别皮肤病变,诊断病情
  • 成像方式:皮肤图像、皮肤镜检查
  • 输入类型:2D图像
  • 样本报告:表皮角化过度不完全、结痂性角化病可见,大量情况 ,标记为化脓性肉芽肿

病理学(Pathology)

  • 任务:病理发现,预测诊断和治疗
  • 成像方式:病理切片
  • 输入类型:大型2D病理切片
  • 样本报告:临床病史为巨大胃肿块,标本为胃黏膜,诊断为胃肠道间质瘤 ,大体描述标本尺寸,微观描述显示坏死灶

眼科学(Ophthalmology)

  • 任务:筛查糖尿病、青光眼等疾病
  • 成像方式:CT、眼底检查、血管造影
  • 输入类型:2D或3D图像
  • 样本报告:发现为观察到明显强荧光 ,左眼血管造影显示情况 ,印象为视网膜下出血

胃肠病学(Gastroenterology )

  • 任务:仪器操作、手术操作、诊断
  • 成像方式:内镜图像或记录
  • 输入类型:2D图像、动态手术测量数据
  • 样本报告:进行了结肠镜检查,指征为息肉病史,无并发症 ,结肠镜插入情况 ,在直肠发现5毫米息肉

尽管GenMI发展迅速,但缺乏指导其临床整合的既定指南。此外,虽然GenMI模型可以明显减轻临床医生的工作量,但其在患者护理和教育中的作用不那么直观,值得进一步讨论。

除了提出一种在临床环境中利用这些令人兴奋的能力的新范式外,作者还讨论了在这个复杂领域中安全实现生成式人工智能的益处必须克服的重要挑战。


二、用于医学报告生成的生成式人工智能

直到最近,医学报告生成框架主要由视觉编码器和语言解码器组成。在这个框架中,编码器从图像中提取视觉信息并转化为向量表示,而解码器则获取向量并生成特定输出,在此情况下输出为语言。

多年来,研究一直基于编码器 - 解码器方法,创新出各种新方法以更好地编码图像数据、考虑外部知识、筛查异常等。然而,基础模型(包括大语言模型(LLMs)的大型预训练通用人工智能系统)的出现,通过推动新的生成式医学成像(GenMI)解决方案的发展,彻底改变了医学图像解读。

这些GenMI方法声称能够生成更准确的医学报告,还能执行其他一些下游任务,并使用同一基础模型处理多模态数据。这些算法大多基于视觉 - 语言模型(VLMs)构建,该模型将单个视觉模型和语言模型融合到一个统一框架中,能够联合编码图像和文本输入。

图2概述了多模态生成式人工智能为医学图像解读带来的新应用。


传统基于人工智能的医学图像解读和多模态生成式人工智能在医学领域的应用

图2图2

(1)传统基于人工智能的医学图像解读

  • 输入:包括医学图像(如肺部图像)和临床背景信息。同时会参考先前的图像、图表和报告等研究资料。
  • AI模型处理:AI模型对输入信息进行分析。
  • 输出:生成预测结果(如疾病概率等数值形式)和文本描述。并基于临床准确性、多模态背景(患者病史等)以及多个专业领域知识生成报告草稿。

(2)多模态生成式人工智能

  • 交互环节

    • 与患者交互:用通俗易懂语言解释病情,获取患者反馈 。
    • 与临床医生交互:提供鉴别诊断,向医生解释结果,接收医生反馈 。
  • 标注和可视化:对医学图像进行处理,突出显示感兴趣区域、病变浸润区域等,实现结果的可视化标注,便于理解 。

多模态生成式人工智能相较于传统方式,更强调交互性以及结果的可视化呈现,在医患沟通、辅助医生诊断等方面具有更多优势 。


2-1:融入大语言模型

大语言模型的出现显著影响了医学报告生成,如今算法采用GPT变体或其他大语言模型作为其解码器,而非更小的传统模型 17–19 。

许多研究做出这种转变,以利用大语言模型的知识和推理能力,这使它们成为更强健的报告生成解码器。然而,这只是对大语言模型较为有限的应用,在融入VLM框架时,并未利用提示技术或其编码多模态输入的独特能力。

除了在编码器 - 解码器范式中作为解码器,大语言模型还被用于报告质量保证,以重写报告并消除幻觉(通常是对不存在的先前报告的错误引用) 20,21 。


最近出现了向更通用的视觉 - 语言系统发展的趋势,其中开发的GenMI模型能够处理多模态输入,并执行各种医学图像解读任务,包括报告生成和视觉问答 22 。

一些此类框架利用大语言模型在无需额外标记数据的情况下,针对不同病症和检查方式生成报告和回答问题的能力 18,22–29 。OpenAI的GPT - 4V是一个很受欢迎的例子,在某些情况下它能够识别成像方式和解剖结构,为病理图像生成结构化报告,并根据医学提示修改这些报告。

然而,对该模型在医学领域现成效用的初步评估结果不佳,它在准确诊断医学病症方面面临困难 30–32 。也有其他GenMI方法使用较小的语言模型来实现类似性能 33–35 。


尽管大语言模型对未来多模态医学报告生成前景看好,但目前它们面临一些限制,阻碍了其临床应用。

大语言模型容易出现偏差、频繁的幻觉和不准确 36–38 ,在医学报告生成背景下,这些问题尤其突出,因为保持无偏差和临床准确性至关重要。临床医生经常处理不完整信息,但当患者信息和病史缺失时,更复杂的模型出现幻觉和误诊的概率更高 39 。

此外,用于报告生成的大多数基础模型是为英语开发的。除了中文 40 ,针对其他语言开展的研究有限。

通过谨慎的数据收集和大语言模型的进一步开发,许多这些问题可以得到缓解,并且在审核部署于GenMI框架中的大语言模型时,保持人机协作非常重要 38,41 。


2-2:多模态处理

整合多模态数据的能力为生成更准确的医学报告开辟了一条令人振奋的途径。

除了能直接结合图像处理输入查询 22,27 外,多模态输入还能更有力地对临床背景进行编码 42 。虽然先前的报告生成方法已纳入如既往病史等多模态输入 43–47 ,但视觉 - 语言模型(VLMs)为更有效的多模态处理打开了大门 48 。

例如,一种使用VLMs的GenMI方法可通过对文本领域标识符标记与所提供图像一同进行编码,来整合各种输入模态 24 。尽管VLMs带来了改进,但与临床医生相比,当前的基础模型在整合多模态图像输入时,性能方面仍存在不足 36 。

针对多模态任务进行适配的模型,如谷歌的Gemini和GPT - 4V在这方面尤其具有前景,在为健康和医学等领域的多模态及更高级推理设计的基准测试中表现更佳 49,50 。


基于多模态VLMs改进报告生成的基础在于其能够利用统一的文本和图像表示空间来学习任务。

这种表示学习通常采用一种称为交叉注意力的机制,在生成这些共享表示时,模型为图像和文本序列的不同方面学习一个 “重要性分数” 矩阵 51,52 。

视觉和文本编码器的对比学习(其中机器学习模型通过比较组或对来训练以区分相似和不相似的数据)对于这种共享表示空间的学习至关重要,并且也推动了医学报告生成的改进 53,54 。

尽管已有许多研究纳入多模态输入,但探索多模态输出(即生成的报告伴有某种形式的非文本输出以提高可解释性或使其临床效用多样化)的研究却少得多。

例如,一种方法能够在输入图像上输出边界框,这显著提高了其可解释性 55 。另一项研究构建了一个统一模型,该模型能够根据给定输入生成文本报告以及胸部X光片 26 。除了这些研究,报告生成中多模态输出的使用相对缺乏探索。


2-3:提高临床准确性

尽管GenMI方法具备多种能力,但在积极部署之前,其临床准确性仍有提升空间 28,30,32 。因此,作者概述了两种在先前报告生成解决方案中成功提高临床准确性的方法:纳入外部知识和明确的疾病分类。

未来的GenMI模型在训练和推理流程中可从这些方法中获取灵感。已有一项研究在这样的范式中纳入了检索增强生成技术(一种使语言模型在生成过程中检索特定领域外部知识的技术) 21,56 。

有几种方法尝试在报告生成的不同阶段纳入外部临床知识。首先,在较小规模上,记忆矩阵可通过存储视觉和语言组件之间的跨模态映射信息来帮助整合知识,以便更好地使未来生成的报告与所提供的图像保持一致 57,58 。其他研究则在更广泛的层面纳入关于临床发现和疾病的知识 59–67 。

最常见的实现方式是通过知识图谱,它是一种由节点和边组成的计算图。这里节点代表疾病状态或病理生理特征,边则捕捉它们之间的关系。这些图谱中的信息通常使用某种形式的图神经网络与输入一起编码,图神经网络是一种旨在处理计算图的深度学习架构 68 。

广为人知的知识图谱RadGraph包含从MIMIC - CXR胸部X光片数据集提取的超过600万个实体和400万个关系 69 ,并在报告生成中频繁使用 70,71 。除了临床发现外,某些研究尝试根据相似报告对与特定患者相关的背景知识进行编码 59,60,72 。

尽管以这种方式整合外部知识可以提高临床准确性,但它对模型的影响程度可能会影响性能 73 。此外,临床准确性和自然语言相似度之间似乎存在权衡 22,74,75 ,自然语言相似度衡量的因素包括生成文本与真实报告之间的流畅性、单词重叠、词干相似性和相关单词数量。然而,当外部知识得到良好应用时,有可能同时实现高临床准确性和语言相似度 55,76 。


除了外部知识,明确进行疾病分类也与提高临床准确性相关 —— 一些论文在其训练过程中使用多标签分类,以促使模型更多地关注临床相关特征 60,77–79 。还有更多方法在生成医学报告时更直接地利用疾病分类的输出 47,80 。

例如,一些方法在生成放射学报告时,使用输出增强发送到解码器的初始视觉特征 81,82 ,而另一些方法则在不同的解剖区域进行多标签分类,以确定报告的内容和重点领域 67,83 。

疾病标签输出甚至被用作撰写报告的起点,基于各个疾病标签编写的描述被组合起来形成最终报告 76,84 。


2-4:放射学之外的GenMI

鉴于GenMI在放射图像处理中的应用日益普遍,类似方法已被引入其他专业领域,包括病理学 85 和皮肤病学。

一个用于病理图像分析的一体化工具包,通过整合一个与多个专业模型交互的基础模型,能够处理多模态输入并生成多模态输出。除了生成医学报告外,它还能执行包括输出边界框、分割和回答问题等任务 86 。

另一种用于皮肤病学的GenMI方法,能够基于用户拍摄的图像提供交互式帮助并生成医学报告 87 。更广泛地说,大型多模态模型为跨专业的医学推断提供了合理基础,但在深度和当前准确性方面仍然有限 36 。也有针对这些领域开发的其他图像解读模型,并未将正式的医学报告生成作为下游任务 88,89 。


三、利用GenMI辅助临床医生和患者

3-1:部署人工智能住院医师

尽管这些新的GenMI解决方案前景光明,但作者认为必须以有目的且谨慎的方式来实施,才能在临床环境中充分实现其益处。

基于此,作者倡导人工智能住院医师范式,它作为一种指南,以赋予临床医生及其患者权力的方式来运用这些算法(图3)。

这张图展示了人工智能住院医师(AI resident)在医学领域的应用流程及功能,主要分为三个功能板块和三个测试部署阶段。

image-20250328095956587image-20250328095956587

功能板块

  1. 报告起草(Report drafting):AI住院医师生成临床准确的报告,并整合患者病史,之后交给临床医生。
  2. 交互专业知识(Interactive expertise):AI住院医师与临床医生进行交互,提升患者信心,帮助治疗医生解读报告。
  3. 教育(Education):AI住院医师为临床医生提供实时反馈,查找类似病例用于比较。

测试部署阶段

  1. 自动化测试(Automated testing):将AI生成的医学报告与临床医生撰写的真实报告(Ground truth)对比,评估AI模型效能。
  2. 前瞻性测试(Prospective testing):在监督下,AI住院医师起草初始报告,经临床医生编辑后形成最终报告,再反馈给模型以改进。
  3. 临床部署(Deploy in clinic):AI住院医师在临床中独立部署测试,接收人为反馈 。

通过这些功能和流程,AI住院医师旨在辅助临床工作,提升医疗效率和质量,并在实践中不断优化 。


人工智能住院医师首先会专注于起草临床准确的报告,作为住院医师或医生撰写报告的起点。在开发过程中,模型可以像X - REM中介绍的那样在临床环境中进行前瞻性测试 28 。

然后,人工智能住院医师可由当地的实际住院医师进行微调或校准,使其能从所需的修正和补充中学习。

一旦部署,人工智能住院医师能够帮助提高放射科医生或其他专家撰写报告的质量,尤其是在通过笔记、对话或指征部分获取的患者信息有限的情况下。

例如,当遇到肺部空洞时,人工智能住院医师能够生成诸如“患者是否免疫功能低下?”或“患者有无结核病史?”等问题,辅助放射科医生在针对特定患者的报告中生成鉴别诊断。


人工智能住院医师还可利用GenMI的实时交互能力,更好地传播临床发现,从而使临床医生及其患者受益。

在治疗患者时参考医学报告的临床医生(如全科医生),可能对特定发现感兴趣,并能向人工智能住院医师查询与报告对应的图像区域,反之亦然。

外科医生常常如此,他们希望深入了解其将要手术区域的解剖结构。或者,患者可以在受控环境中直接与人工智能住院医师交互,快速获得对自身病例的第二意见。

患者已经经常在谷歌等平台上寻求在线健康帮助 90,91 ,人工智能住院医师能够以更有效且受监督的方式使这一过程正规化。该系统还能让患者更好地理解自己的病情,并在医疗保健中发挥更积极的作用。

例如,生成报告中的特定句子和诊断可以指向图像中与之对应的特定区域。患者可以指出报告中不熟悉的术语,并向人工智能询问“在这个术语的背景下,我应该问医生什么?”。

尽管不期望患者完全理解医学图像,但人工智能住院医师能够帮助阐明图像中引起关注的区域,进而提高医患接触后的患者满意度。因这样的工具而更积极参与自身护理的患者,可能会有更高的治疗依从性和更好的健康结果 92,93 。

此外,GenMI的交互能力使人工智能住院医师能够辅助教育。医学教育中实时和个性化反馈的价值已有充分记录 94–96 ,人工智能住院医师可以为住院医师和医学生提供此类指导。

例如,学生可以有教育模块,从他们的图像库中提取类似病例,帮助他们进行比较和对比,可视化表现范围,并最终获得更全面的理解。报告的顺序可以调整,让学生先报告,人工智能住院医师根据报告给出反馈和建议。

因此,在主治医生的适当监督下,人工智能住院医师可作为医学教育的重要补充。


3-2:契合人类偏好

人类输入对于确保人工智能住院医师能够以符合临床医生和患者利益的方式履行这些职责至关重要。为此,临床医生与基础模型之间的协作已显示出有前景的结果,未来部署人工智能住院医师时可纳入这些技术。

研究表明,当临床医生审查并调整人工智能生成的报告时,最终输出往往与仅由临床医生撰写的报告相当,甚至更受青睐 97,98 。从人类反馈中进行强化学习 99 以及直接偏好优化 100 就是应用于此类任务的两种技术。

最近一项研究基于这一理念,专门训练了一个对话式医学报告生成模型,以便临床医生可根据需要提供反馈和跟进问题 101 。另一项研究提议与临床医生合作,通过生成式人工智能改变输入图像的属性,观察模型预测中的相关差异,并将这些差异与临床医生确定的显著特征进行比较,以此审核人工智能成像工具 102 。

该方法可用于提高人工智能住院医师的可解释性。尽管研究主要在模型与临床医生之间应用了这些契合技术,但也有让患者参与这一过程以获取其偏好的可能性。例如,为患者专门生成的报告可进行调整,减少医学术语,围绕患者病情使用更直白的语言。


虽然GenMI将受益于临床医生的输入 103–105 ,但临床医生也很可能至少通过三种途径从人工智能中学习。

首先,临床医生可以利用人工智能模型的诊断能力(尤其是随着其准确性不断提高),获取关于诊断错误的反馈。模型可以采用多模态输出,使这种反馈更直观、更具信息性,比如结合解释与覆盖在原始图像上的边界框,能够突出显示图像中可能先前被忽略的相关区域。

其次,模型快速解析图像和报告的能力,将使其成为临床医生快速搜索类似病例和图像的宝贵工具。

第三,在临床医生决策过程中进行协作头脑风暴时,模型可能会发挥重要作用,模型提出的探究性问题能够为与特定病症相关的诊断模式提供见解。


四、实现 GenMI 益处所面临的挑战

4-1:基准和评估指标

医学报告生成模型此前使用诸如BLEU 106 、METEOR 107 、CIDeR 108 和Rouge - L 109 等自然语言指标进行评估。

这些指标虽然能有效地确定文本输入之间的相似度,但并未考虑临床准确性,也不适用于解析和区分医学特定术语。考虑到这一点,已开发出一些新的指标,以更好地跟踪医学报告生成网络的功效 110 。特别是对于放射学报告生成,已提出RadGraph F1和RadCliQ来预测医学报告中临床特征的重叠情况以及放射科医生确定的错误分数 111 。

RadBench也被开发作为基础放射学模型的基准,包括医学报告生成以及其他视觉 - 语言任务 29 。 尽管自动指标方便且具有可扩展性,但人类评估对于确定GenMI解决方案的直接临床可行性至关重要。

一项研究已经前瞻性地调查了读者在评估生成放射学报告的功效时所节省的时间 112 ,其他研究则将评估扩展到使用人类专家级反馈,以将其模型与基线区分开来 28,98 。然而,这一领域相对缺乏探索,在医学报告生成模型能够安全实施之前,必须开展评估下游临床效果的未来研究。

在人工智能住院医师的背景下,对更明确指标的需求尤为重要,因为其在患者护理中发挥着更重要的作用。在部署人工智能住院医师工具后,设计能够进行持续监测的方法以防止性能下降并最大程度减少对抗性攻击的可能性至关重要。

最近的报告已经发现,流行的大语言模型的性能可能会随时间发生显著变化 113–115 ,这对于报告生成来说尤其令人担忧,因为这种变化可能会产生重大影响。此外,GenMI模型可能容易受到对抗性攻击,这种攻击本质上是利用模型漏洞设计错误输出,可能被用于犯罪。

例如,疾病预测模型可能被操纵以输出特定诊断和结果测量,这可能导致过度开药、保险欺诈和伪造临床试验 116 。大语言模型尤其容易受到这些攻击,因此,在将它们作为人工智能住院医师的一部分进行部署时,确保一致的安全措施和监督势在必行 117,118 。


4-2:临床医生和患者过度依赖

即使使用明确的措施部署并监测人工智能住院医师,防止临床医生过度依赖其输出也很重要。

例如,临床医生可能由于各种原因不愿意更改人工智能生成报告中的文本,包括错误责任的模糊性、确认偏差 119 以及自动化偏差(即他们过度依赖机器自动化指导) 120 。这种依赖可能会导致严重后果,临床医生可能会忽略模型无法识别的罕见发现。

此外,用于训练报告生成模型的数据集主要基于欧洲裔人群的数据 121 ,因此,模型可能为少数族裔群体生成质量较低的报告草稿;如果医生在这种情况下过度依赖模型输出,这种差异可能会导致服务不足社区的医疗保健质量受损 122 。

尽管一些研究已经调查了医生在使用人工智能时的决策 123,124 ,但在GenMI背景下研究依赖问题仍有很大的进一步研究需求。


这种过度依赖问题也延伸到患者身上 —— 虽然人工智能住院医师能够使患者直接与实时临床专业知识交互,但这些交互应以受控的方式进行,以免患者依赖人工智能住院医师来指导他们的医疗护理。当患者独立咨询人工智能住院医师时,除非生成的报告得到医生的批准,否则他们不能依据该报告采取行动。

因此,临床医生在教育患者如何正确查询和理解GenMI工具以供自身探索方面可以发挥重要作用。更广泛地说,在人工智能住院医师的整个部署过程中,必须认识到人工智能系统的局限性,尤其是在直接护理等领域,这些领域需要更广泛的背景、同理心和认知,而这只有人类才能处理和提供 125 。

人工智能住院医师应起到加强临床护理以及赋予患者和临床医生权力的作用。


4-3:有偏差的数据集和模型

深度学习模型,尤其是大语言模型,容易受到其训练数据中固有的偏差影响 36–39,126 。

在人工智能住院医师范式中,这一缺陷可能会引发特别严重的问题,因为模型不仅会在生成的报告中延续此类偏差,还会在医学教育和临床医生认知等领域产生影响。

此外,主观的人类反馈是改进人工智能住院医师的关键组成部分,但其本身可能会导致有偏差的反馈循环 127 。鉴于这些后果的严重性,在开发和部署此类工具时,评估并减轻偏差至关重要。

训练数据的质量、规模和平衡性在决定模型偏差方面也起着重要作用,因此非常需要更广泛且具代表性的数据集。目前,大多数进展由MIMIC - CXR等数据集推动,而该数据集仅限于单模态胸部X光扫描。其他数据集存在不平衡问题,除了普遍缺乏配对图像和相关报告外,与正常扫描相比,异常扫描的数量要少得多。

即使在异常扫描中,异常通常也局限于图像的小部分区域,这使得模型难以进行筛查。此外,有异常的扫描往往捕捉到的是更常见的病症,而罕见疾病很少有体现。这一问题可能会限制人工智能住院医师识别罕见疾病以及为教育生成新颖和异常测试案例的能力。


一些研究试图通过特定的模型组件 47,84 以及明确的疾病标记来解决类别不平衡问题,以减轻数据偏差 63,82 。还有一些研究试图通过扩展可用数据来解决这一问题。

例如,有人提出了MIMIC - CXR数据集的新纵向版本,以帮助扩展其涵盖的病症范围并提供更多时间序列数据 75 。人们也越来越关注生成合成图像数据 26,128,129 ,但专注于生成异常扫描的研究较少。除了一项通过大语言模型改写现有报告生成数千个人工撰写报告样本的研究外 45 ,合成文本的应用也很少被探索。

需要注意的是,即使在现有数据集中,类别标签本身也可能存在噪声,尤其是考虑到临床医生的观察者内部变异性以及通过自动挖掘收集的标签的不准确性 130,131 。零样本学习是一种有前景的规避噪声标签的方法,它是一种不需要标记训练数据的训练技术 132,133 。

虽然某些医学报告生成研究在一定程度上纳入了零样本训练 22,27,85 ,但在这一领域仍需进一步发展,以减少对大型数据集的依赖并减轻模型偏差。


4-4:新的模态和专业领域

尽管有许多医学报告生成研究,但将GenMI应用于3D成像(包括MRI和CT扫描)的工作有限 134,135 。部分原因是该领域缺乏大型注释数据集,除了一些未发布、稀疏或难以获取的数据集。

因此,一些MRI报告生成研究要么专注于撰写定性报告摘要,要么用特定信息填充统一模板 136–138 。为全科MRI诊断开发的一个框架是在一个未发布的由许多MRI - 报告对组成的数据集上进行预训练的 139 。

除了3D放射学图像外,GenMI技术在其他专业领域的应用也较为有限。眼科和皮肤病学报告生成在一定程度上取得了成功,在其流程中纳入了外部知识和疾病分类等标准技术 140–142 。

一项眼科研究提出了一个包含高质量视网膜扫描、双语报告和详细注释的大型数据集,为该领域更强大的GenMI模型开辟了道路 143 。这些专业领域的医学报告生成方法只有通过收集更强大的数据集和进一步开发数据高效算法才能得到改进。

虽然纳入新的专业领域和图像类型将扩展人工智能工具的能力,但获取这类大规模多模态数据集非常昂贵;资源充足的公司有能力收集或获得这些专有数据集的许可,但这些数据集不太可能免费公开。

此外,即使人工智能住院医师在各个专业领域得到更广泛的应用,医疗机构可能会优先利用它来增加患者数量,而不是提高所提供医疗服务的质量。

因此,必须以渐进的方式实施人工智能住院医师,可能从放射学等单一专业开始,以确保以优先考虑患者价值和临床护理的方式进行。临床医生也有责任维护医患关系的首要地位,并确保GenMI的实施维护患者利益 144 。


五、结论

自动化医学报告生成是人工智能有望减轻临床负担、扩大获取专家级临床护理机会的一个领域。生成式医学成像(GenMI)的出现为人工智能创造了一个极具吸引力的机遇,使其能够生成更高质量的报告,通过提供交互式临床专业知识赋能临床医生和患者,并通过拓展教育能力改善未来的临床护理。

随着 GenMI 在该领域日益普及,开发旨在衡量其功效的开放基准至关重要,尤其是在跨不同成像方式和专业领域的临床环境中。这样做将有助于学术界更透明地衡量报告生成方面的进展,并为未来的临床监管机构提供指导。目前缺乏标准化基准使得监管机构难以确定一种算法是否适合临床应用,并且随着该领域的持续发展,监管申报的大量涌入将变得越来越难以管理。

因此,为了安全有效地利用人工智能住院医师的临床效用,必须在开发人工智能工具的同时开发数据集和基准,重点在于持续的临床协作和审慎的模型验证。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值