医学大数据|基础|什么是医学多模态?

本文综述了多模态医学人工智能在医学领域的应用,探讨了如何利用综合多源数据进行诊断、预后评估和个性化医疗。文章强调了技术发展对数据采集、整合和分析能力的提升,以及在临床试验、疾病预测和治疗中的潜力,同时提到了面临的挑战和未来发展趋势。
摘要由CSDN通过智能技术生成

转载链接:https://mp.weixin.qq.com/s/GMYKO_KrTf8dhxBZl2IaiA

1.多模态概念

模态(modality)一词源于人类的五种感知渠道——视觉、听觉、嗅觉、味觉和触觉。这五种感知渠道应用于交际会产生以下五种交际模态:视觉模态、听觉模态、嗅觉模态、味觉模态和触觉模态(王红芳、乔孟琪,2018)。Jewitt(2009)认为,模态是“有组织、有规律的任何表现及交流方式”。顾曰国(2007)将模态定义为“人类通过感官与外部环境互动的方式”。朱永生(2007)则认为,模态指交流的渠道和媒介,包括语言、技术、图像、颜色、音乐等符号系统。

  1. Nature顶级子刊(IF:83)综述|大模型时代的多模态医学人工智能

2022年9月15日,来自哈佛医学院的Pranav Rajpurka教授及其团队给大家带来的题为“Multimodal biomedical AI”的文章,发表在《nature medicine》(IF=82.9)杂志上。

目前人工智能在医学中的大多数应用都是使用一种数据模式来解决小范围内的任务,例如计算机断层 (CT) 扫描或视网膜照片。但临床医生会综合多源、多模态的数据,进行诊断、预后评估和制定治疗方案。在这篇综述中,作者探索了多模态数据集在医疗健康中的应用,以及面临的关键挑战和有希望的策略。

摘要:来自大型生物资料库(Biobanks)、电子健康记录(Electronic Health Record, EHR)、医学成像、可穿戴和环境生物传感器的生物医学数据日益增加,同时基因组和微生物组测序成本越来越低,这些都为开发多模态人工智能解决方案奠定了基础,进而对人类复杂的健康和疾病状态加以了解。在这一综述中,我们概述了现有的关键应用程序,以及技术和分析面临的挑战。也探索了在个性化医疗、数字临床试验、远程监测和护理、流行病学监测、数字孪生技术和虚拟健康助手方面的机遇。此外,我们还调研了在数据、建模和隐私保护等方面无法避免的困难,以发挥多模态人工智能在健康领域的全部潜力。

尽管人工智能 (AI) 工具已经改变了许多领域(如,文本翻译、语音识别和自然图像识别),但在医学领域却较为落后。部分原因是数据的复杂性和高维性——换句话说,数据中包含大量特有的特征或信号——导致在开发和验证能够推广到不同人群的解决方案方面面临着技术上的严峻挑战。如今,随着基因组测序和相关“组学”技术成本的降低,可穿戴传感器的广泛使用,数据采集、聚合和分析能力也得到大幅提高。总的来说,这些技术的发展为新工具的产生奠定了基础也产生了需求。新工具可以综合处理多源的数据,并在生物医学发现、诊断、预后、治疗和疾病预防等方面提供帮助。

目前人工智能在医学中的大多数应用都是使用一种数据模式来解决小范围内的任务,例如计算机断层 (CT) 扫描或视网膜照片。但临床医生会综合多源、多模态的数据,进行诊断、预后评估和制定治疗方案。此外,当前的 AI 评估通常是基于执行评估时刻的瞬时判断,忽略了身体状态的连续性。然而理论上,人工智能模型应该能够纳入临床医生可用的所有数据源,甚至考虑医生无法使用的数据源(例如,大多数临床医生对基因组医学了解不深)。多模态 AI 模型的开发包含跨模态的数据——如生物传感器、遗传学、表观遗传学、蛋白质组学、微生物组学、代谢组学、图像数据、文本数据、临床信息、社会因素和环境数据等——有望部分弥补这一差距并实现个体化医疗、集成流行病监测、数字临床试验、虚拟健康助手等应用(图 1)。本文我们探讨了这种多模态数据集在医疗健康中的应用;接着我们讨论了面临的关键挑战和有希望的策略。本文不会讨论人工智能和机器学习的基本概念,但可参见其他综述文章。

个性化“组学”数据实现精准医疗

随着过去 20 年测序技术的长足发展,使用新技术测得的细粒度生物数据的数量发生了革命性的变化。这些数据统称为“组”,包括基因组、蛋白质组、转录组、免疫组、表观基因组、代谢组和微生物组等。这些组学数据可以在样本(Bulk)或单细胞水平上进行分析。而许多医学问题(如癌症)在组织水平上是异质(heterogeneous)的,并且大部分都具有生物学上细胞和组织的特异性。

各种组学在不同的临床和研究环境中都有重要价值。恶性肿瘤基因和分子标志物的检测已被纳入临床实践, FDA也批准了几种诊断设备和核酸检测方法。例如,Foundation Medicine and Oncotype IQ提供全面的基因组分析,针对基因组的主要变化(alteration)类别量身定制,最终目标是寻找可能的治疗靶点。除了分子标记物以外,液体活检样本(如血液和尿液等易于获取的体液)正在成为精准肿瘤学分析中广泛使用的工具,其中一些基于循环肿瘤细胞(circulating tumor cells)和循环肿瘤 DNA 的测试已获得 FDA 批准。在过去 15 年中,肿瘤领域以外的遗传数据的可用性和数据共享发展迅速,这使得进行全基因组关联研究(GWAS)和人类复杂条件下遗传结构的表征(characterization of the genetic architecture of complex human conditions)成为可能。这提高了我们对生物通路的理解,并产生了能捕获个体对复杂性状的总体遗传倾向的多基因风险评分(polygenic risk scores)等工具,并且可能有助于风险分级、个性化治疗以及在临床研究中筛选出最有可能从干预措施中受益的参与者,以促进相关实验被试者的招募。

将这些差异巨大的不同数据综合分析仍具有挑战。当然,克服这一挑战有至关重要的意义,即将电子健康记录 (EHR) 和影像数据、组学数据的整合有望进一步加强我们对人类健康的理解,并实现精准、个性化的预防、诊断和制定治疗策略。目前已经有数种方法将多组学数据整合用于精准医疗。例如图神经网络(Graph Neural Networks),这是处理计算图(一种常用的数据结构,包括节点和边,分别表示概念或实体和节点之间的连接或关系)的深度学习模型架构——从而帮助科学家解释多组学数据的关联结构,以提高模型的性能。另一种方法是降维,包括 PHATE 和 MultiscalePHATE 等新方法,它们可以在不同粒度下表示生物和临床数据的低维表示法,这些方法已在新冠肺炎疫情中被证明可以预测临床预后。

在癌症方面,克服与数据获取、共享和准确标记相关的挑战,可能会带来有效的工具,利用个性化多组学数据与组织病理学、影像学和临床数据结合来提供更为准确的临床轨迹并改善患者预后。组织病理学、形态学数据与转录组学数据的结合,产生了空间转录组学,构成了一种新颖且有前景的方法学进展,这允许研究者在空间视角中对基因表达进行更细粒度的研究。值得注意的是,研究人员引用深度学习方法仅利用组织病理学图像来预测空间水平下基因表达情况,且这些图像中的形态特征不是由专家人为识别的,这可能会提高这种技术的实用性并降低成本。

基因数据的成本越来越低,且同一个体仅需一次检测,但仅基因组数据本身的预测能力相对有限。将基因组学数据与其他组学数据相结合,可以捕获更多实时动态的信息,了解对象遗传背景和环境暴露的特定组合间的相互作用以评估连续可量化的健康状况(quantifiable continuum health status)。例如,Kellogg 等进行了个体多组学(N-of-1)研究,进行全基因组测序 (WGS) 和其他组学(转录组、蛋白质组、代谢组、抗体和临床生物标志物)的定期测量;多基因风险评分结果可以提示 II 型糖尿病的风险增加,而对其他组学数据的综合分析能够早期探测和剖析从健康到疾病的变化中信号传导网络的变化。

随着技术的发展,WGS 性价比逐渐提高,促进了临床生物标志物数据与现有基因数据的结合,从而快速诊断以前难以检测的疾病。最终,我们期待有能力开发包含多组学数据的多模态人工智能工具,实现对个体进行深表型分析(deep phenotyping);换句话说,真正了解每个人的生物特异性和其对健康的影响。

数字临床试验

随机临床试验是临床中针对新的诊断、预后和治疗干预措施,研究其因果关系并提供证据支持的金标准。不幸的是,计划和执行高质量的临床试验不仅耗时(通常需要很多年才能招募足够的志愿者并及时跟进试验),而且会产生高昂的经济成本。此外,地理、社会文化和经济差异会导致这些研究中各组的代表性(representation)较弱。这会对结果的普遍性产生影响,并导致生物医学研究中普遍存在的代表性不足进一步加剧了临床试验的差异。数字化临床试验可以通过减少志愿者注册和跟进的障碍,促进志愿者参与、优化试验测量方法和干预措施,为克服上述限制提供前所未有的帮助。同时,使用数字技术可以优化志愿者提供信息的粒度,从而提高研究的价值。

来自可穿戴技术的数据(包括心率、睡眠、身体活动、心电图、氧饱和度和血糖监测)和智能手机自主问卷可用于监测临床试验患者、识别不良事件和确定试验结果。此外,最近的研究强调了来自可穿戴传感器的数据在预测实验室结果方面的潜能。因此,引入了数字设备的研究在过去几年迅速增长,复合年增长率约为34%。这些研究大多使用来自单个可穿戴设备的数据。一项开创性的试验使用了“创可贴” ——用于检测心房颤动的贴片传感器;远程注册的志愿者可以通过邮寄方式收到试验传感器,而无需前往线下试验点,这为数字化临床试验奠定了基础。在新冠肺炎疫情期间开展了许多使用可穿戴设备检测新冠病毒的远程试验。

有效地将自不同可穿戴传感器的数据与临床数据相结合,既是挑战也是机遇。数字临床试验可以利用志愿者的多源数据实现自动表型化(automatic phenotyping)和亚组分析,对于适应性临床试验(adaptive clinical trial)来说,数字临床试验有利于根据持续试验结果实时对试验进行设计。未来,我们期待数据可用性的提高和创新多模态学习技术(multimodal learning techniques)将促进数字临床试验的发展。值得注意的是,谷歌最近在时间序列分析中的成果证明了基于注意力机制(attention-based)的模型架构有望结合静态数据和时序输入来实现可解释的时间序列预测。这里提出一种假设,这种模型可以自行决定其关注的特征,如关注静态特征(如遗传背景)、已知的时序特征(如一天中的时间),亦或测量得到的特征(如当前血糖水平),以预测未来发生低血糖或高血糖的风险。最近有人提出,图神经网络可以通过利用传感器间信息的连接特性来解决多个健康传感器的数据丢失或数据采样不规则的问题。

临床试验中针对患者必要的招募和跟进至关重要但仍然是一个挑战。在这种情况下,人们逐渐倾向于使用合成对照方法(synthetic control methods),即使用外部数据实现对照。尽管合成对照试验仍相对新颖,但 FDA 已经根据历史对照批准了一些药物,并使用实际产生的数据开发了一个框架。利用来自多模态数据的 AI 模型可能有助于识别或生成最优化的合成对照组。

转载链接:https://mp.weixin.qq.com/s/GMYKO_KrTf8dhxBZl2IaiA

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值