MMGPL: 图提示学习的多模态医疗数据分析
文献地址: MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning
1. 期刊分析
期刊名:
Medical Image Analysis
期刊信息:
中科院一区,Top期刊;Q1,IF: 10.7
投稿周期:
本篇: Received: 16 December 2023; Revised: 12 April 2024; Accepted: 27 May 2024
网站统计:录用比例:25%; 审稿周期:约5.0月(经验)- 9.4周(Elsevier官网)
其余信息:
LetPub
该论文目前无代码
2. 摘要
提示学习在将 多模态大型模型微调 到广泛的下游任务方面表现出了令人印象深刻的效能。然而,将现有的提示学习方法应用于神经疾病诊断仍然存在两个问题:
(i)现有方法通常将所有图像块同等对待,尽管实际上只有少数神经影像学图像块与疾病相关;(病区)
(ii)它们忽略了大脑连接网络中固有的结构信息,这对于理解和诊断神经疾病至关重要。(脑区)
为了解决这些问题,我们通过在多模态模型的微调过程中学习图提示,引入了一种新颖的提示学习模型,用于诊断神经疾病。
具体来说,我们首先利用GPT-4获取相关的疾病概念,并计算这些概念与所有图像块之间的语义相似性。其次,根据每个图像斑块与疾病相关概念之间的语义相似性,我们减少不相关图像斑块的重要性。此外,我们基于这些概念构建了一个图,并使用图卷积网络层提取图的结构信息,用于提示预训练的多模态模型,以诊断神经疾病。大量的实验表明,我们的方法在神经疾病诊断方面取得了优于最新方法的性能,并得到了临床医生的验证。
3. 贡献
- 引入了一种新颖的提示学习方法,该方法有效地减少了不相关图像斑块的影响,这在现有方法中通常被忽视,但在医学数据分析中至关重要。
- 采用了图提示提取图像块之间的结构信息。
- 据我们所知,这是首次尝试设计专注于神经疾病病理机制的提示学习方法,从而弥合了多模态模型与神经疾病诊断之间的差距。
4. 动机来源分析
所以这篇文章的核心动机就是利用病区找到关注区域,利用结构信息关注全局信息
5. 方法
首先,MMGPL 将多模态医疗数据划分为多个块,并将它们投影到共享嵌入空间中。(框图蓝色部分)
其次,MMGPL促使GPT-4生成与疾病相关的概念,并根据令牌和概念之间的语义相似性进一步学习令牌的权重。(框图绿色部分)
然后,MMGPL学习token之间的图并提取结构信息以提示统一编码器。(框图黄色部分)
最后,MMGPL获得统一编码器的输出,并用它来预测主题的标签。(Unified encoder和输出分类结果)
5.1 整体框架
``
5.2 Multimodal data tokenizer(对应文章3.2)
1.
直白点就是把图像分成块-patch,然后加上位置信息
2.
然后设定一个可以有参数学习的align函数,分配patch
3.
最后获得的就是Embedding (万物皆可embedding又来了)
5.3 Concept learning(对应文章3.3)
1.
用大模型GTP-4去生成对应疾病的描述性概念(作者声明这些生成的概念是经过医生审查过的)
2.
用bert(BiomedCLIP的预训练模型)生成文本的embedding
3.
用图像的embedding和文本的embedding进行相似性学习,获得patch的权重信息
基于此,文章就已经把 病区 的问题解决了,对应的patch有了权重,且该权重是来自语义信息,具有很强的可解释性
5.4 Graph prompt learning(对应文章3.4)
1.
prompt的核心问题是提供给模型类似于可以作弊的/可以走捷径的办法,这里使用图结构巧妙的把脑组织的结构信息表达/表征出来
2.
然后就是基于图结构的prompt和具有了权重信息的image-embedding通过GCN学习,最后获得分类结果
这里有一个思想很有意思
脑组织中的细胞通过神经纤维束进行交互,而这里每一个patch通过图的边进行交互,非常相似
(图来自NC的文章)下图是神经纤维束的表达,特别是右侧可以明显看见纤维束的形状(作者挺牛的)
6. 实验
仅展示个人觉得有意思的部分,大家可以看看原文,很棒的研究工作
第一个: 把图像的embedding和概念性的文字信息做了类似于混淆矩阵的图,这里以(C)AD 举例,可以看到的是蓝色的概念性文字正好是AD的文字描述(深红色框出)
获得了很强的可解释性证明
第二个:热力图的显示,在冠状面可见关注区域和海马的位置有点接近
下半张T1-MRI的图展示了海马不同程度的萎缩情况
可借鉴参考
-
神经纤维束的文章:The challenge of mapping the human connectome based on diffusion tractography
-
BiomedCLIP:BiomedCLIP: https://arxiv.org/abs/2303.00915