MMGPL: 图提示学习的多模态医疗数据分析 MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning-CSDN博客

本文链接：https://blog.csdn.net/weixin_49844824/article/details/140170025

MMGPL: 图提示学习的多模态医疗数据分析

可借鉴参考

文献地址： MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning

1. 期刊分析

期刊名： Medical Image Analysis
期刊信息： 中科院一区，Top期刊；Q1，IF: 10.7
投稿周期：
本篇： Received: 16 December 2023； Revised: 12 April 2024； Accepted: 27 May 2024
网站统计：录用比例：25%；审稿周期：约5.0月（经验）- 9.4周（Elsevier官网）
其余信息： LetPub
该论文目前无代码

2. 摘要

提示学习在将多模态大型模型微调到广泛的下游任务方面表现出了令人印象深刻的效能。然而，将现有的提示学习方法应用于神经疾病诊断仍然存在两个问题：
（i）现有方法通常将所有图像块同等对待，尽管实际上只有少数神经影像学图像块与疾病相关；(病区)
（ii）它们忽略了大脑连接网络中固有的结构信息，这对于理解和诊断神经疾病至关重要。（脑区）
为了解决这些问题，我们通过在多模态模型的微调过程中学习图提示，引入了一种新颖的提示学习模型，用于诊断神经疾病。
具体来说，我们首先利用GPT-4获取相关的疾病概念，并计算这些概念与所有图像块之间的语义相似性。其次，根据每个图像斑块与疾病相关概念之间的语义相似性，我们减少不相关图像斑块的重要性。此外，我们基于这些概念构建了一个图，并使用图卷积网络层提取图的结构信息，用于提示预训练的多模态模型，以诊断神经疾病。大量的实验表明，我们的方法在神经疾病诊断方面取得了优于最新方法的性能，并得到了临床医生的验证。

3. 贡献

引入了一种新颖的提示学习方法，该方法有效地减少了不相关图像斑块的影响，这在现有方法中通常被忽视，但在医学数据分析中至关重要。
采用了图提示提取图像块之间的结构信息。
据我们所知，这是首次尝试设计专注于神经疾病病理机制的提示学习方法，从而弥合了多模态模型与神经疾病诊断之间的差距。

4. 动机来源分析

在这里插入图片描述

所以这篇文章的核心动机就是利用病区找到关注区域，利用结构信息关注全局信息

5. 方法

首先，MMGPL 将多模态医疗数据划分为多个块，并将它们投影到共享嵌入空间中。（框图蓝色部分）
其次，MMGPL促使GPT-4生成与疾病相关的概念，并根据令牌和概念之间的语义相似性进一步学习令牌的权重。（框图绿色部分）
然后，MMGPL学习token之间的图并提取结构信息以提示统一编码器。（框图黄色部分）
最后，MMGPL获得统一编码器的输出，并用它来预测主题的标签。（Unified encoder和输出分类结果）

5.1 整体框架

在这里插入图片描述
``

5.2 Multimodal data tokenizer（对应文章3.2）

1. 直白点就是把图像分成块-patch，然后加上位置信息
2. 然后设定一个可以有参数学习的align函数，分配patch
3. 最后获得的就是Embedding (万物皆可embedding又来了)
在这里插入图片描述

5.3 Concept learning（对应文章3.3）

1. 用大模型GTP-4去生成对应疾病的描述性概念（作者声明这些生成的概念是经过医生审查过的）
在这里插入图片描述
2. 用bert（BiomedCLIP的预训练模型）生成文本的embedding

3. 用图像的embedding和文本的embedding进行相似性学习，获得patch的权重信息

基于此，文章就已经把病区的问题解决了，对应的patch有了权重，且该权重是来自语义信息，具有很强的可解释性

5.4 Graph prompt learning（对应文章3.4）

1. prompt的核心问题是提供给模型类似于可以作弊的/可以走捷径的办法，这里使用图结构巧妙的把脑组织的结构信息表达/表征出来
2. 然后就是基于图结构的prompt和具有了权重信息的image-embedding通过GCN学习，最后获得分类结果
在这里插入图片描述
这里有一个思想很有意思
脑组织中的细胞通过神经纤维束进行交互，而这里每一个patch通过图的边进行交互，非常相似
（图来自NC的文章）下图是神经纤维束的表达，特别是右侧可以明显看见纤维束的形状（作者挺牛的）
在这里插入图片描述