医图顶会 MICCAI‘24 | 多模态3D CNN与Transformer结合，助力脑出血临床决策

朝阳区靓仔_James

于 2024-12-03 19:45:46 发布

阅读量1.1k

点赞数 10

文章标签： 3d cnn transformer 人工智能 leetcode 算法 java

本文链接：https://blog.csdn.net/weixin_58753619/article/details/144222388

版权

论文信息

题目：Multi-modality 3D CNN Transformer for Assisting Clinical Decision in Intracerebral Hemorrhage

多模态3D CNN Transformer助力脑出血临床决策

源码：https://github.com/Henry-Xiong/3DCT-ICH

论文创新点

多模态预测模型的引入：作者提出了一种结合3D CNN与Transformer的多模态预测模型，该模型利用入院时的CT图像和临床数据有效预测ICH患者的治疗方式。
预训练CLIP模型的利用：通过使用预训练的CLIP模型，作者增强了多模态信息的集成，并深化了模型对专业医学知识的理解。此外，作者引入了一个基于CNN的MLP层，以改善全局空间特征的检测。
CLIP模块与CMLP的结合：作者展示了CLIP模块和CMLP在操作层面上的互补功能。当结合使用时，它们不仅优化了模态之间的融合过程，而且显著增强了空间特征的捕获，从而大幅提升了模型性能。

摘要

脑出血（ICH）是一种死亡率和发病率高的脑血管疾病。早期ICH患者往往缺乏明确的手术指征，这对于神经外科医生来说在做出治疗决策时非常具有挑战性。目前，ICH的早期治疗决策主要依赖于神经外科医生的临床经验。尽管已有尝试结合局部CT成像和临床数据进行决策，但这些方法未能提供深度语义分析，也没有充分利用不同模态之间的协同效应。为了解决这一问题，本文介绍了一种新颖的多模态预测模型，该模型结合了CT图像和临床数据，为ICH患者提供可靠的治疗决策。具体来说，该模型采用了3D CNN和Transformer的组合来分析患者的脑部CT扫描，有效地捕获了颅内血肿和周围脑组织的三维空间信息。此外，它利用对比语言-图像预训练（CLIP）模块提取人口统计特征和重要的临床数据，并通过交叉注意力机制与CT成像数据集成。此外，设计了一种基于CNN的多层感知器（MLP）层，以增强对三维空间特征的理解。在真实临床数据集上进行的广泛实验表明，与现有的最先进方法相比，所提出的方法显著提高了治疗决策的准确性。

关键词

ICH · 多模态 · CNN · Transformer · 临床决策

2 方法

2.1 多模态模型架构

我们的多模态模型架构如图1所示。具体来说，它使用2D和3D CNN处理3D CT扫描（尺寸为高度H ×宽度W ×深度D），以捕获平面和空间信息。改进的Transformer有效地集成了两种模态的数据以生成预测。以下各节将详细描述模型的组成部分。

2.2 特征提取

考虑到将3D医学成像数据分割成小的3D补丁并将其展平以供Transformer处理的高计算成本，我们使用2D和3D卷积有效地从CT图像中提取特征。考虑到CT图像在深度上与宽度和高度的不均匀性（512 × 512 × 128），我们首先应用3 × 3的2D卷积从每个轴向切片中提取特征，将CT图像尺寸转换为统一的128 × 128 × 128立方体，以进行后续处理。为了进一步细化特征，我们应用3 × 3 × 3的3D卷积构建残差连接块，通过四个下采样步骤将高维3D CT图像减少到具有丰富高级表示的特征图（16 × 16 × 16）。最后，我们调整这些特征图的大小并添加位置编码，形成最终的输入特征图，然后输入到后续模块中，以更深入地探索全局接受域。

2.3 CLIP模块

利用CLIP在文本特征理解方面的优越性，我们最初将数值和文本数据合并成描述患者状况的句子。CLIP的文本编码器，一个基于Transformer的模块，提取关键信息以进行深度语义表示。为了协调文本和图像数据维度的差异，上采样层调整文本特征大小以实现图像-文本模态对齐。特征融合采用交叉注意力机制：

其中代表从文本数据派生的查询向量，而和分别对应于由图像数据生成的键和值向量。表示键向量的维度，作为缩放因子。这种处理增强了CT和临床数据的集成，促进了更全面的分析。这不仅加深了对临床数据的理解，还模仿了临床诊断方法。

2.4 CMLP

在ViT中，通过注意力机制提取的特征通常依赖于MLP的处理。在此基础上，我们使用CNN重新设计了MLP层，以增强空间信息捕获。首先，我们将CLS标记从特征向量中分离出来。然后，我们执行剩余特征的向上投影，允许它们通过3 × 3的卷积层，然后通过1 × 1的卷积层。这些卷积层产生的特性通过向下投影恢复到原始尺寸。随后，这些特征通过平均池化转换为单个权重，乘以CLS标记。最后，这个处理过的CLS标记与CNN处理过的特征连接，旨在提高模型捕获相邻特征和增强空间信息感知和利用的能力。

3 实验

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述