文献解读02-DeAF: A multimodal deep learning framework for disease prediction

文章介绍了一种名为DeAF的框架,通过无监督表示学习和自我注意力融合解决多模态医学数据中的特征对齐与融合问题,实验结果显示在预测CRS对结肠癌术后疗效及MCI转Alzheimers上,DeAF框架性能优于传统方法。
摘要由CSDN通过智能技术生成

论文信息:“DeAF: A multimodal deep learning framework for disease prediction”——Computers in Biology and Medicine 156 (2023) 106715
译:“DeAF:用于疾病预测的多模态深度学习框架”
代码:https://github.com/cchencan/DeAF
Abstract
多模态深度学习模型已被应用于疾病预测任务,但由于子模型和融合模块之间的冲突,训练存在困难。为了缓解这个问题,我们提出了一个解耦特征对齐和融合(DeAF)的框架,该框架将多模态模型训练分为两个阶段。在第一阶段中,进行无监督表示学习,并使用模态自适应(MA)模块来对齐来自各种模态的特征。在第二阶段,自我注意力融合(SAF)模块使用监督学习将医学图像特征和临床数据相结合。此外,我们应用DeAF框架来预测CRS对结直肠癌的术后疗效以及MCI患者是否转变为阿尔茨海默病。与以前的方法相比,DeAF框架实现了显着的改进。最后,通过大量的消融实验验证了该框架的合理性和有效性。总之,我们的框架增强了局部医学图像特征和临床数据之间的相互作用,并获得更多的判别多模态特征用于疾病预测。

1. Introduction

随着近年来图形处理单元(GPU)的进步,深度学习在各个领域取得了巨大的成功,特别是在计算机视觉领域。深度学习在医学图像分析中也表现出了出色的性能,在医学图像分割、医学图像配准、诊断或其他任务中优于传统算法。因此,我们开发了这个疾病预测模型,以帮助医生预测腹膜转移瘤细胞减灭术的疗效和预后。这种疾病预测模型的优点是融合了不同类型的医学图像和临床数据。然而,现有的疾病预测模型大多仅基于医学图像、肿瘤的部分信息,存在潜在的偏差。另外,由于医学数据本身固有的特点(类别不均衡、数据量少、标注不准确),疾病预测模型中不可避免地存在过拟合问题。总之,基于医学图像的疾病预测仍然是一个挑战。为了突破单一模态的局限性,一些研究者利用不同来源的相关数据(即多模态数据)来提高疾病预测模型的性能。多模态模型在RGB-D语义分割、视觉问答和动作识别中普遍存在,可以进行不同模态数据之间的融合(例如,自然图像和深度图像、文本数据和图像数据或视频数据和语音数据)。在医学领域,我们将多模态模型分类为同质融合(例如,MRI和CT图像)和不均匀融合(例如,CT图像和临床数据)。在本文中,我们感兴趣的模型融合医学图像和临床数据。

对上述问题的分析表明,子模型的训练对于融合模块同样重要。在反向传播中,很难同时关注子模型和融合模块。与独立训练的子模型不同,端到端的多模态模型通过明确地采用融合层来组合联合收割机多模态特征,从而在模态之间具有高效的信息交换。因此,为了保持融合层的有效性并增强子模型的训练,我们提出了一个框架,该框架将特征对齐和融合结合起来。在这个框架中,多模态模型的训练分为两个阶段。在第一阶段,受领域自适应的启发,我们设计了无监督表示学习模型的模态自适应(MA)模块,它可以使图像特征空间近似于临床数据空间,从而使图像和临床数据的特征对齐。此外,MA模块隐式地将临床信息添加到医学图像特征中。SimSiam在我们的研究中被选为无监督表示学习模型。具体来说,MA模块与SimSiam(MA-SimSiam)相结合,进行多模态无监督表示学习。在第二阶段,预训练图像编码器被转移到多模态融合模型。为了提高多模态交互的效率,提出了一种新的多模态特征转换和特征融合方法。在特征变换和特征融合后,利用自注意融合模块将医学图像特征与临床数据进行联合收割机融合。SAF模块将生成局部医学图像特征与临床信息之间的相关系数。通过引入相关系数,该模型可以集中于本质特征,去除冗余特征。

2. Related work

2.1. Unsupervised representation learning(无监督表示学习)

无监督表示学习通常用于从未标记数据中学习区分特征,这可以有助于下游任务。无监督表示学习的好处来自两个方面:
(1)来自无监督表示学习的预训练模型提供了模型参数的良好初始化。我们也把它看作是模型的正则化。
(2)无监督表示学习通常学习从输入到输出的映射。因此,无监督模型学习的内容也适用于有监督模型。
近年来,无监督表示学习在社区中受到欢迎,一些无监督表示学习模型甚至优于有监督学习模型。

2.2. Disease prediction(疾病预测)

随着技术的进步,保存和访问患者数据变得越来越容易,因此广泛的患者数据正在用于人工智能(AI)研究。近年来,许多成功的人工智能模型被建立用于诊断和预后预测。Jin等人[1]、Wang等人[2]和Zhang等人[30]开发了用于胸部CT图像的COVID-19诊断的AI系统。Cheng等人。[31]和Chen等人。[32]提出了CT图像上的AI模型来预测肺结节的风险。Wu等人。[33]使用MRI图像训练Faster R-CNN模型,用于直肠癌的诊断和分期。𝑇Kudo等[3]仅通过临床数据构建了多层感知器(MLP),可以预测结直肠癌T1期淋巴结转移的风险。目前,在许多疾病预测中可以达到很高的准确性,但大多数AI模型都是用单一模态数据开发的,这比多模态模型的可解释性和临床适用性要差得多。

3. Method

解耦多模态特征对齐和特征融合(DeAF)的多模态框架如图1所示。DeAF框架以医学图像和临床数据作为输入,然后输出诊断结果。简单地说,它是一个分类器模型。DeAF框架分为两个分支:无监督表示学习模型和多模态融合模型。在无监督表示学习模型中,针对单模态无监督表示学习模型的局限性,设计了SimSiam的模态自适应模块(MA模块)来处理多模态数据。在多模态融合模型中,我们设计了自注意融合模块(SAF模块),使多模态特征之间的交互性更强。
图1
图1:多模态诊断框架的管道。DeAF框架由两个分支组成,一个分支是无监督表示学习分支,另一个分支是多模态融合分支。多模态融合分支的预训练模型来自无监督表示学习分支。

无监督表示学习的模型如图2所示。由于简单性和对批量大小的要求很小,我们的无监督表示学习模型基于SimSiam。SimSiam是一个无监督表示学习模型。通过无监督学习,它可以从未标记的数据中学习有用的表示。然后,训练好的模型会将输入数据映射到更一般化的表示,这可以促使后续的监督模型以有效的方式学习。然后,接受多模态数据和对齐它们,我们设计了模态适应(MA)模块。
图2
图2:SimSiam与模态自适应模块(MA模块)的插图

4. Experimetnt

我们分别在结直肠癌数据集和阿尔茨海默病神经影像学倡议(ADNI)数据集上进行实验,以预测CRS对结直肠癌的术后疗效和MCI患者是否转变为阿尔茨海默病。

结直肠癌数据集由CT图像和临床数据组成,用于构建CRS术后疗效的预测模型。收集中山大学附属第六医院、复旦大学附属肿瘤医院、南方医科大学珠江医院、福建省肿瘤医院和福建医科大学附属肿瘤医院的CT图像和临床资料。为了在术前预测术后疗效,在CRS前收集CT图像。该数据集包括185名患有结直肠癌腹膜转移(PM)并接受细胞减灭术(CRS)以切除所有可见肿瘤的患者。手术后,外科医生将根据直径大小对残留肿瘤进行CC评分。根据评分将患者分为3个等级,即CC-0(肿瘤完全切除,无残留肿瘤)、CC-1(残留肿瘤直径≤ 2.5 mm)和CC 2(残留肿瘤≥ 2.5 mm)。我们使用CT图像和临床数据作为多模态模型的输入。CRS后的评分作为CRS的术后疗效。换句话说,分数也是预测模型中的标签数据。

阿尔茨海默病神经影像学倡议(ADNI)数据集是阿尔茨海默病的大规模数据集。ADNI数据集由多模态数据组成,包括MRI,PET,遗传和表型数据。我们遵循[17]来处理数据并开发一个模型来预测轻度认知障碍(MCI)患者是否会转变为阿尔茨海默病。在我们的实验中,我们选择MRI图像作为医学图像数据。对于临床数据,解剖学脑结构的体积、表型信息和遗传数据作为临床数据。实验中选取了1675个采集样本,与[17]相同。对于解剖脑结构的体积,我们使用PyRadiomics来计算MRI图像,并从MALP-EM中进行分割,以获得138个解剖脑结构的体积。此外,表型信息包括年龄和性别。基因数据是APOE 4等位基因,这是阿尔茨海默病的危险因素。

5. Discussion and conclusion

在本文中,我们提出了一个多模态框架解耦的特征对齐和融合,它分为两个阶段的特征对齐和融合。在第一阶段中,MA模块被用来对齐来自不同模态的特征。第二阶段提出了一种新的特征变换和特征融合方法,将医学图像局部特征与临床数据联合收割机结合起来,保留了更多的空间信息。然后,通过SAF模块融合医学图像特征和临床数据。与以往的深度学习研究相比,我们的框架的优势体现在几个方面。首先,大多数研究利用单一模态数据来构建深度学习模型[1,2,31 -33],无法彻底诊断患者并提供令人信服的解释。此外,Zhang等人[30]使用CT图像和临床数据进行诊断模型,但他们需要单独训练CT图像模型,然后在多模态模型中使用CT图像模型的输出。因此,该研究不进行多模态信息交互,来自CT图像的信息是静态的,它只是多模态信息的添加。相反,DeAF利用多模态数据建立端到端模型,以保证多模态数据之间的有效交互。

其次,完全连接的层可以集成来自不同模态的特征,但以粗略的方式。Parisot等人通过将MRI特征作为边缘,将临床特征作为节点来构建GNN模型。然而,当将临床数据转换为边缘信息时,会发生严重的信息丢失。在我们的研究中,我们设计了多模态特征的转换,并使用自我注意作为融合层。因此,通过对多模态特征的新的变换,来自不同模态的特征可以进行详细的交互并尽可能地保留信息。第三,设计了基于SimSiam的多模态无监督学习模型MA-SimSiam。MA-SimSiam可以缓解融合层难以对齐多模态特征的问题,其预训练模型可以为训练监督模型提供良好的起点。总之,与其他诊断模型相比,DeAF有很大的改进。为了证明所提出的框架的效果,利用CT图像和临床数据来预测CRS对结直肠癌的术后疗效以及MCI患者是否转变为阿尔茨海默病。与以前的方法相比,我们的框架实现了显着的改善。最后,通过大量的烧蚀实验验证了该框架的合理性和有效性。对SAF模块进行了一些小的修改,并与JFC融合模块进行了比较,研究了SAF模块对模型的影响。为了解释模型,我们可视化的CT图像特征图。然而,在某些情况下,模型可以做出正确的诊断,而模型并不关注肿瘤区域。有两种常见的情况。在第一种情况下,模型通过巧合做出正确的预测,这等同于模型的误差。在另一种情况下,随着临床数据和CT图像的融合,模型获得更多的信息,这导致即使在错误的CT图像特征被提取时,模型的正确预测。除上述问题外,本研究还存在一定的局限性:
(1)我们实验中的数据集很小,只有185名患者。我们的实验结果并不稳定,因此我们不得不进行多次实验以得出平均结果。
(2)缺失数据也是临床数据中不可避免的问题,尤其是对于基因突变状态。临床资料的缺失率为10.56%,但缺失的主要是基因资料,缺失率为7.41%。除基因数据外,其余数据的缺失率为3.15%。因此,我们使用一些估算方法(例如,数值的平均插补和分类值的随机插补),以填补缺失数据。
(3)DeAF框架显示出最好的性能,但它仍然具有较低的平均准确性。首先,恶性肿瘤的医学图像,尤其是晚期肿瘤的图像,是一个非常困难的任务。其次,我们的数据集样本很小。要找到一个更大的结直肠癌腹膜转移队列并不容易。
因此,我们将在未来的工作中扩展数据集,并探索预测结果与模型解释之间的关系。此外,我们将与放射科医生和外科医生合作,推进多模式模型及其在临床实践中的应用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值