论文信息·:Interpretable learning based Dynamic Graph Convolutional Networks for Alzheimer’s Disease analysis——Information Fusion 77 (2022) 53–61
译:基于可解释学习的动态图卷积网络在阿尔茨海默病分析中的应用
Abstract
图卷积网络(GCN)通过聚集每个样本的邻域信息来输出鲁棒的节点嵌入,被广泛应用于分类任务。然而,传统的GCN方法在训练过程中不更新图,因此它们的有效性总是受到输入图质量的影响。此外,以前的GCN方法缺乏可解释性,限制了它们的真实的应用。在本文中,提出了一种新的个性化诊断技术,通过耦合可解释的特征学习与动态图学习到GCN架构的早期阿尔茨海默病(AD)的诊断。具体而言,可解释特征学习模块选择信息特征以提供疾病诊断的可解释性,并放弃冗余特征以捕获数据点的内在相关性。动态图学习模块调整每个数据点的邻域关系以输出鲁棒的节点嵌入以及所有数据点的相关性以改进分类器。GCN模块基于学习的固有图结构输出诊断结果。所有三个模块都经过联合优化,可在个人层面进行可靠的疾病诊断。实验表明,我们的方法输出有竞争力的诊断性能,以及提供个性化的疾病诊断的解释。
1 Introduction
阿尔茨海默病(AD)是一种不可逆的神经退行性疾病,严重影响老年人的日常记忆、认知、行为甚至生活。全球数百万人患有AD,AD已成为老年人死亡的主要原因之一。不幸的是,AD无法治愈,因此使用现有疗法进行早期干预将有助于延缓其恶化。磁共振成像(MRI)等神经成像技术提供了监测AD进展的有效方法,并开发了机器学习技术以促进神经成像数据的疾病诊断过程。
个性化诊断技术是在训练数据有限和测试数据异构的情况下提高诊断性能的有效策略。在医学领域,数据收集受到许多因素的限制,例如受试者的隐私和数据收集的成本,这使得难以收集大量数据来训练用于疾病诊断的鲁棒分类器。此外,AD病理学中的异质性是常见的。这是因为受试者来自不同的地点、设备或医生,所有这些因素使得待诊断数据呈现明显的异质性,因此传统的分类技术很容易对这些数据点输出次优的诊断结果。因此,个性化诊断方法被设计为在上述复杂场景中提高疾病诊断的性能。进行个性化诊断的关键是通过考虑已诊断和未诊断患者的分布信息来细化分类器。
近年来,深度学习在个性化疾病诊断中受到广泛关注,通常比传统的机器学习方法输出更好的诊断性能。例如,Farooq等人证明,深度学习技术可以为AD分类输出高度区分的特征表示。然而,大多数深度学习方法都没有考虑数据的结构信息,这在传统机器学习中已被证明可以有效地提高分类性能。图卷积网络(GCN)利用数据点的分布信息进行半监督分类,比其他深度学习方法具有更强的疾病诊断判别能力。然而,目前的GCN模型需要解决以下问题。首先,GCN的性能高度依赖于在训练过程中保持不变的图的质量。当输入低质量的图时,分类性能会受到影响。为了解决这个问题,Zhu等人设计了一个GCN模型来利用邻居节点之间交互的重要性。其次,使用固定图不能动态地考虑训练数据和新的未见过的测试数据的数据分布,因此不能灵活地改进针对特定测试数据的分类器。因此,GCN中的固定图容易在个性化诊断中输出次优性能。这两个因素都可能导致异质性测试数据的次优或有偏倚的诊断结果。第三,与其他深度学习方法类似,GCN无法输出可解释的诊断结果。
图学习是一种广泛使用的策略,通过利用数据的分布来解决前两个问题。一方面,原始数据通常包含噪声和冗余,从而输出低质量的图形。另一方面,在大多数情况下,尽管图是预先定义好的,但图方法无法输出合理的结果,因为该图是独立于分类任务构建的。因此,如何动态调整图的结构是提高疾病诊断性能的关键。Gan等人提出了一种同时使用动态图学习和半监督学习的有效个性化诊断方法[3],其中动态图结构可以捕获大脑区域的有效相关性。与固定图相比,动态图学习可以以学习的方式调整连接或边的权重,从而能够为特定的学习任务输出更灵活有效的图。然而,先前的个性化诊断方法使用分离的分类器来实现疾病诊断,而不是使用端到端的方式,因此改进有限。
在真实的医学应用中,可解释的诊断结果通过为疾病诊断提供合理的解释,在病理学研究和案例研究中非常重要。Bron等人提出在SVM之前使用特征选择方法来改善AD分类性能,并搜索感兴趣区域(ROI)以提供更多的生物学可解释性。为了进行AD的可解释性,采用三种主要方法(包括体素级方法、块级方法和区域级方法)从MRI等医学数据中提取特征。与其他两种方法相比,区域级方法更受关注,因为它生成了更低维和更高级别的大脑区域表示。例如,Liu等人提出使用特征选择方法来选择最具区分力的大脑区域,以利用大脑区域之间的相关性。然而,这些方法中的大多数以浅线性回归方式识别重要特征,因此具有有限的区分能力。此外,这些常规方法将选择重要特征与执行分类分开。因此,特征选择的目的是尽可能多地保留信息,而不是实现最小的分类错误,从而最终输出次优的诊断结果。
本文提出了一种可解释的动态图卷积网络(IDGCN),以提高AD个性化诊断的性能,并输出可解释的结果。为此,可解释的特征学习和动态图学习被嵌入到GCN架构中。更具体地说,可解释的特征学习为诊断结果提供了可解释性,并且预分类使得所选择的特征是面向分类的。此外,动态图学习通过调整所有对象的相似和不相似相关性来动态更新GCN的图结构,以输出上级诊断结果。因此,通过联合优化特征学习、图学习和GCN,所提出的疾病诊断方法不仅可以产生可靠的个性化诊断,而且还可以为诊断结果提供可解释性。在我们的实验中,我们采用了六个数据集的ADNI来验证所提出的个性化诊断方法的有效性。实验结果表明,与现有的分类方法相比,该方法具有较好的诊断性能,并能从脑区的角度对AD诊断结果进行解释。
与以前的方法相比,我们提出的方法集成了图学习和GCN框架中的可解释性,我们提出的方法的贡献可以总结如下。
·在传统机器学习方法的框架中,将图学习与学习任务耦合是非常流行的。一些关于深度学习模型的文献集中在这方面。例如,Jiang等人提出在一个框架中同时进行图学习和表示学习。这些方法都忽略了图像的可解释性,而可解释性对于真实的应用,特别是医学图像分析是非常有用的。
·许多传统的机器学习方法专注于分别进行特征选择和分类以实现可解释性,而许多深度学习模型很难实现可解释性。相反,我们的方法同时考虑GCN模型中的特征选择和图学习。
2 Method
在本节中,我们将详细介绍我们用于AD诊断的可解释动态图卷积网络(IDGCN),它涉及三个模块,即,可解释特征学习模块、动态图学习模块和GCN模块,如图1所示。
图1 提出的IDGCN模型的体系结构。具体而言,可解释特征学习模块旨在找到最重要的特征以提供可解释性,并减轻冗余特征的影响,以捕获数据点的内在相关性。动态图学习模块通过调整训练数据和测试数据的相关性,自动学习用于训练鲁棒GCN模型的图结构。GCN模块使用学习的图结构输出个性化诊断。所有这三个模块联合优化,以端到端的学习方式输出个性化诊断。
2.1 动态GCN
在传统的机器学习中,使用训练数据训练的分类器被用来预测测试数据的标签,假设训练数据和测试数据具有相同的分布。然而,这种假设在真实的应用中并不总是成立的。首先,在医学数据分析中,训练数据与测试数据往往是异构的。其次,传统的分类器是针对所有测试数据构建的,而忽略了它们的个体差异,即,不同的受试者通常具有与其他受试者不同的信息或特征,因此优选个性化分类器,其中通过考虑训练集和测试集之间的一致性为每个测试数据构建分类器。在文献中,转导半监督学习,例如,GCN可以基于个体受试者的训练数据和测试数据构建分类器,正在成为个性化诊断的流行方法。
图结构被广泛用于表示对象之间的相关性。随着计算机辅助疾病诊断方法的发展,图结构被广泛用于分析患者或症状之间的相关性。例如,fMRI上的脑功能连接分析可以帮助理解脑区域水平的神经系统疾病。通过考虑诊断患者和未诊断患者之间的相关性,分类模型通常可以输出更突出的诊断性能,因为相似的患者通常具有相似的属性。在本文中,我们使用GCN进行疾病诊断,它包括两个步骤,即,图的构造和GCN。
GCN被广泛应用于图结构数据的半监督分类,旨在通过聚集邻居的信息来预测图中未标记节点的标签。然而,进行AD的疾病诊断至少有两个问题需要解决,即,固定图的可解释性和缺乏可解释性。
图结构是GCN的关键输入,其质量直接关系到分类性能。在大多数情况下,该图是基于先验知识人工构建的,或者使用流行的最近邻(kNN)策略。然而,两个缺点可能导致GCN的次优图。首先,该图由通常包含冗余的原始数据构造。即使两个节点在距离上彼此接近,它们也可能不是天生相似的,因为数据的分布很容易被冗余特征扭曲。其次,这个图是独立于学习任务预先定义的,这很容易输出次优结果。为了解决这两个问题,通常采用动态图学习的方法将可解释特征学习模块和GCN模块结合起来。
2.2 解释性
通过区域级方法处理MRI或正电子发射断层扫描(PET)图像,可以划分多个感兴趣区域(ROI),从而可以为每个ROI提取一些重要信息,如灰质组织体积。因此,可以获得每个受试者的特征表示,其中每个特征元素对应于特定的大脑区域。为了提供AD诊断的可解释性,我们可以选择信息量最大的大脑区域来区分患者。因此,这个可解释学习的问题可以转化为特征选择的问题。进行特征选择的关键是学习特征的权向量。因此,重要的特征,即,大脑区域,可以保留以提供疾病诊断的可解释性。
在真实的应用中,原始数据通常是高维的,其中大部分特征是冗余的或与学习任务无关的。因此,很难为特定任务捕获数据的固有相关性。为了解决这个问题,首先利用可解释特征学习来进行特征选择,通过保留最具信息量和鉴别力的特征,这是一种简单但有效的方法来探索内在的相关性,并为分类器提供可解释性。
2.3 损失函数
我们的模型首先学习一个权重矩阵来评估每个特征的重要性。由于权重矩阵具有稀疏约束,使得我们能够使用部分重要特征来尽可能多地保留信息。然而,保留的特征可能不适合分类任务,并且因此导致次优的诊断结果,使得不能提供可解释性。因此,实际上需要面向分类的特征。因此,学习任务对于评估新的特征表示是至关重要的,即,通过添加预分类。值得注意的是,我们没有使用GCN来实现预分类,因为图结构没有更新,GCN的复杂度很高。或者,使用具有激活函数的单个全连接层来预预测表示上的标签(即,𝑠𝑜𝑓𝑡𝑚𝑎𝑥̃𝐗 =𝐗𝐖).为此,我们通过最小化以下损失函数来评估预分类的交叉熵误差:
此外,我们提出的方法的伪总结在算法1。
3 Experiment
3.1 实验设置
3.1.1 数据集
从ADNI数据库下载原始数字成像数据,2有202名受试者,其中包括51名AD患者,99名轻度认知障碍(MCI)患者和52名正常对照(NC)。此外,99名轻度认知障碍(MCI)患者包括43名MCI转换者(MCIP)和56名MCI非转换者(MCIn)。
我们处理这些原始MRI图像。具体来说,我们依次对这些图像进行空间失真校正、颅骨剥离和小脑去除,然后将MRI图像分割为灰质、白色物质和脑脊液,然后将其扭曲到自动解剖标记(AAL)模板中以获得90个区域。因此,我们为每个受试者提取了90个ROI,每个ROI由一个特征表示。我们最终从MRI图像中获得了90个灰质体积,并将其用作原始特征矩阵。我们进一步组合这些主题以形成六个子集,其包括四个二进制数据集(即,AD与NC、AD与MCI、NC与MCI、MCIn与MCIp)、一个三级数据集(即,AD对NC对MCI)和一个四类数据集(即,AD vs. NC vs. MCIn vs. MCIP)。所有数据集的基本信息总结见表1。
表1 六个AD数据集的简要信息。
3.1.2 比较方法
比较的方法包括四种半监督学习方法,我们列出了他们的详细信息如下。
鲁棒样本线性判别分析(RFS-LDA)使用标记的训练数据和未标记的测试数据来检测样本离群值和特征噪声。
图卷积网络(GCN)编码图结构和节点表示以进行逐层传播。
图学习卷积网络(GLCN)集成了图学习和图卷积,以动态学习最佳图结构。
基于注意力的图神经网络(AGNN)将GCN模型的中间全连接层替换为注意力机制下的传播层,以学习邻域的动态和自适应局部摘要。
RFS-LDA是一种非图方法,而其他比较以及我们的方法是图方法。在图方法中,GCN采用固定的图结构,而其他方法在训练过程中动态地细化图结构。GLCN在第一层利用图的Laplacian正则化构造动态图,AGNN通过计算节点邻域的注意力自适应地更新图的结构。我们提出的方法自适应地更新图结构,更重要的是,还关注可解释性,即,通过选择重要特征来构造本征图。
3.1.3 设置
在我们的实验中,使用随机分割策略对所有方法进行实验。具体来说,我们随机选择[10%,20%,30%,40%]的标记主题进行训练,其余50%用于验证,另外50%用于测试,这是分类任务的对应部分。重复随机分割20次以减少随机误差,并将20个结果的平均值设定为每个实验的最终结果。ADNI数据集不提供呈现受试者相关性的图形结构,因此我们通过kNN策略构建了它,该图用作所有基于图的方法的初始图。我们通过参考相应的文献来调整每种方法的超参数,以输出其最佳结果。对于我们的方法,我们将图学习层和GCN模块的最大epoch设置为5000,学习率分别设置为0.001和0.005。如果验证损失在50个连续时期内没有减少,则训练过程停止。
3.2 个性化诊断
在本节中,我们对所有具有不同标签比率设置的数据集进行了个性化诊断,并将结果总结在图2中。
图2 在所有数据集上,具有不同标记比率的所有方法的分类精度(ACC)和相应的标准偏差(STD)。
我们的方法取得了最好的诊断性能,其次是GLCN,AGNN,GCN,和RFS-LDA。与最佳比较方法(即,GLCN)和最差比较方法(即,RFS-LDA),我们的方法平均提高了1.16%,4.10%,在所有六个数据集在不同的标签比例。此外,我们在95%的显著性水平下对我们的方法和图2中的每种比较方法进行了配对样本t检验。实验结果表明,我们的方法具有统计上的显着差异,从每个比较方法,即,𝑝≤ 0.05。其原因可能是可解释特征学习和动态图学习优化了GCN的图结构,提高了诊断性能。与使用注意力机制来聚合邻域信息的AGNN相比,我们的方法在所有六个数据集上平均提高了1.42%。原因可能是特征冗余使该方法无法找到节点及其邻居的固有分布。相比之下,我们的方法使用可解释的学习来细化重要信息,因此对冗余更鲁棒。动态图学习的优点可以从两种基于动态图的方法(即,GLCN和我们的方法)在所有数据集上比GCN提高了2.01%,这意味着动态图学习输出了良好的图结构,以提高GCN的分类性能。动态图方法通过嵌入图学习来调整训练集和测试集之间的一致性,从而改进测试集的分类器,并输出良好的个性化诊断结果。此外,我们的方法联合优化的特征学习,图学习和GCN,因此,所有三个部分达到其最佳状态输出上级分类性能。
我们的方法略优于GLCN,即使两种方法在等式中使用类似的动态图学习机制。也就是,学习用于图构造的新特征表示。因此,我们的方法增加了一个预分类来调节新的表示,而GLCN使用图拉普拉斯正则化。这意味着我们的方法的新表示是面向分类的,而GLCN是面向图的。因此,我们的方法的新的特征表示更容易输出更好的诊断性能,相比GLCN。
所有基于图的方法都优于非图方法,即,RFS-LDA,不考虑受试者的相关性。例如,最差的基于图的比较方法(即,GCN)比RFS-LDA平均提高0.54%。实际上,考虑受试者的相关性对于提高诊断性能很重要,因为患有相同疾病的患者通常具有相似的症状或特征。因此,通过图结构利用相关性可以进行更准确的诊断。
3.3 可解释性分析
图3 通过三种方法在六个数据集上选择的特征的频率。
图4 三种特征选择方法的分类精度。
为了评估我们的方法的可解释性,我们将我们提出的方法与两种特征选择方法进行了比较,稳健的样本线性判别分析(RFS-LDA)[32]和方差分析(ANOVA)[45]在所有六个数据集的分类性能方面。更具体地说,我们使用了三种特征选择方法来选择15个最重要的特征(即,前15个特征),然后在图4中报告分类结果。因此,我们提出的方法优于所有比较方法。例如,与ANOVA相比,我们的方法在数据集AD-MCI上的分类精度提高了约8%。这表明我们提出的方法在可解释性方面的有效性。
在我们的实验中,我们重复了20次特征选择过程,以获得所有方法的前15个大脑区域。此外,我们在图5中可视化了我们的方法的选定大脑区域,在图3中总结了所有方法的前15个特征的频率,并在表2中进一步列出了前15个大脑区域的名称。
表2 通过三种特征选择方法选择的前15个大脑区域。
图5 通过我们的方法选择的前15个大脑区域。
从图5中,我们的方法选择的前15个大脑区域已经相对于AD显示。特别是,在6个数据集中一致地选择了一些大脑区域,例如右侧颞中回、左侧海马结构、左侧楔前叶和左侧钩回区域,这已在相关文献中显示。
基于图3,ANOVA和RFS-LDA分别在6个数据集中选择了44个和36个区域,而我们的方法只选择了27个区域。这意味着我们的方法比比较方法更稳定。然而,ANOVA和RFS-LDA选择了一些与AD无关的大脑区域,例如,中央后回这再次验证了该方法的有效性。
3.4 消融分析
所有实验均使用了实验中40%的标记数据,实验结果如图6所示。
图6 六个数据集上消融分析的分类精度(ACC)和相应的标准偏差(STD)。
首先,考虑我们方法的部分组件的三种方法,即 IDGCNnP、IDGCNnI 和 IDGCNwL2,在不考虑我们方法中任何组件的情况下优于 GCN。这表明我们方法中的每个部分都是合理且有效的。其次,IDGCNwL2 的性能优于 IDGCNnP 或 IDGCNnI。原因是IDGCNwL2同时考虑了特征学习和预分类,而IDGCNnP或IDGCNnI只考虑了其中之一。此外,IDGCNwL2 比我们的方法更差,这验证了可解释性的重要性。
3.4.1 参数敏感性分析
图 7 显示了我们的目标函数的三个超参数的不同设置的分类精度的变化。即𝜆、𝜆1 和𝜆2。显然,我们的方法对参数设置很敏感,因为在某些数据集上的分类精度有20%的波动。此外,当我们模型的所有三个模块共同致力于分类任务时,我们无法弄清楚哪个参数发挥更重要的作用。与其他分类相比,𝜆2 对最终分类的敏感度相对较低,因为它被设置为控制预分类而不是最终分类的性能。
图7 不同参数设置下所提出方法的分类精度。
4 Conclusion
本文提出了一种新的 GCN 方法来利用 GCN 模型的可解释性。为此,该方法以半监督学习的方式将特征选择与 GCN 模型中的图学习相结合,然后应用该方法进行 AD 诊断。实验结果证明了我们提出的方法在分类任务方面与最先进的半监督方法相比的有效性。
由于不完整数据在医学领域非常常见,我们计划在未来的工作中扩展我们提出的方法,对不完整数据进行个性化诊断。