医学里程碑！MM-GTUNets横空出世，攻克脑疾病预测难题，AI正式进军“大脑禁区”！

原创于 2025-12-15 13:57:12 发布 · 920 阅读

CC 4.0 BY-SA版权

文章标签：

脑疾病病理复杂且影响广泛，临床诊断依赖多模态医疗数据但面临数据多样性与复杂性带来的精准诊断挑战。图深度学习（GDL）凭借整合多模态信息、刻画受试者间关系的优势成为群体脑疾病预测的重要方法。GDL可分为基于脑图和种群图两类方法，部分研究还融入图 Transformer 提升全局信息捕捉能力。然而，现有 GDL 方法仍存在非成像数据利用不充分、关键节点特征被忽视、跨模态交互深度不足等问题，且传统种群图构建依赖固定相似度，适应性和泛化能力有限，这些问题制约了预测性能，亟需更高效的多模态图深度学习框架。

2025 年 9 月，上海海事大学、徐州医科大学附属连云港医院、上海科技大学及香港理工大学的研究团队在IEEE Transactions on Medical Imaging期刊上发表了题为《MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction》的文章。研究提出了 MM-GTUNets 这一基于图 Transformer 的多模态图深度学习框架，通过模态奖励表示学习（MRRL）、自适应跨模态图学习（ACMGL）等核心模块，结合变分自编码器（VAE）实现多模态特征对齐，并利用融合 Graph UNet 与 Graph Transformer 优势的 GTUNet 编码器，精准捕捉模态内与模态间复杂关系，用于大规模脑疾病预测。

创新点

研究提出了一种名为 MM-GTUNets 的多模态图深度学习框架，该框架专为大规模脑疾病预测设计，通过模态奖励表示学习（MRRL）和自适应跨模态图学习（ACMGL）两大核心模块实现多模态信息的高效融合。MRRL 模块借助亲和度量奖励系统（AMRS）动态构建种群图，结合变分自编码器（VAE）完成非成像特征的潜表示重构与模态对齐，精准挖掘非成像数据的贡献权重；ACMGL 模块创新性地提出 GTUNet 编码器，融合 Graph UNet 的节点采样优势与 Graph Transformer 的全局信息捕捉能力，搭配多模态注意力融合模块，有效捕捉模态内与模态间的复杂关系。此外，框架还支持模态贡献权重的可视化，提升医疗决策的可解释性。与现有图深度学习方法相比，该框架解决了非成像数据利用不充分、关键节点特征被忽视、跨模态交互深度不足等问题，在大规模数据场景下性能更稳定，且无需复杂的人工特征工程，使脑疾病预测更精准、高效且具备临床解释价值。

实验方法

如图1所示，端到端MM-GTUNets框架包含三个阶段，其中的影像数据与非影像数据分别指静息态功能磁共振成像（rs-fMRI）数据与临床数据：

(1) 模态-奖励表示学习（Modality-Rewarding Representation Learning）：MRRL 旨在通过比对成像特征Ximg和非成像特征Xnon，准确构建群体图的邻接矩阵A。其奖励度量系统动态捕捉每种非成像数据的重要性。

(2) 自适应跨模态图学习（Adaptive Cross-Modal Graph Learning）：统一编码器GTUNet与多模态注意力模块基于模态对齐特征X和邻接矩阵A来输出包含共享与特定模态信息的模态联合表征Z。

(3) 分类分析（Classification Analysis.）: 该模块使用多层感知器（MLP）作为解码器来预测Z中的值y。此外，还可视化了每个模态在预测中的贡献权重。

图1. MM-GTUNets框架

如图2，亲和度度量奖励系统（Affinity Metric Reward System，AMRS）中各种非影像数据的贡献权重比使用Q-Learning建模，使代理能够通过与环境互动、调整动作和更新 Q-table来学习最优策略。AMRS将每个受试者的两两比较，他们的非成像信息（状态）和标签（动作）被传输到 MRRL。然后，MRRL根据value值选择最优操作，允许特定的非成像数据具有更大的权重。value值是基于维护的奖励表、惩罚表和动机表这三个表计算得出的。通过与受试者群体及其非成像数据作为环境通过 MRRL 模块互动， AMRS 学习了每种非成像数据对应的注意力系数。

图2. 亲和度度量奖励系统

在 ACMGL 模块中使用了GTUNet编码器用于有效提取每个模态通道中的模态特定信息。该编码器使用了图卷积网络架构，包括用于节点降采样的gPool层，以及用于相应逆操作的gUnpool层。如图3所示，GT（Graph Transformer）层用于替换图卷积网络中的原始图卷积层。GTUNet架构的详细信息如图1所示。

图3. 图Transformer

如表1，MM-GTUNets模型已在两个公开脑成像数据集（abide和ADHD-200）上进行评估。该研究采用rs-fMRI扫描作为神经影像学数据。由于原始数据中存在大量缺失或无效的场域，仅将受试者的性别、年龄及采集部位作为非影像学数据纳入分析：

表1. 数据集的人口统计学特征

实验结果

为评估MM-GTUNets学习跨模态交互的能力，该研究采用t-SNE在二维空间中可视化abide和ADHD-200数据集的模态联合表征Z。如图4所示，Z形成两个与类别相对应的独立聚类，表明MM-GTUNets学习到的多模态特征具有显著的区分能力，其类内离散度低而类间离散度高。

图4. 多模态联合表征的可视化呈现

表II展示了MM-GTUNets的定量性能表现，其中前缀“(T)”、“(B)”和“§”分别代表传统机器学习方法、基于脑图的方法以及基于群体图的方法。

根据表II数据可以看出：

(i) 与基于脑图的方法相比，基于群体图的方法表现出更稳定的性能，其性能指标的标准差更小。这种稳定性可能源于脑图方法侧重于每个受试者的局部脑区特征，而群体图方法则强调受试者群体内的全局关联特征。

(ii) 大多数多模态方法通过整合多种数据源优于单模态方法。每种模态提供的独特信息使模型能够捕捉更广泛的细节。

(iii) MM-GTUNets在两个数据集上均展现出卓越性能。在ABIDE数据集上，MM-GTUNets在所有指标上均超越所有对比基线方法。在ADHD-200数据集上，MM-GTUNets除敏感性和特异性外，在所有指标上均取得最佳结果。

(iiii) 该框架在 ABIDE 和 ADHD-200 数据集上表现优异，ABIDE 数据集的预测准确率达 82.92%、AUC 达 88.21%，ADHD-200 数据集的准确率达 82.68%、AUC 达 90.71%，且展现出良好的稳定性和鲁棒性。

表2. 数据集的人口统计学特征

总结展望

脑疾病（如自闭症谱系障碍、注意力缺陷多动障碍）严重影响患者生活质量，且病理机制复杂，精准高效的早期预测对临床干预至关重要。该研究提出了 MM-GTUNets 多模态图深度学习框架，通过模态奖励表示学习（MRRL）、自适应跨模态图学习（ACMGL）等核心模块，有效整合了 rs-fMRI 成像数据与性别、年龄等非成像数据，动态构建种群图并捕捉复杂的模态内与模态间关系。实验结果表明，该框架在 ABIDE 和 ADHD-200 数据集上表现优异，ABIDE 数据集的预测准确率达 82.92%、AUC 达 88.21%，ADHD-200 数据集的准确率达 82.68%、AUC 达 90.71%，且展现出良好的稳定性和鲁棒性。未来的研究可进一步拓展至多分类任务，探索低质量多模态数据的有效利用，将框架适配为归纳学习以满足临床实时决策需求，优化跨模态融合模块以提升特征融合质量，并针对大规模数据场景优化硬件需求，进一步增强框架的临床适用性与实用性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述