论文解析-基于图卷积神经网络的癌症基因预测模型,利用LRP算法增加模型可解释性

论文解析:Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms

参考论文

Schulte-Sasse, R., Budach, S., Hnisz, D. et al. Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms. Nat Mach Intell 3, 513–526 (2021). https://doi.org/10.1038/s42256-021-00325-y
在这里插入图片描述

概括

该文章根据单核苷酸变异数据(SNVs),拷贝数量变异(CNAs),基因表达数据,DNA甲基化等信息,利用图卷积神经网络(GCN)模型,实现了泛癌基因预测的功能。另外,利用LRP算法增加图神经网络的可解释性是本文的一大亮点。

方法

数据收集

从TCGA数据库收集16种癌症数据,包括13097个基因的单核苷酸变异数据(SNVs),12088个基因的拷贝数量变异(CNAs),18898个基因的基因表达数据,12406个基因的启动子区域的DNA甲基化。
跨癌症类型的组学数据通过蛋白-蛋白互作网络(PPI)联系起来,节点表示基因,边表示互作关系。
正样本:从NCG收集到711个已知癌症基因(KCGs),从PbuMed摘要中收集到85个高可信度癌症基因。
负样本:1. 排除正样本基因;2. 排除KEGG数据库中涉及癌症通路的基因;3. 排除从DriverDB数据库中OMIM疾病的基因;4. 排除从Project Achilles收集到的包括625种癌症的关键基因。

模型构建

a. 每个基因的4种特征拼接起来,作为该基因的多维特征向量。将所有基因根据PPI构建拓扑关系,作为GCN的输入。
b. 通过多层GCN整合每个基因的邻居节点信息及基因互作关系,更新基因特征(实线黄色节点为正样本,实线灰色为负样本,白色为无标签样本)。输出层获得每个基因是癌症基因的概率,根据阈值确定该基因是否为癌症基因。
c. 利用逐层相关性传播算法(LRP)找到每个基因用于预测的重要特征和重要的调控边,分别进行基因聚类和模块检测等下游分析,以发现与癌症相关重要的基因群或基因互作关系。
在这里插入图片描述

模型可解释性(LRP)

利用逐层相关性传播算法(LRP)解释深度学习模型做出决策的原因。核心思想是将目标的输出函数分解为相关性分数的集合,再将他们重分布到前一层的神经元上。
在这里插入图片描述

在这里插入图片描述
i和j分别为连续层的神经元,相关分数Rj从l+1层传播到前一层(l)的规则如上。Ri和Rj分别为神经元i和j的相关分数,Σ对于i相连的所有节点j求和,ai为节点i的属性,wij为边ij的权重。aiwij量化了在预测过程中节点i对节点j的贡献程度。分母保证了传播的守恒性,即神经元接收到的信息必须等量地重新分配到下一层。
在GCN中,该图将单个数据点(基因)与另一个连接起来。这就产生了一种学习算法,在这种算法中,基因的分类不仅基于该基因的特征,还基于PPI网络中周围基因的特征;因此,当将LRP应用于EMOGI时,可以提取每个基因的相关性值,这些值突出了分类任务中单独组学特征的重要性,以及PPI网络中的重要相互作用对。

结果

在4个公认癌症基因上利用LRP算法分析不同组学特征重要性,颜色越深贡献越大。

  1. 结肠癌基因APC,模型正确预测了其概率,并识别其突变率为最重要的特征。
  2. 转录因子TWIST,其高度甲基化为直肠癌的生物标志物。模型识别其甲基化是肺癌和直肠癌的重要特征。
    在这里插入图片描述

数据和代码

  1. 数据
  2. 模型代码
  3. 预训练模型
  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值