论文分析与讲解思路(2)--PGCN

题目:

PGCN:Disease gene prioritization by disease and gene embedding through
graph convolutional neural networks

Abstract:

包括动机和结果说明。---动机:候选基因的适当优先排序对于一系列遗传病的基于基因组的诊断至关重要。

---结果:本文提出--PGCN--通过系统嵌入由基因、疾病和他们的个体特征绘制成的异构网络 。其性能对比于现有的方法有显著提升。

1,Introduction:

全外显子组测序(whole-exome sequencing)在过去十年里应用十分广泛,但它的诊断成功率十并不高。原因在于--从大量非致病性且在疾病表型表达中不起作用的罕见遗传变异体中区分致病变异体相当困难。

在PGCN之前,已有五种类型的疾病基因优先排序算法。

第一种--过滤方法(filter methods):它根据相关基因应该具有的特性将候选基因列表筛选成一个较小的列表。局限性:往往无法处理相关基因完全未知的新疾病。

第二种--基于文本挖掘(text mining):这种方法利用文献中与某种疾病的共现证据对候选基因进行评分。 局限性:只能检测已知的关联。

第三种--相似性分析和数据融合方法(similarity profiling and data fusion methods):相似的基因应该与相似的疾病相关联,反之亦然。相似性度量可以使用不同的数据源来定义,在从每个数据源获得相似性得分之后,这种方法应用数据融合来将这些得分聚集成全局排名。是疾病基因优先排序中的主导类型。局限性:往往无法处理相关基因完全未知的新疾病。

第四种--基于网络的方法(network-based methods):将疾病和基因表示为异构网络中的节点,其中边权重表示它们的相似性。局限性:不容易整合关于基因和疾病的多种信息来源。

第五种--基于推荐系统中的矩阵补全技术(matrix completion techniques in recommender systems):将疾病基因关联表示为不完整的矩阵,并通过填充矩阵的缺失值来解决疾病基因优先排序问题。局限性:矩阵完成方法假设并寻找基因和疾病之间的加权线性关系,实际上,这很可能是高度非线性的。

而PGCN优于以上所提出的方法。下面,让我们来看一下具体的实验过程。

2.Methods:

本文把疾病基因优先排序视为一个链路预测问题。本文构造了一个异构网络:

 核心思想(the core idea):考虑到图的拓扑结构和节点的邻域,从它们的初始原始表示(从不同来源编码的信息)中学习节点的潜在表示(嵌入),然后使用学习到的嵌入和边缘解码模型进行预测。

本文从7个方面,详细介绍了该方法:

1)把疾病基因预测视作链路预测问题

作者把整个数据结构视为异构网络。

每一个节点都代表一种疾病或者基因,每一条边都代表一种特定的相互作用。

目标是:预测疾病节点和基因节点之间的潜在关系,其联系强度可用于优先排序。

2)网络编译--主要是对网络的选取进行了介绍。

该网络---疾病-基因网络---包括三个部分:基因网络、疾病相似性网络以及疾病-基因网络。其中有12331个基因、3215种疾病和3988个疾病--基因关联。

基因网络选取的是HumanNet(Lee et al,2011)---12331个基因和733836条权重为正的边组成。

疾病相似性网络选取的是MimMiner(Van Driel et al,2006)---在OMIM数据库上使用文本挖掘分析建立的。其中有3215个疾病和645945条边。

3)节点原始表示的数据源--主要是获取特征向量,作为节点的附加信息。

对于疾病节点:第一个数据源是疾病本体(DO)相似度--Resnik成对相似性和最佳匹配平均策略。第二个数据源是来自OMIM网页的临床文本。整合从两类数据源中获取的特征向量,作为疾病的附加信息。

对于基因节点:第一,遵循Natarajan和Dhillon (2014)的策略,从BioGPS和连接图中收集了不同组织样本中基因表达水平的微阵列测量结果。来自不同个体的相同细胞类型的样本往往具有相似的表达模式,这导致在获得的特征矩阵中存在冗余信息。为了消除冗余和降低维数,作者对特征应用主成分分析(PCA ),并使用前100个特征向量作为基因表达微阵列的特征表示。基因的第二类附加信息来自其他物种的基因-表型关联。使用了八个物种的表型。结果我们得到了8个矩阵,矩阵的行代表不同的基因,列代表不同物种的表型。沿着基因维度将这些基因-表型矩阵与微阵列矩阵连接在一起,产生了基因的附加信息。

4)基于图卷积的节点嵌入

值得注意的是:对于不同的种类节点,表示附加特征向量的维度的mi的值可以是不同的。

这里给出了图卷积的运算公式:

 另外,文章中也给出了每个参数的具体定义。

值得记录的是:尽管对于每一个节点,它的局部计算图可能是不同的,但是参数仅仅只有连接类型有关,与节点的邻居无关。参数化在整个图中是共享的。

值得指出的是:图卷积神经网络其实就是一个提取节点特征的方法,比如说:第一层的的卷积层就是一个节点的原始特征,经过N层的迭代更新,我们可以得到一个节点的包含N阶邻居的特征(包括它自身)。

5)嵌入的边缘预测

在这里,主要说明的是如何用从GCN学到的嵌入来重建网络中的边。

注意,与图卷积神经网络模型类似,双线性解码器模型的参数也在不同的基因-疾病对之间共享,这可以有效地降低过拟合的风险。

 如图(B)和(C)所示,GCN模型和边缘解码器模型可以组合在一起以形成端到端模型,该模型采用两个节点的原始表示并输出交互概率。因此,可以以端到端的方式训练整个模型和所有参数。

6)模型超参数

损失函数:交叉熵损失作为损失函数:

 正负样本的选取:对于作为正样本的每个现有边(di,g j ),我们通过随机选择遵循采样分布p的第二节点gn来采样随机边(di,gn)。

模型的设计:设置层数为2,隐藏表示的维数为64,最终嵌入维数为32。我们使用Adam optimizer训练模型,学习率为0.001。使用Xavier初始化器初始化模型的参数。在训练过程中,我们将小批量的边输入到模型中,批量大小为512。

 7)评定标准

✳AUROC(Area Under the Receiver Operating Characteristic curve ):受试者操作特征曲线下面积。可以解释为一个真正的疾病相关基因的概率比一个在均匀分布中随机选择的错误基因的概率排序高。

AUPRC(Area Under the Precision-Recall Curve):精确召回曲线下的面积。

BEDROC(Boltzmann-Enhanced Discrimination of ROC):波尔兹曼增强的ROC区分。为解决“早期识别”问题而提出的,它可以被解释为疾病相关基因的排序高于随机选择的基因的概率,该随机选择的基因遵循排名靠前的基因被选择的概率更高的分布。

AP@K(Average Precision at K):K处的平均精度。

R@K(Recall at K):K处的召回率。

3.Results

本部分的内容在开始就说明,主要分为四部分。文章从7点入手。

1)比较方法

①Katz:基于网络的典型代表方法。它根据网络拓扑计算节点相似度。然后,相似性矩阵用于预测疾病基因关联。

②Catapult:它将监督学习与社会网络分析相结合,该方法使用有偏支持向量机(SVM)作为分类器,而特征来自异构遗传网络中的随机游走。

③GCAS(the Graph Convolution-based Association Scoring ):该方法使用GCN作为一种纯网络分析工具。

④IMC(the Inductive Matrix Completion):归纳矩阵补全方法。它从多种来源的基因和疾病构建特征,从基因表达阵列到疾病相似性网络。然后,它学习疾病和基因的低秩潜在向量,这些向量可以解释观察到的疾病-基因关联,并使用线性模型考虑特征。然后,学习的潜在向量用于进行进一步的预测。

⑤GeneHound方法:它也利用矩阵完成方法,但将贝叶斯方法与矩阵完成相结合,矩阵完成将疾病特异性和基因特异性信息作为先验知识。

2)实验设置

数据集:包含12331个基因、3215种疾病和3988种关联的数据集。

在设计实验时,作者使用交叉验证方法来评估了方法的恢复能力,他们是在已经的疾病-基因关联中进行的测试,但是,这种方法并没有很大的意义,人们更感兴趣的是预测未知的疾病、基因关联。

因此,作者设计了三个新的实验:第一:预测单基因的关联;第二:预测新疾病的关联;第三:

3)总性能

随机隐藏10%的关联作为测试集,并使用剩余的90%的边作为训练数据来评估不同方法在恢复隐藏关联方面的整体性能。

 所有这些一致的结果表明,所提出的方法在恢复疾病和基因之间的隐藏关联方面优于其他方法。

4)预测单基因的关联(Singh-Blom等人,2013年),这意味着该基因只有一种关联疾病,并且不包括在训练集中。

 PGCN始终比其他方法更好地恢复单个基因的缺失关联。但是,当K较小时(1到10之间),网络信息非常重要,因为PGCN相对于基于网络的方法(如Katz)的改善并不大。

5)预测新疾病的关联。我们从训练集中排除了某些疾病的所有关联,并挑战了恢复这些关联的不同方法。

 在这里,作者研究了一种新的疾病:AVSD4.在训练期间移除了它唯一的相关基因GATA4。VSD4和GATA4之间的联系是通过另一种疾病建立的,即已知与GATA4相关的室间隔缺损-1 (VSD1)。

6)新关联的表现

测试了恢复新关联的不同方法的性能,新关联被定义为疾病和基因在训练集中均不存在的关联。

7)展示了对乳腺癌预测的案例研究。

4.Discussion

1)疾病和基因特异性信息的重要性


 当消除不同类型节点的特征向量时,展示了该方法在新的关联预测上的性能。

2)嵌入的生物学意义

该嵌入保存了对于疾病基因优先化任务至关重要的基因和疾病关联。他们还强调了以生物学有意义的方式解释基因节点和疾病节点嵌入的可能性,这对于获得新疾病-基因关联的生物医学见解是必不可少的。

5.Conclusion

方法通过系统地结合异构网络的拓扑、疾病和基因的邻域以及疾病和基因特定的信息来自动学习疾病和基因的嵌入。

框架是通用的,可以很容易地应用于解决计算生物学中的其他重要问题,如药物疾病关联(Pushpakom等人,2019年)和蛋白质结构预测的同系物检测(Cui等人,2016年)。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值