2021-06-13

论文解读:《基于图形卷积网络,通过特征图和拓扑图进行图形采样,识别微小核糖核酸相关疾病》


文章地址:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab165/6261915?redirectedFrom=fulltext

DOI:https://doi.org/10.1093/bib/bbab165
期刊:Briefings in Bioinformatics(2区)
发布时间:2021年4月2日
补充数据:https://academic.oup.com/bib.
代码:https://github.com/khanhlee/bert-enhancer


一、摘要

准确识别微小核糖核酸-疾病关联有助于理解各种疾病的病因和机制。然而,实验方法既昂贵又耗时。因此,迫切需要发展面向计量吸入器预测的计算方法。基于图论,本文将主成分分析预测作为一项节点分类任务。为了解决这个问题,我们提出了一种新的方法——图卷积神经网络模型预测方法,该方法通过特征图和拓扑图的图抽样来预测基于图卷积神经网络的模型,以提高训练效率和精度。该方法对特征空间的潜在联系和主成分分析数据的结构关系进行建模。图的节点由疾病语义相似度、微小核糖核酸功能相似度和高斯相互作用轮廓核相似度表示。此外,我们首次在MDA预测问题上同时考虑了6项任务,确保在均衡和非均衡样本分布下,MDA-GCNFTG不仅可以预测新的MDA,而且可以预测没有已知相关miRNAs的新疾病和没有已知相关疾病的新miRNA。五倍交叉验证的结果表明,MDA-GCNFTG方法在所有六个任务上都取得了令人满意的性能,明显优于经典的机器学习方法和最先进的MDA预测方法。此外,还通过图抽样策略和主成分分析-遗传神经网络拓扑结构图验证了遗传神经网络的有效性。更重要的是,对两种疾病和三种微小核糖核酸进行了案例研究,取得了令人满意的结果

二、简介

MiRNA是1993年发现的一种内源性调控非编码RNA,长度约为22个核苷酸[1,2]。它通过靶向特定的mRNA和调节基因表达[3–7],在多种生物过程中发挥重要作用,包括免疫反应[8]、细胞周期调节[9]、肿瘤侵袭[10]等。此外,已证明miRNAs调节超过三分之一的基因[11],因此miRNAs的失调可导致细胞行为障碍[12]。此外,许多研究证明,微小核糖核酸与复杂的人类疾病的发展高度相关[13-16],特别是癌症[17],如乳腺癌[18,19],肺癌[20,21],淋巴瘤[22]等。因此,微小核糖核酸可用作疾病诊断中的潜在生物标志物[19,23,24]。因此,确定微小核糖核酸和疾病之间的联系不仅可以提高对疾病机制的理解,而且有助于疾病的预防、诊断和治疗[25,26]。尽管鉴定微小核糖核酸-疾病关联的实验方法具有很高的准确性,但它们非常耗时且昂贵。因此,发展计算方法来确定计量吸入器是必要的,并成为实验方法的一个辅助步骤[27]。

网络科学是探索复杂生物系统(即分子相互作用网络)的主干。它们是由作为节点的生物分子和作为边的生物分子之间的互连组成的图,例如在本工作中研究的MDA。大量研究表明,生物分子并不单独发挥其生物学功能,而是通过与其他生物分子的相互作用来表达其功能,从而形成一个分级的群落结构[28]。此外,该疾病应被描述为“网络疾病”,因为它很少是由单一基因异常引起的,而是由组织和器官系统的复杂生物网络的干扰或故障引起的[29]。因此,生物分子间关联的推断要考虑网络拓扑。图形神经网络(GNNs) [30]代表了直接在网络/图形结构数据上操作的重大进步,以及解决上述问题的有前途的方法。GNN本质上是一种邻域节点聚合方案,其中每个节点聚合其有向邻居的特征信息来计算其新的特征向量。在信息聚合的多次迭代之后,计算的节点嵌入将捕获节点的邻居之间的结构信息。GNN被广泛应用于各种实际任务中,并在生物信息学应用中取得了令人满意的性能,例如药物-靶相互作用或亲和力预测[31–36],药物-药物相互作用预测[37–40],疾病-基因关联鉴定[41–44]等

图卷积网络(GCN) [45]是GNN的一个重要分支,近年来取得了很大进展。然而,传统的GCN方法通常需要全图训练。在MDA或其他生物信息学任务中,相关实体(如药物、蛋白质、miRNAs等)的数量。)很大。因此,盲目地执行全图训练将由于“邻居爆炸”现象而导致巨大的计算复杂性,并且可能由于需要太多的计算资源而导致内存不足。然后,大部分工作[46–50]是探索如何通过对每层GCNs的节点进行采样来降低培训成本。然而,这些方法在准确性、可扩展性和训练复杂性方面仍然面临挑战[51,52]。因此,基于子图的方法[51,53,54]被设计成适合大型图和深层网络。受他们想法的启发,本研究对原始图的子图进行采样,并针对每个子图运行完整的GCN模型。为了确保这些子图保留大部分原始边缘,同时仍然呈现有意义的拓扑,我们执行了基于边缘的采样策略,并添加了归一化和方差减少技术

另一方面,大多数现有的丙二醛预测方法是在平衡数据上训练和测试的,如[55–58]。他们将已知的计量吸入器视为阳性样本,将未知的计量吸入器视为阴性样本,然后对与阳性样本相同数量的阴性样本进行采样,使得阳性样本与阴性样本的比例为1:1。值得注意的是,这些平衡数据的分布不符合计量吸入器的自然分布。虽然许多方法在这些平衡数据上取得了良好的性能,但这并不意味着它们在真实的MDA预测任务上的高性能,因为测试集是不完整的。因此,有必要考虑自然的不平衡数据,尽管不平衡问题仍然是机器学习方法的一个主要挑战[59]。另一方面,现有方法在训练和测试时只考虑新的MiRNA-疾病对(MDPs)的预测,即本研究中的任务对(即Tp)。虽然目前的大多数方法已经对某些疾病进行了案例研究,但仍然不足以说明新的微小核糖核酸和未出现在训练集中的疾病的总体预测性能。因此,本研究同时考虑了上述两类观点,首次提出了关于MDA预测问题的六个实验任务,即分别在平衡和非平衡数据上预测新的MDPs (Tp)、预测新的miRNAs ™和预测新的疾病(Td)。值得注意的是,上述任务中新对象对应的正样本只在测试集中,不在训练集中。

本研究提出了一种新的MDA-GCNFTG方法(图1)用于MDA预测,并在六种不同的预测任务上实现
在这里插入图片描述
该方法主要由两部分组成。首先,我们定义了特征和拓扑图,通过k-最近邻(k-NN)算法[60,61]充分挖掘节点(即miRNA和疾病)特征、网络拓扑(即MDA或miRNA疾病链接)及其组合,为MDA预测任务引入最有用和最深的相关信息
对于这个图,节点是MDP,节点标签表示MDP是否是MDA,并

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值