利用负样本空间改进细胞因子-受体相互作用预测


前言

背景:细胞因子通过与靶细胞质膜上的特定受体结合而起作用。细胞因子-受体相互作用(CRI)的知识对于理解各种人类疾病的发病机制(尤其是自身免疫、炎症和感染性疾病)和确定潜在的治疗靶点非常重要。近年来,机器学习算法被用于CRIs预测。目前还缺乏“黄金标准”的负数据集,负数据集的强烈偏差会显著影响学习算法的训练和评价。为了减轻负样本选择(非相互作用蛋白)固有的不代表性和偏差,我们提出了一种基于聚类的具有代表性的负样本选择方法。结果:我们使用深度自编码器研究了不同的采样方法对非交互对的训练和机器学习分类器性能的影响。利用深度自编码器的异常检测能力,我们推导了不同类别的负样本对学习算法训练的影响。选择非交互对的随机抽样会导致难以分类或容易分类实例的表示量过高或过低。当基于k -均值的负数据集采样用于缓解随机采样的不足时,随机森林(RF)与原子组成、物理化学-2g和两种不同的进化信息表示的组合特征集表现最好。基于10个不同的负样本集的locv平均模型性能表明,RF模型在准确性(+ 5.1%)、特异性(+ 13%)、mcc(+ 0.1)和g均值(+ 5.1)方面显著优于之前的最佳CRI预测器。使用十倍履历和训练/测试分块进行评估,以确认竞争表现。结论:通过对比分析,评估随机、k -均值和均匀抽样三种不同抽样方法对不同评价方法的学习算法训练效果。在K-means抽样数据集上训练的模型通常显示,与在随机选择上训练的模型相比,在我们的特定设置下,RF似乎受益最大。我们在样本上的发现是高度相关的,并适用于监督学习方法在生物信息学的许多应用。


提示:以下是本篇文章正文内容,下面案例可供参考

一、Background

对蛋白质-蛋白质相互作用(PPIs)的深入了解可以揭示生物过程的分子机制,了解发病机制,并帮助确定疾病干预点。目前流行的实验方法有双杂交系统和免疫共沉淀,均用于PPIs的大规模测定。PPI预测的计算方法可以补充实验方法,因为它们是成本效益和更少的时间消耗。除了一般的PPI预测因子,计算方法也被开发用于特定的蛋白质子集,例如那些由副基因编码的蛋白质。在不同的计算方法中,基于机器学习(ML)的预测方法提供了一个适合的替代实验方法,允许接近准确和快速的生物序列注释。这些方法利用已知相互作用蛋白质对的隐藏相似性,基于各种计算的蛋白质特征,包括序列、物理化学、进化和结构信息。通常,基于多种特征集的机器学习预测器比仅基于序列相似度的传统方法获得更高的分类精度。已经开发了几个用于PPI预测的ML系统,使用了各种学习方法和特征集。PPI的一个具体例子是细胞因子-受体相互作用(CRI)。细胞因子是一组定义相当松散的小信号蛋白,它们结合在靶细胞的质膜上的特定受体。CRIs的知识对于理解各种人类疾病的发病机制——尤其是自身免疫、炎症和传染病——以及识别潜在的治疗靶点非常重要。虽然CRIs的计算预测可以缩小基于湿实验室的实验验证屏幕的搜索空间,但只有少数计算研究专门有助于预测细胞因子和CRIs。

此前,Wei等人使用k-skip-gram、物理化学性质和局部伪位置特定评分信息,使用基于随机森林的分类器来开发预测模型。该方法的总准确度为83.7%,敏感性为80.8%,特异性为86.7%。由于特异性高于敏感性,可以得出结论,他们的预测模型对非交互配对的预测比交互配对的预测更准确。Wei等人利用带有进化特征的随机森林,即伪位置特异性评分矩阵(Pseudo - Position-Specific Score Matrix, se-PSSM)和氨基酸组成,以及带有自协方差(AC)变换的PSSM (AAC_PSSM_AC)进一步提高了CRI预测精度。使用遗漏交叉验证(loocv),他们获得了87.9%的总体准确性,92.6%的敏感性和83.3%的特异性,为进一步改进CRI预测留下了空间。

正面例子(互动对)和负面例子(非互动对)都有助于分类器的最佳学习。正数据集很容易从许多数据库中获得。然而,可用于基准测试的“黄金标准”负面数据集仍然缺乏。关于创建非相互作用蛋白质“标准”数据集的方法没有达成一致[25]。因此,人们提出了多种方法来创建高质量的非相互作用蛋白伴侣。其中一种方法是选择具有不同(注释)亚细胞定位的蛋白质对,因为它们不可能相互作用。可能已报道的形成一组非相互作用蛋白质对的最简单方法是从所有已知不相互作用的蛋白质对中取样,即PPI列表中不存在的组合。另一种方法是使用结构相似度作为标准。我们的预期是,如果一对蛋白质与另一对已知相互作用的蛋白质在结构上非常相似,那么这两个蛋白质很可能也会相互作用。然而,上述产生高质量负数据集的方法有其缺陷:基于非共域蛋白质对的采样可能会导致ML分类器的性能评估指标过于乐观,因为它更容易区分这些负面的例子,因为它们带有本地化信息。对蛋白质相互作用列表中不存在的蛋白质对进行随机抽样,可能会产生一个包含假定相互作用蛋白质对的负数据集,尽管估计这种情况只发生在非常低的概率中。非交互配对和交互配对之间也存在显著的结构相似性。例如,在酿酒酵母中,大约8.7%的非相互作用的配对被认为在结构上与相互作用的配对相似。需要注意的是,区分用于生成非相互作用蛋白质对的碱基集的基本原则是重要的(例如,亚细胞非共定位、结构不同、PPI集合排除)和实际的方法用于从这个基集采样,目的是生成一个更小的负数据集,ML模型正在训练。

我们评估了许多不同的ML算法,这些算法具有简单的序列特征和进化信息。为了进一步提高预测精度,针对不同的学习算法,我们基于个体特征的性能开发了一个异构特征集。由原子组成、物理化学-2克、AAC_PSSM和D-FPSSM组成的异构特征集产生了基于loocv的最佳性能评价指标。

异常检测可以定义为在数据中发现不符合预期行为或正常行为的模式的问题。这些“不拟合模式”有各种各样的名称,如异常、异常或异常。大量的方法,如使用直方图的统计分析、神经网络、混合模型、支持向量机和聚类已经被成功地用于异常检测。在目前的工作中,我们使用自动编码器的异常检测

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值