4mCpred-EL:一个用于识别小鼠基因组中DNA n4 -甲基胞嘧啶位点的集成学习框架
摘要
DNA n4 -甲基胞嘧啶(DNA N4-methylcytosine, 4mC)是一种重要的表观遗传改变,在DNA复制、分化、细胞周期和基因表达中发挥着重要作用。为了更好地理解4mC的生物学功能,了解其基因组分布是至关重要的。近年来,一些计算研究,特别是机器学习(ML)方法被应用于4mC位点预测。虽然基于ml的方法在其他物种的4mC鉴定中很有希望,但目前还没有检测小鼠基因组中的4mC的方法。我们新的计算方法,称为4mCpred-EL,是第一个识别小鼠基因组中4mC位点的方法,其中使用了四种不同的ML算法,具有广泛的七种特征编码。然后,将这些特征编码预测的概率值作为特征向量再次输入到ML算法中,将ML算法的相应模型集成到集成学习中。我们的基准测试结果表明,4mCpred-EL的准确性和MCC值分别为0.795和0.591,显著优于其他7个分类器,分别超过1.5-5.9%和3.2-11.7%。此外,4mCpred-EL获得了79.80%的总体准确率,比其他7个分类器在独立评价中的准确率高1.8-5.1%。我们提供了一个友好的web服务器,即4mCpred-EL,它可以作为一种预筛选工具,用于识别小鼠基因组中潜在的4mC位点。
一、介绍
DNA的动态修饰,如甲基化和去甲基化在基因表达调控中起着至关重要的作用。CpG位点胞嘧啶甲基化被认为是一种重要的表观遗传标记,参与调控细胞分化、基因组印记、细胞周期、衰老、保存染色体稳定性和基因表达水平。在原核和真核基因组中发现的三种常见的胞嘧啶甲基化是N4methylcytosine (4mC)、5-methylcytosine (5mC)(由DNA甲基转移酶酶介导)和3-methylcytosine(暴露于内源性或环境烷基化试剂后产生)。由于5mC的广泛分布和多方面的作用,它是最常见的胞嘧啶甲基化类型,在多个生物学过程中发挥重要作用,并与神经系统疾病、糖尿病和癌症相关。4mC也被认为是一种有效的表观遗传修饰,可以保护自身DNA免受限制性内切酶介导的降解。然而,由于缺乏有效的鉴定方法,4mc的实验研究相对滞后。此外,4mC位点表观遗传修饰和生物学功能的确切机制也很有限。
虽然与5mC相比,4mC的研究较少,但它在控制DNA复制、分化自我和非自我DNA、细胞周期、纠正DNA复制错误和基因表达水平等方面有不同的任务。为了鉴定表观遗传胞嘧啶核碱基,有几种实验方法,如甲基化特异性PCR、质谱、全基因组亚硫酸氢盐测序、工程转录激活因子样效应物(TALEs)方法、还原亚硫酸氢盐测序和单分子实时测序(SMRT)。虽然这些实验技术有助于胞嘧啶甲基化位点的检测,但当应用于大规模基因组测序时,它们是昂贵和耗时的。因此,迫切需要开发一种高效的4mC位点识别计算方法。
最近,针对地下地碱杆菌(Geoalkalibacter solraneus)、拟南芥(Arabidopsis thaliana)、pickeringii、大肠杆菌(Escherichia coli)、黑胃果蝇(Drosophila melanogaster)和秀丽隐杆线虫(Caenorhabditis elegans)等6种不同物种提出了几种4mC位点预测方法。4mC位点预测的最先进的ML方法证明了采用跨物种评估的物种特异性模型的必要性。所有这些方法都利用了从MethSMRT数据库中获得的阳性样本(4mC位点),该数据库是通过整合公共可用的SMRT测序数据集而开发的。遗憾的是,目前还没有针对哺乳动物小鼠基因组的4mC位点预测方法。一般来说,小鼠是一种成熟的实验动物模型,因为它被用于模拟与哺乳动物发育和人类疾病相关的表观遗传修饰的效果,而且它具有与人类几乎相同的一组基因。因此,有必要开发一种新的基于ml的预测器来检测小鼠基因组中的4mC位点。
在这里,一个新的集合预测器,4mCpred-EL已经被建立用于鉴定小鼠基因组中的4mC位点。首先,28日被雇佣4 ML算法生成的概率特性,即梯度增加(GB),非常随机树(ERT)、支持向量机(SVM)和随机森林(RF),和7个特征编码(二进制文件(带通滤波器),电子-离子相互作用伪势三核苷酸(EIIP),结合二核苷酸二进制编码(DPE),和当地position-specific二核苷酸频率(LPDF)表示为M6AMRFS k-mer成分(公里),环功能氢化学性质(RFHC),二核苷酸(DPCP)和三核苷酸物理化学性质(TPCP)。然后,将这些概率特征输入到4个不同的ML分类器中,建立相应的模型,然后利用这些模型生成集成预测器。使用独立数据集对4mCpred-EL的进一步验证进行了评估。我们的结果表明,所提出的模型优于其他七种ml分类器具有更高的预测精度。此外,我们建立了一个用户友好的在线web服务器,称为4mCpred-EL,便于从小鼠基因组中检测4mC位点。我们认为,本研究是小鼠基因组第一个4mC位点预测方法,有利于正确识别4mC位点预测,并有可能推广到其他物种。
二、材料和方法
按照Chou的5步规则23总结4mCpred-EL的总体框架:(i)构建基准和独立数据集;(ii)将DNA序列映射到固定长度的数值向量上,作为分类器的输入特征向量;采用了有效和适当的分类器来发展一种模式;(iv)对独立数据进行交叉验证(CV)和评估,以衡量预测模型的可靠性;(v)建立了一个可访问的网络服务器。
图1。4mCpred-EL的示意图框架。它包括以下步骤:(1)构建小鼠基因组数据集,(2)使用不同的ML分类器和七种特征编码生成概率特征,以及(3)最终构建模型,将输入区分为4mC或非4mC。