Meta-4mCpred:一种基于序列的meta预测器，使用有效的特征表示进行精确的DNA 4mC位点预测

最新推荐文章于 2022-10-17 14:10:23 发布

泡面加蛋97

最新推荐文章于 2022-10-17 14:10:23 发布

阅读量581

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/zpj1997/article/details/115622517

版权

Meta-4mCpred:一种基于序列的meta预测器，使用有效的特征表示进行精确的DNA 4mC位点预测

DNA n4 -甲基胞嘧啶(DNA N4-methylcytosine, 4mC)是一种重要的基因修饰，在区分自我和非自我DNA、控制DNA复制、细胞周期和基因表达水平等方面起着至关重要的作用。
我们采用了一种特征表示学习方案，基于4种不同的机器学习算法和7种特征编码生成了56个概率特征，涵盖了不同的序列信息，包括成分、物理化学和特定位置信息。随后，将概率特征作为支持向量机的输入，开发出最终的元预测器。
据我们所知，这是4mC位点预测的第一个元预测器。交叉验证结果表明，Meta-4mCpred对6个不同物种的总体平均准确率为84.2%，比使用最先进的预测因子的准确率高2% ~ 4%。此外，Meta-4mCpred在独立数据集评估中获得了86%的总体平均精度，比最先进的预测器的结果高出4%以上。

作者模型思路构建：

在这里插入图片描述
1:数据集由六种数据集构成
2：针对6种数据集，通过7种特征编码方式进行编码，7种编码方式进行组合性构建，得到每个数据集都有14种特征表述。
3：每种特征都通过四种机器学习模型训练，得到14×4=56个模型。其中56个机器模型都有做十倍交叉验证。
4：将56个机器学习模型进行概率输出，取预测为正样本的概率。因此每个样本可以得到56维度的概率特征向量。
5：这56维度的特征向量为我们最终所要的特征，将其再送入SVM模型，做最终位点识别判断。

数据集

下载地址：数据集下载链接
基准数据集：
在这里插入图片描述
独立测试集数据：
以上六个物种，每个物种阳性样本数分别为：750、1000、1250、134、350、200。此外阴性样本数与之数量对应，一一相等。

特征编码

文章采用7种特征编码方式，分别为：K-mer、BPF、DPE、LPDF、RFHC、DPCP、TPCP。

k-mer：
作者k值取了k=1~5，得到了4维、16维、256维、1024维。依次称为：MNC、DNC、TNC、TeNC、PNC。

BPF：
也就是平时学的 One-hot编码。

DPE：
核苷酸两两一组，正好有16种组合，正好用四位二进制数表示完。从0000-1111。

LPDF:

即双核苷酸，局部位置密度。Ni为第i个位置的长度，C（Xi-1 Xi-2)为起点到第i个位子，这个二核苷酸出现的次数。

RFHC:
根据四种核苷酸的环、官能团和氢键具有的不同化学性质。四种核苷酸可分别编码为：
A[1,1,1]
C[0,0,1]
G[1,0,0]
T[0,1,0]
除此之外，外加一个位置信息：
在这里插入图片描述
计算第 i 个位置的核苷酸的密度信息。

DPCP:
本研究中，使用了15种理化性质。每一个二核苷酸对应一个15维度的理化性质向量。其特征构成为：
在这里插入图片描述
左边部分为该类二核苷酸在序列中出现的频率，后者为所对应的15维度理化性质。
最终构成240维向量（16×15）

TPCP：
该特征与上述的TPCP类似，此者采用了11种理化性质，每一个三核苷酸对应一个11维度的理化性质向量。其特征构成为：
在这里插入图片描述
最终构成704维度向量（64×11）

14种特征组成：
在这里插入图片描述

机器学习算法

本文章采用了SVM、RF、ERT、GB四种算法作为基模型，用于特征提取，当然在最后一部分选用的也是SVM这个模型作为最终的预测模型。

评估指标

在这里插入图片描述

结果

在这里插入图片描述

所提供的信息链接

supplemental information

泡面加蛋97

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Meta-4mCpred:一种基于序列的meta预测器，使用有效的特征表示进行精确的DNA 4mC位点预测

Meta-4mCpred:一种基于序列的meta预测器，使用有效的特征表示进行精确的DNA 4mC位点预测DNA n4 -甲基胞嘧啶(DNA N4-methylcytosine, 4mC)是一种重要的基因修饰，在区分自我和非自我DNA、控制DNA复制、细胞周期和基因表达水平等方面起着至关重要的作用。我们采用了一种特征表示学习方案，基于4种不同的机器学习算法和7种特征编码生成了56个概率特征，涵盖了不同的序列信息，包括成分、物理化学和特定位置信息。随后，将概率特征作为支持向量机的输入，开发出最终的元预测器
复制链接

扫一扫