一种准确预测核糖核酸假尿苷位点的新方法

最新推荐文章于 2023-04-06 04:25:57 发布

泡面加蛋97

最新推荐文章于 2023-04-06 04:25:57 发布

阅读量527

点赞数

分类专栏：笔记文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zpj1997/article/details/120441674

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一种准确预测核糖核酸假尿苷位点的新方法

期刊：Briefings in Bioinformatics
链接：https://doi.org/10.1093/bib/bbab245

背景：

假尿苷是一种普遍存在于真核生物与原核生物中的核糖核苷酸修饰类型，在各种生物过程中起着至关重要的作用。几乎所用种类的核糖核酸都受到这种修饰，因此研究该位点极为重要。

结果：

作者提出了一种新的计算方法，该方法能够准确识别假尿苷位点。该方法基于对18种常用特征编码方式进行综合评估，最后采用其中4种特征作为本次模型的数据特征提取。

数据集

a):数据分为3个物种，分别为H.sapiens、S.cerevisiae、M.musculus。
b):其中H.sapiens是长度为21的RNA序列，且训练集样本数为990，独立验证集样本数为200。
c):S.cerevisiae是长度为31的RNA序列，训练集样本数为628，独立验证集样本数为200。
d):M.musculus没有独立验证集，只有训练集，其样本数为944。

为了进一步评估模型的性能，并将其与其他最先进的方法进行比较，作者从m6A-Atlas数据库中收集了另一个独立测试集数据库。该数据库包含：3137 H.sapiens，2702 M.musculus以及 733 S.cerevisiae。

方法

1：
对数据进行18种特种编码方式进行特征提取，并结合9种常用的机器学习算法对每种特征进行评估。

2：
通过基础分类齐的不同组合构建一系列堆叠集成学习模型，并伟三个物种种的每个模型进行优化。

3：
对现有的几张最先进的方法进行交叉验证和独立测试来全面评估优化堆叠模型。

4：网络服务器。
在这里插入图片描述

特征提取

作者采用了18种特征编码方式，并测试了其组合方案，其中包括：二元特征、自相关、互协方差、基于三核苷酸的自协方差、累计核苷酸频率等。。。
当然这些特征的提取都可采用开源iLearn和iLearnPlus软件包来计算：链接。
1：Binary feature
即onehot特征编码

2:Pseudo k-tuple composition (PseKNC)

3:Nucleotide chemical property
根据核苷酸有不同的化学结构和化学性质。根据其化学性质，四个核苷酸可以聚集成三个不同的组。
在这里插入图片描述
因此可编码为：A(1,1,1), C（0,1,0) , G (1,0,0), U(0,0,1) 。

4：Position-specific trinucleotide propensity based on single strand。
在这里插入图片描述
其中

即先计算出该矩阵中的Z，Z为不同的k元组在序列各个位置的频率所构建得来。F+，F-代表着训练集中正负样本。
构建完成后，要编码的序列，则可为一下公式：
在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
一种准确预测核糖核酸假尿苷位点的新方法

一种准确预测核糖核酸假尿苷位点的新方法期刊：Briefings in Bioinformatics链接：https://doi.org/10.1093/bib/bbab245背景：假尿苷是一种普遍存在于真核生物与原核生物中的核糖核苷酸修饰类型，在各种生物过程中起着至关重要的作用。几乎所用种类的核糖核酸都受到这种修饰，因此研究该位点极为重要。结果：作者提出了一种新的计算方法，该方法能够准确识别假尿苷位点。该方法基于对18种常用特征编码方式进行综合评估，最后采用其中4种特征作为本次模型的数据特征提取
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。