2021-09-02

Super齐

已于 2022-03-15 12:12:08 修改

阅读量642

点赞数

分类专栏：生物信息学文章标签：深度学习神经网络人工智能

于 2021-09-12 12:17:35 首次发布

本文链接：https://blog.csdn.net/weixin_45156147/article/details/120100527

版权

DeepTorrent: a deep learning-based approach for predicting DNA N4-methylcytosine sites

前言
一、介绍
二、材料与方法
三、结果与讨论
四、挑战与未来工作
总结

for predicting DNA N4-methylcytosine sites)

前言

DNA n4 -甲基胞嘧啶(4mC)是一种重要的表观遗传修饰，在调控DNA复制和表达中起着重要作用。然而，通过实验方法检测4mC位点具有挑战性，耗时长，成本高。因此，能够识别4mC位点的计算工具对于理解这一重要DNA修饰类型的机制将非常有用。在过去的3年里，人们提出了一些基于机器学习的4mC预测器，尽管它们的性能并不令人满意。深度学习是一种很有前途的技术，可以开发更准确的4mC站点预测。在这项工作中，我们提出了一种基于深度学习的方法，称为DeepTorrent，用于改进DNA序列中4mC位点的预测。它结合了四种不同的特征编码方案对原始DNA序列进行编码，并采用多层卷积神经网络和集成双向长短期记忆的初始模块。降维,然后将来自不同大小过滤器的连接特征图应用到初始模块。此外，还采用注意机制和迁移学习技术来训练预测器。大量的基准测试实验表明，与几种最先进的方法相比，deepTorrent显著提高了4mC现场预测的性能。

一、介绍

DNA甲基化是一种表观遗传修饰，在将非编码遗传信息传递到DNA序列中起着重要作用。DNA甲基化与许多生物学过程有关，如基因表达调控、基因组印迹和细胞分化。此外，DNA甲基化模式的改变被认为是疾病的一种机制，经常导致癌症和其他疾病。

基因组中常见的DNA甲基化类型包括5-甲基胞嘧啶(5mC)、n6 -甲基腺嘌呤(6mA)和n4甲基胞嘧啶(4mC)。这三种类型的DNA甲基化主要存在于原核生物中。在真核生物基因组中，主要的甲基化类型是5mC。6mA在原核基因组中比在真核基因组中更丰富。4mC多存在于中嗜菌中，在真核生物基因组中使用传统技术很难检测到。

基于下一代测序(NGS)的亚硫酸氢盐处理是检测全基因组DNA甲基化位点的常用技术。然而，该实验技术成本高、耗时长，且仅限于5mC检测。单分子实时测序(Single-molecule real-time, SMRT)可以检测多种形式的DNA甲基化，包括5mC, 4mC和6mA。此外，如何区分4mC和5mC对传统实验技术来说仍然是一个重大挑战。为了解决这些问题，提出了一种基于NGS的4mC特异性方法4mCTAB-seq，用于准确区分4mC和5mC。最近，人们提出了一种利用工程转录激活子样效应来区分4mC和5mC的特异性技术。这些实验技术有助于DNA甲基化位点的检测;然而，它们仍然是劳动密集型和昂贵的，并不是实际适用于高通量DNA甲基化位点鉴定。因此，预测DNA甲基化位点的计算方法为DNA甲基化位点的大规模识别提供了一种有用的互补策略，可以有效地促进实验研究。
对于5mC和6mA数据的预测，已有多种计算方法。然而，据我们所知，目前可用的4mC预测方法和工具很少。

表1总结了现有的4mC站点预测方法，涵盖了广泛的方面，包括采用的算法和特点，评估策略等（仅做了解）。

表1中列出的所有研究都将4mC位点预测视为一个二元分类问题。此外，它们都使用相同的数据集进行评估，其中包含6个物种的实验验证的4mC位点。
由表1可知，传统基于ml的方法采用支持向量机(svm)或集成的多分类器构建DNA序列4mC位点识别的集成预测模型。

该方法采用不同的特征编码方案将DNA序列编码为特征向量，然后训练预测模型。iDNA4mC利用核苷酸化学性质(NCP)和核苷酸频率作为输入特征，构建每个样本的特征向量。4mCPred利用位置特异的三核苷酸倾向和电子-离子相互作用赝势(EIIPs)编码DNA序列。4mcPred-SVM采用四种基于序列的特征编码和两步特征优化策略来提高预测性能。Meta4mCpred首先基于7种不同的特征编码方案提取14个特征描述符，然后应用4种ML算法生成56个概率特征。最后，利用这56个特征来训练基于支持向量机的预测模型。4mcPred-IFL首先使用8个基于序列的特征作为SVM分类器的输入，然后生成每个样本的概率作为一个新的特征描述符。然后迭代该过程，直到性能达到收敛。这些方法在4mC位点预测方面取得了相当的成功，确实加快了4mC识别的研究。然而，在区分4mC站点和非4mC站点时，当前方法的性能(即预测能力)在很大程度上依赖于手工特性和操作算法的质量。因此，为了进一步提高性能，需要广泛的领域知识来设计有用的、手工制作的模型训练特性。然而，由于对4mC的研究有限，提取具有较强识别能力的有效特征来预测4mC位点具有挑战性。

DL已经成为一种强大的表示学习形式，能够自动学习多层表示的抽象特征。近年来，DL技术已成功应用于许多生物信息学研究中，并取得了良好的效果。据我们所知，目前只有一种基于dl的4mC位点预测方法，即4mcnn。4mcnn使用具有两个一维卷积层的卷积神经网络(CNNs)，并将输入序列编码为一个一次性编码矩阵，以馈入第一卷积层。与传统的ML算法相比，4mcnn算法在基准数据集上取得了更好的性能。然而，尽管4mcnn的学习性能较之前的方法有所提高，但它的学习能力存在一定的局限性，4mcnn使用的框架相对较浅，使用的训练数据集相对较小。近年来，随着DL方法的快速发展，各种DL框架被提出并被证明具有更好的性能。

这是混合模型和深度迁移学习模型的情况，即使使用有限的样本数进行训练。在这项工作中，我们特别感兴趣的是使用DL框架，并研究进一步提高4mC站点预测器性能的可能性。
==在这项工作中，我们提出了Deep Torrent (Deep learning predict or for N4-methylcytosine sites)，一个基于dl的计算框架，用于从DNA序列数据预测4mC位点。更具体地说，deep Torrent利用四种不同类型的特征编码方案，将原始DNA序列转换为深度网络的输入，该网络由具有起始、双向长短期记忆(BLSTM)和注意机制的cnn组成。它采用深度迁移学习策略来解决小样本问题。在两个不同的数据集上进行的大量基准测试表明，与最先进的方法相比，DeepTorrent在所有6个测试物种的4mC位点预测方面取得了最好的性能。为了促进4mC站点的高吞吐量预测，DeepTorrent实现了一个在线服务器，并在http://DeepT orrent.erc.monash.edu/.上免费提供。

二、材料与方法

2.1 数据集

所有6个现有的基于ml的4mC位点预测，包括iDNA4mC、4mCPred、4mCPred - svm、Meta-4mCpred、4mcPredIFL和4mcnn，均使用Chen等人之前构建的相同数据集进行训练和评估。数据集最初是从MethSMRT数据库检索的。我们使用这个数据集来训练deepTorrent模型，并将其与其他现有方法的性能进行了比较。数据集包含6个不同物种的实验验证的4mC位点。数据集中阳性样本的序列长度均为41 bp。去除冗余序列，确保数据集中任意两个序列的序列同一性小于80%，与前人研究一致。每个物种提取的阳性样本数量列于表2的第二列。

最低0.47元/天解锁文章

Super齐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-09-02

DeepT orrent: a deep learning-based approachfor predicting DNA N4-methylcytosine sites前言一、前言一、介绍2.读入数据总结for predicting DNA N4-methylcytosine sites)前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例
复制链接

扫一扫