2021-09-02


for predicting DNA N4-methylcytosine sites)


前言

DNA n4 -甲基胞嘧啶(4mC)是一种重要的表观遗传修饰,在调控DNA复制和表达中起着重要作用。然而,通过实验方法检测4mC位点具有挑战性,耗时长,成本高。因此,能够识别4mC位点的计算工具对于理解这一重要DNA修饰类型的机制将非常有用。在过去的3年里,人们提出了一些基于机器学习的4mC预测器,尽管它们的性能并不令人满意。深度学习是一种很有前途的技术,可以开发更准确的4mC站点预测。在这项工作中,我们提出了一种基于深度学习的方法,称为DeepTorrent,用于改进DNA序列中4mC位点的预测。它结合了四种不同的特征编码方案对原始DNA序列进行编码,并采用多层卷积神经网络和集成双向长短期记忆的初始模块。降维,然后将来自不同大小过滤器的连接特征图应用到初始模块。此外,还采用注意机制和迁移学习技术来训练预测器。大量的基准测试实验表明,与几种最先进的方法相比,deepTorrent显著提高了4mC现场预测的性能。

一、介绍

DNA甲基化是一种表观遗传修饰,在将非编码遗传信息传递到DNA序列中起着重要作用。DNA甲基化与许多生物学过程有关,如基因表达调控、基因组印迹和细胞分化。此外,DNA甲基化模式的改变被认为是疾病的一种机制,经常导致癌症和其他疾病。

基因组中常见的DNA甲基化类型包括5-甲基胞嘧啶(5mC)、n6 -甲基腺嘌呤(6mA)和n4甲基胞嘧啶(4mC)。这三种类型的DNA甲基化主要存在于原核生物中。在真核生物基因组中,主要的甲基化类型是5mC。6mA在原核基因组中比在真核基因组中更丰富。4mC多存在于中嗜菌中,在真核生物基因组中使用传统技术很难检测到。

基于下一代测序(NGS)的亚硫酸氢盐处理是检测全基因组DNA甲基化位点的常用技术。然而,该实验技术成本高、耗时长,且仅限于5mC检测。单分子实时测序(Single-molecule real-time, SMRT)可以检测多种形式的DNA甲基化,包括5mC, 4mC和6mA。此外,如何区分4mC和5mC对传统实验技术来说仍然是一个重大挑战。为了解决这些问题,提出了一种基于NGS的4mC特异性方法4mCTAB-seq,用于准确区分4mC和5mC。最近,人们提出了一种利用工程转录激活子样效应来区分4mC和5mC的特异性技术。这些实验技术有助于DNA甲基化位点的检测;然而,它们仍然是劳动密集型和昂贵的,并不是实际适用于高通量DNA甲基化位点鉴定。因此,预测DNA甲基化位点的计算方法为DNA甲基化位点的大规模识别提供了一种有用的互补策略,可以有效地促进实验研究。
对于5mC和6mA数据的预测,已有多种计算方法。然而,据我们所知,目前可用的4mC预测方法和工具很少。

表1总结了现有的4mC站点预测方法,涵盖了广泛的方面,包括采用的算法和特点,评估策略等(仅做了解)。

表1中列出的所有研究都将4mC位点预测视为一个二元分类问题。此外,它们都使用相同的数据集进行评估,其中包含6个物种的实验验证的4mC位点。
由表1可知,传统基于ml的方法采用支持向量机(svm)或集成的多分类器构建DNA序列4mC位点识别的集成预测模型

该方法采用不同的特征编码方案将DNA序列编码为特征向量,然后训练预测模型。iDNA4mC利用核苷酸化学性质(NCP)和核苷酸频率作为输入特征,构建每个样本的特征向量。4mCPred利用位置特异的三核苷酸倾向和电子-离子相互作用赝势(EIIPs)编码DNA序列。4mcPred-SVM采用四种基于序列的特征编码和两步特征优化策略来提高预测性能。Meta4mCpred首先基于7种不同的特征编码方案提取14个特征描述符,然后应用4种ML算法生成56个概率特征。最后,利用这56个特征来训练基于支持向量机的预测模型。4mcPred-IFL首先使用8个基于序列的特征作为SVM分类器的输入,然后生成每个样本的概率作为一个新的特征描述符。然后迭代该过程,直到性能达到收敛。这些方法在4mC位点预测方面取得了相当的成功,确实加快了4mC识别的研究。然而,在区分4mC站点和非4mC站点时,当前方法的性能(即预测能力)在很大程度上依赖于手工特性和操作算法的质量。因此,为了进一步提高性能,需要广泛的领域知识来设计有用的、手工制作的模型训练特性。然而,由于对4mC的研究有限,提取具有较强识别能力的有效特征来预测4mC位点具有挑战性。

DL已经成为一种强大的表示学习形式,能够自动学习多层表示的抽象特征。近年来,DL技术已成功应用于许多生物信息学研究中,并取得了良好的效果。据我们所知,目前只有一种基于dl的4mC位点预测方法,即4mcnn。4mcnn使用具有两个一维卷积层的卷积神经网络(CNNs),并将输入序列编码为一个一次性编码矩阵,以馈入第一卷积层。与传统的ML算法相比,4mcnn算法在基准数据集上取得了更好的性能。然而,尽管4mcnn的学习性能较之前的方法有所提高,但它的学习能力存在一定的局限性,4mcnn使用的框架相对较浅,使用的训练数据集相对较小。近年来,随着DL方法的快速发展,各种DL框架被提出并被证明具有更好的性能。

这是混合模型和深度迁移学习模型的情况,即使使用有限的样本数进行训练。在这项工作中,我们特别感兴趣的是使用DL框架,并研究进一步提高4mC站点预测器性能的可能性。
==在这项工作中,我们提出了Deep Torrent (Deep learning predict or for N4-methylcytosine sites),一个基于dl的计算框架,用于从DNA序列数据预测4mC位点。更具体地说,deep Torrent利用四种不同类型的特征编码方案,将原始DNA序列转换为深度网络的输入,该网络由具有起始、双向长短期记忆(BLSTM)和注意机制的cnn组成。它采用深度迁移学习策略来解决小样本问题。在两个不同的数据集上进行的大量基准测试表明,与最先进的方法相比,DeepTorrent在所有6个测试物种的4mC位点预测方面取得了最好的性能。为了促进4mC站点的高吞吐量预测,DeepTorrent实现了一个在线服务器,并在http://DeepT orrent.erc.monash.edu/.上免费提供。

二、材料与方法

2.1 数据集

所有6个现有的基于ml的4mC位点预测,包括iDNA4mC、4mCPred、4mCPred - svm、Meta-4mCpred、4mcPredIFL和4mcnn,均使用Chen等人之前构建的相同数据集进行训练和评估。数据集最初是从MethSMRT数据库检索的。我们使用这个数据集来训练deepTorrent模型,并将其与其他现有方法的性能进行了比较。数据集包含6个不同物种的实验验证的4mC位点。数据集中阳性样本的序列长度均为41 bp。去除冗余序列,确保数据集中任意两个序列的序列同一性小于80%,与前人研究一致。每个物种提取的阳性样本数量列于表2的第二列

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用python中的pymsql完成如下:表结构与数据创建 1. 建立 `users` 表和 `orders` 表。 `users` 表有用户ID、用户名、年龄字段,(id,name,age) `orders` 表有订单ID、订单日期、订单金额,用户id字段。(id,order_date,amount,user_id) 2 两表的id作为主键,`orders` 表用户id为users的外键 3 插入数据 `users` (1, '张三', 18), (2, '李四', 20), (3, '王五', 22), (4, '赵六', 25), (5, '钱七', 28); `orders` (1, '2021-09-01', 500, 1), (2, '2021-09-02', 1000, 2), (3, '2021-09-03', 600, 3), (4, '2021-09-04', 800, 4), (5, '2021-09-05', 1500, 5), (6, '2021-09-06', 1200, 3), (7, '2021-09-07', 2000, 1), (8, '2021-09-08', 300, 2), (9, '2021-09-09', 700, 5), (10, '2021-09-10', 900, 4); 查询语句 1. 查询订单总金额 2. 查询所有用户的平均年龄,并将结果四舍五入保留两位小数。 3. 查询订单总数最多的用户的姓名和订单总数。 4. 查询所有不重复的年龄。 5. 查询订单日期在2021年9月1日至9月4日之间的订单总金额。 6. 查询年龄不大于25岁的用户的订单数量,并按照降序排序。 7. 查询订单总金额排名前3的用户的姓名和订单总金额。 8. 查询订单总金额最大的用户的姓名和订单总金额。 9. 查询订单总金额最小的用户的姓名和订单总金额。 10. 查询所有名字中含有“李”的用户,按照名字升序排序。 11. 查询所有年龄大于20岁的用户,按照年龄降序排序,并只显示前5条记录。 12. 查询每个用户的订单数量和订单总金额,并按照总金额降序排序。
最新发布
06-03

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值