2021-07-26

前言

最近的研究表明,通过转录后RNA(核糖核酸)修饰的表转录组调节对所有类型的RNA都至关重要精确鉴定RNA修饰位点对于理解RNA的功能和调节机制至关重要。在这里,我们介绍了MultiRM,一种从RNA序列中整合预测和解释转录后RNA修饰的方法。MultiRM建立在基于注意力的多标签深度学习框架之上,不仅能同时预测12个广泛存在的转录组修饰(m6A、m1A、m5C、m5U、m6Am、m7G、ψ、I、Am、Cm、Gm和Um)的位点,还能返回对积极预测贡献最大的关键序列内容。重要的是,我们的模型从相关序列背景的角度揭示了不同类型的核糖核酸修饰之间的强关联。我们的工作提供了一种检测多种RNA修饰的解决方案,能够对这些RNA修饰进行综合分析,并更好地理解基于序列的RNA修饰机制。


一、

转录后RNA修饰增加了RNA分子的结构和功能多样性,并调节RNA生命的所有阶段。因此,精确鉴定RNA修饰位点对于理解各种RNA的功能和调节机制至关重要。已鉴定出100多种不同类型的RNA修饰,其中,N6-甲基腺苷(m6A)是最常见的真核mRNA修饰。M6A发生在新生的前mRNA上,调节其稳定性和翻译。它参与许多生物学过程,如昼夜节律钟、从幼稚多能性的分化和热休克反应。在癌症、乳腺肿瘤、胃癌、抗肿瘤免疫等疾病发病机制中也发挥着多种作用。除了m6A,还有许多具有重要生物学功能的RNA修饰。例如,n1甲基腺苷(m1A)可以阻断沃森-克里克界面,对tRNA稳定性和HIV-1复制至关重要。
到目前为止,已经提出了许多从初级RNA序列中计算机预测RNA修饰位点的计算方法,包括:iRNA工具包3–11,SRAMP12,D e e p P r o m i s e13,W H I S T L E14,Gene2vec15,M6 A atlass 16,R M D i s e a s e17,P E A18,P P P U S19,B E R M P20,m5Upred21和m6AmPred22。还特别关注了内含子、lncRNAs24as以及各种组织和细胞系中RNA修饰的预测。总之,这些工作极大地促进了我们对不同物种在不同条件下多种核糖核酸修饰类型定位的理解。然而,现有的方法受到以下限制。
首先,现有的研究大多只关注单一的RNA修饰类型,主要是m6A,而未能通过整合的预测模型同时支持多种RNA修饰。因此,对不同修饰之间相互作用的研究是有限的。主要由陈、林和周开发的iRNA toolkit 3–11是支持从RNA序列预测各种RNA修饰的最早也是最全面的方法,并已被广泛用作基准测试不同RNA修饰预测方法性能的金标准。

然而,iRNA工具包是以多项独立研究的形式提出的,每项研究都针对一项单独的修改。iMRM网络服务器旨在通过友好的网络图形用户界面同时支持五种RNA修改;然而,它仍然基于分别对应于五个RNA修饰的五个独立的二元预测因子,而没有考虑不同修饰之间的潜在相互作用。考虑到不同RNA修饰的内在生化和生物物理特性,为一种修饰类型建立的预测框架通常可以方便地移植到另一种修饰的预测中。因此,在多个RNA修饰上同时测试计算框架是有益和有效的。最近,通过利用生成对抗网络(GAN),MR-GAN方法被发展来预测八个RNA修饰。然而,支持的一些修饰可能是罕见的修饰,如m1G(仅29个位点)、m2G(仅59个位点)和D(仅162个位点)30,其在人类转录组中的广泛出现尚未得到证实。鉴于这种罕见的核糖核酸修饰有大量阴性(不可修改)位点,基于序列的预测在实践中可能会产生相当大比例的假阳性预测,应格外谨慎使用。
其次,大多数现有的工作依赖于来自单一来源的有限数量的数据(单一数据库或由单一实验生成的数据集),未能充分利用可用的表转录组信息。例如,m5U修饰的广泛发生先前已经通过两种不同的方法(miCLIP和FICC-seq)31报道的数千个m5U位点得到证实。尽管如此,MR-GAN只使用了30个位点进行训练,这可能会严重限制其对这种特定修改的预测能力。此外,先前已经报道了不同表位转录组分析技术之间的实质性差异,例如m5C32和ψ33。因此,利用从多种正交技术生成的数据来尽可能减少潜在的技术偏差至关重要。
第三,该领域的大部分工作,如SRAMP12and和imrm 29,侧重于预测精度,但未能对其预测结果提供清晰直观的解释。尽管一些现有的方法仔细地解释了他们训练有素的预测模型,据我们所知,没有一个现有的工作为他们的个人预测决策过程提供了深刻的见解。可解释的核糖核酸/脱氧核糖核酸模型的最新进展使得能够提取低级的有线电视新闻网核,并将其可视化为位置权重矩阵。然而,这些模式只能提供模糊的见解,尤其是对于多层脱氧核糖核酸,不能提供核苷酸水平的解释。然而,确定直接有助于正向RNA修饰预测的关键序列内容仍然很有意义,这将有助于我们理解单个RNA修饰位点的序列依赖性形成机制。
最后,还没有为某些RNA修饰类型(如m6Am)开发预测框架,尽管已经开发了其基础分辨率表转录组分析技术miCLIP,并且分析数据是公开的。
由于这些原因,有很强的动机利用最先进的深度学习技术来开发一个统一的预测框架,该框架通过集成从多种技术生成的数据集来支持多种核糖核酸修改。
我们在这里介绍MultiRM,一种基于注意力的多标记神经网络方法,用于整合预测和解释来自初级RNA序列(或相应的脱氧核糖核酸序列)的核糖核酸修饰。我们的模型支持12种RNA修饰类型,包括m6A、m1A、m5C、m5U、m6Am、m7G、ψ、I、Am、Cm、g m和Um。据我们所知,这些是唯一可以用现有碱基解析技术在转录组范围内进行描述的广泛发生的RNA修饰,这是RNA修饰对可靠的大规模预测的高度期望的特征。我们的方法的多标签体系结构能够容纳不同修改的共享结构,同时充分利用它们的不同特征。由于一些修改仍然比其他修改更丰富,为了处理多标签学习中的不平衡训练数据问题,使用了在线硬示例挖掘(OHEM)和不确定权重。一些被广泛采用的最先进的机器学习算法XGBoost37and和CatBoost38were也被实现为基准。重要的是,我们使用综合梯度(IG)和注意力权重来获得对训练的整体模型的洞察,并解释每个单独的预测。最后,开发了一个网络服务器,可以免费访问,为研究团体服务。链接: link.

二、结果

1.MultiRM框架

我们的框架使用深度神经网络预测了12种广泛发生的RNA修饰,如图1所示。给定一组碱基分辨率可修改的位点,MultiRM学习位点序列上下文和修改类型之间的映射。一旦这个映射被学习,注意机制和IG方法使我们能够解释模型,并提取序列内容。
对阳性预测贡献最大的是序列基序。所提出的使用多标签框架的集成模型也被认为有利于学习不同RNA修饰之间的潜在关联

在这里插入图片描述
图1多模型体系结构的图示。该模型由一个嵌入模块和一个LSTM-Attention模块组成,用于提取和学习有用的特征。然后,通过注意力过滤的特征被输入多标签模块,以同时预测RNA的修饰。Conv1D代表1D卷积层;Pool1D代表1D最大池层;FC代表全连接层

MultiRM由一个嵌入模块组成,该模块利用核苷酸之间固有的短程和长程相互作用来表示输入的RN

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值