平地起高楼之漫谈长非编码RNA

平地起高楼之漫谈长非编码RNA
 关于长非编码,我还记得当时在生物化学课上,刘老师专门拿出了半节课向我们介绍长非编码RNA。正好当时也做了笔记,于是结合笔记和网上查阅的资料,简要的写写长非编码RNA。主要思路是介绍长非编码RNA以及相关的数据库,最后在介绍一波由北大开发的预测的工具——CPC。
 基因组被誉为“人类组装说明书”,自从人类基因组计划完成后,人们发现基因仅是由四种碱基组成,它是如此的简单,但又是如此的神秘。其中编码区域仅占基因组的2.9%,可知基因组中由大量不编码的区域,这些区域仍转录成RNA,这些RNA称为非编码RNA。
 早期发现的非编码RNA大多是housekeepingRNA,它们负责细胞的基础代谢,并且在细胞中持续表达。这些RNA包括rRNA、tRNA、snRNA、tmRNA。近几年,人们的研究渐渐转移到了lncRNA(长非编码RNA),这种RNA是长度在200bp以上的非编码RNA。这类RNA虽然不编码蛋白质,但是却具有很重要的调控作用,可以在表达遗传水平,转录水平,转录后水平等多个层次调控基因的表达。并广泛的参与了各种生物学功能。
 由于lncRNA是研究热点,所以相关的数据库众多,下面我将罗列几个主流数据库,供以后参考使用。
LNCipedia:人类lncRNA数据库。
NONCODE:综合性的lncRNA数据库。
lncRNOME:综合性的人类lncRNA数据库。
PlncRNADB:植物lncRNA数据库。
CANTATAdb:植物lncRNA数据库。
GreeNC: 植物lncRNA数据库。
EVLncRNAs:最大实验验证过的lncRNA数据库。
 既然长非编码RNA有着如此重要的作用,所以它的预测无疑是研究攻克的重点。那么本博文将主要以CPC预测软件为例,来探讨通过信息技术手段来预测长非编码RNA。
 CPC,全名:Coding Potential Calculator,它是将预测问题转为二分类问题,在转录本中将基因分为编码的和不编码的。所以我们如何衡量一个序列片段的编码能力呢?这就涉及到了特征的选取。一般是通过一些先验知识确定一些特征,然后通过前向、后向或启发或广度搜索,来进一步决定将哪些特征加入模型中。该工具作者从文献等资料中选取了60多个特征,然后通过前向搜索算法从中筛选出11个特征,继而又用广度搜索算法,最后确定了6个特征。
 在这六个特征中,有三个是基于ORF的特征,分别为Coverage、ORF Intergrity、LOG_ODD score。
Coverage: L O R F − ( L mismatch  + 2 ∗ L frameshift  )  Total Length  \frac { L _ { O R F } - \left( L _ { \text {mismatch } } + 2 * L _ { \text {frameshift } } \right) } { \text { Total Length } }  Total Length LORF(Lmismatch +2Lframeshift )
ORF Intergrity: 即预测的开放阅读框的完整性,指示了开放阅读框是否以起始密码子开始并于该阅读框内的终止密码子结束。
LOG-ODD score:表明了预测的开放阅读的质量,分数越高,质量越好。 log ⁡ Pr ⁡ ( D ∣ M ) Pr ⁡ ( D ∣ R ) \log \frac { \operatorname { Pr } ( D \mid M ) } { \operatorname { Pr } ( D \mid R ) } logPr(DR)Pr(DM)
另外三个特征是基于同源性的分析,基本想法是编码的蛋白质的RNA较不编码的RNA更有可能在蛋白质数据库中搜索到相似的蛋白。
of BLASTX hits: 一个真正的编码蛋白的转录本可能比一个非编码蛋白转录本对已知蛋白的有更多的匹配。
Hit Score:衡量匹配的质量。 S i = mean ⁡ j { − log ⁡ 10 E i j } S _ { i } = \operatorname { mean } _ { j } \left\{ - \log _ { 10 } E _ { i j } \right\} Si=meanj{log10Eij}
Eij是在第i个阅读框中的第j个HSP(high-scoring segment pairs)的E值。首先解释第i个阅读框是啥,在博文《一次探索:基于香农熵预测DNA中编码序列,python实现》中,我们就提到了rna的正向读取方式有三种,所以会产生三个阅读框(reading frames)。而HSP的E值是随机情况下,数据库存在的比当前匹配分数更好的比对的数目。故而E值越低,结果就越可靠。

mean ⁡ i ∈ { 0 , 1 , 2 } { S i } = ∑ i = 0 2 S i 3 \underset { i \in \{ 0,1,2 \} } { \operatorname { mean } } \left\{ S _ { i } \right\} = \frac { \sum _ { i = 0 } ^ { 2 } S i } { 3 } i{0,1,2}mean{Si}=3i=02Si
Frame Score: 对于一个真正编码的ORF匹配的相似蛋白质序列是有很大可能在一个阅读框中的,而一个非编码的ORF虽然也有可能匹配到某一具体的蛋白序列,但是匹配到的序列片段会分布在三个阅读框中。故我们可用方差来衡量。 variance ⁡ i ∈ { 0 , 1 , 2 } { S i } = ∑ i = 0 2 ( S i − S ˉ ) 2 2 \underset { i \in \{ 0,1,2 \} } { \operatorname { variance } } \left\{ S _ { i } \right\} = \frac { \sum _ { i = 0 } ^ { 2 } \left( S _ { i } - \bar { S } \right) ^ { 2 } } { 2 } i{0,1,2}variance{Si}=2i=02(SiSˉ)2
 以上就是该工具所选用的六个特征。当然这是07年的工具,在当时是预测的一大利器,但是不可忽视它的局限性。大量lncRNA与编码RNA非常相似,因此lncRNA翻译而得的蛋白质序列与数据库中的蛋白质序列之间,同样易于出现匹配片段,故CPC非常容易将lncRNA判断为编码RNA,造成敏感度较低。其次,CPC严重依赖于序列比对,对待检测序列与比对数据库的质量都有着较高的要求。然而目前测序技术得到的序列时常因信号较弱而出现测序误差,同时数据库中大量物种的注释信息又十分有限,很难为CPC提供充足的数据进行比对。因此CPC在对这类序列进行预测时,其结果不可避免地会产生较大误差,甚至因程序错误而无法进行预测。最后,序列的比对过程非常耗时,CPC可能需要数十小时才能完成几千条序列的预测,因此难以将CPC应用于大规模数据计算任务。目前lncRNA的研究已经越来越聚焦于冷门物种的研究,而物种的序列往往是通过高通量测序技术得来,序列数量巨大,且碱基误差难以避免。

看完有关文献,我才意识到特征选取的重要性,之前妄想用信息熵这一个特征来找到编码蛋白的序列是非常不严谨的。故接下来计划是学习机器学习相关知识结合生物学知识,来进一步解决生物问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值