欢迎关注”生信修炼手册”!
CPC是一款使用率非常高的lncRNA预测软件,但是它也存在一些问题。利用二代测序得到的转录组数据,我们组装得到的转录本往往是不完整的,基于非全长的转录本去预测lncRNA,如果这个lncRNA和蛋白编码基因存在overlap,那么很容易造成误判;其次对于没有物种注释的物种,其效果也很差。
为了克服上述问题,研究人员开发出了一款新的工具CNCI
, 和CPC
不同,该软件基于三联体碱基的构成来区分coding和noncoding转录本,论文发表在Nucleic Acids Research上,网址如下
https://academic.oup.com/nar/article/41/17/e166/2411728
三联体碱基指的就是三个连续的碱基,和密码子类似,称之为ANT
, 该软件利用人和小鼠的转录本数据,构建了一个支持向量机的模型,用于对脊椎动物进行分类,示意如下
对于不同长度的转录本序列,和其他软件的性能比较如下