- 可变剪切分析
- 定义:可变剪接(Alternative Splicing,AS)是一个过程,即某些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接)
- 常用软件
- Astalavista:http://astalavista.sammeth.net/
- 4种可变剪切类型
- 在线分析流程
- 第一步:选择输入文件
- 第二步:设置参数
- 第三步:获取结果
- 第四步:查看结果
- 第五步:下载结果
- 第一步:选择输入文件
- 本地分析脚本
- /local_data1/RNA/pipeline/PB_Isoseq_ref_V1.0/lib/11.as_event/../../software/astalavista-3.2/bin/astalavista \-t asta \--threads 4 \-i test.gtf \-o test.as.gtf.gz
- 4种可变剪切类型
- Astalavista:http://astalavista.sammeth.net/
- lncRNA预测
- 定义:lncRNA(Long non-coding RNA):一类转录本长度超过200nt的RNA,它们本身并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平。哺乳动物基因组序列中,4%~9%的序列产生的转录本是lncRNA。人们对lncRNA的认识还处在初级阶段,lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而,有文献研究表明,lncRNA参与了X染色体沉默、基因组印记以及染色质修饰、转录激活、转录干扰、核内运输等多种重要的调控过程
- lncRNA分析软件
- CPAT: https://sourceforge.net/projects/rna-cpat/files/v2.0.0/
- 预测原理
- CPAT是一个无需比对的快速分类工具,可以从大量的候选转录本中快速的区分出编码和非编码转录本。
- 使用ORF长度、ORF覆盖度、Fickett TESTCOD统计量和核苷酸六联体使用频率偏向性等建立逻辑回归模型,来评估候选lncRNA的编码潜能
- CPAT在线版:http://lilab.research.bcm.edu/cpat/
- 第一步:输入文件
- 第二步:选择物种
- 第三步:获取结果
- 第一步:输入文件
- 本地安装:https://sourceforge.net/projects/rna-cpat/files/v1.2.4/
- 运行脚本
- python /local_data1/pipeline/Transcriptome/PB_Isoseq_noref_V2.0/lib/06.LncRNA/../../software/CPAT-1.2.4/bin/cpat.py \-g human.fa \-x /local_data1/pipeline/Transcriptome/PB_Isoseq_noref_V2.0/lib/06.LncRNA/../../software/CPAT-1.2.4/dat/Human_Hexamer.tsv \-d /local_data1/pipeline/Transcriptome/PB_Isoseq_noref_V2.0/lib/06.LncRNA/../../software/CPAT-1.2.4/dat/Human_logitModel.RData \-o human.CPAT.outawk '$6<=0.364 && $2>=200' human.CPAT.out > human.lncRNA
- 输出结果
- 运行脚本
- 预测原理
- 如何对几个软件的预测取并集?
- CPAT: https://sourceforge.net/projects/rna-cpat/files/v2.0.0/