参考文章:
用RSeQC对比对后的转录组数据进行质控
高通量测序质控及可视化工具包RSeQC
RSeQC使用笔记
1. 质控的原因及相关软件
在A survey of best practices for RNA-seq data analysis里面,提到了人类基因组应该有70%~90%的比对率,并且多比对read(multi-mapping reads)数量要少。另外比对在外显子和所比对链(uniformity of read coverage on exons and the mapped strand)的覆盖度要保持一致。因此,可以对之前得到的BAM比对文件进行质检。
对BAM文件进行QC的软件包括:
Qualimap:对二代数据进行质控的综合软件
Picard:综合质控学习软件。
RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据。比如一些基本模块:检查序列质量、核酸组分偏性、PCR偏性、GC含量偏性,还有RNA-seq特异性模块:评估测序饱和度、映射读数分布、覆盖均匀性、链特异性、转录水平RNA完整性等。
2. RSeQC软件安装
参照文章:RNA-seq流程学习笔记(3)
查看Conda官网Index的RSeQC软件介绍,发现支持python3.6版本,因此直接使用Miniconda3安装, 安装完成后并没有RSeQC这个软件,而是增加了一些python命令,如下:
虽然该软件的使用命令非常多,但很多功能并不是用来诊断转录组测序的,所以不在我们的考虑范围内。
3.RSeQC处理4种文件格式:
- BED 格式:Tab 分割,12列的表示基因模型的纯文本文件。
- SAM 或BAM 格式: 用来存储reads比对结果信息,SAM是可读的纯文本文件,然而BAM是SAM的二进制文本,一个压缩的可索引的reads比对文件。
- 染色体大小文件: 只有两列的纯文本文件,在“生物信息学文本处理大杂烩(一)”里已经讲过。hg19.chrom_24.sizes是人基因组hg19版本的size文件,是使用UCSC 的fetchChromSizes下载的。
- Fasta文件。
我主要使用的是比对后得到的BAM格式文件。
4. RSeQC软件进行质控检测
1. 使用bam_stat.py命令查看比对的总体情况
#命令说明
Usage: bam_stat.py [options]
Summarizing mapping statistics of a BAM or SAM file.
Options:
--version show program's version number and exit
-h, --help show this help message and exit
-i INPUT_FILE, --input-file=INPUT_FILE
Alignment file in BAM or SAM format.
-q MAP_QUAL, --mapq=MAP_QUAL
Minimum mapping quality (phred scaled) to determine
"uniquely mapped" reads. default=30
#操作记录
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ bam_stat.py -i Scr.bam.sort
Load BAM file ... Done
#==================================================
#All numbers are READ count
#==================&#