统计Mapped Reads在基因组的CDS(Exon)、Intron、Intergenic等区域的分布,用于检测测序序列在基因组上的来源,正常情况下,Exon(外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron(内含子)区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能为基因组注释不完全以及背景噪音。
统计各样本Reads在基因组上的密度分布,以及该样本表达的基因在基因组上的密度分布,用于检测染色体上测序序列分布的异常情况。
基因饱和度分析:
检测文库的基因饱和度,即对样本所有基因而言,随着测序数据量的增加,表达的基因数的变化情况。随机抽取10%、20%、30%…100%的测序数据,分别统计表达的基因数。该分析反映了基因表达水平定量对数据量的要求,表达量高的基因,就越容易被准确定量,反之,表达量低的基因,需要较大的测序数据量才能被准确定量。转录组测序根据不同物种转录组的大小,测序数据量从4Gb到8Gb不等。
测序均一度分析:
分析Reads在基因5’~ 3’区域分布情况,根据转录组建库实验的特点,转录本其产生的测序序列(reads)实际覆盖度的分布是距离转录本的5’端和3’端越近,平均测序深度越低,但总体的均一化程度比较高。因此利用总体均一度来评估文库质量,均一度越高文库质量越好,反之,越差。
基因表达及注释:
一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度程度越高,则基因表达水平越高。
差异表达基因热图:
分析软件:R、heatmap.2
差异基因热图分析,又称差异基因聚类分析,用于判断不同实验条件下调控模式的聚类模式,比较不同实验组合之间RPKM的差异。以不同的实验条件之间的差异基因的RPKM作为输入,用层次聚类(hierarchicalclustering)或者K均值(K-means)等方法对不同表达调控模式进行分类,不同的颜色的区域代表不同的聚类分组信息,同组内的基因表达调控模式类似,可能参与到相同的生物学过程中。由于通常情况下,差异表达基因较多,导致画出热图无法标出基因名字,因此建议用客户感兴趣差异基因进行热图分析。
上图为整体层次聚类图,以log10RPKM值进行聚类,红色表示高表达基因,绿色表示低表达基因。x轴表示不同样本,y轴表示基因名字。左上角的color key,将log10RPKM标准化到(-2,2)范围内。