遗传学的中心法则中,基因的转录调控是一个非常复杂的生物学过程,许多基因和调控因子参与其中,通过复杂的基因调控网络发挥特定的生物学功能。随着高通量测序技术的发展,通过生物信息学手段进行分析,有利的推动了基因转录及其调控活动的研究。
目前认为,遗传信息通过信使RNA(mRNA)从DNA传递到蛋白质。mRNA发挥生物信息传递桥梁的作用。狭义上,转录组指的是特定条件下基因组转录出来的所有mRNA的总和,广义上,指的是细胞某一状态下转录出来所有RNA的总和,主要包括mRNA和非编码RNA(non-coding RNA, ncRNA)。针对转录组数据的常规分析流程主要包括测序数据的比对和拼接、基因表达定量分析,后续下游也可以进行数据可视化、差异表达基因的功能分析、基因可变剪切和基因簇分析等。
1、转录组的序列比对和拼接
比对:从测序公司获得转录组测序数据之后,可以根据有无参考基因组进行不同的分析。如果已有参考基因组,将RNA-seq数据直接比对到参考基因组上,在进行拼接;对于没有参考基因组的转录组数据,则需要直接从头拼接转录本。目前比较流行的RNA-seq读序比对软件有:Bowtie/Cufflinks/HISAT/TopHat/StringTie/RUM/MapSplice等。值得注意的是真核生物的成熟mRNA是经过剪切去除内含子区域的,并且存在可变剪切的现象,所以RNA-seq序列比对到基因组上时会出现空位,在应用不同的RNA-seq和基因组重测序数据比对软件时需要注意。
拼接:目前常用Cufflinks/StringTie对有参转录组数据进行拼接,而对于无参转录组数据首先需要通过具有重叠区域的读序进行拼接,得到较短的contig,然后将读序比对到contig上,进一步将contig拼接成sc