一、基本原理
去除rRNA、tRNA等干扰,因此利用高等生物的mRNA都有Poly(A)尾巴这个特点,用带有Poly(T)探针的磁珠与总RNA进行杂交。然后Poly(T)探针就和带Poly(A)尾巴的mRNA结合在一起,接下来就回收磁珠,然后把这些带Poly(A)的mRNA从磁珠上洗脱下来。
第6步在cDNA两端加上A序列,再加上Y型序列,就成了标准的测序文库,这个标准的测序文库就可以拿到HiSeq测序仪上进行测序了。其中第4部得到的能够比对到基因上的片段就是一个read,一个基因能够产生多个mRNA;
一个mRNA能够产生多个read;
基因表达量越高,产生read的数量越多。
二、RPKM
分子是经对到某个基因的外显子的read数;
分母的第一项是这次所有比对到基因组上的read总数(M reads,MillionReads);
分母的第二项是这个特定基因的外显子的长度。
除read总数是为了求相对reads数;
除外显子的长度是因为如果一个基因的长显子越长,那么它所产生的mRNA就越长,那么mRNA越长呐,被打出来的小片段就越多。
我们来假设,一个A基因,它的mRNA的长度呐,假设它是1Kb,那么它的1Kb的mRNA可能被打成“5”个,200Bp左右的小片段;那么还有一个B基因,如果这个B基因的mRNA是2Kb长,那么,它同样被打成200Bp左右的小片段呐,它就会产生“10”个小片段。我们来看,A基因是5个小片段,而B基因是整整10个小片段,所以,B基因在测序过程当中,它被测到的概率就会比A基因整整大出去一倍。