NGS测序的二三事
常见误区
在测序时,我们需要将DNA打断成fragment,构建library。这些fragment需要接上adaptor再扩增。illumina测序分为两种:single end 和 paired end。insertion 不是指R1 和 R2之间的unknown gap,而是adaptor间的序列。
而unknown gap被称为inner mate。我们不希望有很多的inner mate,所以需要制造短的fragment。目前的测序水平已经可以达到测通,这样合并R1 和 R2即可得到完整的fragment。虽然adaptor不会被测序,但如果fragment太短,被读通了,则另一端的adaptor会被测到。
一些计算
paired end测序数据量的计算:150(PE每条read150bp)x 2 x read数 = 数据量(每条lane120G)
测序深度:数据量大小/参考基因组大小。一个基因大小为2M,深度10X,则总数据量为20M。
覆盖度:测序获得序列站基因组比例。如覆盖度为99%,则1%为unknown gap。
ps:1个碱基=1bp,1kb=1024bp
duplication reads
duplicated reads是PCR对同一分子多次镜像复制的结果(起始,终止和其中的碱基都相同)。
duplication rate = 1- unique reads / total reads
无论有多少条,理论上都只有一条用于组装。
清洗数据后RPM的计算
RPM = total exon reads(某样本mapping到特定基因exon上所有reads )/ mapped reads (某样本所有reads总和) (单位:million)
计算RPM的原因:直接用counts是有偏的,不同样本库大小,即总reads数是不同的。