RNAseq数据评估
-
主要包括测序饱和度和测序随机性两个指标
-
横坐标是读段数量,纵坐标是检测到表达基因的数量;对于下图,如果只以150万条reads做检测,结果是基因表达了4200个,而还有100个表达基因检测不到却被说没表达,得到的结论不准确。
序列比对FAQ
- 测序数据量
- 测序不饱和的影响
- 可以比对到基因组,比对不到基因集
- 基因集是指具有遗传特性的基因编码的集合,
- 基因比对率低会有什么影响
- unspliced比对方法可能会造成发生可变剪接的读段匹配不到参考基因组上。
基因表达量的计算
- 根据基因是否被reads覆盖到来推测该基因是否发生了表达。
- 覆盖度相同,长度不同的基因。长度更长的基因表达量更高
- 相同的基因长度,测序深度不同,表达量也不同
- 基因表达量的计算公式RPKM,通餐只适合原核生物,而不适合真核生物。主要由于真核的可变剪接
- RPKM不适合发生可变剪接的数据
- FPKM计算公式,F表示fragment,计算的是片段。RPKM的R是reads。
计算基因表达量软件
rpkm计算(rpkmgorgenes.py)
- 统计落在每个基因上的reads数目,测序乘数、基因长度
- rpkmforgenes.py可选参数说明