RNAseq数据分析第9-10课

RNAseq数据评估

  • 主要包括测序饱和度和测序随机性两个指标

  • 横坐标是读段数量,纵坐标是检测到表达基因的数量;对于下图,如果只以150万条reads做检测,结果是基因表达了4200个,而还有100个表达基因检测不到却被说没表达,得到的结论不准确。
    001
    002

序列比对FAQ

  • 测序数据量
    003
  • 测序不饱和的影响
    005
  • 可以比对到基因组,比对不到基因集
  • 基因集是指具有遗传特性的基因编码的集合,
    006
  • 基因比对率低会有什么影响
    007
  • unspliced比对方法可能会造成发生可变剪接的读段匹配不到参考基因组上。
    008

基因表达量的计算

  • 根据基因是否被reads覆盖到来推测该基因是否发生了表达。
    009
  • 覆盖度相同,长度不同的基因。长度更长的基因表达量更高
    010
  • 相同的基因长度,测序深度不同,表达量也不同
    在这里插11入图片描述
  • 基因表达量的计算公式RPKM,通餐只适合原核生物,而不适合真核生物。主要由于真核的可变剪接
    在这里插123入图片描述
  • RPKM不适合发生可变剪接的数据
    456
  • FPKM计算公式,F表示fragment,计算的是片段。RPKM的R是reads。
    789

计算基因表达量软件

rpkm计算(rpkmgorgenes.py)

  1. 统计落在每个基因上的reads数目,测序乘数、基因长度
  2. rpkmforgenes.py可选参数说明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值