高通量测序

一、read、count数

  1. reads:高通量测序产生的序列片段,将这些reads拼接起来就能获得基因组全序列,不同片段reads的量代表基因表达水平
  2. Count:比对定量,将测得的短reads比对到参考基因组外显子上,通过算法计算能真正比对到基因组上的reads数量,得到粗略基因表达水平,因此count一定是个非负整数;包含三种算法:union  ,intersection-strict ,intersection-nonempty

 

    3、read、count数是基因差异分析软件(只能使用DESeq、edgeR包,可自动归一化)的输入值,也用于换算CPM、RPKM、FPRM等其他指标,差异分析、降维结果主要来自read、count 

 二、可变剪切:基因转录后先形成前体mRNA,通过剪切内含子连接外显子,5’加帽、3’加尾后形成成熟mRNA,剪切过程中可能会剪掉外显子,也可能保留部分内含子,因此同一个基因会产生不同的转录本。

三、测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值。假设一个基因组大小2M(2Mb=2000kb=2,000,000bp,200万个碱基对),测序深度为10X,那么获得的总数据量为20M,即被测基因组上单个碱基对被测序的平均次数。

      测序的覆盖度(coverage):测序获得的序列占整个基因组的比例,即对目的基因的覆盖程度。测序无法覆盖的区域称为Gap。

 

四、GC偏好:基因组上GC含量50%左右的区域更易被测到、覆盖度更高、产生的reads更多,高及低GC区不易被测到,产生的reads较少,这些区域的覆盖度更少。

 五、Normalization归一化原因:测序偏差 bias

  1. 测序深度:某些低表达量的基因只有在较高的测序深度时才能检测到。一般而言,随着测序深度的增加,基因种类以及可变剪接体的数目也会增加。同时,测序深度高的样本read counts也会较高。
  2. 转录本长度:高通量测序是将cDNA碎片化产生fragments后再进行测序,越长的转录本,在测序中也会更加容易被检测到。

 六、主要归一化方法及比较

  1. RPKM→FPKM→TPM都用来表示基因的表达量。
  2.  

     3、DEseq2

     4、EdgeR

 七、丰度

     1、基因丰度:基因组中该基因的拷贝数;基因丰度高即基数多,则此基因的表达量可能也会多,主要看该基因启动子的强弱,所以基因丰度高不代表表达丰度也高。

     2、基因表达丰度:基因转录成mRNA的数量。表达丰度高则转录成的mRNA多,表达的蛋白也多,对表型的影响大。

    3、丰度一般用来形容体细胞基因突变,比如癌症细胞突变基因丰度=突变基因/(突变基因+正常基因),可用于指导临床诊疗

  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医道无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值