高通量测序

医道无名

已于 2022-03-14 13:25:04 修改

阅读量4.3k

点赞数 5

文章标签： r语言健康医疗

于 2022-03-14 12:52:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54199212/article/details/123476009

版权

一、read、count数

reads：高通量测序产生的序列片段，将这些reads拼接起来就能获得基因组全序列，不同片段reads的量代表基因表达水平
Count：比对定量，将测得的短reads比对到参考基因组外显子上，通过算法计算能真正比对到基因组上的reads数量，得到粗略基因表达水平，因此count一定是个非负整数；包含三种算法：union ，intersection-strict ，intersection-nonempty

3、read、count数是基因差异分析软件(只能使用DESeq、edgeR包，可自动归一化)的输入值，也用于换算CPM、RPKM、FPRM等其他指标，差异分析、降维结果主要来自read、count

二、可变剪切：基因转录后先形成前体mRNA，通过剪切内含子连接外显子，5’加帽、3’加尾后形成成熟mRNA，剪切过程中可能会剪掉外显子，也可能保留部分内含子，因此同一个基因会产生不同的转录本。

三、测序深度（Sequencing Depth）：测序得到的碱基总量（bp）与基因组大小（Genome）的比值。假设一个基因组大小2M（2Mb=2000kb=2,000,000bp，200万个碱基对），测序深度为10X，那么获得的总数据量为20M，即被测基因组上单个碱基对被测序的平均次数。

测序的覆盖度（coverage）：测序获得的序列占整个基因组的比例，即对目的基因的覆盖程度。测序无法覆盖的区域称为Gap。

四、GC偏好：基因组上GC含量50%左右的区域更易被测到、覆盖度更高、产生的reads更多，高及低GC区不易被测到，产生的reads较少，这些区域的覆盖度更少。

五、Normalization归一化原因：测序偏差 bias

测序深度：某些低表达量的基因只有在较高的测序深度时才能检测到。一般而言，随着测序深度的增加，基因种类以及可变剪接体的数目也会增加。同时，测序深度高的样本read counts也会较高。
转录本长度：高通量测序是将cDNA碎片化产生fragments后再进行测序，越长的转录本，在测序中也会更加容易被检测到。

六、主要归一化方法及比较

RPKM→FPKM→TPM都用来表示基因的表达量。

3、DEseq2

4、EdgeR

七、丰度

1、基因丰度：基因组中该基因的拷贝数；基因丰度高即基数多，则此基因的表达量可能也会多，主要看该基因启动子的强弱，所以基因丰度高不代表表达丰度也高。

2、基因表达丰度：基因转录成mRNA的数量。表达丰度高则转录成的mRNA多，表达的蛋白也多，对表型的影响大。

3、丰度一般用来形容体细胞基因突变，比如癌症细胞突变基因丰度=突变基因/(突变基因+正常基因)，可用于指导临床诊疗

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
1
评论
高通量测序

高通量测序基本知识点摘要（待补充）
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

医道无名 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。