NGS 测序深度和覆盖度—Depth、Coverage

前言

温故而知新,刚入门的时候没有好好记笔记,现在补上😑
公众号:猪猪的乌托邦

这是比较基本的两个概念:

  • 覆盖度(Coverage):测序获得的序列占整个基因组的比例。即基因组上至少被检测到一次的区域,占整个基因组的比例。一般为「百分比」

  • 深度(Depth):一般用1× 、2×、3×……表示。测序的得到的总碱基数与待测基因组大小的比值,即基因组中每个碱基被测到的平均次数,简而言之,测序的数据量比上参考基因组或者转录组的值。

PS:这两个概念在很多文章中的表述都不一样,具体要根据描述,是哪种概念

如图所示,两个概念在两个“维度”,描述了测序的情况(横向:覆盖度Coverage;纵向:深度Depth)
图片来源:https://www.youtube.com/watch?v=3oNCSRyHWO8
二者一定程度上决定了特定碱基位置发现的变异是否具有某种水平的可信度,如果有较高的深度和覆盖度,每个碱基被较多的Reads覆盖,因此碱基也有着较高的可信度。

对二者的要求因事而异:

测序方法推荐深度
全基因组测序(WGS)人类全基因组测序为30×~50×(具体取决于应用和统计模型)
全外显子组测序100 ×
RNA测序检测罕见表达基因时,需要更高覆盖度和深度。
ChIP-Seq100 ×

更多NGS的Depth和Coverage建议参考:https://genohub.com/recommended-sequencing-coverage-by-application/

假设基因组大小为N,每次测序都可以在基因组的任意位置随即检测一个碱基,那么对于基因组上的一个固定位置的碱基,在一次测序中,该碱基被测到的概率是P(P=1/N),其他部分的概率为1-P,该碱基对于深度的分布,就是检测到n次的概率,服从泊松分布,由于概率极低,检测次数极大,该分布又接近于正态分布。

一般使用直方图呈现整个数据集测序情况。直方图通过显示不同深度下Mapped Reads所覆盖的参考碱基数量来表明整体覆盖度分布.

在这里插入图片描述

理想情况下,该图形状应类似泊松分布并且标准偏差较小,如左图所示。该分布有效的前提是:Reads随机分布于整个基因组,并且整个测序运行期间对Reads间真实重叠的检测能力不变。但出于各种原因,实际覆盖度直方图可能会很宽(即深度区间宽)或呈非泊松分布,如欠佳测序覆盖度直方图示例(右图)所示。

评估NGS测序的常用指标

  • 四分位数间距(IQR):IQR是直方图中75与25百分位数之间的Depth差。该值用于衡量统计学变异性,可反映数据集范围内的不均一程度。在上述直方图示例中,左侧的直方图中IQR更低,表明其测序深度均一性优于右侧直方图。
  • 平均Mapped Reads深度,是各参考碱基位置上Mapped reads深度的总和除以参考中已知碱基的数量得到的值。表示特定参考碱基位置上可能匹配的平均Reads数。
  • 原始Read深度,该值是仪器所产生的序列数据总量(比对前)除以参考基因组大小得到的值。虽然测序仪器供应商通常会在性能参数中给出原始read深度,但该深度并未考虑到比对过程的效率。如果比对过程中有大部分原始测序Read剔除,则比对后得到的Mapped Reads深度会远小于原始Read深度。

二者的关系:

在这里插入图片描述

例子:

测序公司使用Illumina PE150的测序平台,双端测序技术,生成150 bp的reads,单端Reads数目为3300000,测序的基因组大小为760 Mb,那么:(1G=1024Mb;1Mb=1024kb;1kb=1000bp)

  • D e p t h = 150 × 2 × 3300000 760 × 1024 × 1000 = 0.127 Depth = \frac{150 × 2 × 3300000}{760×1024×1000} = 0.127 Depth=760×1024×1000150×2×3300000=0.127

如果测1G的数据量,那么:

  • D e p t h = 1 × 1024 × 1024 × 1000 760 × 1024 × 1000 = 1.347 Depth = \frac{1×1024×1024×1000}{760×1024×1000} = 1.347 Depth=760×1024×10001×1024×1024×1000=1.347

使用bamdst计算覆盖度

安装
cd ~/tools && git clone https://github.com/shiquan/bamdst.git && cd bamdst
make
./bamdst -h

在这里插入图片描述

使用

#需要一个bed文件
cat test.bed 
# chr01  2983  10815
mkdir ~/t
./bamdst -p test.bed -o ~/t test.bam
#输出:
ls ~/t
#chromosomes.report  depth_distribution.plot  insertsize.plot  uncover.bed
#coverage.report     depth.tsv.gz             region.tsv.gz
cat ~/t/chromosomes.report
#Chromosome     DATA(%)   Avg depth      Median   Coverage%    Cov 4x %   Cov 10x %   Cov 30x %  Cov 100x %
#      chr01    100.00      4.23        3.0     95.77     44.34      6.83      0.00      0.00
参考:
  1. https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/coverage.html
  2. https://www.youtube.com/watch?v=3oNCSRyHWO8
  3. https://genohub.com/recommended-sequencing-coverage-by-application/
  4. https://www.jieandze1314.com/post/cnposts/239/
  5. http://www.im.cas.cn/kytjpt/jsjl/201412/P020141208537486451133.pdf
  • 20
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值