WES的CNV分析简介

最新推荐文章于 2024-05-25 08:21:35 发布

生信修炼手册

最新推荐文章于 2024-05-25 08:21:35 发布

阅读量7.5k

点赞数 1

本文链接：https://blog.csdn.net/weixin_43569478/article/details/108079624

版权

欢迎关注”生信修炼手册”!

基于全基因组数据来检测CNV是非常有效的一个手段，然而全基因组的成本还是挺高的。全外显子组在检测SNP方面已经比较成熟，考虑到外显子上的变异可能更具有致病性，科研人员也希望通过检测外显子上的CNV来实现一个高效，经济的CNV检测，很多的软件被开发用于WES的CNV分析。

CNV区域的长度可能横跨了多个外显子或者基因，断裂点位于外显子以外的位置，所以全基因组分析中Read-pair, split-read的策略无法应用到WES的CNV分析中，只能通过read-depth的策略来进行分析。

然而和全基因组不同，全外显子靶向捕获了基因组的外显子区域，考虑到GC含量，序列捕获等系统误差，其测序深度的分布和CNV之间的相关性更加复杂，建模衡量的难度更大，所以之前适用于WGS分析的CNV检测软件很多都不可以用于WES的分析。

为了有效减少系统误差的影响，提高CNV检测的准确率，很多WES的分析软件都会需要一个对照样本，将对照样本和测试样本进行比较来识别二者间差异的地方，从而回避系统误差带来的影响。同样的protocol意味着同样的系统误差，而二者直接还存在的差异就是由于样本本身的差异引起的了，这就是对照样本的作用。所以WES的CNV检测经典的用处就是检测体细胞CNV,即SCNA变异，提供配对的癌和癌旁样本来进行分析。

在以下文献中，详细列举了几种外显子CNV检测的软件

https://academic.oup.com/bib/article/16/3/380/245577

根据是否需要对照样本分成以下3大类

paired data, 需要配对的对照样本
pooled data, 不需要对照样本
paired and pooled data, 两种策略都可以

1. paired data

软件列表如下

ExomeCNV
Varscan2
Control-Freec
exome2cnv
PropSeg

2. pooled data

软件列表如下

condex
exomeCOPY
cn.mops
conifer
ExomeDepth
XHMM
ExoCNVTest
Excavator

3. paired and pooled data

软件列表如下

contar
ADTEx
FishingCNV

该文章发表于2014年，在之后又陆续发表了很多新工具，比如excavator, 2016年发表在Nucleic Acids Research上的文章介绍了excavator2进行CNV分析的强大之处，链接如下

https://academic.oup.com/nar/article/44/20/e154/2607979

不同工具算法模型都各不相同，各有优劣，在2014年发表的一篇文章对多个软件进行了评估，标题如下

在文章中，列举了很多CNV分析的软件，示意如下

最终选取了以下4款软件来进行评估

XHMM
CoNIFER
ExomeDepth
CONTRA

从以下多个方面进行了评估

1. CNV长度和分布

不同软件检测到的CNV长度分布不同，结果统计如下

CNV的长度可以从几十bp跨越到几Mb的范围，通常认为小于300bp和长度在6kb左右的CNV应该是数量最多的。WES的CNV检测工具都是基于read-depth算法，采用滑动窗口的方法，窗口越大，最终鉴定出来的CNV可信度越高，所以在检测小片段的CNV方面，能力较差。

从统计结果可以看出，Conifer没有鉴定出1kb以下的CNV, 因为这款软件要求CNV至少需要覆盖3个exon区域，XHMM和ExomeDepth则可以同时检测小片段和大片段的CNV, CONTRA检测出来的数量过多，是由于其校正read-depthh的算法过于敏感，所以鉴定出来的CNV过多，在检测小于1kb的小片段CNV时，比较适合。

不同软件鉴定到的CNV的数量和类型展示如下