WES的CNV分析简介

欢迎关注”生信修炼手册”!

基于全基因组数据来检测CNV是非常有效的一个手段,然而全基因组的成本还是挺高的。全外显子组在检测SNP方面已经比较成熟,考虑到外显子上的变异可能更具有致病性,科研人员也希望通过检测外显子上的CNV来实现一个高效,经济的CNV检测,很多的软件被开发用于WES的CNV分析。

CNV区域的长度可能横跨了多个外显子或者基因,断裂点位于外显子以外的位置,所以全基因组分析中Read-pair, split-read的策略无法应用到WES的CNV分析中,只能通过read-depth的策略来进行分析。

然而和全基因组不同,全外显子靶向捕获了基因组的外显子区域,考虑到GC含量,序列捕获等系统误差,其测序深度的分布和CNV之间的相关性更加复杂,建模衡量的难度更大,所以之前适用于WGS分析的CNV检测软件很多都不可以用于WES的分析。

为了有效减少系统误差的影响,提高CNV检测的准确率,很多WES的分析软件都会需要一个对照样本,将对照样本和测试样本进行比较来识别二者间差异的地方,从而回避系统误差带来的影响。同样的protocol意味着同样的系统误差,而二者直接还存在的差异就是由于样本本身的差异引起的了,这就是对照样本的作用。所以WES的CNV检测经典的用处就是检测体细胞CNV,即SCNA变异,提供配对的癌和癌旁样本来进行分析。

在以下文献中,详细列举了几种外显子CNV检测的软件

https://academic.oup.com/bib/article/16/3/380/245577

根据是否需要对照样本分成以下3大类

  1. paired data, 需要配对的对照样本

  2. pooled data, 不需要对照样本

  3. paired and pooled data, 两种策略都可以

1. paired data

软件列表如下

  1. ExomeCNV

  2. Varscan2

  3. Control-Freec

  4. exome2cnv

  5. PropSeg

2. pooled data

软件列表如下

  1. condex

  2. exomeCOPY

  3. cn.mops

  4. conifer

  5. ExomeDepth

  6. XHMM

  7. ExoCNVTest

  8. Excavator

3. paired and pooled data

软件列表如下

  1. contar

  2. ADTEx

  3. FishingCNV

该文章发表于2014年,在之后又陆续发表了很多新工具,比如excavator, 2016年发表在Nucleic Acids Research上的文章介绍了excavator2进行CNV分析的强大之处,链接如下

https://academic.oup.com/nar/article/44/20/e154/2607979

不同工具算法模型都各不相同,各有优劣,在2014年发表的一篇文章对多个软件进行了评估,标题如下

在文章中,列举了很多CNV分析的软件,示意如下

最终选取了以下4款软件来进行评估

  1. XHMM

  2. CoNIFER

  3. ExomeDepth

  4. CONTRA

从以下多个方面进行了评估

1. CNV长度和分布

不同软件检测到的CNV长度分布不同,结果统计如下

CNV的长度可以从几十bp跨越到几Mb的范围,通常认为小于300bp和长度在6kb左右的CNV应该是数量最多的。WES的CNV检测工具都是基于read-depth算法,采用滑动窗口的方法,窗口越大,最终鉴定出来的CNV可信度越高,所以在检测小片段的CNV方面,能力较差。

从统计结果可以看出,Conifer没有鉴定出1kb以下的CNV, 因为这款软件要求CNV至少需要覆盖3个exon区域,XHMM和ExomeDepth则可以同时检测小片段和大片段的CNV, CONTRA检测出来的数量过多,是由于其校正read-depthh的算法过于敏感,所以鉴定出来的CNV过多,在检测小于1kb的小片段CNV时,比较适合。

不同软件鉴定到的CNV的数量和类型展示如下

2. 和WGS的一致性

采用了cnvnator和ERDS两款软件对WGS数据进行CNV检测,然后和WES的结果进行一致性分析,以exon为单位进行评估,当一个exon 50%以上的区域落在CNV区域时进行计算,比较不同软件检测到的exon和WGS数据exon的overlap情况,结果如下

尽管都很低,但是很明显ExomeDepth overlap率最高,接下来是XHMM。

3. 和Common CNV的一致性

利用1000G项目中在人群中频率大于5%的cnvs作为common cnv, 采用上述的方法评估不同软件和common cnv的一致性,结果和WGS一致,也是ExomeDepth最高,XHMM次之。

4. Mendelian Error Rate评估

通常情况下denovo CNV的概率是非常低的,将denovo CNV作为Mendelian Error Rate的指标,对个体及其双亲同时进行CNV分析,评估denovo cnv的频率,结果如下

每个软件不符合孟德尔遗传的CNV比例都很高,conifer最高,而CONTRA最低。

5. deletion CNV的假阳性检测

对于deletion CNV而言,其染色体区域只剩下一份拷贝,在该区域内的SNV必然为纯合性的,所以将包含了杂合SNV的CNV区域作为假阳性的结果,考虑到SNP分型的准确率,将同时满足以下两个条件的缺失区域定义为假阳性的结果

  1. 包含了2个以上的杂合SNP

  2. 20%以上的SNP位点为杂合

拷贝数缺失的假阳性统计结果如下

6. 不同软件之间的一致性

基于exon水平来统计不同软件之间的一致性,结果如下所示

综合以上6个指标来看,没有哪个软件是全面优于其他软件的,在不同指标上,不同软件各有优劣。

在进行WES的CNV检测时,基于一款软件的结果很难兼顾灵敏度和特异性,最好的方法还是结合多款软件的结果进行判断。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 首先,我们需要用Python代码来实现WES生物信息分析的流程: 1. 从原始的WES数据中提取基因序列:import pandas as pd# Read in WES data data = pd.read_csv("wes_data.csv")# Extract gene sequences gene_seqs = data['gene_sequences']2. 用基因序列进行特征提取:# Extract features from gene sequences features = extract_features(gene_seqs)3. 对特征进行聚类分析:# Perform clustering on extracted features clusters = cluster(features)4. 对聚类结果进行可视化:# Visualize clustering results visualize(clusters) ### 回答2: 搭建一个 WES(全外显子组测序)生物信息分析流程主要包括以下几个步骤:数据预处理、比对、变异检测与注释。 1. 数据预处理: 在这一步骤中,需要对原始的 WES 测序数据进行质量控制和去除低质量的序列。可以使用软件如FastQC进行质量评估,然后使用Trimmomatic、Cutadapt等工具进行质量修剪和去除接头序列。 2. 比对: 将预处理后的测序数据与参考基因组进行比对。常用的比对工具有Bowtie2、BWA、STAR等。可以通过构建索引、对测序数据进行比对,得到比对结果的sam/bam文件。 3. 变异检测: 基于比对结果,进行变异检测。可以使用GATK、FreeBayes等工具进行单核苷酸变异(SNV)和小片段插入/缺失(indels)的检测。该过程需要考虑到测序数据的深度、去除假阳性突变等技术细节。 4. 注释: 对检测到的变异进行进一步的注释。常用的工具有VariantEffectPredictor(VEP)、ANNOVAR等。这些工具可以提供SNV和indels的功能注释,包括寻找变异的功能和表达对它们可能的影响。 下面给出一个简单的示例代码(使用Python和一些开源工具): ```python # 数据预处理 QualityControl(input_fastq, output_fastq) # 比对 alignment_tool = "bowtie2" # 比对工具 reference_genome = "hg38.fa" # 参考基因组 Alignment(input_fastq, alignment_tool, reference_genome, output_sam) # 变异检测 variant_caller = "GATK" # 变异检测工具 VariantCalling(output_sam, variant_caller, output_vcf) # 注释 annotation_tool = "VEP" # 注释工具 VEP_Annotation(output_vcf, annotation_tool, output_annotated_vcf) ``` 需要根据具体的需求和数据类型进行参数配置和工具选择,并且需要确保正确安装和配置相应的软件和依赖。以上示例仅供参考,实际过程中还需要考虑其他因素,如样本质量控制、批次效应等。 ### 回答3: 要搭建一个WES(全外显子测序)生物信息分析流程,可以采用以下步骤,并提供相应代码示例: 1. 数据质量控制(Quality Control, QC):使用FastQC对原始测序数据进行质量评估,检查测序质量、碱基分布、测序错误等。 ```bash fastqc input.fq.gz -o output_directory ``` 2. 数据预处理(Preprocessing):使用Trimmomatic去除低质量的测序数据和接头序列。 ```bash java -jar trimmomatic.jar PE -phred33 input_1.fq.gz input_2.fq.gz output_1.fq.gz output_2.fq.gz ILLUMINACLIP:adapters.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 ``` 3. 序列比对(Alignment):使用Burrows-Wheeler Aligner (BWA)对预处理后的测序数据进行比对。 ```bash bwa mem reference.fa input_1.fq.gz input_2.fq.gz > aligned.sam ``` 4. 去除PCR重复序列(PCR Duplicate Removal):使用Picard tools去除PCR产生的重复序列。 ```bash java -jar picard.jar MarkDuplicates I=aligned.sam O=deduplicated.bam M=deduplication_metrics.txt ``` 5. 变异位点检测(Variant Calling):使用GATK (Genome Analysis Toolkit)进行变异位点的检测。 ```bash java -jar gatk.jar HaplotypeCaller -R reference.fa -I deduplicated.bam -O variants.vcf ``` 6. 变异位点筛选(Variant Filtering):使用bcftools对变异位点进行过滤。 ```bash bcftools filter -i 'QUAL > 30' variants.vcf > filtered_variants.vcf ``` 以上是一个简单的WES生物信息分析流程的步骤和代码示例,实际分析流程可能还涉及到其他步骤和工具,具体根据研究目的和数据情况进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值