目录
2. 突变计算与分析(Mutation Calling & Analysis)
1. 关键检测值(Variant Calling Metrics)
研究开端,老师一直强调“统计量”的重要性,但是奈何我没有上过统计课程,所以一直对老师说该特征的统计量是什么,深感疑惑,这几天逐渐明白,统计量就是为了发现这一突变特征,我们究竟是靠哪些参考数值,进而得到了不同的突变类型结果,今天总结一下基因突变的数值分析,我不是一名专业的生信学生,所以总结的内容不够专业,目的只能是对这些组学特征数据的生成检测过程有一个略具象化的处理。
基因突变数据的检测和计算主要涉及 DNA测序技术 和 生物信息学分析,大致可以分为 突变检测 和 突变分析 两个主要步骤。
1. 突变检测(Mutation Detection)
基因突变检测的核心是测序技术,用于获取基因组或外显子的碱基序列,并比对参考基因组以找到变异。
(1) 测序技术
不同的测序方法适用于不同的研究需求:
🔹 全基因组测序(WGS,Whole Genome Sequencing)
- 检测整个基因组,包括外显子、内含子、调控区、非编码区等。
- 适用于发现 结构变异(SV)、拷贝数变异(CNV)和单核苷酸变异(SNV)。
- 数据量大,成本高,主要用于全面基因分析。
🔹 全外显子测序(WES,Whole Exome Sequencing)
- 仅检测蛋白编码区(外显子),大约占全基因组的 1-2%,但包含 85%以上的致病突变。
- 适合寻找影响蛋白功能的突变,如癌症相关突变。
- 成本较低,数据量小,但无法检测非编码区变异。
🔹 靶向测序(Targeted Sequencing)
- 只检测特定基因或基因面板(如癌症相关基因)。
- 灵敏度高,适用于临床,但无法发现新突变。
(2) 突变类型
测序后,比对到参考基因组后,可以检测出不同类型的突变,包括:
突变类型 | 说明 | 例子 |
---|---|---|
单核苷酸变异(SNV,Single Nucleotide Variation) | 单个碱基发生突变 | A→G |
插入/缺失(Indel) | 小片段插入或缺失 | ATG→AT |
拷贝数变异(CNV,Copy Number Variation) | 染色体区域的片段增加或减少 | 额外的基因拷贝 |
结构变异(SV,Structural Variation) | 染色体大片段重排、易位、倒位 | 染色体断裂重组 |
2. 突变计算与分析(Mutation Calling & Analysis)
测序获得数据后,需要用生物信息学方法分析突变:
(1) 突变检测(Variant Calling)
检测基因突变的过程称为 突变检测(Variant Calling),主要流程如下:
1️⃣ 比对(Alignment):
- 将测序数据(FASTQ格式)比对到参考基因组,生成比对文件(BAM/CRAM格式)。
- 使用工具:BWA、Bowtie2(短序列)、Minimap2(长序列)等。
2️⃣ 突变调用(Variant Calling):
- 从比对数据中检测SNV、Indel、CNV等。
- 主要工具:
- GATK(HaplotypeCaller, Mutect2)(广泛用于癌症研究)
- VarScan(适用于低频突变)
- SAMtools(简单突变调用)
3️⃣ 突变注释(Variant Annotation):
- 突变本身没有意义,需要比对数据库,看它是否是已知突变,以及是否与疾病相关。
- 主要数据库:
- dbSNP(常见SNP变异数据库)
- ClinVar(临床相关突变数据库)
- COSMIC(癌症特异性突变数据库)
4️⃣ 功能分析(Functional Impact Analysis):
- 判断突变是否影响蛋白功能,如错义突变(Missense)、无义突变(Nonsense)、剪切位点突变等。
- 使用工具:SIFT、PolyPhen、MutationTaster。
(2) 突变筛选
检测出的突变很多,需要过滤出有意义的突变:
✅ 高质量突变(过滤测序错误)
✅ 致病突变(数据库对比 ClinVar, COSMIC)
✅ 肿瘤特异性突变(区分体细胞突变 vs 遗传突变)
3. 结果解读
最终,检测出的突变可以用于:
- 癌症基因突变研究(寻找驱动基因突变,如TP53、KRAS)
- 个体化医疗(根据突变情况选择靶向治疗)
- 遗传病研究(发现导致疾病的致病突变)
突变调用
根据以上流程我们可以发现,要想知道突变具体的数值分析,应展开突变调用(Variant Calling)部分:
在 突变调用(Variant Calling) 过程中,从比对数据(BAM/CRAM格式)中检测 SNV、Indel、CNV 时,需要依赖一系列的**检测值(统计指标)**来判定突变的类型和程度。这些值主要来自 突变调用工具(如 GATK、VarScan、SAMtools) 计算的突变置信度、频率、质量等信息。
1. 关键检测值(Variant Calling Metrics)
不同工具会输出不同的突变检测指标,但主要关注以下几个核心值:
(1) 质量相关(突变是否可靠)
指标 | 含义 | 获取方式 | 反映的问题 |
---|
QUAL | 突变的质量分数,表示变异被正确调用的置信度。通常以 Phred 质量评分表示。 | 在变异调用过程中,工具(如 GATK)计算每个突变的质量分数。 | QUAL越高,说明突变的可靠性越高。通常,QUAL≥30被视为可信的突变。 |
GQ (Genotype Quality) | 表示对给定基因型的置信度,主要用于评估变异的准确性。 | 在突变调用时,工具计算基因型的可信度。 | GQ值越高,表示基因型调用的准确性越高,一般GQ≥20被认为是可信的。 |
DP (Depth of Coverage) | 该位点支持的测序深度,即覆盖该碱基的读段数量。 | 通过比对生成的BAM文件中统计特定位置的读段数。 | DP过低(如<10)可能表示测序噪音,导致对突变的判断不准确。 |
MQ (Mapping Quality) | 比对的质量,反映该读段与参考基因组比对的一致性。 | 在比对过程中,测序工具会为每个读段计算比对质量分数。 | MQ越高,说明比对越可靠,通常MQ≥50被认为比较可靠。 |
(2) 变异类型判定(SNV / Indel / CNV)
变异频率和深度相关指标
指标 | 含义 | 获取方式 | 反映的问题 |
---|---|---|---|
Allele Frequency (AF) | 变异等位基因在样本中的频率,值为0到1。 | AF通常通过计算变异支持读段与总读段的比例来获得。 | AF越高,突变的频率越高。一般认为AF > 0.01是常见突变,AF < 0.01是罕见突变。 |
VAF (Variant Allele Frequency) | 变异等位基因在所有支持该位点的读段中所占的比例。 | 通过分析读取的AD(等位基因深度)值计算,VAF = (变异等位基因支持读段数)/(总支持读段数)。 | VAF帮助区分体细胞突变(低频)与生殖系突变(通常较高)。例如,VAF ≈ 50%可能表示杂合突变。 |
AD (Allele Depth) | 参考等位基因和变异等位基因各自的支持读段数。 | 在突变调用时,工具会记录支持每个等位基因的读段数。 | AD的比例与VAF密切相关,有助于判断突变的真实情况。 |
偏倚相关指标
指标 | 含义 | 获取方式 | 反映的问题 |
---|---|---|---|
FS (Fisher Strand Bias) | 用于评估正向和反向链的支持读段是否存在偏倚。 | 通过比较支持突变和未突变的读段数量来计算。 | FS值过高(如>60)表明可能存在测序错误或偏倚。 |
SOR (Symmetric Odds Ratio) | 另一种评估链偏倚的方法。 | 通过计算支持突变的正反向链的读段比例。 | SOR值>3通常指示链偏倚,可能导致错误的突变调用。 |
判定变异类型的关键指标
指标 | 含义 | 获取方式 | 反映的问题 |
---|---|---|---|
Log2 Ratio | 拷贝数变化的对数比值,反映变异区域的拷贝数相对正常样本的变化。 | 通过测序深度分析得到,通常在CNV分析中使用。 | Log2 Ratio > 0.58表示扩增,Log2 Ratio < -0.58表示缺失。 |
CN (Copy Number) | 变异区域的拷贝数,与正常拷贝数(通常为2)进行比较。 | 通过深度测序和比对分析获得。 | CN > 3 表示扩增,CN < 2 表示缺失,CN = 2 表示正常。 |
BAF (B-Allele Frequency) | B等位基因在所有支持读段中的比例,用于判断杂合突变和拷贝数变异。 | 通过对每个等位基因的支持读段数量计算。 | BAF偏离50%可能指示拷贝数变化或缺失。 |
2. 如何判定突变类型?
(1) SNV(单核苷酸变异)
- 变异等位基因的频率(AF) > 0.01 说明是高频SNV,否则可能是罕见突变。
- 质量值(QUAL > 30)、比对质量(MQ > 50)较高时,可信度高。
- VAF 用于区分 生殖系突变(VAF≈50% 或 100%) vs 体细胞突变(VAF < 30%)。
🔹 判定SNV的标准(GATK 变异过滤推荐):
- QUAL ≥ 30(突变质量较高)
- DP ≥ 10(至少10条读段支持)
- MQ ≥ 50(比对质量较高)
- FS ≤ 60(无明显链偏倚)
- SOR ≤ 3(无明显测序误差)
(2) Indel(插入缺失突变)
- Indel 比 SNV 更容易受 测序偏倚 影响,因此需要严格过滤。
- 质量值(QUAL > 30)仍然是基本判定标准。
- 使用 FS 和 SOR 评估链偏倚,FS > 200 的 Indel 可能是测序假阳性。
- 长 Indel(>10bp)比短 Indel 更容易引起功能改变,影响蛋白质翻译框架。
🔹 判定Indel的标准:
- QUAL ≥ 30
- DP ≥ 10
- FS ≤ 200
- SOR ≤ 3
(3) CNV(拷贝数变异)
CNV 需要计算拷贝数相对变化,主要使用深度信息和拷贝数比值进行判定。
指标 | 说明 | 作用 |
---|---|---|
Log2 Ratio | 变异区域的拷贝数比对正常样本的对数值 | Log2 Ratio > 0.58 说明扩增,< -0.58 说明缺失 |
CN(Copy Number) | 拷贝数(正常为2,CN=3或4说明扩增,CN=1说明缺失) | 判定基因扩增或缺失 |
BAF(B-Allele Frequency) | 计算杂合位点等位基因比例 | 用于判定杂合缺失 |
Z-score | 统计拷贝数变化的显著性 | Z-score > 2 说明显著扩增,<-2 说明显著缺失 |
🔹 判定CNV的标准:
- Log2 Ratio > 0.58(基因扩增)
- Log2 Ratio < -0.58(基因缺失)
- CN > 3(扩增)或 CN < 1.5(缺失)
- BAF 明显偏移(说明基因拷贝数变化)
3. 体细胞突变 vs 生殖系突变
- 生殖系突变(Germline Mutations):个体所有细胞中都会携带,VAF 典型值 ≈ 50% 或 100%。
- 体细胞突变(Somatic Mutations):仅在特定细胞群中发生,VAF 通常 < 30%。
🔹 判定方法:
- 生殖系突变:
- VAF ≈ 50%(杂合)或 ≈100%(纯合)
- 在正常样本和肿瘤样本中都能检测到
- 体细胞突变:
- VAF < 30%(通常在10%~30%之间)
- 仅在肿瘤样本中检测到
💡 GATK Mutect2 是体细胞突变检测的专用工具,可通过 paired tumor-normal 对比分析消除生殖系突变影响。
总结
1️⃣ SNV 判定
- 关键指标:QUAL、DP、AF、MQ、FS、SOR
- VAF ≈ 50% 是杂合生殖系突变,VAF < 30% 可能是体细胞突变
- 过滤标准:QUAL ≥ 30,DP ≥ 10,MQ ≥ 50,FS ≤ 60,SOR ≤ 3
2️⃣ Indel 判定
- 更容易受测序偏倚影响,FS ≤ 200,SOR ≤ 3
- 长 Indel 可能影响蛋白翻译框架
3️⃣ CNV 判定
- Log2 Ratio > 0.58(扩增),< -0.58(缺失)
- CN > 3(扩增),CN < 1.5(缺失)
4️⃣ 生殖系 vs 体细胞突变
- VAF ≈ 50% or 100% → 生殖系突变
- VAF < 30% → 体细胞突变