关于基因突变检测中的统计量（用数据来判定类型）

猕猴tiao443

已于 2025-03-14 14:52:18 修改

阅读量1.2k

点赞数 28

分类专栏：生信文章标签：人工智能算法机器学习

于 2025-03-14 14:51:56 首次发布

本文链接：https://blog.csdn.net/weixin_56537291/article/details/146253711

版权

生信专栏收录该内容

1 篇文章

订阅专栏

1. 突变检测（Mutation Detection）

(1) 测序技术

(2) 突变类型

2. 突变计算与分析（Mutation Calling & Analysis）

(1) 突变检测（Variant Calling）

(2) 突变筛选

3. 结果解读

突变调用

1. 关键检测值（Variant Calling Metrics）

(1) 质量相关（突变是否可靠）

(2) 变异类型判定（SNV / Indel / CNV）

研究开端，老师一直强调“统计量”的重要性，但是奈何我没有上过统计课程，所以一直对老师说该特征的统计量是什么，深感疑惑，这几天逐渐明白，统计量就是为了发现这一突变特征，我们究竟是靠哪些参考数值，进而得到了不同的突变类型结果，今天总结一下基因突变的数值分析，我不是一名专业的生信学生，所以总结的内容不够专业，目的只能是对这些组学特征数据的生成检测过程有一个略具象化的处理。

基因突变数据的检测和计算主要涉及 DNA测序技术 和 生物信息学分析，大致可以分为 突变检测 和 突变分析 两个主要步骤。

1. 突变检测（Mutation Detection）

基因突变检测的核心是测序技术，用于获取基因组或外显子的碱基序列，并比对参考基因组以找到变异。

(1) 测序技术

不同的测序方法适用于不同的研究需求：

🔹 全基因组测序（WGS，Whole Genome Sequencing）

检测整个基因组，包括外显子、内含子、调控区、非编码区等。
适用于发现 结构变异（SV）、拷贝数变异（CNV）和单核苷酸变异（SNV）。
数据量大，成本高，主要用于全面基因分析。

🔹 全外显子测序（WES，Whole Exome Sequencing）

仅检测蛋白编码区（外显子），大约占全基因组的 1-2%，但包含 85%以上的致病突变。
适合寻找影响蛋白功能的突变，如癌症相关突变。
成本较低，数据量小，但无法检测非编码区变异。

🔹 靶向测序（Targeted Sequencing）

只检测特定基因或基因面板（如癌症相关基因）。
灵敏度高，适用于临床，但无法发现新突变。

(2) 突变类型

测序后，比对到参考基因组后，可以检测出不同类型的突变，包括：

突变类型	说明	例子
单核苷酸变异（SNV，Single Nucleotide Variation）	单个碱基发生突变	A→G
插入/缺失（Indel）	小片段插入或缺失	ATG→AT
拷贝数变异（CNV，Copy Number Variation）	染色体区域的片段增加或减少	额外的基因拷贝
结构变异（SV，Structural Variation）	染色体大片段重排、易位、倒位	染色体断裂重组

2. 突变计算与分析（Mutation Calling & Analysis）

测序获得数据后，需要用生物信息学方法分析突变：

(1) 突变检测（Variant Calling）

检测基因突变的过程称为 突变检测（Variant Calling），主要流程如下：

1️⃣ 比对（Alignment）：

将测序数据（FASTQ格式）比对到参考基因组，生成比对文件（BAM/CRAM格式）。
使用工具：BWA、Bowtie2（短序列）、Minimap2（长序列）等。

2️⃣ 突变调用（Variant Calling）：

从比对数据中检测SNV、Indel、CNV等。
主要工具：
- GATK（HaplotypeCaller, Mutect2）（广泛用于癌症研究）
- VarScan（适用于低频突变）
- SAMtools（简单突变调用）

3️⃣ 突变注释（Variant Annotation）：

突变本身没有意义，需要比对数据库，看它是否是已知突变，以及是否与疾病相关。
主要数据库：
- dbSNP（常见SNP变异数据库）
- ClinVar（临床相关突变数据库）
- COSMIC（癌症特异性突变数据库）

4️⃣ 功能分析（Functional Impact Analysis）：

判断突变是否影响蛋白功能，如错义突变（Missense）、无义突变（Nonsense）、剪切位点突变等。
使用工具：SIFT、PolyPhen、MutationTaster。

(2) 突变筛选

检测出的突变很多，需要过滤出有意义的突变：
✅ 高质量突变（过滤测序错误）
✅ 致病突变（数据库对比 ClinVar, COSMIC）
✅ 肿瘤特异性突变（区分体细胞突变 vs 遗传突变）

3. 结果解读

最终，检测出的突变可以用于：

癌症基因突变研究（寻找驱动基因突变，如TP53、KRAS）
个体化医疗（根据突变情况选择靶向治疗）
遗传病研究（发现导致疾病的致病突变）

突变调用

根据以上流程我们可以发现，要想知道突变具体的数值分析，应展开突变调用（Variant Calling）部分：

在 突变调用（Variant Calling） 过程中，从比对数据（BAM/CRAM格式）中检测 SNV、Indel、CNV 时，需要依赖一系列的**检测值（统计指标）**来判定突变的类型和程度。这些值主要来自 突变调用工具（如 GATK、VarScan、SAMtools） 计算的突变置信度、频率、质量等信息。

1. 关键检测值（Variant Calling Metrics）

不同工具会输出不同的突变检测指标，但主要关注以下几个核心值：

(1) 质量相关（突变是否可靠）

指标	含义	获取方式	反映的问题

QUAL

突变的质量分数，表示变异被正确调用的置信度。通常以 Phred 质量评分表示。

在变异调用过程中，工具（如 GATK）计算每个突变的质量分数。

QUAL越高，说明突变的可靠性越高。通常，QUAL≥30被视为可信的突变。

GQ (Genotype Quality)

表示对给定基因型的置信度，主要用于评估变异的准确性。

在突变调用时，工具计算基因型的可信度。

GQ值越高，表示基因型调用的准确性越高，一般GQ≥20被认为是可信的。

DP (Depth of Coverage)

该位点支持的测序深度，即覆盖该碱基的读段数量。

通过比对生成的BAM文件中统计特定位置的读段数。

DP过低（如<10）可能表示测序噪音，导致对突变的判断不准确。

MQ (Mapping Quality)

比对的质量，反映该读段与参考基因组比对的一致性。

在比对过程中，测序工具会为每个读段计算比对质量分数。

MQ越高，说明比对越可靠，通常MQ≥50被认为比较可靠。