资料总结分享:VCF文件

目录

一 vcf 文件详解

1.1 主要字段

1.2 INFO 中的常见信息

1.3 FORMAT 和 SAMPLEs 中的信息

二 VCF格式的记录模式

1.SNP (Single Nucleotide Polymorphism):

Insertion (INS): 插入变异。这种变异类型涉及在参考基因组中插入一个或多个核苷酸。

Deletion (DEL): 缺失变异。这种变异类型涉及在参考基因组中删除一个或多个核苷酸。

Substitution (SUB): 替换变异。这种变异类型涉及替换一个或多个核苷酸,不一定是单核苷酸替换。

三 举例说明


VCF文件指的是Variant Call Format,即变异调用格式。它是一种常用的文本文件格式,用于描述基因组中的变异信息,如单核苷酸多态性(SNP)、插入缺失(Indels)等。

VCF文件通常包含以下信息:

  1. 染色体编号和位置:描述变异发生的染色体位置。
  2. 变异类型:如SNP、Indels等。
  3. 变异等位基因:描述参考基因组与变异基因组的差异。
  4. 质量分数:描述变异的可信度或置信水平。
  5. 过滤器信息:描述对变异进行过滤的方法和结果。
  6. 注释信息:包括变异对基因功能的影响等详细信息。
  7. 样本信息:描述样本中变异的基因型信息。

一 vcf 文件详解

VCF文件格式是一种基于文本的格式,通常以扩展名“.vcf”或“.vcf.gz”结尾。以下是VCF文件的基本结构:

  1. 文件头(Header): 文件头以“##”开头,包含元信息和描述性信息,如文件版本、参考序列信息、字段定义等。

  2. 列标题(Column Header): 列标题行以“#”开头,包含各列的标签,通常包括:

    • CHROM: 变异所在染色体编号
    • POS: 变异位置
    • ID: 变异标识符
    • REF: 参考基因组序列
    • ALT: 变异后的基因组序列
    • QUAL: 变异的质量分数
    • FILTER: 变异的过滤器信息
    • INFO: 变异的额外信息,以键值对的形式表示
    • FORMAT: 描述样本数据的格式
  3. 数据行(Data Rows): 每一行表示一个变异,以对应的染色体、位置和变异信息填充相应的列。通常后面跟着样本数据,描述每个样本的基因型信息。

1.1 主要字段

字段描述举例
CHROM染色体号,注意不需要前缀 chr1
POS变异位点,对于 INDEL,为 INDEL 的第一个碱基位点10616
IDdbSNP 的编号,.为置空rs376342519
REF参考基因组的碱基,也就是等位基因CCGCCGTTGCAAAGGCGCGCCG
ALT检测样本的碱基,同一位置有多个则以,分隔C
QUALPhred 的质量值,表示改位点存在变异的可能性。 分数越高则认为越可靠,但同时需要考虑测序深度,覆盖度等因素。.代表置空,不代表质量值为 0。100
FILTER过滤标志,如果为 PASS则认为是一个变异PASS
INFO详细信息,用 key=value的格式来表示。key 一般是简写,具体描述在文件开头的 header lines 中显示。AC=4973;AF=0.993011;AN=5008;VT=INDEL
FORMAT可选,变异位点格式,包括 GT,AD,DP,GQ,PL/ GT,AD,DP,GQ,PGT,PID,PL,PSGT:DP:GQ:PL
SAMPLEs可选,各个样本的值,来自 BAM 文件 @RG 的 SM 标签。一般每个样本对应一列,因此该文件会超过十列。每个样本会与 FORMAT 列的格式一一对应,不同格式用 :分隔0/1:50:99:0,20,200

1.2 INFO 中的常见信息

字段全称描述举例
AAAncestral Allele一个群体或物种的共同祖先中存在的该等位基因AA=A
ACAllele Count该变异的等位基因(ALT列)在样本集合中出现的次数。如果有多个 ALT,使用 ,分隔AC=4973
AFAlternate Allele Frequency该变异在样本集合中的频率。对于 1000 Genomes 来说,EAS_AF,AMR_AF,AFR_AF,EUR_AF, SAS_AF 分别表示东亚,美洲,非洲,欧洲,南亚人群的等位基因频率AF=0.993011
ANAllele Number该变异的等位基因总数。以二倍体生物为例,如果样本为杂合子(基因型 0/1),AN 值为 1,表示改位点只有一个等位基因发生突变。如果样本为纯合子(基因型 1/1),AN 值为 2AN=5008
DPRead Depth该变异位点测序深度,也就是改位点 reads 覆盖度DP=2365
MQMapping Quality该变异比对时,reads 的平均质量MQ=100
QDQuality by Depth该变异质量分数(QUAL)与测序深度(DP)的比值。用于评估改位点的质量。QD=0.12
VTVariant Type变异类型,一般包括 SNP,MNP,INDEL,SV 等VT=INDEL

MAF(minor allele frequency)次要等位基因频率,这个测量可以用来粗略地了解给定人群中给定SNP的基因型变异,换句话说,它告诉你这个SNP有多普遍。

EAF(effect allele frequency)效应等位基因频率,它本质上是等位基因,其与疾病的关系正在被研究。因此,效应等位基因总是次要等位基因。

1.3 FORMAT 和 SAMPLEs 中的信息

字段全称描述
GTGenotype表示基因型。对于二倍体样本,用两个数字中间以 /或 |分隔。0表示 REF 的等位基因,1表示 ALT 的等位基因,2表示有第二个 ALT 的等位基因。 1/1表示纯合子,0/1表示杂合子,有两个基因型。
ADAllele Depth样本中等位基因的 reads 覆盖度。对于二倍体,1000,1100用逗号分隔,前者是 REF,后者是 ALT
DPRead Depth该位点 reads 覆盖度
GQGenotype Quality基因型的质量值,表示该基因型的可能性,值越高,可能性越大。计算:Phred 值=-10log10(P),p为基因型错误的概率
PLProvieds the Likelihoods of the given genotypes三种基因型的质量值,即0/0,0/1,1/1,三种基因型的概率总和为1。值越小表示是该基因型的概率越大。同样是计算 Phred 值,但是 p 为基因型存在的概率。
PGTPhased Genotype只出现在进行过相分离的样本中。表示相分离后的基因型,两个数字间使用 |表示二倍体样本的基因型
PIDPhase ID描述基因型相位的标识符。
PSPhase Set描述同一样本中基因型相位的信息。

相位化(phasing)是确定某个个体在某个基因位点所携带的等位基因来自哪个亲本的过程。

GT 字段中的 /表示基因型未相位化,表示我们不确定哪个等位基因来自父亲或母亲。

GT 字段中的 |表示基因型相位化,也就是说可以确定等位基因的来源亲本。

二 VCF格式的记录模式

VCF文件中的记录模式主要有以下几种:

1.SNP (Single Nucleotide Polymorphism):

单核苷酸多态性。这种变异类型是基因组中最常见的变异类型之一,通常涉及单个核苷酸的替换(例如,A变为C)。

示例:

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
        chr1 1001 rs123 A G 100 PASS AF=0.2 GT:DP 0/1:10

这行文本是一个VCF文件中的一条记录,每一列表示不同的字段:

#CHROM: 染色体名称,这里是"chr1",表示变异发生在染色体1上。

POS: 变异发生的位置,这里是1001,表示变异发生在染色体1的位置1001处。

ID: 变异的唯一标识符,这里是"rs123",通常用于标识已知的变异。

REF: 参考基因组中的碱基序列,这里是"A",表示原始的参考碱基。

ALT: 变异后的碱基序列,这里是"G",表示发生了从参考碱基到新碱基的替换。

QUAL: 变异的质量评分,这里是100,表示变异的质量较高。

FILTER: 过滤器结果,这里是"PASS",表示变异通过了预设的过滤条件。

INFO: 提供有关变异的其他信息,这里是"AF=0.2",表示该变异等位基因频率为0.2。

FORMAT: 描述了下一列中样本基因型的格式,这里是"GT:DP",表示基因型信息包括基因型和深度。

Sample: 具体的样本基因型数据,这里是"0/1:10",表示该样本的基因型为杂合(0/1)且深度为10。

因此,这条记录描述了染色体1上位置1001处的变异,从参考碱基"A"变异为新碱基"G",其等位基因频率为0.2,质量评分为100,并且通过了过滤条件。样本的基因型为杂合(一个参考碱基和一个替代碱基),且深度为10。

  1. Insertion (INS): 插入变异。这种变异类型涉及在参考基因组中插入一个或多个核苷酸。

    示例:

    #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
    1. chr1 2001 . T TC 50 PASS AF=0.8 GT:DP 1/1:15

#CHROM: 染色体名称,这里是"chr1",表示变异发生在染色体1上。

POS: 变异发生的位置,这里是2001,表示变异发生在染色体1的位置2001处。

ID: 变异的唯一标识符,这里是".",表示该变异没有特定的ID。

REF: 参考基因组中的碱基序列,这里是"T",表示原始的参考碱基。

ALT: 变异后的碱基序列,这里是"TC",表示发生了从参考碱基到新碱基的插入。

QUAL: 变异的质量评分,这里是50,表示变异的质量较低。

FILTER: 过滤器结果,这里是"PASS",表示变异通过了预设的过滤条件。

INFO: 提供有关变异的其他信息,这里是"AF=0.8",表示该变异等位基因频率为0.8。

FORMAT: 描述了下一列中样本基因型的格式,这里是"GT:DP",表示基因型信息包括基因型和深度。

Sample: 具体的样本基因型数据,这里是"1/1:15",表示该样本的基因型为纯合子(两个相同的替代碱基),且深度为15。

因此,这条记录描述了染色体1上位置2001处的变异,从参考碱基"T"发生了插入,变异后的序列为"TC",其等位基因频率为0.8,质量评分为50,并且通过了过滤条件。样本的基因型为纯合子(两个相同的替代碱基),且深度为15。

  1. Deletion (DEL): 缺失变异。这种变异类型涉及在参考基因组中删除一个或多个核苷酸。

    示例:

    #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
    1. chr1 3001 . AG A 70 PASS AF=0.5 GT:DP 0/0:20

#CHROM: 染色体名称,这里是"chr1",表示变异发生在染色体1上。

POS: 变异发生的位置,这里是3001,表示变异发生在染色体1的位置3001处。

ID: 变异的唯一标识符,这里是".",表示该变异没有特定的ID。

REF: 参考基因组中的碱基序列,这里是"AG",表示原始的参考碱基。

ALT: 变异后的碱基序列,这里是"A",表示发生了从参考碱基到新碱基的删除。

QUAL: 变异的质量评分,这里是70,表示变异的质量较高。

FILTER: 过滤器结果,这里是"PASS",表示变异通过了预设的过滤条件。

INFO: 提供有关变异的其他信息,这里是"AF=0.5",表示该变异等位基因频率为0.5。

FORMAT: 描述了下一列中样本基因型的格式,这里是"GT:DP",表示基因型信息包括基因型和深度。

Sample: 具体的样本基因型数据,这里是"0/0:20",表示该样本的基因型为纯合子(两个相同的参考碱基),且深度为20。

因此,这条记录描述了染色体1上位置3001处的变异,发生了从参考碱基"AG"到新碱基"A"的删除,其等位基因频率为0.5,质量评分为70,并且通过了过滤条件。样本的基因型为纯合子(两个相同的参考碱基),且深度为20。

  1. Substitution (SUB): 替换变异。这种变异类型涉及替换一个或多个核苷酸,不一定是单核苷酸替换。

    示例:

    #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
    1. chr1 4001 . CAGT CTGA 90 PASS AF=0.3 GT:DP 0/1:18 

#CHROM: 染色体名称,这里是"chr1",表示变异发生在染色体1上。

POS: 变异发生的位置,这里是4001,表示变异发生在染色体1的位置4001处。

ID: 变异的唯一标识符,这里是".",表示该变异没有特定的ID。

REF: 参考基因组中的碱基序列,这里是"CAGT",表示原始的参考碱基。

ALT: 变异后的碱基序列,这里是"CTGA",表示发生了从参考碱基到新碱基的替换。

QUAL: 变异的质量评分,这里是90,表示变异的质量较高。

FILTER: 过滤器结果,这里是"PASS",表示变异通过了预设的过滤条件。

INFO: 提供有关变异的其他信息,这里是"AF=0.3",表示该变异等位基因频率为0.3。

FORMAT: 描述了下一列中样本基因型的格式,这里是"GT:DP",表示基因型信息包括基因型和深度。

Sample: 具体的样本基因型数据,这里是"0/1:18",表示该样本的基因型为杂合子(一个参考碱基和一个替代碱基),且深度为18。

因此,这条记录描述了染色体1上位置4001处的变异,从参考碱基"CAGT"发生了替换,变异后的序列为"CTGA",其等位基因频率为0.3,质量评分为90,并且通过了过滤条件。样本的基因型为杂合子(一个参考碱基和一个替代碱基),且深度为18。

  1. Complex (COMPLEX): 复合变异。这种变异类型涉及复杂的序列改变,可能包括插入、删除和替换。

    示例:

    #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
    1. chr1 5001 . A ACCG 80 PASS AF=0.4 GT:DP 1/1:25

#CHROM: 染色体名称,这里是"chr1",表示变异发生在染色体1上。

POS: 变异发生的位置,这里是5001,表示变异发生在染色体1的位置5001处。

ID: 变异的唯一标识符,这里是".",表示该变异没有特定的ID。

REF: 参考基因组中的碱基序列,这里是"A",表示原始的参考碱基。

ALT: 变异后的碱基序列,这里是"ACCG",表示发生了从参考碱基到新碱基的插入。

QUAL: 变异的质量评分,这里是80,表示变异的质量较高。

FILTER: 过滤器结果,这里是"PASS",表示变异通过了预设的过滤条件。

INFO: 提供有关变异的其他信息,这里是"AF=0.4",表示该变异等位基因频率为0.4。

FORMAT: 描述了下一列中样本基因型的格式,这里是"GT:DP",表示基因型信息包括基因型和深度。

Sample: 具体的样本基因型数据,这里是"1/1:25",表示该样本的基因型为纯合子(两个相同的替代碱基),且深度为25。

因此,这条记录描述了染色体1上位置5001处的变异,从参考碱基"A"发生了插入,变异后的序列为"ACCG",其等位基因频率为0.4,质量评分为80,并且通过了过滤条件。样本的基因型为纯合子(两个相同的替代碱基),且深度为25。

三 举例说明

这一行来自文章开始的数据

1   10616   rs376342519 CCGCCGTTGCAAAGGCGCGCCG  C   100 PASS    AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL

1: 染色体名称,这里是"1",表示变异发生在染色体1上。

10616: 变异发生的位置,这里是10616,表示变异发生在染色体1的位置10616处。

rs376342519: 变异的唯一标识符,这里是"rs376342519",表示该变异在数据库中的标识号。

CCGCCGTTGCAAAGGCGCGCCG: 参考基因组中的碱基序列,这是"CCGCCGTTGCAAAGGCGCGCCG",表示原始的参考碱基。

C: 变异后的碱基序列,这里是"C",表示发生了从参考碱基到新碱基的删除。

100: 变异的质量评分,这里是100,表示变异的质量较高。

PASS: 过滤器结果,这里是"PASS",表示变异通过了预设的过滤条件。

AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL: 提供有关变异的其他信息,这是一系列键值对,包括:

AC: 变异等位基因的数量为4973。AF: 变异等位基因频率为0.993011。AN: 样本中总的等位基因数为5008。NS: 样本的数量为2504。DP: 样本的深度为2365。EAS_AF: 东亚人群中的等位基因频率为0.9911。AMR_AF: 美洲人群中的等位基因频率为0.9957。AFR_AF: 非洲人群中的等位基因频率为0.9894。EUR_AF: 欧洲人群中的等位基因频率为0.994。SAS_AF: 南亚人群中的等位基因频率为0.9969。VT: 变异类型为INDEL,表示插入或删除。

综合来看,这行记录表明在第1号染色体上有一个非常常见的INDEL变异,在不同人群中频率都非常高,几乎接近于固定。也就是说,这个变异在样本集合中广泛存在。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值