VCF文件数据记录格式

--------VCF文件的查看--------

VCF(Variant Call Format)文件是存储变体数据的新兴标准。它最初是为单核苷酸多态性(SNPs)和短插入/缺失(INDELs)设计的,但也适用于结构变异。

VCF由 头部区域 和 数据区域 组成。

# 查看压缩的VCF文件的前几行
zcat vcf.gz | head -n 20

# 由于包含有注释部分和主体部分,可以去除注释部分,再看主体部分
zcat vcf.gz | grep -v "^#" | head -n 15

--------VCF文件的头部区域--------

头部必须包含一行以 '#' 开头的内容,显示对每个字段的名称和描述(如图1)。对于提取的SNP文件,头部区域还提供了参考基因组中各个染色体(或 contig,即连续序列)的信息,告知每个染色体或序列片段的名称和大小,便于理解文件中变体的位置和分布。此外,其中还记录了该文件执行的历史命令。

图1   SNP的VCF文件头部区域(未截全)

  1. ##fileformat=VCFv4.2: 这行指定了VCF文件的版本,这里是版本4.2。

  2. ##FILTER: 这些行定义了过滤信息的标签和描述。

  3. ##ALT: 定义了替代等位基因的标签和描述。ID=NON_REF 表示代表这个位置上可能的任何替代等位基因。

  4. ##FORMAT: 这些行定义了样本基因型数据的格式。


--------VCF文件的数据区域--------

数据区域通常以 #CHROM 开头,表示接下来的行将包含实际的变体数据,以制表符分隔,一个变异记录即为一行,每行至少包含8个强制性字段(如图2),其中FORMAT字段和样本信息可以省略。前9列显示内容分别如下,从第10列开始显示样本编号。

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT

  1. #CHROM (Chromosome): 这个列标题表明接下来的列包含的是关于染色体的信息。在实际的数据行中,这里会记录变体所在的染色体名称。

  2. POS (Position): 表示变体在染色体上的位置(1-based,即从1开始计数)。

  3. ID: 用来记录变体的标识符,可以是RS号(Reference SNP identifier),或者如果是新的或未被记录的变体,可能使用"."来表示。

  4. REF (Reference Allele): 表示参考基因组中的等位基因,即与变体位置相比未发生变异的碱基。

  5. ALT (Alternate Allele): 表示与参考等位基因不同的其他等位基因。在VCF文件中,可以记录一个或多个备选等位基因。

  6. QUAL: 表示变体质量得分,这是一个Phred-scaled概率分数,反映了该变体是真实变异而非测序错误的信心水平。

  7. FILTER: 表示变体是否通过了质量控制过滤。这里可以记录变体未通过的过滤器名称,或者如果是通过的变体,通常记录为"PASS"。

  8. INFO: 这是一个可选字段,用于存储关于变体的各种附加信息,如统计数据、生物学注释等。这些信息通常是以键值对的形式存在。

  9. FORMAT: 表示接下来的列(样本基因型列)中数据的格式。这定义了样本基因型数据如何被解释,包括每个样本的基因型、深度、质量等。

图2  SNP的VCF文件数据区域(未截全)

 图3  Indel 的VCF文件数据区域(未截全)

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值