eQTL
全称为“表达量性状位点”(Expression Quantitative Trait Loci),是指染色体上能够调控基因表达水平的位点,它是一些能够特定调节mRNA表达水平的基因区域。
VCF文件
title: "图文详解 VCF 生信格式 (变异信息)"
image: "https://picx.zhimg.com/v2-7d6cee01e37817267c953c7bf940c678_720w.jpg?source=172ae18b"
description: "一、vcf 格式介绍 vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息 一般用在 单核苷酸变异(SNV),小片段插入缺失(INDEL)等 也用于 拷贝数变异(CNV),SV(结构变异)等 SNV:参考基因组在1…"
url: "https://zhuanlan.zhihu.com/p/665907973"
概述
记录个体或群体突变的文件格式,是变异结果存储的标准格式,一般多用于单核苷酸变异或小片段的插入缺失的结果记录。此外也可存储其他变异形式,如CNV、SV等。
SNV 是基因组上单个位置的替换。|比如,在参考基因组上记录为 A ,通过检测,某个体由于个体差异或突变,在相同位置变异为C。Indel是指插入或缺失,例如在参考基因组上,某位置为ATCCA,在个体基因组上为ACA(中间位置的TC缺失),则记为A–CA,该位置为deletion。同理若个体基因组存在插入(insertion)情况,与deleltion一样也可以进行记录。insertion和deletion合称为indel。
vcf
文件主要有三种模式:
- 第一种为仅有位点信息,即对变异发生的位置和变异本身
- 第二种为个体变异记录的是某个个体或个体组织的突变情况
- 第三种为群体变异检测信息,记录的为突变在群体或家系中发生情况。
meta信息部分
头部文件每行以##
开头,主要包括以下内容
记录内容 | 说明 |
---|---|
文件格式(fileformat) | 记录文件格式;主要记录本文件所采用的vcf格式版本 |
信息区域(INFO)描述 | 该部分记录的是作为INFO区的基本描述,由于在vcf记录中,对INFO内容采用的是缩写,因此在此部分进行会对其含义以及数据类型进行说明。 |
过滤方式(FILTER) | 该部分主要记录vcf文件经过生成过程中经过哪些过滤程序处理。记录包括命令行及对应参数 |
个体区域格式信息(FORMAT) | 对于每个样本,vcf正文部分会记录多种信息,例如变异对应深度,该部分记录个体信息中每个字段含义及类型 |
突变类型(ALT) | 标识出现在正文信息中突变类型,例如,Insertion、Deletion、Duplication 等 |
基因组信息(assembly) | 标识对应的基因组版本 |
Contig信息 | 由于同一物种肯定存在多个基因组版本(如人类目前常用的有hg19和hg38两个版本),因此可能存在染色体名称相同,但内容不同的情况。因此该部分记录主要用于记录每个染色体的相信信息 |
样本基因组信息 | vcf理论上支持不同样本比对于不同基因组的,该部分记录样本和基因组的对应关系(通常较少使用) |
遗传谱系信息( Pedigree) | 记录样本间的亲缘关系 |
vcf列名及正文
- CHROM:表示该列为变异所在的染色体位置。
- POS:表示变异起始坐标,该部分需要注意的是对于结构变异,如Indel,其坐标记录方式不唯一。
- ID:表示变异ID,一般常用的有rs编号或vep编号等。用户也可以根据具体问题自行设定编号,空缺时记为“
.
”。 - REF:表示位点在参考基因组上的记录。
- ALT:表示位点可能出现的变异情况。
- QUAL:以Phred(即-log10)格式表示变异可靠性。通过不同变异检测软件得到的结果中,该项记录一般无可比性。
- FILTER:表示过滤方式该部分用户也可以自定义,对于不同过滤标准可以进行不同的命名;但是对于通过过滤标准的,统一记为
PASS
。需要注意的是,对于一般的vcf处理软件来说,FILER只标记某个变异是否通过过滤条件。而不是删除记录。 - INFO:该部分记录的变异的评价性指标以及注释信息,例如
AC
表示的等位基因突变的数量。该部分在不同的变异检测软件给出的结果也是不同的,大多数基础统计可以通过bcftools
软件来进行追加。
上述八列信息是vcf
中必然含有的部分,对于有样本信息,无论是样本还是单样本,都会有第9列 FORMAT列及后续样本信息列: - FORMAT:个体区域格式信息记录样本变异的记录格式。由于vcf文件样本记录中除了变异本身是否发生之外,还会记录针对变异的其他信息,例如对应位点的深度(AD)、基因型质量(GQ)等。FORMAT字段规定了这些信息的基本格式。
- 个体信息: 个体信息是记录某个样本的具体变异情况,其包含的基本信息格式标准需要符合记录的FORMAT格式。特别需要注意的是基因型GT信息,如果是没有经过phased数据,以
/
分隔两个等位位点;如果经过phased则以|
分隔。其余信息,均会在FORMAT字段有详细说明。