生信-VCF小知识

eQTL

全称为“表达量性状位点”(Expression Quantitative Trait Loci),是指染色体上能够调控基因表达水平的位点,它是一些能够特定调节mRNA表达水平的基因区域。

VCF文件

title: "图文详解 VCF 生信格式 (变异信息)"
image: "https://picx.zhimg.com/v2-7d6cee01e37817267c953c7bf940c678_720w.jpg?source=172ae18b"
description: "一、vcf 格式介绍 vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息 一般用在 单核苷酸变异(SNV),小片段插入缺失(INDEL)等 也用于 拷贝数变异(CNV),SV(结构变异)等 SNV:参考基因组在1…"
url: "https://zhuanlan.zhihu.com/p/665907973"

概述

记录个体或群体突变的文件格式,是变异结果存储的标准格式,一般多用于单核苷酸变异或小片段的插入缺失的结果记录。此外也可存储其他变异形式,如CNV、SV等。
SNV 是基因组上单个位置的替换。|比如,在参考基因组上记录为 A ,通过检测,某个体由于个体差异或突变,在相同位置变异为C。Indel是指插入或缺失,例如在参考基因组上,某位置为ATCCA,在个体基因组上为ACA(中间位置的TC缺失),则记为A–CA,该位置为deletion。同理若个体基因组存在插入(insertion)情况,与deleltion一样也可以进行记录。insertion和deletion合称为indel。
vcf文件主要有三种模式:

  • 第一种为仅有位点信息,即对变异发生的位置和变异本身
  • 第二种为个体变异记录的是某个个体或个体组织的突变情况
  • 第三种为群体变异检测信息,记录的为突变在群体或家系中发生情况。

meta信息部分

头部文件每行以##开头,主要包括以下内容

记录内容说明
文件格式(fileformat)记录文件格式;主要记录本文件所采用的vcf格式版本
信息区域(INFO)描述该部分记录的是作为INFO区的基本描述,由于在vcf记录中,对INFO内容采用的是缩写,因此在此部分进行会对其含义以及数据类型进行说明。
过滤方式(FILTER)该部分主要记录vcf文件经过生成过程中经过哪些过滤程序处理。记录包括命令行及对应参数
个体区域格式信息(FORMAT)对于每个样本,vcf正文部分会记录多种信息,例如变异对应深度,该部分记录个体信息中每个字段含义及类型
突变类型(ALT)标识出现在正文信息中突变类型,例如,Insertion、Deletion、Duplication 等
基因组信息(assembly)标识对应的基因组版本
Contig信息由于同一物种肯定存在多个基因组版本(如人类目前常用的有hg19和hg38两个版本),因此可能存在染色体名称相同,但内容不同的情况。因此该部分记录主要用于记录每个染色体的相信信息
样本基因组信息vcf理论上支持不同样本比对于不同基因组的,该部分记录样本和基因组的对应关系(通常较少使用)
遗传谱系信息( Pedigree)记录样本间的亲缘关系

vcf列名及正文

  • CHROM:表示该列为变异所在的染色体位置。
  • POS:表示变异起始坐标,该部分需要注意的是对于结构变异,如Indel,其坐标记录方式不唯一。
  • ID:表示变异ID,一般常用的有rs编号或vep编号等。用户也可以根据具体问题自行设定编号,空缺时记为“.”。
  • REF:表示位点在参考基因组上的记录。
  • ALT:表示位点可能出现的变异情况。
  • QUAL:以Phred(即-log10)格式表示变异可靠性。通过不同变异检测软件得到的结果中,该项记录一般无可比性。
  • FILTER:表示过滤方式该部分用户也可以自定义,对于不同过滤标准可以进行不同的命名;但是对于通过过滤标准的,统一记为PASS。需要注意的是,对于一般的vcf处理软件来说,FILER只标记某个变异是否通过过滤条件。而不是删除记录。
  • INFO:该部分记录的变异的评价性指标以及注释信息,例如AC表示的等位基因突变的数量。该部分在不同的变异检测软件给出的结果也是不同的,大多数基础统计可以通过bcftools软件来进行追加。
    上述八列信息是vcf中必然含有的部分,对于有样本信息,无论是样本还是单样本,都会有第9列 FORMAT列及后续样本信息列:
  • FORMAT:个体区域格式信息记录样本变异的记录格式。由于vcf文件样本记录中除了变异本身是否发生之外,还会记录针对变异的其他信息,例如对应位点的深度(AD)、基因型质量(GQ)等。FORMAT字段规定了这些信息的基本格式。
  • 个体信息: 个体信息是记录某个样本的具体变异情况,其包含的基本信息格式标准需要符合记录的FORMAT格式。特别需要注意的是基因型GT信息,如果是没有经过phased数据,以/分隔两个等位位点;如果经过phased则以|分隔。其余信息,均会在FORMAT字段有详细说明。
    请添加图片描述
    请添加图片描述
    请添加图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发誓要做读书人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值