GWAS(1)——文件格式及linux上的转换

数据格式

hapmap

hapmap格式的介绍网站:https://max.book118.com/html/2017/0524/108715467.shtm
主要是存储基因型的文件。

vcf

VCF是用于描述SNP,INDEL,SV的文本文件。是GATK表示遗传变异的一种文件格式。
详细介绍见网站:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/
第一部分是注释信息,以##开头。

##fileformat=VCFv4.1
##FILTER=<ID=LowQual,Description="Low quality">
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=BaseQRankSum,Number=1,Type=Float,Description="Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities">
##contig=<ID=3,length=235667834>
##contig=<ID=4,length=246994605>
##contig=<ID=5,length=223902240>
##contig=<ID=6,length=174033170>

第二部分则是主要部分

#CHROM    POS    ID    REF    ALT    QUAL    FILTER    INFO    FORMAT    B73    F2-Mo17vsB73    Mo17
 1    530    .    C    G    52.17    .    AC=2;AF=0.333;AN=6;BaseQRankSum=-0.948;DP=535;Dels=0.00;FS=14.393;HaplotypeScore=11.0860;MLEAC=1;MLEAF=0.167;MQ=6.29;MQ0=396;MQRankSum=2.281;QD=0.15;ReadPosRankSum=0.530;SOR=3.223    GT:AD:DP:GQ:PL    0/1:208,3:218:13:13,0,100    0/0:176,0:177:39:0,39,297    0/1:136,2:140:31:45,0,31
 1    534    .    G    A    32.35    .    AC=1;AF=0.167;AN=6;BaseQRankSum=-0.117;DP=539;Dels=0.00;FS=10.307;HaplotypeScore=15.3371;MLEAC=1;MLEAF=0.167;MQ=6.36;MQ0=397;MQRankSum=3.126;QD=0.15;ReadPosRankSum=0.154;SOR=1.431    GT:AD:DP:GQ:PL    0/1:206,4:214:63:63,0,117    0/0:178,2:182:33:0,33,252    0/0:139,0:143:12:0,12,101
 1    542    .    C    T    32.35    .    AC=1;AF=0.167;AN=6;BaseQRankSum=-1.405;DP=534;Dels=0.00;FS=11.442;HaplotypeScore=12.8859;MLEAC=1;MLEAF=0.167;MQ=6.38;MQ0=391;MQRankSum=2.054;QD=0.15;ReadPosRankSum=-0.330;SOR=2.221    GT:AD:DP:GQ:PL    0/1:207,10:218:63:63,0,117    0/0:175,3:178:39:0,39,297    0/0:134,3:138:12:0,12,101

CHROMpos:表示变异位点相对reference的位置,比如第几条染色体的第几个碱基,如果是indel,pos是indel的第一个碱基的位置
ID:如果call出来的SNP存在于dbsnp数据库里,就会显示相应的dbsnp里的rs编号。不然就是用“.”表示一个novel variant.
REFALT:分别代表reference和alter,也就是参考基因组对应的碱基和variant的碱基。
QUAL:表示该位点存在variant的可能性,qual值越大则variant的可能性越大。
FILTER:过滤完了之后,FILTER一栏会有过滤记录,通过了过滤标准,那么这些好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。
IFNO:这一列表示的是variant的详细信息。

plink

  • plink
    主要处理五大格式文件:
    ped map bed fam bim
    在这里插入图片描述
    这是五大文件的全局关系,ped 和 map 是一组的,bed fam bim 是一组的。
    详细ped文件和map文件介绍:http://zzz.bwh.harvard.edu/plink/data.shtml

数据格式转换

hmp转vcf,再转plink

  1. 先将hmp文件排序
#先将test.hmp.txt排序生成 tassel.test.sort.hmp.txt 文件
run_pipeline.pl -SortGenotypeFilePlugin -inputFile tassel.test.hmp.txt -outputFile test.sort.hmp.txt -fileType Hapmap
  1. 将排好序的hmp文件转换为vcf格式
#将 tassel.test.sort.hmp.txt 文件转为vcf4.0 格式的文件 tassel.test.vcf:
run_pipeline.pl -fork1 -h tassel.test.sort.hmp.txt -export -exportType VCF
#或者使用下面的代码
run_pipeline.pl -Xmx5g -fork1 -h test.hmp.txt -export -exportType VCF -runfork1
  1. 用 vcftools 将 tassel.test.vcf 转为 plink(.ped,.map)格式
#将 tassel.test.vcf 转为 tassel.test.vcf2plink
vcftools --vcf tassel.test.vcf --plink --out  tassel.test.vcf2plink
  1. 将 .ped,.map 转为 二进制的 .bed,.fam,.bim文件
plink --file tassel.test.vcf2plink --make-bed --out tassel.test.vcf2plink
  • 此外还可以将plink文件转换为vcf4.2格式,方便进行基因型填充
plink -bfile tassel.test.vcf2plink --recode vcf-iid --out vcf4.2file

变异结果vcf格式转换hmp

可以用tassel直接将vcf格式转换成hmp格式:

run_pipeline.pl -Xms64G -Xmx64G -fork1 -vcf ../gwas_sub/snp.sorted.vcf -export ./hapmap  -exportType Hapmap
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值