欢迎关注”生信修炼手册”!
有很多的软件可以进行GWAS分析,不同软件要求的输入文件格式不尽相同,最常见的文件格式就是plink中的ped/map文件,除此之外还有gen/sample文件格式。
分型文件保存的是样本中SNP位点的分型结果,有样本和SNP分型结果两类信息,首先来看下ped/map系统,ped文件主要用于记录样本的分型结果和其他的表型信息,内容示意如下
每列之间用空格分隔,第一列为样本对应的family id, 第二列为样本的id, 第三列表示父亲样本的id, 第四列表示母亲样本的id, 第五列表示性别,1是男性,2是女性,第六列表示样本的表型信息,没有就用0填充,后面的每一列代表一个snp位点的分型结果。
map文件用于记录SNP位点的信息,内容如下所示
每列之间用空格分隔,第一列为snp位点所在的染色体名称,第二列为snp id,第三列是snp位点的连锁距离,没有的话用0表示,第四列为snp位点在染色体上的位置。
在ped/map文件系统中,ped文件表示样本的家系关系和分型结果,map文件表示snp位点的metadta, 再来看下gen/sample系统,gen文件的内容示意如下