0.3 描述性统计
0.3.1 等位基因频率
--freq
,产生的文件后缀为.frq,该文件包含基因型的等位基因和最小等位基因频率(MAF)和每个SNP的等位基因编码的信息。
plink --bfile hapmap-ceu --freq --out Allele_Frequency
$ head Allele-Frequency.frq
CHR SNP A1 A2 MAF NCHROBS
1 rs12565286 C G 0.0678 118
1 rs12138618 A G 0.05833 120
1 rs3094315 G A 0.1552 116
1 rs3131968 A G 0.125 120
1 rs12562034 A G 0.09167 120
1 rs2905035 A G 0.125 120
1 rs12124819 G A 0.3417 120
1 rs2980319 A T 0.125 120
1 rs4040617 G A 0.125 120
- CHR(性染色体的染色体数或编码);
- SNP(变异名,大多数SNP为rsID);
- Al(等位基因I,通常是次要的等位基因[即频率较低]);
- A2(等位基因2,通常是主要的等位基因),
- MAF(等位基因I频率);
- NCHROBS(等位基因观察数)。
--within
,通过分类变量进行分层。
0.3.2 缺失值
1) 个体和变异缺失值
--missing
,产生两个文件,.imiss,个体缺失信息;.lmiss,SNP缺失信息。
$ plink --bfile hapmap-ceu --missing --out missing_data
查看个体缺失信息,每一行代表个体。missing_data.imiss
$ head missing_data.imiss
FID IID MISS_PHENO N_MISS N_GENO F_MISS
1334 NA12144 Y 15077 2239392 0.006733
1334 NA12145 Y 19791 2239392 0.008838
1334 NA12146 Y 13981 2239392 0.006243
1334 NA12239 Y 14072 2239392 0.006284
1340 NA06994 Y 16080 2239392 0.007181
1340 NA07000 Y 26113 2239392 0.01166
1340 NA07022 Y 17467 2239392 0.0078
1340 NA07056 Y 12133 2239392 0.005418
1341 NA07034 Y 20425 2239392 0.009121
- FID(家庭ID)
- IID(家族内ID)
- MISS_pHENO(缺失表型的是/否)
- N _MISS(缺失基因型检测(calls)数)
- N _ GENO(潜在有效calls数)
- F_MISS(缺失call率)
查看SNP缺失信息,.lmiss
$ head missing_data.lmiss
CHR SNP N_MISS N_GENO F_MISS
1 rs12565286 1 60 0.01667
1 rs12138618 0 60 0
1 rs3094315 2 60 0.03333
1 rs3131968 0 60 0
1 rs12562034 0 60 0
1 rs2905035 0 60 0
1 rs12124819 0 60 0
1 rs2980319 0 60 0
1 rs4040617 0 60 0
- CHR(染色体编码)SNP(变异标识符)N_MISS(缺失基因型calls数,不包括强制性缺失)
- N_GENO(潜在价值call数)
- F_MISS(缺失call率)
- 只出现在家系内数据的列是CLST(集群标识符)和N-CLST(集群大小)
2) 筛选filter
(1)--filter-controls
,筛选具有二元表型的控件
(2)--filter-males
,基于基因型数据仅保留雄性
(3)--filter-females
,基于基因型数据仅保留雌性
(4)--filter-founders
,仅保留founders,它排除了所有至少有一个已知亲本的样本,fonders数据是在数据集中没有父母信息的个体。
(5)--filter-nonfounders
,founders的反面
$ plink --bfile hapmap-ceu --filter-females --make-bed --out hapmap_filter_females
30 people removed due to gender filter (--filter-females).
参考:
An Introduction to Statistical Genetic Data Analysis.