plink描述性统计--等位基因频率、缺失值

0.3 描述性统计

0.3.1 等位基因频率

--freq,产生的文件后缀为.frq,该文件包含基因型的等位基因和最小等位基因频率(MAF)和每个SNP的等位基因编码的信息。

plink --bfile hapmap-ceu --freq --out Allele_Frequency
$ head Allele-Frequency.frq
 CHR          SNP   A1   A2          MAF  NCHROBS
   1   rs12565286    C    G       0.0678      118
   1   rs12138618    A    G      0.05833      120
   1    rs3094315    G    A       0.1552      116
   1    rs3131968    A    G        0.125      120
   1   rs12562034    A    G      0.09167      120
   1    rs2905035    A    G        0.125      120
   1   rs12124819    G    A       0.3417      120
   1    rs2980319    A    T        0.125      120
   1    rs4040617    G    A        0.125      120
  1. CHR(性染色体的染色体数或编码);
  2. SNP(变异名,大多数SNP为rsID);
  3. Al(等位基因I,通常是次要的等位基因[即频率较低]);
  4. A2(等位基因2,通常是主要的等位基因),
  5. MAF(等位基因I频率);
  6. NCHROBS(等位基因观察数)。

--within,通过分类变量进行分层。

0.3.2 缺失值
1) 个体和变异缺失值

--missing,产生两个文件,.imiss,个体缺失信息;.lmiss,SNP缺失信息。

$ plink --bfile hapmap-ceu --missing --out missing_data

查看个体缺失信息,每一行代表个体。missing_data.imiss

$ head missing_data.imiss
 FID       IID MISS_PHENO   N_MISS   N_GENO   F_MISS
1334   NA12144          Y    15077  2239392 0.006733
1334   NA12145          Y    19791  2239392 0.008838
1334   NA12146          Y    13981  2239392 0.006243
1334   NA12239          Y    14072  2239392 0.006284
1340   NA06994          Y    16080  2239392 0.007181
1340   NA07000          Y    26113  2239392  0.01166
1340   NA07022          Y    17467  2239392   0.0078
1340   NA07056          Y    12133  2239392 0.005418
1341   NA07034          Y    20425  2239392 0.009121
  1. FID(家庭ID)
  2. IID(家族内ID)
  3. MISS_pHENO(缺失表型的是/否)
  4. N _MISS(缺失基因型检测(calls)数)
  5. N _ GENO(潜在有效calls数)
  6. F_MISS(缺失call率)

查看SNP缺失信息,.lmiss

$ head missing_data.lmiss
 CHR          SNP   N_MISS   N_GENO   F_MISS
   1   rs12565286        1       60  0.01667
   1   rs12138618        0       60        0
   1    rs3094315        2       60  0.03333
   1    rs3131968        0       60        0
   1   rs12562034        0       60        0
   1    rs2905035        0       60        0
   1   rs12124819        0       60        0
   1    rs2980319        0       60        0
   1    rs4040617        0       60        0
  1. CHR(染色体编码)SNP(变异标识符)N_MISS(缺失基因型calls数,不包括强制性缺失)
  2. N_GENO(潜在价值call数)
  3. F_MISS(缺失call率)
  4. 只出现在家系内数据的列是CLST(集群标识符)和N-CLST(集群大小)
2) 筛选filter

(1)--filter-controls,筛选具有二元表型的控件

(2)--filter-males,基于基因型数据仅保留雄性

(3)--filter-females,基于基因型数据仅保留雌性

(4)--filter-founders,仅保留founders,它排除了所有至少有一个已知亲本的样本,fonders数据是在数据集中没有父母信息的个体。

(5)--filter-nonfounders,founders的反面

$  plink --bfile hapmap-ceu --filter-females --make-bed --out hapmap_filter_females

30 people removed due to gender filter (--filter-females).

参考:
An Introduction to Statistical Genetic Data Analysis.

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

紫霄zixiao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值