出现这个疑问,主要是之前一直是先质控个体--mind ,再质控位点 --geno 0.1 --maf 0.01 ,直到最近发现,这样的流程不太适合GBS、重测序数据。
先质控个体还是先质控位点,是一个互相影响的命题,基于目前的经验来看:
1. 如果是芯片数据,相对来说位点缺失率不是很高,可以建议先质控个体,再质控位点。
2. 重测序数据、GBS数据,可以建议先质控位点,再质控个体。
具体查看过程
GBS
GBS数据部分位点缺失率比较高,导致经过--mind 0.1后,少数个体通过质控甚至没有样本能够通过个体质控。
查看个体缺失率
质控
故先进行位点质控(genp 0.1 质控掉很多标记)---再经过个体质控(仅1个个体被质控掉)---查看该样本个体缺失率,确实缺失率很高,86%的位点都缺失,所以后续分析中应该剔除该样本。
重测序数据
重测序数据、通过查看测试的 重测序数据,个体缺失率几乎接近0.1,在 0.10 附近,这样的情况下,花费人力、物力得到的数据被剔除,且数据的个体缺失率仅在阈值附近,直接被剔除是很可惜的事情。
然而先质控位点-----再质控个体 mind 0.1----则所有样本都可以通过质控。所以,建议此类情况,可以先质控位点、再质控个体。