无亲缘关系为何IBD结果为同卵双胞胎/重复样本

本文详细介绍了在基因组关联研究(GWAS)中,如何使用PLINK进行IBD分析来检测样本间的亲缘关系。当PI_HAT值为1时,表明样本可能是同卵双胞胎或重复样本。作者通过数据清洗、合并样本和计算PI_HAT值,最终确定了样本间的关系,并提出了可能存在样本错误或重复测序的情况。
摘要由CSDN通过智能技术生成

#GWAS

前几天,一位小朋友问了我这个问题:为什么没有亲缘关系的样本,IBD显示他们是同卵双胞胎或者重复样本。

具体来说,使用PLINK的--genome参数计算后得到的PI_HAT(Proportion IBD)全是1。

如下所示:

鉴于这位小朋友的微信ID特别有味道(屎尿屁之类),而且赞赏过我文章,让我印象很深刻。

于是,我决定亲自操刀,让他发测试数据给我。

测试数据是ped/map格式。
map如下图所示,可以看到,RS号没有统一好(第二列):

好人做到底,给人家统一一下RS号,统一好后如下所示:

神清气爽了!

做数据分析,清洗数据很重要,太脏的数据不仅影响工作效率,还影响结果。

比如本推文出现的问题,在没有看PLINK源代码的情况下,我们是不知道是根据位置和染色体信息,还是根据RS号信息计算IBD。

如果是根据位置和染色体信息,那么只需要确保这两个信息准确就行了;

但如果是根据RS号,没有统一好RS号的话,会丢失掉很多位点,影响结果。

数据清洗后,开始计算IBD:

plink --bfile file --indep-pairwise 50 5 0.2 --out file_indep #Pruning
plink --bfile file --extract file_indep.prune.in --genome --out file_indep.prune.in.ibd #计算亲缘关系
awk '$10>=0.95' file_indep.prune.in.ibd.genome #提取PI_HAT大于0.95的样本

清洗后的结果还是跟之前一样,本无亲缘关系的样本还是有亲缘关系,如下图红框所示:

到这一步至少确定了,PLINK计算IBD是根据位置和染色体信息,不需要统一RS号。

但我们还是无法找到问题所在。

想确认样本间是不是同卵双胞胎/重复样本,最万无一失的方法是计算样本间碱基的一致性(kappa值)。但我懒得写脚本。

于是我使用了一种偷懒的办法:把样本拷贝后更换ID变成新的样本,再计算亲缘关系。如下:

#拷贝样本
cp file.bed dd.bed
cp file.bim dd.bim
cp file.fam dd.fam

随后,修改样本ID。

原始file.fam的ID如下所示:

修改dd.fam样本ID变成新的样本:

实际上,dd.fam的63547_63547样本就是file.fam的63547;
同理,dd.fam的63559_63559样本是file.fam的63559;
更改ID是为了合并;

更改ID后,合并样本,计算IBD:

plink --bfile file --bmerge dd.bed dd.bim dd.fam --make-bed --out merge #合并样本
plink --bfile merge --indep-pairwise 50 5 0.2 --out merge_indep #Pruning
plink --bfile merge --extract merge_indep.prune.in --genome --out merge_indep.prune.in.ibd #计算亲缘关系
awk '$10>=0.95' merge_indep.prune.in.ibd.genome #提取PI_HAT大于0.95的样本

IBD的结果如下所示:

毫无意外的, 样本63547和样本63547_63547之间的PI_HAT为1,样本63559 和样本63559_63559之间的PI_HAT为1。他们本来就是同一个样本,被我们拷贝过来的。

此外,我们也可以观察到样本63547和样本70973的PI_HAT为1; 样本63559 和样本69111的PI_HAT为1,与重复样本(样本63547和样本63547_63547、样本63559 和样本63559_63559)的结果完全一致。

到这里就说明了,1)要么他们(样本63547和样本70973、样本63559 和样本69111)是同卵双胞胎/重复样本,2) 要么贴错样本ID,使得样本重复测序;

除此之外,我想不到还有什么理由,让已知没有亲缘关系的样本变成同卵双胞胎/重复样本。

各位有些相关经验的,欢迎找我讨论,我想听听别的声音。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值