使用Minimac进行基因型填充

本文介绍了Minimac基因型填充软件,强调其内存效率和速度优势。通过预分相、转换为VCF格式和填充三个步骤,详细阐述了使用流程,并提供了相关资源链接,包括MACH和M3VCF格式的解释。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

Minimac是一款经典的基因型填充软件,该软件也是以内存消耗小,运行速度快而著称,历经了MaCH, minimac, minimac2, minmac3多个版本的更新换代,目前最新版本为v4, 网址如下

https://genome.sph.umich.edu/wiki/Minimac4

源代码保存在github上,网址如下

https://github.com/statgen/Minimac4

为了减少内存消耗,和beagle软件类似,minimac提出了一种名为M3VCF的格式,用来存储referenc panel的单倍型信息,将单倍型划分为不同的block, 示意如下

上图表示的是9个SNP位点构成的8种单倍型,minimac会根据染色体位置划分成不同的block区间,识别block区间内的unique haplotypes。两个邻近的block区域必须有一个重叠的位点,图中的9个位点划分成了两个block, 1-6号位点对应block B, 6到9号位点对应block B+1。在block B中,有3种唯一的单倍型,对应三种不同颜色。

M3VCF的内容示意如下

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基因型填充是指根据已有的基因型数据来推断缺失位点的基因型。Plink是常用的进行基因型填充的软件之一。在基因型填充过程中,Plink使用了多种算法和方法来准确估计缺失位点的基因型。 Plink的基因型填充功能可以通过使用不同的命令行选项来实现。其中最常用的是"--fill-missing-genotypes"选项,该选项允许使用不同的方法进行基因型填充。这些方法包括最大似然估计、EM算法和贝叶斯方法等。用户可以根据自己的需求选择合适的填充方法。 在进行基因型填充之前,需要注意样本的数据质量以及所使用的参考数据的质量。样本数据的质量可以通过分析分结果的准确率来评估,而参考数据的质量可以通过参考面板的选择来控制。此外,样本量的大小和SNP的密度也会对基因型填充的准确性产生影响。 为了保证基因型填充的准确性,还需要考虑样本的杂合度和哈温平衡。在进行基因型填充之前,需要确保样本符合哈温平衡的假设。如果样本中存在纯合基因型或杂合度较低的样本,可能会导致填充结果的不准确性。在GWAS分析中,通常需要移除这些样本以保证群体符合哈温平衡的假设。 总结起来,基因型填充使用已有的基因型数据来推断缺失位点的基因型。Plink是常用的进行基因型填充的软件之一,它提供了多种方法和算法来实现基因型填充。在进行基因型填充之前,需要注意样本数据的质量、参考数据的质量以及样本的杂合度和哈温平衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值