STRUCTURE分析三款软件比较
三篇高引用文章
2005-STRUCTURE【1】 把选k值写的很清楚 2020/5/16 引用13119
-
这篇文章发表的时候二代测序还没兴起,ssr等的标记数量有限,计算机的性能也有限,是一个即有windows版又有linux版的软件
-
因为其开发时的应用场景,这个软件在几千以内的标记时运行还是可以接受的,但是现在动辄几百万标记的全基因组重测序的动植物数据来说,时间消耗是非常巨大的
-
这篇文章的正文详细讨论了最优k值的选择的问题,感觉这个还是很有用的
-
最优k值的筛选原理及展示
-
windons版的很简单,linux的使用命令行(如果有想做的小伙伴,公众号回复下,我再找下具体的命令行,主要是这个不常用了,只有个别项目用的它,时间上实在是等不起呀)
-
软件链接:
https://web.stanford.edu/group/pritchardlab/structure_software/release_versions/v2.3.4/html/structure.html
2009-admixture【2】 2020/5/16 引用2977
- 针对上面说的软件的运算速度上的问题,发表了在速度上有极大提升的这个软件
- 我只使用过它的linux命令行的
vcftools --vcf vcf_file --plink --out outfile_name
plink --noweb --ped outfile_name.ped --map outfile_name.map --make-bed --out outfile_name
dmixture --cv outfile_name.bed k > k1.log
# k表示分群的数量,一般并不知道准确的结果,所以需要循环进行2-10或者更多的全部进行分析
- 在该软件里的手册里也进行了最优k值的选取的说明,及与structure软件的比较
grep -h CV *log
- 并且有讨论是否需要进行根据连锁情况进行标记的过滤以及如何使用R进行结果图形的绘制
https://vcru.wisc.edu/simonlab/bioinformatics/programs/admixture/admixture-manual.pdf
plink --bfile rawData --indep-pairwise 50 10 0.1
# removal each SNP that has an R2 value of greater than 0.1 with any other SNP within a 50-SNP sliding window (advanced by 10 SNPs each time).
plink --bfile rawData --extract plink.prune.in --make-bed --out prunedData
tbl=read.table("hapmap3.3.Q")
barplot(t(as.matrix(tbl)), col=rainbow(3),xlab="Individual #", ylab="Ancestry", border=NA)
# 画图
2014-fastSTRUCTURE【3】 2020/5/16 引用550
- 这个是一个python的,有明确的筛选最优k值的脚本,和这三个软件的比较
文章引用
【1】Evanno, G., S. Regnaut, and J. Goudet, Detecting the number of clusters of individuals using the software STRUCTURE: a simulation study. Mol Ecol, 2005. 14(8): p. 2611-20.
【2】Alexander, D.H., J. Novembre, and K. Lange, Fast model-based estimation of ancestry in unrelated individuals. Genome Res, 2009. 19(9): p. 1655-64.
【3】Raj, A., M. Stephens, and J.K. Pritchard, fastSTRUCTURE: variational inference of population structure in large SNP data sets. Genetics, 2014. 197(2): p. 573-89.