群体进化，群体结构分析之STRUCTURE分析三款软件比较

最新推荐文章于 2024-07-31 14:36:52 发布

置顶点滴生信

最新推荐文章于 2024-07-31 14:36:52 发布

阅读量5.8k

点赞数 4

分类专栏： NGS-二代测序基础及科服知识分享二代测序软件文章标签： linux

本文链接：https://blog.csdn.net/weixin_43759550/article/details/106166926

版权

NGS-二代测序基础及科服知识分享同时被 2 个专栏收录

7 篇文章

订阅专栏

二代测序软件

3 篇文章

订阅专栏

本文对比分析了STRUCTURE、admixture和fastSTRUCTURE三款群体遗传学软件。STRUCTURE适用于有限标记数量的数据集，admixture则大幅提升了运算速度，适合大规模数据集。fastSTRUCTURE通过Python实现，提供了明确的最优K值筛选脚本。各软件在最优K值选择、标记过滤及图形绘制方面有各自特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

STRUCTURE分析三款软件比较

三篇高引用文章

2005-STRUCTURE【1】把选k值写的很清楚 2020/5/16 引用13119

这篇文章发表的时候二代测序还没兴起，ssr等的标记数量有限，计算机的性能也有限，是一个即有windows版又有linux版的软件
因为其开发时的应用场景，这个软件在几千以内的标记时运行还是可以接受的，但是现在动辄几百万标记的全基因组重测序的动植物数据来说，时间消耗是非常巨大的
这篇文章的正文详细讨论了最优k值的选择的问题，感觉这个还是很有用的
最优k值的筛选原理及展示
windons版的很简单，linux的使用命令行（如果有想做的小伙伴，公众号回复下，我再找下具体的命令行，主要是这个不常用了，只有个别项目用的它，时间上实在是等不起呀）
软件链接：
https://web.stanford.edu/group/pritchardlab/structure_software/release_versions/v2.3.4/html/structure.html

2009-admixture【2】 2020/5/16 引用2977

针对上面说的软件的运算速度上的问题，发表了在速度上有极大提升的这个软件
我只使用过它的linux命令行的

vcftools --vcf vcf_file --plink --out outfile_name
plink  --noweb --ped outfile_name.ped --map outfile_name.map --make-bed --out outfile_name
dmixture  --cv outfile_name.bed k > k1.log
# k表示分群的数量，一般并不知道准确的结果，所以需要循环进行2-10或者更多的全部进行分析

在该软件里的手册里也进行了最优k值的选取的说明，及与structure软件的比较

grep -h CV *log

并且有讨论是否需要进行根据连锁情况进行标记的过滤以及如何使用R进行结果图形的绘制
https://vcru.wisc.edu/simonlab/bioinformatics/programs/admixture/admixture-manual.pdf

 plink --bfile rawData --indep-pairwise 50 10 0.1
 # removal each SNP that has an R2 value of greater than 0.1 with any other SNP within a 50-SNP sliding window (advanced by 10 SNPs each time).
 plink --bfile rawData --extract plink.prune.in --make-bed --out prunedData

tbl=read.table("hapmap3.3.Q")
barplot(t(as.matrix(tbl)), col=rainbow(3),xlab="Individual #", ylab="Ancestry", border=NA)
# 画图

2014-fastSTRUCTURE【3】 2020/5/16 引用550

这个是一个python的，有明确的筛选最优k值的脚本，和这三个软件的比较

文章引用

【1】Evanno, G., S. Regnaut, and J. Goudet, Detecting the number of clusters of individuals using the software STRUCTURE: a simulation study. Mol Ecol, 2005. 14(8): p. 2611-20.
【2】Alexander, D.H., J. Novembre, and K. Lange, Fast model-based estimation of ancestry in unrelated individuals. Genome Res, 2009. 19(9): p. 1655-64.
【3】Raj, A., M. Stephens, and J.K. Pritchard, fastSTRUCTURE: variational inference of population structure in large SNP data sets. Genetics, 2014. 197(2): p. 573-89.