[软件使用-Vcftools / Plink ] VCF文件中剔除/提取一个或多个样本,两组方法实现及运算时间比较

官网:VCFtools

参数查看:

提取样本 --keep

剔除样本 --remove

# 提取某几个样本 
system("vcftools --vcf eg.vcf --keep keep.list --recode --out keep")
# keep.list 是由每一行为一个样本ID组成的文件

tips: 运行比较耗时


官网:PLINK 1.9

可以试一下vcf 转换为 plink 后再执行提取或删除,速度相对比较快。

# 首先VCF转换为Plink
# 这里设置了只保留SNP等参数

plink --vcf eg.vcf --keep-allele-order  --biallelic-only strict -snps-only just-acgt  --const-fid  --make-bed --out rawdata --allow-extra-chr

#基于Plink提取样本

plink --bfile rawdata --keep plink.list --make-bed --out keep --allow-extra-chr
  

小结:比如剔除一个样本--重测序数据可能需要1h; 但vcf 转换为 plink可能耗时0.5h,借助plink提取/剔除样本可能就1min左右,所以推荐使用plink。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值