有些时候样本里面的reads数存在差异,有的几十万条,有的几万条,这个时候通常用seqkit进行抽取
常用的抽取模式有:
指定条数(10000)抽取:
seqtk sample -s 100 sample1.fq 10000 | gzip > sample1.fq
seqtk sample -s 100 sample2.fq 10000 | gzip > sample2.fq
按比例抽取(0.6)
seqtk sample -s 100 sample1.fq 0.6 | gzip > sample1.fq
seqtk sample -s 100 sample2.fq 0.6 | gzip > sample2.fq
面对多个样本需要处理的情况可用
for f in *; do seqtk sample -s 100 $f 0.5 | gzip > temp/$f; done
不过有一个小疑问为什么按比例抽取有时候不是原始数据的reads*0.6,这个地方我暂时没明白,如果有人知道望留言,感谢!