seqtk批量抽取reads

生信学习

已于 2023-04-26 15:41:17 修改

阅读量1.1k

点赞数

文章标签： linux

于 2023-04-26 15:39:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whiteof/article/details/130387271

版权

在处理生物信息学数据时，seqkit工具被用来处理样本中reads数的差异。可以指定特定条数（如10000条）或按比例（如0.6）进行抽样。对于多个样本，可以使用for循环脚本来批量处理。然而，按比例抽取时，结果并不总是原始数据的reads乘以给定比例，这一点需要进一步的理解或解释。

摘要由CSDN通过智能技术生成

有些时候样本里面的reads数存在差异，有的几十万条，有的几万条，这个时候通常用seqkit进行抽取

常用的抽取模式有：

指定条数（10000）抽取：

seqtk sample -s 100 sample1.fq 10000 | gzip > sample1.fq

seqtk sample -s 100 sample2.fq 10000 | gzip > sample2.fq

按比例抽取（0.6）

seqtk sample -s 100 sample1.fq 0.6 | gzip > sample1.fq

seqtk sample -s 100 sample2.fq 0.6 | gzip > sample2.fq

面对多个样本需要处理的情况可用

for f in *; do seqtk sample -s 100 $f 0.5 | gzip > temp/$f; done

不过有一个小疑问为什么按比例抽取有时候不是原始数据的reads*0.6，这个地方我暂时没明白，如果有人知道望留言，感谢！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
seqtk批量抽取reads

有些时候样本里面的reads数存在差异，有的几十万条，有的几万条，这个时候通常用seqkit进行抽取。面对多个样本需要处理的情况可用。按比例抽取（0.6）
复制链接

扫一扫

生信学习 CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

106万+: 周排名

155万+: 总排名

2万+: 访问

: 等级

146: 积分

20: 粉丝

19: 获赞

6: 评论

61: 收藏

私信

关注

热门文章

最新评论

R语言Duncan检验
去月球: 我输入library(agricolae)提示我Warning message: 程辑包‘agricolae’是用R版本4.3.2 来建造的。意思是要更新版本吗？
R多种绘图学习网站
Sun Light 。: 谢谢
【python拆分fasta文件为多个小的fasta文件】
bioinfomatic: 写得很好！这段代码其实是保存在.py文件中，在命令行中直接运行的，所以直接在python编译环境中无法使用，但是和在linux操作系统中使用。如果想在编译器中直接使用，需要进行一些修改即可。
R语言Duncan检验
幽优哩: 好的，谢谢，用agricolae包就成功了
R语言Duncan检验
生信学习: 你加载agricolae，再用一下

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。