多行命令并行管理，只需要一个脚本

最新推荐文章于 2022-12-01 21:36:55 发布

小汪Waud

最新推荐文章于 2022-12-01 21:36:55 发布

阅读量487

点赞数

文章标签： linux bash

本文链接：https://blog.csdn.net/weixin_55999725/article/details/121468625

版权

本文介绍了如何使用submit.sh脚本来并行管理多行命令，以解决大量样本分析时的效率问题。submit.sh通过巧妙的逻辑将命令分成多份并行执行，避免了线程占用过多导致的问题。文章详细解析了脚本的工作原理，并提供了如何使用和修改的指导。

摘要由CSDN通过智能技术生成

在上游分析中，多个样本常常要同时分析，为了节省时间我们常常会通过写一个简单的脚本去运行。

比如对于这样的一个accessionlist，样本数较少

SRR15927225
SRR15927226
SRR15927227
SRR15927228
SRR15927229
SRR15927230

我们先写一个比对的脚本

awk '{print "hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/"$1"_1*.gz -2 ~/donkey_oocyte/3_cleandata/"$1"_2*.gz -S ./"$1".sam &"}' accessionlist > hisat2.sh
nohup bash hisat2.sh >hisat2.log 2>&1 &

重点在于print "xxxx &"，引号内的最后为&。我们查看一下hisat2.sh如下

hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927225_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927225_2*.gz -S ./SRR15927225.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927226_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927226_2*.gz -S ./SRR15927226.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927227_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927227_2*.gz -S ./SRR15927227.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927228_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927228_2*.gz -S ./SRR15927228.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927229_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927229_2*.gz -S ./SRR15927229.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927230_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927230_2*.gz -S ./SRR15927230.sam &

在每一行命令的最后都有一个"&"，表示这六条命令同时读取运行，即在这种情况下该脚本最多会占用6*6=36个线程。

我一直都按照上面的方法运行着，直到遇到了34个样本，双端测序共68个文件，我裂开了。

因为一旦样本过多，我就要考虑到服务器占用率的问题。

日常使用的96线程服务器