在上游分析中,多个样本常常要同时分析,为了节省时间我们常常会通过写一个简单的脚本去运行。
比如对于这样的一个accessionlist,样本数较少
SRR15927225
SRR15927226
SRR15927227
SRR15927228
SRR15927229
SRR15927230
我们先写一个比对的脚本
awk '{print "hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/"$1"_1*.gz -2 ~/donkey_oocyte/3_cleandata/"$1"_2*.gz -S ./"$1".sam &"}' accessionlist > hisat2.sh
nohup bash hisat2.sh >hisat2.log 2>&1 &
重点在于print "xxxx &",引号内的最后为&。我们查看一下hisat2.sh如下
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927225_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927225_2*.gz -S ./SRR15927225.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927226_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927226_2*.gz -S ./SRR15927226.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927227_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927227_2*.gz -S ./SRR15927227.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927228_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927228_2*.gz -S ./SRR15927228.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927229_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927229_2*.gz -S ./SRR15927229.sam &
hisat2 -p 6 -x ../1_genome/ASM130575v1_genomic -1 ~/donkey_oocyte/3_cleandata/SRR15927230_1*.gz -2 ~/donkey_oocyte/3_cleandata/SRR15927230_2*.gz -S ./SRR15927230.sam &
在每一行命令的最后都有一个"&",表示这六条命令同时读取运行,即在这种情况下该脚本最多会占用6*6=36个线程。
我一直都按照上面的方法运行着,直到遇到了34个样本,双端测序共68个文件,我裂开了。
因为一旦样本过多,我就要考虑到服务器占用率的问题。
日常使用的96线程服务器
对于我使用的96线程服务器,即使我可以独自使用(往往不可能),我仍需要进行计算:68个文件如果按照以上方法写脚本,那每一个命令所用的线程数至多为1(2×68>96)。如果运行过程中服务器出现了故障或崩溃,所有文件将全部完蛋。这该如何是好?
神器submit.sh
因此,我向曾老师请教了这个问题,拿到了一个完美的解决办法。即神器submit.sh