因为我的地衣里面东西很多,有地衣型真菌,藻,内生的细菌,内生真菌,所以老师建议二代测了30G结果要当成宏基因组数据看待,进行分箱~
一、Metawrap分箱
$ nohup metawrap binning -o INITIAL_BINNING -t 8 -a /ifs1/User/wuqi/Qxy/qxycexu/BJ/BJoutput/scaffolds.fasta --metabat2 --maxbin2 --concoct BJclear_1.fastq BJclear_2.fastq &
#用metawrap进行宏基因组分箱 -o 输出文件目录 -t 调用线程 -a 宏基因组组装好的fasta格式文件 选用三种方法metabat2、maxbin2、concoct
#最后还要加上用于组装的数据(本次用的是经过trimmomatic质控后的clear数据),而且!!格式一定要改成XX_1.fastq XX_2.fastq格式!!!
#挂nohup后台运行一下
Options:
-a STR metagenomic assembly file
-o STR output directory
-t INT number of threads (default=1)
-m INT amount of RAM available (default=4)
-l INT minimum contig length to bin (default=1000bp). Note: metaBAT will default to 1500bp minimum
--metabat2 bin contigs with metaBAT2
--metabat1 bin contigs with the original metaBAT
--maxbin2 bin contigs with MaxBin2
--concoct bin contigs with CONCOCT
--universal use universal marker genes instead of bacterial markers in MaxBin2 (improves Archaea binning)
--run-checkm immediately run CheckM on the bin results (requires 40GB+ of memory)
--single-end non-paired reads mode (provide *.fastq files)
--interleaved the input read files contain interleaved paired-end reads
##bin之后的结果文件
#insert_sizes.txt 样本量统计和估计的建库时文库片段大小
#concoct_bins maxbin2_bins metabat2_bins 三个目录为三种bin的结果
#work_files有三种bin分析所需要的文件,如不同格式的bin覆盖度或丰度信息
# 一般con和max分箱结果会稍好一些,max分箱结果会少一些,一般就菌和藻俩箱子
# 菌一般20~30M左右,藻一般50~60M大小
二、分箱后提纯
$ nohup metawrap bin_refinement -o BIN_REFINEMENT -t 8 -A INITIAL_BINNING/metabat2_bins/ -B INITIAL_BINNING/maxbin2_bins/ -C INITIAL_BINNING/concoct_bins/ -c 70 -x 5 &
#bin之后的分析提纯,三种结果整合 #要在有INITIAL_BINNING文件夹的目录下用这个指令 运行慢,挂后台!!!
#-o输出目录;-t线程数;-A/B/C三种Bin结果;-c完整度阈值;-x污染率阈值
#结果目录中有三个原始bin的结果与统计。metaWRAP目录包含最终结果。如果想查看中间文件见Binning_refiner目录(我没找到)。
#.stat文件包含每个bin的统计:完整性、污染率、GC含量、物种、N50、大小和来源
# 这个分箱提纯老报错,显示无法提纯,checkM结果为0,是因为软件的问题,就不用纠结了