## marky-coco https://github.com/ericcapo/marky-coco
## 用于筛选汞代谢相关基因,提供比对、定量、注释等全流程服务
####单样品直接使用它的流程,一条命令即可
bash marky.sh sample
####当你有很多样品,想混拼时,可以自己构建所需要的中间文件
##1. sample_tmp/sample_P1.fastq & sample_tmp/sample_P2.fastq # cleaned fastq files
##2. sample_tmp/sample_megahit/final.contigs.fa # megahit outputs
##3. sample_tmp/sample.bam # bowtie2 outputs ###这里除了bam文件,还要把索引文件放进去
##4. sample_tmp/sample_proteins.faa # prodigal (or prokka) outputs
##5. sample_tmp/sample_counts.tsv # featureCounts outputs
##1. 质控后的序列,可以选择fastp,也可以选择其他的如kneaddata
##2. final.contigs.fa,按照流程推荐的,选择megahit
conda install megahit
##3. sample.bam,使用bowtie2构建索引,并输出排序后的比对文件
conda install bowtie2
#构建索引
bowtie2-build ${sample}_tmp/${sample}_megahit/final.contigs.fa ###注意,这里如果final.contigs.fa太大,输出的索引文件后缀为bt2l,需要改为bt2。
${sample}_tmp/${sample}_index
#输出bam文件
bowtie2 -p 10 -x ${sample}_index -1 ${sample}_tmp/${sample}_P1.fastq -2 ${sample}_tmp/${sample}_P2.fastq | samtools sort -O bam -@ 10 -o - > ${sample}_tmp/${sample}.bam
##4. proteins.faa
conda install prodigal
prodigal -i test.fna -f gff -o gene.gff3 -d gene.fna -a gene.faa ##主要使用它的gff文件
##5. sample_counts.tsv使用featureCoutns
conda install subread
featureCounts -t CDS -o {output} -g ID -a {input.gff} {input.bam}
##最后将这些文件放到sample_tmp文件夹中,运行最后一条命令即可
bash marky.sh sample