<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>
写的数据预处理snakemake流程其实包括在每个单独的分析中比如种系遗传变异和肿瘤变异流程中,这里单独拿出来做演示用,因为数据预处理是通用的,在call变异之前需要处理好数据。
数据预处理过程包括,从fastq文件去接头、比对到基因组、去除重复、碱基质量校正,最后得到处理好的BAM或CRAM文件。
fastq去接头
fastq产生的报告json可以用multiqc汇总成一份报告
if config["fastq"].get("pe"):
rule fastp_pe:
input:
sample=get_fastq
output:
trimmed=[temp("results/trimmed/{s}{u}.1.fastq.gz"), temp("results/trimmed/{s}{u}.2.fastq.gz")],
html=temp("report/{s}{u}.fastp.html"),
json=temp("report/{s}{u}.fastp.json"),
log:
"l