GATK最佳实践之数据预处理SnakeMake流程

最新推荐文章于 2024-10-24 21:40:12 发布

探因科技

最新推荐文章于 2024-10-24 21:40:12 发布

阅读量544

点赞数

文章标签：程序人生

本文链接：https://blog.csdn.net/weixin_44493991/article/details/130897175

版权

本文介绍了使用SnakeMake进行GATK数据预处理的流程，包括fastq去接头、BWA-mem2比对、去重排序、碱基质量校正和CRAM文件生成。强调了在预处理中各步骤的选择，如采用mem2和sambamba以提高效率，以及使用BaseRecalibrator进行质量校正。

摘要由CSDN通过智能技术生成

<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>

写的数据预处理snakemake流程其实包括在每个单独的分析中比如种系遗传变异和肿瘤变异流程中，这里单独拿出来做演示用，因为数据预处理是通用的，在call变异之前需要处理好数据。

数据预处理过程包括，从fastq文件去接头、比对到基因组、去除重复、碱基质量校正，最后得到处理好的BAM或CRAM文件。

fastq去接头

fastq产生的报告json可以用multiqc汇总成一份报告

if config["fastq"].get("pe"):
    rule fastp_pe:
        input:
            sample=get_fastq
        output:
            trimmed=[temp("results/trimmed/{s}{u}.1.fastq.gz"), temp("results/trimmed/{s}{u}.2.fastq.gz")],
            html=temp("report/{s}{u}.fastp.html"),
            json=temp("report/{s}{u}.fastp.json"),
        log:
            "l