fastq文件预处理(fastp和multiqc)

1.fastp对低质量reads过滤和修剪

1.1 conda 下载fastp代码

conda install -c bioconda fastp

1.2 fastp使用

确保获得fastq文件,下列为sing-end文件的处理方法。

fastp -i ./SRR3418019/SRR3418019.fastq -o ./SRR3418019/SRR3418019_clean.fastq.gz -z 4 -q 20 -u 30 -n 10 -f 12 -h ./SRR3418019/SRR3418019.fastp.html
  • -i: 指定输入文件的路径,这里是./SRR3418019/SRR3418019.fastq,表示fastp将处理这个文件夹下的SRR3418019.fastq文件。

  • -o: 指定输出文件的路径,这里是./SRR3418019/SRR3418019_clean.fastq.gz,表示处理后的读段将被保存为这个路径下的.gz压缩文件。

  • -z: 设置gzip压缩级别,这里是4,表示输出文件将使用中等压缩级别进行压缩,这在速度和压缩比之间提供了一个平衡。

  • -q: 设置平均质量分数阈值,这里是20,表示fastp将移除平均质量分数低于20的读段。

  • -u: 设置不合格碱基百分比阈值,这里是30,表示如果读段中不合格碱基的百分比超过30%,则该读段将被移除。

  • -n: 设置N碱基数量阈值,这里是10,表示如果读段中N碱基的数量超过10个,则该读段将被移除。

  • -f: 设置前端修剪的碱基数量,这里是12,表示fastp将从每条读段的前端移除12个碱基。

  • -h: 指定HTML报告文件的输出路径,这里是./SRR3418019/SRR3418019.fastp.html,表示fastp将生成一个包含详细统计信息的HTML报告文件。

1.2.1 pair-end使用方法
fastp -i reads1.fastq -I reads2.fastq -o reads1_clean.fastq -O reads2_clean.fastq -z 4 -q 20 -u 30 -n 10 - f 15 -t 15 -F15 -T 15 -h **.fastp.html
1.2.2 接头修剪(adapter trimming)
  • 默认接头修剪fastp默认启用adapter trimming,但可以通过-A--disable_adapter_trimming参数关闭。

  • 自动检测接头:对于单端(SE)数据,fastp通过分析前约100万条读段的尾部来自动检测接头序列。这种检测可能不准确,用户可以通过-a--adapter_sequence参数指定接头序列。如果指定了接头序列,将禁用SE数据的自动检测。

  • PE数据的接头检测:对于双端(PE)数据,fastp通过每对读段的重叠分析来检测接头,这种方法既稳健又快速。通常,即使用户知道接头序列,也无需手动输入,因为fastp可以自动处理。但如果需要,用户仍然可以通过--adapter_sequence--adapter_sequence_r2参数分别为读段1和读段2指定接头序列。如果fastp无法找到重叠(例如由于低质量碱基),它将使用这些序列分别修剪读段1和读段2的接头。

  • PE数据的自动检测:对于PE数据,默认情况下禁用接头序列自动检测,因为可以通过重叠分析修剪接头。但如果需要,可以通过--detect_adapter_for_pe(-a)参数启用。

1.2.3 去重复

fastp默认不去重,输入-D可以去重。重复的来源:

  • PCR重复:如果您的RNA-seq样本在文库构建过程中可能经历了PCR扩增,这可能导致某些序列被过度放大,从而产生重复的读段。在这种情况下,去重可以帮助减少这些重复序列对数据分析的影响。

  • 生物学重复:在某些情况下,即使没有PCR扩增,也可能存在生物学上的重复,例如在单细胞RNA-seq中。这些重复可能反映了真实的生物学过程,因此在这种情况下,去红可能不是必须的。

  • 数据分析流程:在某些数据分析流程中,去重可能会在后续步骤中进行,例如在使用某些转录组组装或定量工具时。在这种情况下,您可能不需要在fastp中进行去重。

  • 数据质量:如果您的数据质量非常高,重复序列可能很少,去重可能不是必要的。但如果数据质量较低,或者您观察到了大量的重复序列,那么去红可能是一个有用的步骤。

在RNA-seq和宏基因组测序中一般不推荐使用去重复功能,后续在比对过程中会针对重复进行去重。下图左边为未去重(fastp默认不去重),右图去重(-D)。可见去重之后reads被过滤了很多。

2.multiqc

2.1 下载multiqc

conda install -c bioconda multiqc

2.2 fastqc对指定fatq文件进行qc

fastqc SRR3418019_clean2.fastq.gz
fastqc SRR3418020_clean2.fastq.gz

2.3 multiqc总结报告

multiqc .
  • .代表在当前文件夹生成报告
  • --outdir (-o): 在指定的输出目录中创建报告。
  • --title (-i): 报告标题。作为页面页眉打印,如果没有特别指定,则用于文件名。

2.4支持报告类型

  1. Assembly:

    • SPAdes
    • A5 (from A5 pipeline)
    • Canu
    • Flye
    • Miniasm
    • Trinity -Velvet
  2. Alignment:

    • BWA
    • Bowtie 1 & 2
    • Clustal Omega
    • MAFFT
    • Muscle
    • STAR
  3. Variant Calling:

    • GATK (haplotype caller)
    • Samtools (mpileup)
    • VarScan
    • FreeBayes
    • BCFtools (csq)
  4. RNA-Seq:

    • HTSeq
    • featureCounts
    • Salmon
    • StringTie
    • DESeq2
    • edgeR
  5. ChIP-Seq:

    • MACS2
    • ChIP-seq quality control (CSQC)
  6. Genome Methylation:

    • Bismark
    • MethyKit
  7. Genome Assembly Evaluation:

    • QUAST
    • Assemblathon
  8. Metagenomics:

    • Mothur
    • VSEARCH
  9. Proteomics:

    • OpenMS (FeatureXML)
    • MaxQuant
    • PeptideProphet
  10. Other Tools:

    • FastQC
    • MultiQC (self-analysis)
    • Picard
    • bedtools
    • bcftools
    • RSeQC
    • qualimap

 

  • 27
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值