高通量测序在文库准备和测序过程中可能出现质量问题,如低质量碱基、特异序列干扰、3'/5'端错误、非特异性PCR扩增和接头污染等,这些问题会影响后续的序列比对和基因表达量估算。虽然部分问题可通过序列质控、去接头和误差校正等策略解决,但仍有一些潜在问题难以处理,需要对结果进行详细讨论。
目前有许多用于Read质量评估和预处理的软件。质量评估软件如FastQC和PRINSEQ,内置质量过滤标准并支持结果可视化,PRINSEQ还提供去接头功能;预处理软件则包括Trimmomatic、Cutadapt和FastX等。前面我们一起学习过FastQC、Trimmomatic、Cutdapt和Trim Galore,今天我们再来学习常用的软件PRINSEQ。它是2011年的开源工具,凭借其"评估-过滤-修复"三位一体的功能,已成为生物信息学领域的基础设施级软件。对其他几款工具感兴趣的同学可以参考以下推文(点击蓝色字体跳转):