Metagenomics Pipeline
文章主要目的:多数读者在从事宏基因组学分析的学习过程中都会遇到的共性问题,就是目前有太多的乱七八糟的分析软件,其分析质量无法考究。很难总结出一套比较切实可靠的分析流程,笔者也深受其害。摸索之中浪费了大量时间成本,故写此文,供各位参考。
宏基因组分析软件规划:
-
初始fasta.q文件
-
1.组装阶段:Megahit/Spades
-
2.质控阶段:CheckM
-
3.注释阶段:Pgap
-
4.预测阶段:waka
陈述选择原因:
- Megahit:笔者通过文章查阅并实践分析所得,该软件相对轻量,对内存要求相对较低,其组装质量同比之下属于中上。应用于linux系统,通过conda安装很方便。适合前期学习使用。Spades:属于重量级组装工具,优点:组装N50大,contigs片段长度和准确性更好,缺点:非常耗内存,对硬件要求较高,组装速度慢
- CheckM:指控阶段的不可或缺的软件,对去除末端,冗余等有很好的效果,大胆选用即可。
- Pgap:强大的NCBI注释工具,可以添加很多大型数据库进行比对分析,虽然安装上有一定难度,不过其功能还是可圈可点。值得注意的一点是,这款软件同样需要很好的机器配置作为先决条件,cpu及内存,特别是内存,一定要够,否则会内存溢出。
- weka:机器学习等模型预测工具,内置常用的贝叶斯,决策树等机器学习算法,操作相对容易,完全可以满足一般的功能基因预测。