NCycDB是一个专注于分析宏基因组中氮循环相关基因的数据库,由山东大学海洋科学与技术研究所开发并维护。该数据库于2018年8月在《Bioinformatics》期刊上发表,题为《NCycDB: a curated integrative database for fast and accurate metagenomic profiling of nitrogen cycling genes》。NCycDB的创建旨在解决在宏基因组测序数据分析中,针对氮循环基因家族分析时存在的低效数据库搜索、非特异性直系同源组以及低覆盖率等问题。
1、数据库特点
-
全面性和准确性:NCycDB是一个人工校正后的氮循环相关基因数据库,与COG、eggNOG、KEGG和Subsystems等通用数据库相比,其收录的基因家族数量更多且更准确。数据库共收录了68个基因家族,涵盖了8个氮循环过程,包括氨氧化、硝化、反硝化等关键步骤。
-
高覆盖率:在95%和100%的相似度阈值下,NCycDB分别包含了84,759和219,146个代表性序列。这些序列的广泛覆盖使得数据库能够更全面地反映氮循环基因家族的多样性。
-
直系同源组鉴定:为了避免由于“小数据库”问题导致的假阳性分配,NCycDB还鉴定了1,958个直系同源组,并将相应的序列纳入数据库。这一步骤显著提高了数据库在分析氮循环基因家族时的准确性和可靠性
2、数据库数据组成
在此,NCycD