GTDB:基因组分类数据库,物种注释和进化树构建工具GTDB-tk

简介

基因组分类数据库:GENOME TAXONOMY DATABASE

网址:https://gtdb.ecogenomic.org/

该数据库已经于2018/2020连续发表两篇Nature Biotechnology,软件于2019发表于Bioinformatcs,即可为细菌分类提供参考数据库,同时提供了物种分类、进化树构建的全套工具,绝对是服务到家的好工具。

该数据库发布2年,引用700余次,瞬间成为细菌分类领域最权威的数据库和软件之一。

热心肠日报简介(NBT2018)

原文链接:https://www.mr-gut.cn/papers/read/1087194889

Nature子刊:依据细菌共有单拷贝蛋白构建新的生命之树

创作:花开 审核:高春辉

2018年10月01日

这一分类系统以细菌中普遍存在的120个单拷贝蛋白质(bac120)为基础

在对多分组类别消歧后,根据相对演化散度标准化和分级,得到基因组分类数据库(GTDB);

涵盖了94759个细菌基因组,在属、种分辨率水平上描述了99个门,其中不可培养细菌占14.4%

58%在NCBI分类系统中已收录基因组的分类地位有变动,例如新系统中变形菌门重新划为6个不重叠的新类群

一些难以确定分类地位的物种(如不可培养微生物)也被系统的整合了进来。

推荐语:16S rRNA基因是现代细菌分类系统的基石,但以单基因核酸差异构建的细菌生命之树并非尽善尽美。Nature Biotechnology报道的将单基因分类系统扩展到120个细菌共有单拷贝蛋白质,在大量氨基酸水平差异的基础上构建新的分类系统(命名为GTDB),大幅修正了现有的细菌生命之树。

GTDB与NCBI分类系统比较

较多微生物的分类地位发生变化,如梭菌目重新划分为多个新目;而很多纲重新归类为拟杆菌纲(NBT 2018图5)。

GTDB分类法中指定为梭菌或拟杆菌的基因组的NCBI和GTDB分类的比较。

(a)比较GTDB分类法中分配给梭菌门的2368个细菌基因组的NCBI(左)和GTDB(右)目级别分类。原本的一个目重新划分为多个目。括号中表示通过NCBI归类为梭菌纲以外的纲的基因组。(b)比较GTDB分类法中分配给拟杆菌纲的2,058个细菌基因组的NCBI和GTDB纲级别分类。括号中表示通过NCBI分类为除拟杆菌纲以外的门的基因组。

软件和数据库安装

Github: https://github.com/Ecogenomics/GTDBTk

GTDB-Tk是一个软件工具包,用于根据基因组数据库分类法GTDB为细菌和古细菌基因组分配客观的分类法。它旨在与最近的进展一起使用,从而可以直接对环境样本中获得数百或数千个由基因组组装的基因组(MAG)进行物种分类注释。它也可以用于分离和单细胞的基因组物种注释。

本次测试版本为 GTDB-Tk v1.3.0,于2020年7月17发布,参考数据为95版。

硬件要求:

  • 内存100Gb

  • 硬盘27Gb

  • 64核1小时可分析1000个细菌基因组

Conda安装:

conda create -n gtdbtk
conda activate gtdbtk
# gtdbtk-1.3.0, 2020-9-27
conda install -c bioconda gtdbtk

download-db.sh自动下载数据库,将下载至conda中的envs/gtdbtk/share/gtdbtk-1.3.0/db/:

download-db.sh

(可选)手动下载和配置GTDB参考基因组最新版(测试时为95版,34Gb)

mkdir -p ~/db/gtdb & cd ~/db/gtdb
# 下载解压
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz
tar zxvf gtdbtk_data.tar.gz
# 设置数据库位置,注意修改软件安装位置
locate gtdbtk.sh # 查找配置文件位置
# 修改PATH=后面的路径为数据库解压目录,如/home/meta/db/gtdb/release95/
vim /conda/envs/gtdbtk/etc/conda/activate.d/gtdbtk.sh

此外:GTDB数据库国内下载备份链接见 http://nmdc.cn/datadownload

使用

教程:https://ecogenomics.github.io/GTDBTk/

运行gtdbtk -h显示帮助,主要有以下功能模块

工作流程:

  • classify_wf:基于GTDB参考树,基因组物种注释,包括鉴定、比对、分类三步

  • de_novo_wf:推荐新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰

主要方法模块:

  • identify:基因组中鉴定标记基因

  • align:多序列对齐

  • classify:确定物种分类

  • infer:从多序列对齐序列建树

  • root:使用外类群定根

  • decorate:使用GTDB分类注释树

工具:

  • infer_ranks: 使用RED估计分类级和内部结果

  • ani_rep: 计算GTDB代表基因组的ANI

  • trim_msa: 多序列对齐结果筛选

  • export_msa : 导出未剪裁的细菌/古菌多序列对齐文件

测试:

  • test:使用3个古菌基因组测试分类流程

  • check_install:检查数据库文件是否存在且位置正确

测试流程test

检查数据库,结果显示OK和Done表示正常

gtdbtk check_install

正常显示如下:

GTDB-Tk v1.3.0
gtdbtk check_install
Using GTDB-Tk reference data version r95: meta/db/gtdb/release95/
Running install verification
Checking /home/meta/db/gtdb/release95/
         |-- pplacer          OK
         |-- masks            OK
         |-- markers          OK
         |-- radii            OK
         |-- msa              OK
         |-- metadata         OK
         |-- taxonomy         OK
         |-- fastani          OK
         |-- mrca_red         OK
Done.

测试流程,无报错确定程序的软件和数据库正常

gtdbtk test --out_dir gtdbtk_test

运行成功显示如下内容:

GTDB-Tk v1.3.0
gtdbtk test --out_dir gtdbtk_test
Using GTDB-Tk reference data version r95: /home/meta/db/gtdb/release95/
Command: gtdbtk classify_wf --genome_dir gtdbtk_test/genomes --out_dir gtdbtk_test/output --cpus 1
Test has successfully finished.

结果目录(gtdbtk_test/output)中主要结果文件:

ar122为古菌相关文件,bac120为细菌相关文件。此示例为3个古菌,细菌文件为空。

  • gtdbtk.ar122.classify.tree 树文件

  • gtdbtk.ar122.summary.tsv 分类结果文件

  • gtdbtk.ar122.markers_summary.tsv 使用标记基因情况

  • gtdbtk.ar122.msa.fasta 多序列对齐文件(输入+参考)

  • gtdbtk.ar122.user_msa.fasta 多序列对齐文件(输入)

分类结果示例

user_genome     classification  fastani_reference       fastani_reference_radius        fastani_taxonomy        fastani_ani     fa
genome_2        d__Archaea;p__Thermoplasmatota;c__Thermoplasmata;o__Methanomassiliicoccales;f__Methanomethylophilaceae;g__VadinCA1
genome_3        d__Archaea;p__Thermoplasmatota;c__Thermoplasmata;o__Methanomassiliicoccales;f__Methanomethylophilaceae;g__VadinCA1
genome_1        d__Archaea;p__Methanobacteriota;c__Methanobacteria;o__Methanobacteriales;f__Methanobacteriaceae;g__Methanobrevibac

多序列对齐示例

>genome_1
REPLFLTIMVSFLATSGVSIDGSVDDLEKESIGAG-YCKEVLDLTEHCPMKGEEFIDDKAV-NIGIHAKKDYNILIVHEEGAYY
>genome_2
RSPVLLEFMVEMIVTSGVAIEGSSDELKDVSAAAA-YCKEVLDLCAECLMDNQEYVENKAV-AIGIYSKTDPDLLIMQREGAYY
>genome_3
------------------------------------------DLSSECPMDNQEYIEDKAV-AIGIYSKVSPDVLILHDEGAYY

物种注释流程

classify_wf全称为 Classify workflow,即分类工作流程,主要包括了identify鉴定单拷贝标记基因、align多序列对齐和classify物种分类鉴定三步。

https://github.com/YongxinLiu/Note/tree/master/Meta/dRep/bin 中有6个基因组草图的fasta压缩文件。下载测试此流程。

(可选)解压数据,此流程支持gz压缩格式直接作为输放

# gunzip bin/*.fa.gz

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h

gtdbtk classify_wf --genome_dir bin \
    --out_dir classify_wf \
    --extension gz \
    --prefix bin \
    --cpus 8

主要结果文件描述:此处全为细菌基因组,因此均为bin.bac120开头的结果

物种注释 bin.bac120.summary.tsv

user_genome     classification  fastani_reference       fastani_reference_radius        fastani_taxonomy        fastani_ani
K4093L.5.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
B4018L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
W4194L.6.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
K4096L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__
W4194L.3.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__
L4105L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__PALSA-1006;s__

多序列对齐结果建树infer

# 6个基因组的120个单拷贝基因建树,1秒
time gtdbtk infer \
    --msa_file classify_wf/bin.bac120.user_msa.fasta \
    --out_dir infer \
    --cpus 8 \
    --prefix bin

结果可用itol(https://itol.embl.de/)在线可视化

如果基因组比较多,而且添加上分类、来源注释,结果如下:

人类肠道基因组集基因组进化树(Almeida, 2020, Nature Biotechnology)。

具体的画法可以参照itol网站的帮助。也可以使用我们介绍过的脚本输入快速制作注释文件。

进化树构建流程

从基因组直接建树,de_novo_wf:构建新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰。

输入文件为细菌基因组的目录(—genome_dir),指定扩展名类型(—extension),以及输出目录(—out_dir)。必须参数有需要选择细菌(—bacteria)/古菌,指定外类群(—outgroup_taxon)。可选常用参数有结果前缀(—prefix)和使用线程数(—cpus)。

# 约4小时。
gtdbtk de_novo_wf --genome_dir bin \
    --out_dir de_novo_wf \
    --extension gz \
    --bacteria \
    --outgroup_taxon p__Patescibacteria \
    --prefix bin \
    --cpus 8

主要结果有:

  • bin.bac120.decorated.tree: 修饰的有根树

  • bin.bac120.decorated.tree-table:

    树相关信息表

  • bin.bac120.user_msa.fasta:

    多序列对齐文件

附录:GTDB数据库简介

基因组位于 https://data.ace.uq.edu.au/public/gtdb/data/releases/ 中相应版本的genomic_files_reps目录下,

建议大家直接下载latest目录下的最新版,可以保持下载位置一致,同时记录版本号(当前为2020年7月13号更新95版)。

GTDB-tk使用的数据库,位于auxillary_files文件夹中的gtdbtk_data.tar.gz,95版为33G

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz

物种注释文件,古菌3千多种,细菌,19万多种

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/ar122_taxonomy_r95.tsv
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/bac120_taxonomy_r95.tsv

参考基因组文件,32G

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/genomic_files_reps/gtdb_genomes_reps.tar.gz

参考文献

软件:Pierre-Alain Chaumeil, Aaron J Mussig, Philip Hugenholtz & Donovan H Parks. (2019). GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics 36, 1925-1927, doi: https://doi.org/10.1093/bioinformatics/btz848

120个基因单拷贝分类法;Donovan H. Parks, Maria Chuvochina, David W. Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & Philip Hugenholtz. (2018). A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology 36, 996, doi: https://doi.org/10.1038/nbt.4229

种特异的方法和数据库 Donovan H. Parks, Maria Chuvochina, Pierre-Alain Chaumeil, Christian Rinke, Aaron J. Mussig & Philip Hugenholtz. (2020). A complete domain-to-species taxonomy for Bacteria and Archaea. Nature Biotechnology 38, 1079-1086, doi: https://doi.org/10.1038/s41587-020-0501-8

使用实战:Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Ekaterina Sakharova, Donovan H. Parks, Philip Hugenholtz, Nicola Segata, Nikos C. Kyrpides & Robert D. Finn. (2020). A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology, doi: https://doi.org/10.1038/s41587-020-0603-3

调用的软件引文如下:

基因预测软件Prodigal:Doug Hyatt, Gwo-Liang Chen, Philip F. LoCascio, Miriam L. Land, Frank W. Larimer & Loren J. Hauser. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119, doi: https://doi.org/10.1186/1471-2105-11-119

参考树插值法建树pplacer:Frederick A. Matsen, Robin B. Kodner & E. Virginia Armbrust. (2010). pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 11, 538, doi: https://doi.org/10.1186/1471-2105-11-538

快速建树软件FastTree:Morgan N. Price, Paramvir S. Dehal & Adam P. Arkin. (2010). FastTree 2 – approximately maximum-likelihood trees for large alignments. PloS One 5, e9490, doi: https://doi.org/10.1371/journal.pone.0009490

基因组距离估计Mash:Brian D. Ondov, Todd J. Treangen, Páll Melsted, Adam B. Mallonee, Nicholas H. Bergman, Sergey Koren & Adam M. Phillippy. (2016). Mash: fast genome and metagenome distance estimation using MinHash. Genome Biology 17, 132, doi: https://doi.org/10.1186/s13059-016-0997-x

高通量ANI计算:Chirag Jain, Luis M. Rodriguez-R, Adam M. Phillippy, Konstantinos T. Konstantinidis & Srinivas Aluru. (2018). High throughput ANI analysis of 90K prokaryotic genomes reveals clear species boundaries. Nature Communications 9, 5114, doi: https://doi.org/10.1038/s41467-018-07641-9

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

  • 23
    点赞
  • 106
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
基于直系同源基因的物种构建是一种常用的系统发育分析方法。其基本思路是选取多个物种中的同源基因,通过比对这些基因的序列差异,推断物种之间的进化关系。下面是一些基于直系同源基因构建物种树的步骤: 1. 选取同源基因:首先从多个物种中选取同源基因。这些基因应具有以下特点:在不同物种中具有高度保守性,长度适中,且缺失较少。 2. 序列比对:对选定的同源基因进行序列比对,找出它们之间的差异,并记录下来。 3. 构建进化距离矩阵:根据同源基因比对结果,计算不同物种之间的进化距离,并将其记录在一个进化距离矩阵中。 4. 构建系统发育树:根据进化距离矩阵,使用系统发育树构建软件,如MEGA、PAUP等,构建物种树。其中,系统发育树构建软件可以采用不同的算法,如最小进化距离法、最大简约法、最大似然法等,以得到不同的系统发育树。 5. 验证树的可靠性:对于构建出来的物种树,需要进行可靠性验证。这可以通过Bootstrap方法、Jackknife方法等进行,以评估树的可靠性和稳定性。 以上是基于直系同源基因构建物种树的一些基本步骤。需要注意的是,选取同源基因时要注意确保其确实是同源基因,避免选择到伪基因或拷贝基因等。此外,不同算法和软件对于物种树的构建结果可能会有所不同,因此需要进行多次构建和验证,以得到可靠的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值