iMeta | 华中科大宁康组与元码基因联合开发在线微生物关联分析平台

点击蓝字 关注我们

MicroEXPERT:跨项目研究宏基因组与环境数据关联的在线微生物组分析平台

2c768af1729f22ffc601e51dcdd74ad4.png

iMeta主页:http://www.imeta.science

综  述

● 原文链接DOI: https://doi.org/10.1002/imt2.131

● 2023年8月17日,华中科技大学宁康组与元码基因公司在 iMeta 在线联合发表了题为 “MicroEXPERT: Microbiome profiling platform with cross-study metagenome-wide association analysis functionality” 的文章。

● MicroEXPERT平台提供了一个强大的宏基因组管理和分析系统,用于微生物组数据管理、数据分析、数据挖掘和MWAS分析,帮助理解宏基因组和其生态环境之间的关联性。MicroEXPERT平台的可访问网址为https://MicroEXPERT.aimicrobiome.cn/。

● 第一作者:杨朋硕、杨家亮

● 通讯作者:宁康(ningkang@hust.edu.cn)、田埂(tiang@geneis.cn)

● 合作作者:龙海侠、黄凯梅、计磊、林汉阳、姜秀莉、Arthur Kairui Wang

● 主要单位:华中科技大学生命与科学技术学院、北京元码基因、山东第一医科大学

亮   点

419de8c410aa8900b692f752d1a2dfa9.png

●  MicroEXPERT平台的整体框架。我们的平台由五个模块组成。数据管理模块:通过引导式的工作流帮助用户将原始数据和元数据上传到我们的系统。数据处理模块:上传的数据经过软件处理,生成样本的分类学以及功能组成分析结果。宏基因组范围关联研究模块(MWAS):利用元数据以及多种统计方法,进行生物标志物分析、主成分分析、共现网络和样本分类等分析。数据查询模块:用户可以查询核苷酸序列,以检索MicroEXPERT数据库中的信息。数据可视化模块:利用可视化工具来展示宏基因组分析结果。

摘  要

随着各种大规模微生物组测序项目的完成,微生物组数据量呈现指数增长,并且其配套的样本信息和环境条件(即元数据)的数据收集也变得愈加详细和复杂。这些大型宏基因组测序项目和多样化的元数据使得对数据网站的数据管理和数据分析提出了更大的挑战。因此,我们开发了MicroEXPERT平台,该平台专注于宏基因组数据的数据分析和数据挖掘。MicroEXPERT平台有三个亮点。首先,MicroEXPERT平台为庞大的宏基因组数据提供了高效的数据管理系统。其次,MicroEXPERT平台整合了现有数据搜索流程,将基因搜索、物种识别和样本搜索进行统一整合。第三,为了获得高分辨率的宏基因组和元数据之间的关联关系,本平台整合了大量的统计方法用于宏基因组范围的关联分析(MWAS)。为了使MWAS更易于被微生物学家使用,我们开发了配套的交互式界面,允许用户定制化进行MWAS分析并展示MWAS的结果。我们的MicroEXPERT平台提供了一个强大的宏基因组管理和分析系统,用于微生物组数据管理、数据分析、数据挖掘和MWAS分析,帮助理解宏基因组和其生态环境之间的关联性。MicroEXPERT平台的可访问网址为https://MicroEXPERT.aimicrobiome.cn/。

视频解读

Bilibili:https://www.bilibili.com/video/BV11r4y1X77K/

Youtube:https://youtu.be/G54JkORqOBc

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网:http://www.imeta.science/

全文解读

引  言

归因于测序技术的快速发展,大规模的微生物组研究项目,如人体微生物组计划、Tara Oceans项目和地球微生物组计划(EMP),已经涌现出来,以探索微生物群落。这些宏基因组项目产生了大量数据,促使微生物组研究成为一门数据驱动的学科。

在这些项目成功的因素中,特别值得注意的是成功地将环境因素(即元数据)与微生物群落的内在分布和生物学意义相结合。通过将元数据与宏基因组相结合,我们对微生物群落的认识得到了显著提高。宏基因组范围关联研究(MWAS)应用了基因组范围关联研究的概念进行关联分析,可以高分辨率地研究微生物群落与其环境参数之间的关联。MWAS将产生一系列与微生物群落和各种健康或环境情况相关的统计关联或模型。这些关联包括塑造微生物群落的环境因素以及在特定环境中富集的微生物功能的鉴定。例如,MWAS分析可以评估临床和生活方式因素对与人类健康相关的微生物群落的潜在影响。因此,许多用于维护来自不同环境(即生物群落)的宏基因组数据和元数据的数据库已经建立,用于挖掘有意义的微生物与环境的关联关系,例如MGnify,Integrated Microbial Genomes (IMG) 系统和Sequence Read Archive (SRA) 数据库。然而,面对大量的宏基因组数据和相应的具有异质性的元数据,需要一个平台来定制化地利用元数据来解析生物群落和宏基因组之间的关系。

在这项工作中,我们介绍MicroEXPERT平台,该平台专门处理宏基因组的数据管理、数据分析和数据挖掘。首先,MicroEXPERT平台设计了一个高效且先进的数据库管理系统,以支持长期的数据存储。其次,MicroEXPERT平台设计了一个搜索模块,以促进对宏基因组的多层次探索(从基因到生物群落)。最后,MicroEXPERT平台设计了MWAS模块,其中包括各种统计技术、直观的图形用户界面和交互式分析结果用于展示环境和微生物群落的关联。我们致力于构建一个易于访问、功能强大且信息丰富的微生物数据挖掘平台。

结  果

MicroEXPERT平台的界面

MicroEXPERT的界面设计以用户友好和功能齐全为宗旨。MicroEXPERT的主页展示了数据库的介绍,并在页面顶部提供了所有分析的接口(图1A)。MicroEXPERT已经收录了4.5TB的原始宏基因组数据和相关元数据。“Biome”页面展示了按MGnify分类的235个生物群落的样本(图1B,C)。“Project”页面展示了样本的数据处理结果(图1D)。为了方便样本搜索和导航,"Sample"网页展示了所有样本和run的信息(图1D)。通过查询核苷酸序列,"Search"网页提供了一整套生物信息学工具,用于基因注释、物种识别和样本来源监控。"MWAS"提供了超过40种工具,用于基于我们数据库中存储的元数据和样本分析结果进行深入的数据挖掘。"help"页面详细介绍了平台以及数据处理流程。

447d234254bb5f15ffa159ed44bd3aef.png

图 1. MicroEXPERT(https://microexpert.aimicrobiome.cn/)的界面截图和用户案例示例

(A) MicroEXPERT的主页。主页包括MicroEXPERT的介绍和统计信息,并提供了链接到其他模块的界面。(B) 根据生物群落信息分类的项目。主页展示了拥有最多项目的生物群落。同时还显示了最近提交的项目。(C) 生物群落信息的截图。所有样本都被分类为235个生物群落,每个生物群落都提供了项目的详细信息链接。(D) 样本信息页面的示例。对于每个样本,展示了上传样本的质量控制结果。低质量序列被过滤掉。功能分析结果被分为三类:生物过程、细胞组成和分子功能。

MicroEXPERT平台的数据管理

MicroEXPERT平台提供了宏基因组数据存档服务,用于存储原始数据和处理后的数据结果。此外,数据库设计了用于存储数据以及元数据的数据上传以及管理系统(https://microexpert.aimicrobiome.cn/welcome)。这个界面通过数据逻辑和逐步深入的方式直观地帮助用户选择项目名称、上传样本和run信息,并会对用户提供的元数据对样本进行分类。为了保持数据的完整性,我们的后台工作人员将会对上传的样本信息再次进行手动检查。如果发现样本信息不完整或样本质量未达到要求标准,用户会立即收到电子邮件通知。

MicroEXPERT的宏基因组范围关联研究

MicroEXPERT平台致力于提供基于MWAS的全面的统计方法。例如,MicroEXPERT中的示例MWAS分析为一个包含来自Tara Oceans数据集的10个样本的数据集,这些样本的收集温度不同(图2A)。通过根据温度对样本进行分类,MWAS分析可以通过环境关联分析来识别两组之间的差异,通过共现网络分析来研究细菌群落内的关联模式,并通过LEfSe分析确定导致分组差异的关键物种。此外,该平台允许构建机器学习模型,具体来说是随机森林算法,用于根据样本的温度变化进行分类和新样本的预测。

首先,用户需要选择感兴趣的测序项目以及相应的样本(图2A)。点击主页上的“MWAS”链接后,用户将被引导到项目选择页面。一旦选择了项目和运行信息后,后台程序将用于解决所选样本的批次效应并进行数据归一化处理(使用DESeq2,https://rdrr.io/bioc/DESeq2/man)。

其次,基于所选的样本,应指定统计方法(图2B)。我们的MWAS模块提供各种统计工具用于支持数据比较(与元数据无关)和MWAS分析(依赖于元数据)。这些功能包括宏基因组数据分析的关键组成部分挖掘,数据可视化(热图)、降维分析(PCA)、相关性计算(环境关联分析和共现网络)、生物标志物检测(LEfSe)和机器学习建模(随机森林)。

第三,选择了统计方法后,应基于上传的元数据进行数据分组(图2C)。用户可以选择不同的颜色标签对数据进行分组,并将它们分成多达四个不同的组。对于大量数据的批量分组需求,我们提供了一个分组上传服务,可以下载元数据的制表符分隔文件(“.tsv”)格式,并在用户本地计算机上编辑后重新上传分类好的元数据。

最后,所有样本比较结果和MWAS分析结果以应用程序列表的形式进行展示(图2D)。MWAS结果可以从多角度和多维度展示元数据和样本之间的关联性(图2E):PCA分析直接展示了不同分类之间的样本分布。热图和mantel test结果分别检测了驱动不同分组差异的物种模型和环境因素。生物标志物分析则进一步检测物种水平上的差异,并通过共现网络展示它们的潜在关系。最后,我们的平台提供了基于随机森林算法的机器学习模型构建方法。

5bf7ec0ba1038ece7ca51430564929a4.png

图2. MWAS工作流程的截图 (https://microexpert.aimicrobiome.cn/mwas)

(A)样本选择步骤。用户可以选择在MicroEXPERT数据库中的样本进行分析。(B) 自定义分析选择。在此步骤中,用户可以检查所选的样本,并选择分析工具(MWAS分析和比较方法)。建议至少使用10个样本进行MWAS分析。(C) 元数据分类。用户可以根据元数据将样本分成最多四组,并用选择的颜色标签进行标记。或者,用户可以通过从本地计算机导入表格来上传组信息。(D) 样本比较。使用不同的统计工具进行样本比较,如主成分分析(PCA)分析,热图和堆叠柱图。(E) MWAS分析。基于分类信息和分类学或功能学组成,使用各种统计工具(如热图、PCA和网络)分析宏基因组与元数据之间的关联。

MicroEXPERT的搜索引擎

许多宏基因组数据库在数据查询、可视化和处理后数据的比较分析方面表现出色。然而,为了进一步增强数据搜索功能并简化用户操作,有必要开发一个一键式的数据搜索机制(图3)。为此,我们设计了一个多层数据挖掘的处理流程,构建了基因注释、物种识别、样本映射和查询序列之间的关联:首先,在基因水平上,使用BLAST+(版本2.7.1)和NR数据库(下载日期2018.1.10)实现基因注释功能(图3A)。在物种水平上(图3B),对于基因的注释不仅包括与NR数据库中匹配基因的物种信息。而且,为了更加准确地鉴定序列的物种信息,我们提供了基于物种识别工具Kraken的快速而精确的物种鉴定流程。在生物群落水平上(图3C),通过将所有的分类学分析结果都存储在一个单独的MySQL数据库中的形式,可以在我们的数据库样本中探索查询物种的样本分布。

以Blast功能中的示例序列(https://microexpert.aimicrobiome.cn/search)为例,展示我们的搜索流程:这个560bp的序列通过序列搜索,被确认为来自Alteromonas macleodii ATCC 27126的基因(基因ID:CP003841)。在Tara Oceans项目中,该物种相对丰度较大(最高相对丰度:5.69%),占主导地位。同时,这个特定的样本是从5米深的表面采集的,符合Alteromonas属的已知生理学和生态学偏好。

36da07c85e74eeb7b9e66086eb806eb4.png

图3.使用单个序列(https://microexpert.aimicrobiome.cn/search)研究基因-物种-样本关系

(A) 基因注释工作流程。对于查询核苷酸序列,MicroEXPERT平台使用工具BLAST+(版本2.5.1)在NCBI核苷酸数据库中搜索基因。搜索结果还展示了基于NCBI核苷酸数据库的详细匹配信息。(B) 物种鉴定工作流程。为了识别查询序列的可能来源物种,使用了Kraken2(版本2.0.7)和MetaPhlAn4(版本4.0.2)。基于NCBI分类数据库推断了匹配物种的谱系和系统发育关系。(C) 样本搜索工作流程。为了探索数据库中查询物种的样本分布和生物群落,数据库中所有分析结果和样本信息被存储在一个单独的表中,以返回不同环境和样本中查询物种的丰度信息。

与其他平台的比较

目前,许多平台都可以进行微生物组的分析(表1)。然而,这些数据库大部分专注于原始数据的管理和处理,对高级统计分析和数据挖掘功能只能提供有限的支持(表1)。相比之下,MicroEXPERT是对数据存储库和搜索能力进行了有机结合。通过对这些数据库进行全面的比较后(表1),我们可以确认MicroEXPERT通过提供独特的数据搜索和数据挖掘功能来区别于其他平台。

表1. MicroEXPERT与其他基于Web的工具的比较。每个工具的URL在表格下方给出

5abce6cc9c5d129cae456188de6c816d.png

平台的构建和数据支持

Web界面的开发是基于Hypertext Preprocessor(PHP)。而数据库是基于Mangodb构建的,用于存储项目相关信息、元数据和分析结果。分析工具和数据处理流程是使用Docker安装的。MicroEXPERT由两个各具特色的计算服务器提供支持:一个服务器用于数据管理,具有16核CPU、32GB内存和16TB存储空间。另一个服务器用于在线MWAS分析,具有32核CPU、256GB内存和4TB存储容量。

讨  论

在线MWAS分析中的瓶颈问题在于元数据的自动化识别,因为宏基因组的元数据具有高维度和高异质性的特征。为了解决这一问题,我们采取了几项措施来提高分析结果的准确性和系统的稳健性:1. 在项目选择步骤中,MWAS分析仅限于同一项目内的样本,而来自不同项目的样本不进行MWAS分析。2. 在样本分类时,我们专门开发了一个网页,用户可以根据多达四个不同的标准对样本进行分类,从而实现更精细的MWAS分析。3. 预处理脚本的深度定制:经过一系列的系统测试后,我们定制了每种MWAS方法的预处理脚本,确保与各种数据类型的兼容。4. 最小运行数的限制:考虑到MWAS结果的统计显著性的重要性,我们建议在我们的网站上进行分析时至少使用10个样本。这个标准有助于确保得到可靠和有意义的MWAS结果。

在我们的知识范围内,MicroEXPERT是第一个专注于在线数据挖掘的平台。MicroEXPERT将每六个月更新一次,以纳入更多的宏基因组研究和最新的MWAS分析方法。我们认为,在MicroEXPERT这个集成的数据库和分析平台上的持续更新将有助于全球宏基因组数据和人类健康相关知识的挖掘。

结  论

作为一个用于收集和分析微生物样本的平台,MicroEXPERT收录了4,236个测序项目,涵盖了328,417个样本,每个样本都经过统一的样本处理流程,拥有详细的分类学和功能学特征分析结果。我们的服务器已经收集了大量的项目来支持我们的MWAS分析和基因搜索模块。值得我们继续努力的是,我们应该收集更多的数据,以更加深入地了解微生物群落。此外,改善MWAS的有效性需要攻克微生物组采样、测序、生物信息学分析和功能特性表征等方面的更多的挑战。因此,在MicroEXPERT的未来更新中,我们将开发一个更精确、更高分辨率的分析流程,用于识别微生物物种和功能。此外,我们还将使用更为先进的人工智能技术,例如用于样本分类和宿主状态预测的深度学习技术,以及更加先进的数据挖掘技术,如基因挖掘工具和多组学数据整合工具,来挖掘微生物中存在的“暗物质”。

代码和数据可用性

MicroEXPERT的网址为https://MicroEXPERT.aimicrobiome.cn。所有材料(文本、图、表、中文翻译版本或视频)也可从线上获取。

引文格式

Pengshuo Yang, Jialiang Yang, Haixia Long, Kaimei Huang, Lei Ji, Hanyang Lin, Xiuli Jiang, Arthur Kairui Wang, Geng Tian, Kang Ning.2023. MicroEXPERT: Microbiome profiling platform with cross-study metagenome-wide association analysis functionality. iMeta, 2023. https://doi.org/10.1002/imt2.131

作者简介

94417ffde51d665a39222e1cdfacec3f.png

杨朋硕(第一作者)

●  博士,山东第一医科大学校聘副教授。

●  博士毕业于华中科技大学,生命科学与技术学院宁康教授团队。以第一作者身份发表SCI论文8篇 (Genome Biology, 2019; PNAS, 2021等),并参与五项国家自然基金委项目(其中一项为第二完成人),七项发明专利。研究方向为生物大数据挖掘,以及微生物组学研究中的方法开发。重点关注环境和健康领域的生物大数据处理。

075a00e51122c1bcd2169e229dcfe6f8.png

杨家亮(第一作者)

●  博士,现任元码基因科技(北京)股份有限公司副总经理、首席信息官、中国海洋大学特聘教授。

●  研究领域包括肿瘤基因检测、癌症早筛、人工智能和大数据挖掘在肿瘤和衰老研究中的应用等。迄今为止,发表学术论文共计160余篇,其中部分文章发表于顶级科学期刊Science、Cell Metabolism、Nature Communications、Molecular Biology and Evolution等。主导研发原发灶不明转移癌组织溯源、医学图像分析等产品,申请20余项发明专利和多项软件专著。

1373955a1944eaaab330ba440813a459.png

宁康(通讯作者)

● 华中科技大学生命科学与技术学院教授,博士生导师,生物信息与系统生物学系系主任。

● 2008年博士毕业于新加坡国立大学计算机学院生物信息专业。在生物信息学和微生物组学领域从事科研工作10余年,作为通讯作者在PNAS、Gut、Genome Biology、Gut Microbes、Briefings in Bioinformatics、Bioinformatics等生物学、医学和生物信息学顶级学术期刊等高水平学术期刊发表学术论文60余篇,文章总引用超过3000次,H指数30(Google Scholar)。目前主持国家自然科学基金项目、科技部重大研究计划课题等。担任中国生物信息学学会(筹)-基因组信息学分会副主任,中国生物工程学会-计算生物学与生物信息学专业委员会委员,中国计算机协会-生物信息学专业委员会委员等。担任Genomics Proteomics Bioinformatics、Microbiology Spectrum、Scientific Reports等国际期刊编委。详细情况请参见:http://www.microbioinformatics.org/。

ea7c25ac2374af0e90a3ae027e262ba6.png

田埂(通讯作者)

● 毕业于中国科学院北京基因组研究所,现任元码基因董事长&首席科学家。

● 曾任华大基因华北片区第一负责人、863重大项目“人工合成酵母基因组”负责人;清华大学基因组与合成生物学平台主任;北京协和医院科研处负责转化医学中心负责人。作为创始人带领元码基因先后获得“中关村高新技术企业”、“中关村前沿技术企业”、“国家高新技术企业”、“国家高新区瞪羚企业”等十多项荣誉称号。带领团队已经申请专利77项,其中32项已获得授权;获得的软件著作权89项。开发了Ucap、DeCap、Tcap和Pcap等一系列的原创专利技术,打破了国外垄断,是肿瘤诊断领域的革命性技术。通过自主研发或科技合作的方式,开展了百余项科研项目,并已在核心期刊发表百余篇研究成果。

更多推荐

(▼ 点击跳转)

高引文章 ▸▸▸▸

iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法  

4ce3285cc9017857613d7b06a964710a.png

▸▸▸▸

iMeta | 浙大倪艳组MetOrigin实现代谢物溯源和肠道微生物组与代谢组整合分析

5327bff5ea3abcc90918eacfd7feb792.png

▸▸▸▸

iMeta | 高颜值绘图网站imageGP+视频教程合集                                          

5cdfc8c3bf78bbe775abd1ca31783c9d.png

938942fd370afa40d4572ac7e616f53e.jpeg

1卷1期

ac01da84cea53178d77220ba51c6a6b9.jpeg

1卷2期

4b7393f3871dbe2d1683f19a9622b7d1.jpeg

1卷3期

3e80015a12741997f57f3cdfc48b82a4.jpeg

1卷4期

9c72e1938a6e40ec5ff88f391cfa6cc5.jpeg

2卷1期

e259b70e532437843458398d1f186385.jpeg

2卷2期

3076865bb8c44a375516cecdeef0590f.png

2卷3期

9bde4f27b1e74d283b16f00fc7a348bb.png

2卷4期

期刊简介

“iMeta” 是由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 15)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!

联系我们

iMeta主页:http://www.imeta.science

出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
邮箱:office@imeta.science

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值