重大数据分析错误导致癌症微生物组研究结果无效
Major data analysis errors invalidate cancer microbiome findings
Article, 2023-10-09, mBio, [IF 5.1]
DOI: https://doi.org/10.1128/mbio.01607-23
原文链接:https://journals.asm.org/doi/10.1128/mbio.01607-23
第一作者:Abraham Gihawi
通讯作者:Steven L. Salzberg
合作作者:Yuchen Ge, Jennifer Lu, Daniela Puiu, Amanda Xu, Colin S. Cooper, Daniel S. Brewer, Mihaela Pertea
主要单位:
英国东英吉利大学,诺里奇医学院 (Norwich Medical School, University of East Anglia, Norwich, United Kingdom)
美国约翰霍普金斯大学,计算生物学中心(Center for Computational Biology, Johns Hopkins University, Baltimore, Maryland, USA)
美国约翰霍普金斯大学,生物医学工程系(Department of Biomedical Engineering, Johns Hopkins University, Baltimore, Maryland, USA
英国诺里奇研究园区,厄尔姆研究所(Earlham Institute, Norwich Research Park, Colney Lane, Norwich, United Kingdom)
美国约翰霍普金斯大学,计算机科学系(Department of Computer Science, Johns Hopkins University, Baltimore, Maryland, USA)
美国约翰霍普金斯大学,生物统计学系(Department of Biostatistics, Johns Hopkins University, Baltimore, Maryland, USA)
撤稿Nature文章
Gregory D. Poore, Evguenia Kopylova, Qiyun Zhu, Carolina Carpenter, Serena Fraraccio, Stephen Wandro, Tomasz Kosciolek, Stefan Janssen, Jessica Metcalf, Se Jin Song, Jad Kanbar, Sandrine Miller-Montgomery, Robert Heaton, Rana McKay, Sandip Pravin Patel, Austin D. Swafford, Rob Knight. 2020. Microbiome analyses of blood and tissues suggest cancer diagnostic approach. Nature 579: 567-574. https://doi.org/10.1038/s41586-020-2095-1
于2024年6月26日正式撤稿。文章已经被下载10.2万次,被引用624次。
- 摘要 -
本文重新分析了最近一项大规模研究的数据,该研究报告了微生物的DNA特征与33种不同癌症类型之间存在极强的相关性,并基于机器学习创建了区分不同癌症的高准确度预测因子。本文发现,该研究在数据和方法上至少存在两个根本缺陷:(1) 受基因组数据库和相关计算方法中的错误影响,所有样本中数百万个细菌读序(reads)存在假阳性的结果,即大多数被识别为细菌的读序实际上是人类的;(2) 原始数据转换中的错误产生了一种人工特征,使得即使没有检测到微生物读序,也会用一个独特的信号标记每种肿瘤类型,机器学习程序随后使用该信号创建了一个看似准确的分类器。每一个问题都使结果无效,因此本文认为研究中提出的采用微生物组的分类器识别癌症的结论是完全错误的。这些缺陷还影响了十几项使用相同数据发表的研究,这些研究的结果很有可能也是无效的。
重要性
近期研究显示,人类癌症具有独特的微生物群,由此导致了大量描述不同类型癌症微生物特征的论文。其中许多研究都是基于有缺陷的数据,本文经过重分析这些数据,完全推翻了原来的论点。本文的重分析结果表明,最初报告的与癌症相关的大多数微生物在其样本中根本不存在。因此,最初的癌症微生物组报告和后续十几项研究很可能是无效的。
- 引言 -
细菌和病毒被认为是多种癌症的病因,包括导致宫颈癌的人乳头瘤病毒papillomavirus、导致胃癌的幽门螺杆菌Helicobacter pylori和导致结肠癌的具核梭杆菌Fusobacterium nucleatum等。然而,直到几年前,几乎没有证据表明复杂的微生物群落(各种细菌和病毒的混合群落)可能是影响不同癌症类型的病因。在学界对来自癌症基因组图谱(TCGA)的17625个样本进行大规模分析后(后续翻译为“癌症谱”),这种情况发生了改变。报告称,在33种癌症的序列数据中,32种癌症类型存在独特的微生物特征,且这些微生物特征在区分每种肿瘤类型和所有其他癌症方面非常准确。随后研究人员对15种癌症类型,创建了可以区分肿瘤和正常组织的特征,对20种癌症类型,开发了基于患者血液中发现的微生物DNA来识别肿瘤的特征。该研究创建的机器学习模型具有令人惊讶的高准确率,大多数模型的准确率在95%到100%之间。
然而,尽管该项研究已努力的去除了污染物种,并避免常见偏差,如批次效应,但我们仍感到担忧,因为该研究中报道的许多机器学习模型,是基于在人类疾病背景下没有意义的微生物“类群”。这些模型包含了从未在人类中报道过的物种,这些物种通常只与极端环境、海洋生物、植物或其他非人类环境有关。
过去十年的多项研究论文称,污染问题不仅限于样本本身:此外,基因组数据库也被大量错误标记的序列污染(contamination)。正如一项研究所报道的那样,现有最大的问题是人类DNA污染了数千种细菌的组装基因组(assembled genomes)。此外,一项更大规模的研究表明,与错误物种的交叉污染无处不在,影响了GenBank数据库中的200多万个条目。这些污染事件主要存在于草图基因组中(draft genomes),其中一些源自人类或其他非微生物物种的重叠群(contigs)被错误地标记为细菌、真菌或其他微生物物种的名称。数据库污染反过来会导致与受污染的非人类基因组相匹配的人类读序(reads)被错误分类。
当使用宏基因组学分析方法对来自人类样本且微生物读序数量相对较少的读序进行分类时,这种污染问题尤其令人担忧。最近推翻人类胎盘微生物组和血液微生物组发现的研究说明了使用低生物量样本的危险,这正是癌症微生物组研究中遇到的情况,其中原始样本是从人类肿瘤和正常组织中收集的,其中绝大多数测序读序是人类的。“癌症谱”的研究表明,7.2%的原始读序被归类为非人类,我们担心这些读序中有相当一部分实际上是人类的。我们下面的结果证实了这种担忧是合理的。
- 结果 -
我们重分析了“癌症谱”研究中的所有原始和标准化分类数据,其中包括在“属级别”汇总的读序计数。其中包括17,625个样本中每个样本的1,993个属的计数。他们的原始计数矩阵是通过使用Kraken处理数据创建的,Kraken是一种最初在我们