《DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data》
文章地址:https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0401-z
DOI:10.1186/s40168-018-0401-z
期刊:Microbiome
2022年影响因子/中科院分区:16.837/中科院1区
发布时间:2018年2月1日
DeepARG是一种通过深度学习方法从宏基因组数据中预测抗生素耐药基因的方法
code:http://bench.cs.vt.edu/deeparg
摘要:
背景
随着抗生素耐药率不断上升,人们对全球监测的范围和深度提出了更广泛和全面的要求。尤其需要进一步发展监测环境介质(如污水、农业废弃物、食品和水)的方法,以识别潜在的新型抗生素耐药基因(ARGs)资源、基因交换的热点,以及ARGs传播和人类暴露的途径。下一代测序现在能够直接访问和分析总宏基因组DNA池,其中ARG通常是根据与现有数据库的序列搜索的“最佳匹配”来识别或预测的。不幸的是,这种方法会产生高假阴性率。为了解决这些限制,我们在此提出了一种深度学习方法,考虑使用所有已知类别的ARGs创建的差异性矩阵。我们构建了两个深度学习模型,DeepARG-SS和DeepARG-LS,分别用于短读序列和完整基因长度序列。
结果
对30个抗生素耐药性类别的深度学习模型评估表明,DeepARG模型可以高精度(>0.97)和高召回率(>0.90)地预测ARGs。与典型的最佳匹配方法相比,DeepARG模型显示出优势,产生了一致较低的假阴性率,因此总体召回率也更高(>0.9)。随着更多数据可用于未充分代表的ARG类别,由于底层神经网络的性质,DeepARG模型的性能有望进一步提高。我们新开发的ARG数据库DeepARG-DB包含具有高度自信度和广泛手动检查的ARGs,大大扩展了当前ARG库的范围。
总结
这里开发的深度学习模型提供了相对于当前生物信息学实践更准确的抗菌素耐药性注释。DeepARG不需要严格的截止,这就可以识别更广泛的arg多样性。DeepARG模型和数据库以命令行版本和Web服务的形式提供。
介绍
抗生素耐药性是一个紧迫且日益严重的全球公共卫生威胁。据估计,到2050年,每年因抗生素耐药性造成的死亡人数将超过1000万人,这将花费全球约100万亿美元的。当细菌能够在接触抗生素通常会杀死它们时,抗生素耐药性或阻止它们的生长。这一过程允许出现极其难以治疗的“超级细菌”。几个例子包括耐甲氧西林金黄色葡萄球菌(MRSA),这是一个非常耐药细菌与一些感染,耐多药(MDR)结核分枝杆菌,耐利福平、氟喹诺酮类和异烟肼,和粘菌素碳青霉烯耐药大肠杆菌,已获得通过收购mcr-1和blaNDM-1抗生素耐药基因(ARGs)对最后药物的耐药性。
高通量DNA测序技术的出现现在提供了一个强大的工具来分析DNA的完整补充,从各种环境隔室中获得的DNA提取物。例如,目前已经在牲畜粪便、堆肥、堆肥、废水处理厂、土壤、水、和其他受影响的环境以及人类微生物组中进行了分析。.目前,从这些样本中鉴定arg的方法是基于将宏基因组DNA序列与现有的在线数据库进行比较的计算原理。这样的比较是通过对齐原始读取或预测开放阅读框架(完整基因长度序列)组装数据库的选择,使用程序blast,bowtie或diamond,然后使用序列相似性截止,有时使用对齐长度要求来预测或分配arg的类别。现有的生物信息学工具专注于从基因组或宏基因组序列库中检测已知的ARG序列,因此倾向于特定的ARGs。例如,ResFinder和SEAR特异性预测质粒携带的ARGs,Mykrobe预测因子专用于12种抗菌素,而PATRIC仅限于识别编码碳青霉烯、甲氧西林和内酰胺抗生素耐药的ARGs。大多数这些工具使用现有的微生物耐药性数据库以及“最佳命中”方法来预测一个序列是否真的是ARG。一般来说,预测仅限于high cutoffs的界限,需要ResFinder 和ARGs-OAP 等许多程序的cut offs超过80%的最佳命中。在一些研究中,通过多个抗性体确定ARGs的结构和多样性或分析环境arg的共存的身份截止率甚至高达90%。虽然最佳命中方法的假阳性率较低,即很少有非arg被预测为ARGs [9],但假阴性率可能非常高,并且有大量的实际arg被预测为非arg。图1显示了来自通用蛋白资源(UNIPROT)数据库和该数据库与综合抗生素耐药性数据库(CARD)和抗生素耐药性基因数据库(ARDB)的人工管理的潜在arg的分布情况。所有基因比较均显示显著的e值< 1e-20,序列一致性在20~60%之间,位得分> 50,被认为具有统计学意义。因此,高cut offs截断值显然会去除相当数量的实际上是arg的基因。例如,条目O07550(Yhel)是一种对阿霉素和米托蒽醌耐药的多药ARG,其同源性为32.47%,显著e值为6e-77,是CARD数据库中最好的命中值;对万古霉素耐药的POCOZ1(VraR)基因的身份仅为23.93%,e值为9e-13,是CARD数据库中最好的。另一方面,对于短的宏基因组序列/reads(如~ 25aa或100 bp),建议[20,29]严格限制~ 80%,以避免高假阳性率。原则上,最佳命中方法可以检测已知和高度保守的ARGs类别,但可能无法检测新的ARGs或与已知ARGs [19,30]具有低序列一致性的ARGs。为了解决当前最佳命中方法的局限性,我们使用了一种深度学习方法来预测ARGs,并考虑了ARG数据库中序列的相似性分布,而不是只考虑最佳命中方法。深度学习已被证明是迄今为止最强大的机器学习方法,包括图像处理[31]、生物医学信号[32]、语音识别[33]和基因组相关问题,如人类[34,35]中转录因子结合位点的识别。特别是在预测DNA序列亲和度的情况下,深度学习模型超过了所有已知的结合位点预测方法[34]。在这里,我们开发、训练和评估了两种深度学习模型,DeepARG-SS和DeepARG-LS,分别从短读序列和全基因长度序列中预测arg。生成的数据库DeepARG-DB是手动管理的,并填充了高度可信的arg,极大地扩展了arg的曲目,目前可用于环境数据集的宏基因组分析。DeepARG-DB可以在线查询或免费下载,以使广泛的用户社区受益,并支持未来抗生素耐药性相关资源的开发。
执行
数据集
ARG基因数据主要来源于 CARD , ARDB , and UNIPROT。
Antibiotic Resistance keyword (KW-0046)
数据合起来后 CD-HIT。
Database | Original Genes | Remaining Genes | Percentage of Retained Genes |
---|---|---|---|
ARDB | 4580 | 2290 | 50% |
CARD | 4405 | 2161 | 49% |
UNIPROT | 40157 | 28108 | 70% |
ARG annotation of CARD and ARDB
排除不标准的抗生素分类,将102种抗生素分配到30种类别。
UNIPROT gene annotation
相比于CARD和ARDB中的ARGs,带有抗生素耐药关键词的UNIPROT基因的筛选不够完善。因此,我们采用了额外的程序来进一步注释UNIPROT基因。具体地,根据CD-hit 聚类结果,只包含UNIPROT基因的簇被分为两类:1)没有任何注释的被标记为“未知”,2)有描述的则进行文本挖掘以确定其可能与抗生素耐药性相关联。UNIPROT的序列描述包含各种特征,包括蛋白质可能的功能描述、每个序列的HUGO命名法基于基因名称,以及表明序列是否经过了手动检查的证据。使用文本挖掘方法,对基因的描述性特征进行挖掘,以识别它们与30种抗生素类别的抗生素耐药性的关联。利用Levenshtein距离来衡量基因描述和抗生素类别之间的相似性。之所以使用这种文本挖掘方法,是因为抗生素耐药性类别的名称在数据库之间没有标准化,需要灵活性来尽可能地识别抗生素的关联。例如,与β内酰胺酶相关的基因有时被标记为β内酰胺、β内酰胺酶或β内酰胺酶。因此,使用所有常用的替代词进行文本挖掘可全面识别每个基因的抗生素关联。采用这种策略,我们根据基因的描述性信息,将UNIPROT中的基因标记为其抗生素耐药性关联或“未知”,如果没有发现与任何抗生素相关的链接。然后,手动检查被执行以删除通过相似性标准的误导性关联。最终经过这个精细化程序,总共剩下了16,360个UNIPROT基因和它们标记的抗生素耐药性类别如图2所示。