NCBI Pathogen Detection project简介

本文链接：https://blog.csdn.net/weixin_46150334/article/details/125560452

NCBI Pathogen Detection项目是一个集成系统，整合来自食品、环境和病人的病原体序列数据，旨在实时分析菌株并提供抗性基因信息。该项目通过分析公共卫生机构提交的样本序列，发现与人类疾病相关的菌株，帮助追踪调查和疫情应对。数据来源包括临床、环境样本，项目涉及数据处理、SNP聚类和系统发育树构建等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NCBI Pathogen Detection project是一个集中式系统，整合来源于食品、环境和病人的细菌病原序列数据。

主要由两大部分组成：

为正在被进行病原体监测活动的菌株提供实时分析，找出这些菌株是否与数据库中菌株存在clonally related。
为这些病原体中发现的抗性基因提供全面的信息支持。

美国和国际上的一些公共卫生机构正在从临床病例、零售食品、工业生产设施和环境场所收集样本，以促进对病原体和食源性疾病的积极、实时监测。这些机构对样本进行排序，并将数据提交给NCBI，NCBI根据其数据库中的其他序列（包括GenBank中的所有基因组）进行分析，以确定密切相关的序列。其目的是通过将食品或环境中的分离物与人类疾病联系起来，发现潜在的污染源，并迅速向公共卫生科学家报告序列关系，以帮助追踪调查和疫情应对。

1数据来源

1.1 solation type (epi_type)

从biosample中选取类型3种： clinical OR environmental/other OR NULL.

If attribute_package=Pathogen.cl.1.0 then isolation type is clinical.
If attribute_package=Pathogen.env.1.0 then isolation type is environmental/other, unless host or isolation_source indicates that it was isolated from a human subject in which case isolation type is clinical.
If neither of these packages is used then isolation type is NULL.

1.2 Organism group

34个organism group，“organism group”页面罗列所有organism group的链接，以及每个group的统计信息。请注意，organism group表下的物种名称反映了每个组中最常见的物种，但并不反映所有物种。例如，Salmonella enterica organism group 包括重要的 Salmonella enterica isolates, 也包括 Salmonella bongori isolates.要查看每个group中存在的所有isolate，请参见“isolate”页面中的“ scientific_name”列。

附录1 编号规则

PDG - Accession number prefix for a Pathogen Detection Organism Group.

Technical note: An organism group (PDG) contains one or more targets (PDTs). A PDT is a member of zero or one SNP cluster (PDS), and never more than one cluster. A SNP cluster is composed of two or more PDTs, and each ach PDS is completely contained within a PDG.
(Read more about