前言
在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 “NCBI” 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际著名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。
一、什么是NGDC?
国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。
2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。
常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人