国家基因组科学数据中心(NGDC)---组学原始数据如何上传GSA

前言

在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 “NCBI” 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际著名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。


一、什么是NGDC?

国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。

2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。

在这里插入图片描述

常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等
基因表达数据库(GEN):等同于国际上的GO
甲基化数据库(MethBank)

二、NGDC的发展历程

生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”, 为了解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,国家基因组科学数据中心应运而生。从2016年到2022年,短短6年的时间,NGDC已经发展成为全球主要的生物数据中心。
在这里插入图片描述
在这里插入图片描述

三、什么是GSA?

组学原始数据归档库(Genome Sequence Archive,简称GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台, 主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。

GSA的系统建设遵循了国际核酸序列共享联盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相关标准,并作为INSDC的补充,旨在减轻国际相关数据库数据存贮及数据传输的压力;立足中国,服务全球。由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以中国科学院北京基因组研究所的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要花费2周以上的时间。GSA的建立可以让国人享受更快的传输速度,更贴心的服务!

截至2022年4月,GSA已为国内外多个单位提供免费数据存储服务,累计用户递交项目信息超过572,259个,用户提交的测序数据量超过13.23PB。
在这里插入图片描述

四、为什么选择上传数据到GSA?

上传GSA数据库的几大理由:

1.符合数据战略安全要求;
2. 是国内首个被国际期刊认可的组学数据发布平台;
3.界面可切换为中文,契合大家阅读习惯;
4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;
5.多途径协助数据上传, 上传数据快 (qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。
3. GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。

简单来说就是:有底气、被认可、更快、更方便

五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)

1. 准备要上传的数据

原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式
在这里插入图片描述

2. 计算MD5码

MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:

  • Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)

代码如下(示例):

 md5sum  D1-1_1.clean.fq.gz

在这里插入图片描述

  • Mac 用户使用$ md5 命令计算;
  • Windows 用户使用第三方工具进行计算,例如 winmd5free。

3.进入NGDC主页,登入账户

首先进入我们NGDC主页:(https://ngdc.cncb.ac.cn/)–点击登入;

在这里插入图片描述如果是第一次使用要注册账户:
在这里插入图片描述在这里插入图片描述

4. 填写数据信息

账户注册完以后,就可以登入账户按照以下原则进行数据信息录入。简单来说就是填写你要上传数据的信息,分为以下三步①先创建BioProject ②创建BioSample ③创建GSA(先创建experiment 再创建run)。只填写*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。举个例子,假如我有以四个时间点Ck,12h,24h,48h,每个时间点三个生物学重复,取样测的转录组数据。那么我就有12个样本BioSample,12个experiment,12个run,或者一个experiment对应多个run也可以。

第一步:建立Bioproject。

依照以下步骤,进入BioProject数据库创建BioProject并完成相关信息的填写(要用英文填写)。注意最后要设置一个Release Date,即设置公开项目的时间,我们可以设置6 month-1 year后,然后在文章发表后手动公布,但是最长不要超过两年。信息填写只用填写带星号的必填项即可。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

第二步:建立BioSample。

建立完项目后,返回主页点击BioSample,按步骤填写相关信息。这里也要设置BioSample的发布日期,通常情况下可与Bioproject的发布日期保持一致。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述示例:
在这里插入图片描述说明:
在这里插入图片描述

第三步:创建GSA。

进入GSA数据库 (https://ngdc.cncb.ac.cn/gsa/) — 新建GSA —下载表格—完成Experiment和Run相关信息填写并上传。
如果没有创建Bioproject和BioSample或者创建了,也可以直接进行这一步,会有跳转链接,跳转到创建Bioproject,BioSample。

进入GSA数据库

在这里插入图片描述

新建GSA

在这里插入图片描述

填写信息

在这里插入图片描述

下载表格文件

在这里插入图片描述

例如:
在这里插入图片描述在这里插入图片描述
说明:
在这里插入图片描述在这里插入图片描述

网站更新之后,BioSample和GSA中Experiment 和run的信息以表格的形式填写,比之前方便多了

5. 数据上传:

(1). 通过FTP软件 上传(上传需要流量!!如果小数据可以用)

可以下载 FTP 客户端软件(比如 FileZilla Client)登录 FTP 服务器,用户账号与NGDC账号一致。主机处输入服务器地址: ftp://submit.big.ac.cn ;输入用户名和密码,即注册NGDC的邮箱和密码; 注意要先切换到GSA目录下再上传。
在这里插入图片描述

常见登录问题:
登入问题1: AUTH SSL 的报错信息 无法连接服务器 文件----站点管理器-----设置协议为: ftp文件传输协议-----加密:选择只使用明文FTP
在这里插入图片描述

登入问题2: MLSD 的报错,显示“读取目录列表失败”。
Filezila –>编辑->设置–修改传输模式, 改为被动模式
在这里插入图片描述

(2). 通过服务器上传(推荐!!):如果实验室有服务器的话,推荐服务器上传,步骤如下:(服务器上要先安装ftp )

代码如下:

cd   /home/chenss/RNAseq_data    #进入需要上传数据的路径下
ftp   submit.big.ac.cn   #连接远程服务器
sisichen@bjfu.edu.cn      #输入用户名(注册用的邮箱);
******                   #输入密码;
cd   /GSA                    #切换到指定文件夹;
binary           #使用二进制模式(binary mode)上传
prompt	 #关闭交互模式
mput  *.fq.gz          #上传数据

注意:登录自己的 FTP 路径后,一定要先 cd 到 /GSA 目录下再上传文件

(3)邮寄硬盘

数据量大的话(超过1TB),可以邮寄硬盘到GSA协助上传数据。具体可以联系 gsa@big.ac.cn

6.等待审核

通常情况,数据文件审核归档约1-2天 (数据量越大响应所需时间越长),归档成功后系统会以邮件发送插入文章中的GSA 的 Accession number 如CRA0016XX, 这个记录好文章中要写。 在数据审核归档期间,用户如果需要修改或删除数据信息,可以联系 gsa@big.ac.cn,或者加QQ 群: 548170081.


总结

以上就是今天要讲的内容,本文仅仅简单介绍了组学原始数据提交到GSA的方法,适用于新手,更简单的方法是,可以直接选择GSA—提交数据,已有项目和样本信息可以直接填写编号,没有可以点击跳转到对应地方填写。此外NGDG还有生物工具库 (Biocode)、多元数据归档库 (OMIX)、基因组序列数据库 (GWH)、基因组变异库 (GVM)等、生物数据库目录 (DBCommons )、甲基化数据库 (MethBank)、基因表达数据库 (GEN)、生物信息在线分析平台(BIT)。

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: wrf-chem数据下载的相关网址链接: 1. NCEP/NCAR Reanalysis I: ftp://ftp.cdc.noaa.gov/Datasets/ncep.reanalysis.dailyavgs/surface/ 2. Chemical Transport Model (CTM) data from the GEOS-Chem group: https://acmg.seas.harvard.edu/geos/ 3. Emissions data from the Emissions Database for Global Atmospheric Research (EDGAR): https://edgar.jrc.ec.europa.eu/ 4. The Community Multi-scale Air Quality (CMAQ) modeling system data: https://www.epa.gov/air-research/community-multiscale-air-quality-cmaq-modeling-system 请注意,不同的数据来源可能需要不同的许可证才能访问,请确保您具有访问所需数据的合法资格。 ### 回答2: WRF-Chem是一种大气化学模型,它用于模拟大气中化学物种的输运和转化过程。在建立WRF-Chem模型之前,我们需要收集和处理一些数据,以确保模型的准确性和可靠性。这些数据包括地理信息、排放数据、气象数据和化学初始和边界条件等。 首先,地理信息数据是建立WRF-Chem模型的基础。这些数据包括经纬度、高程和土地覆盖类型等信息,可以用于生成地形和表面辐射强度图。我们可以在https://www.ngdc.noaa.gov/上下载世界各地的地理数据。 其次,排放数据是描述大气中污染物来源和排放速率的关键数据。这些数据包括人工排放和自然排放两种来源。人工排放包括工业、交通和农业等活动产生的污染物,自然排放包括植被的插值和火山喷发等自然事件。各个国家和地区的排放数据可在Emission Database for Global Atmospheric Research (EDGAR) (https://www.sciencedirect.com/science/article/pii/S1352231009003904 )上下载。 第三,气象数据是WRF-Chem模型的必需数据。气象数据包括气温、风速、风向和湿度等逐小时或逐分钟的数据。我们可以在National Centers for Environmental Prediction (NCEP) (https://www.ncdc.noaa.gov/data-access/model-data/model-datasets)或European Center for Medium-Range Weather Forecasts (ECMWF) (https://www.ecmwf.int/en/forecasts/datasets)上下载气象数据。 最后,化学初始和边界条件数据是指大气中化学物种的浓度和化学反应速率等信息。这些数据通常由现场观测或其他化学模型得出,可以在全球化学输送模型 (GEOS-Chem) (http://acmg.seas.harvard.edu/geos/)上获取。 总之,WRF-Chem模型的建立需要以上四个基本数据。这些数据可以在相关数据下载网址上获取。但是,这些数据的质量和格式都需要我们认真审查和处理,以确保WRF-Chem模型的准确性和可靠性。 ### 回答3: wrf-chem是一种用于模拟大气物质输运和化学反应的数值模型。在进行wrf-chem模拟时,需要使用许多与气体和颗粒物浓度、化学反应等相关的数据。这些数据可以通过官方网站和其他一些数据平台进行下载。 其中,官方网站是wrf-chem模型最全面的数据源,开发者提供了许多与模型运行相关的数据和工具。这些数据包括了不同时间尺度上的气象模型、气体和颗粒物浓度模型、化学反应模型、辐射强度模型等。此外,网站中还提供了许多工具,例如反求模块、统计模块等,可以用于模型调试和后处理。下载方式为直接点击网站上的下载链接,选择相应的数据和工具即可。 另外,还有一些数据平台也可以提供相关数据的下载,例如NCAR Data Portal、Earth System Grid、国家气象信息中心等。这些平台通常提供了一些免费的数据下载服务,但需要用户进行注册和认证。同时,有些数据需要进行特定的格式转换,才能够被wrf-chem模型所使用。 总体来说,wrf-chem模型所需的数据比较丰富,但是通过官方网站和其他数据平台的配合,用户可以方便地获取这些数据,并进行相应的分析和后处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值