❝写在前面
由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书
2. 提交高通量测序原始数据到 SRA --- 操作流程
目录
-
1 注册 NCBI 账号 -
2 准备要上传的数据 -
2.1 Raw data files -
2.2 Processed data files -
2.3 Metadata spreadsheet
-
-
3 上传数据
在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 Processed data 到 GEO 的操作流程。
在进行操作之前,强烈建议先阅读我之前的推文:《提交高通量测序数据到 GEO --- 说明书》。里面详细介绍了要准备的文件和格式要求。
1 注册 NCBI 账号
首先需要登陆https://www.ncbi.nlm.nih.gov/account/
注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:
![alt](https://img-blog.csdnimg.cn/img_convert/fdfead2bd60b162072978a87646df4b8.png)
2 准备要上传的数据
进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/
),按如下操作:① 选择 GEO DataSets、② 点击 Search、③ 点击 Submit to GEO、④ Submit high-throughput sequencing
![alt](https://img-blog.csdnimg.cn/img_convert/4b35d2a5d9bcc95a1367e9f272a0379a.png)
![alt](https://img-blog.csdnimg.cn/img_convert/2fbb6467d47c86bcfdf8dcd2901d6c39.png)
![alt](https://img-blog.csdnimg.cn/img_convert/021e8d9a6a083169b8d6bf264d709e21.png)
可以看到需要准备以下数据:1. Metadata spreadsheet、2. Processed data files、3. Raw data files
![alt](https://img-blog.csdnimg.cn/img_convert/e8b3ea343c69c07accaf674b1f91617d.png)
2.1 Raw data files
Raw data 是测序数据的 fastq 文件,可以将 raw data 提交给 GEO,也可以直接提交给 SRA。但是 raw data 往往非常大,按照 GEO 推荐的 FileZilla 软件上传非常的慢,因此推荐用 Aspera 命令行直接将 raw data 上传到 SRA。Aspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s。
关于如何将 raw data 上传到 SRA,可以查看我之前的推文:《提交高通量测序原始数据到 SRA --- 操作流程》
![alt](https://img-blog.csdnimg.cn/img_convert/6dc94fed94c42ea543c94483c902812a.png)
2.2 Processed data files
Processed data 一般为比对后生成的 count matrix 文件。比如我这里为单细胞测序数据比对后的 cell-gene 矩阵的 csv 文件:
![alt](https://img-blog.csdnimg.cn/img_convert/151d3ee33bbb86a359cb38988b23f89e.png)
2.3 Metadata spreadsheet
Metadata 是指有关研究、样本、方法以及对 processed data 和 raw data 文件名的引用的描述性信息。GEO 中提供了两种模板,由于我这里选择将 raw data 提交到 SRA,因此选择 "Download metadata spreadsheet with SRA accessions"。
![alt](https://img-blog.csdnimg.cn/img_convert/5362a4c8b04ee3f7f7f0c1871f531828.png)
2.3.1 STUDY
STUDY 部分介绍研究的整体概况。STUDY 部分提供的信息将在公共网页上的 GEO Series(GSE record)中显示。
![alt](https://img-blog.csdnimg.cn/img_convert/07e7e906cb15503f4f645bae71fa8be1.png)
-
title:标题,可以是发表文章的标题。 -
summary(abstract):摘要,可以是发表文章的摘要。 -
experimental design:实验设计,描述 submission 中包括的样本类型,已经实验条件和变量。包括分析什么类型样本、是否包括复制、是否有对照和/或参考样本等。不包括 protocols/methods。可以参照 EXAMPLE sheets 填写。 -
contributor:作者,例如 Yixin, Wang,每个作者都在单独的一行上。 -
supplementary file:补充文件,如果您提交的 processed data 文件对应于多个样本。例如:fpkms_allsamples.txt。该文件应该具有与 metadata SAMPLES 中的唯一描述符匹配的唯一列名(例如,"library name")。single-cell submissions 除外。 -
BioProject:BioProject accession,例如:PRJNA123456
2.3.2 SAMPLES
SAMPLES 部分是对样本的描述。SAMPLES 部分提供的信息将在公共网页上的 GEO Samples(GSM records)中显示。
注意:*为必填项,**为至少选择一项填写
![alt](https://img-blog.csdnimg.cn/img_convert/b23c26af156fd05d122a59c6bf0c3750.png)
![alt](https://img-blog.csdnimg.cn/img_convert/2810cd2386515ac12d2db2608a12c1e5.png)
-
library name:文库名称,必须唯一,如 Sample1、Sample2... -
title:样本名称,必须唯一,建议使用以下约定: [biomaterial][condition(s)][replicate number]
,例如:Muscle, exercised,60min, rep2
-
organism:物种,如 Mus musculus -
BioSample:BioSample accessions,如 SAMN123456 -
SRA Experiment or Run:SRX/SRR accessions,如 SRR123456 -
tissue:组织,如 Distal colon -
cell line:细胞系,如 C3H 10T1/2 -
cell type:细胞类型,如 mesenchymal stem cells -
genotype:基因型,如 WT、KDM4D knockdown -
treatment:处理,如 adipogenic differentiation -
molecule:分子类型,选择以下之一:total RNA、polyA RNA、cytoplasmic RNA、nuclear RNA、genomic DNA、protein、other -
single or paired-end:测序类型,选择 single 或 paired-end -
instrument model:仪器型号,如 Illumina NovaSeq 6000。 -
description:描述信息,可选的,其他选项中没有提供的额外信息。或者,如果您提交的矩阵包含多个样品的 processed data (例如,所有 RNA-Seq 样品的 Counts.txt),请在此处列出矩阵列名称。 -
processed data file:包含 processed data 的文件的确切名称。例如:HeLa_H3K4me3.bw。可以为多个样本列出相同的处理文件。如果一个样本存在多个处理文件,则可以包括多个 'processed data file' 列。
2.3.3 PROTOCOLS
PROTOCOLS 部分是对实验方法的描述。PROTOCOLS 部分提供的信息将出现在每个 GEO Sample(GSM record)中。
![alt](https://img-blog.csdnimg.cn/img_convert/4633f27c1cf5bb74ef82a3b80aedb152.png)
-
growth protocol:可选项,描述在提取前用于培养或维持生物体或细胞的条件。 -
treatment protocol:可选项,描述在提取制备之前对生物材料进行的处理。 -
extract protocol:必填项,描述用于提取和准备待测序材料的方法。 -
library construction protocol:必填项,描述文库构建方法。 -
library strategy:必填项,描述每个文库的测序技术,如 RNA-Seq。 -
data processing step:必填项,提供有关如何生成 processed data 文件的详细信息。步骤可能包括:基本调用软件、版本、参数;数据过滤步骤;Read 比对软件版本、参数;额外的处理软件(例如,peak-calling, abundancemeasurement)、版本、参数;等。 -
genome build/assembly:必填项,UCSC或NCBI基因组构建号(例如,hg18、mm9、human NCBI genome build 36 ...),或用于 read 比对的参考序列。 -
processed data files format and content:必填项,对于每种 processed data 文件类型,提供格式和内容的描述。如 Tab-separated values files and matrix files。
2.3.4 MD5 Checksums
在填写完 Metadata 页面后,还需要在 MD5 Checksums 页面填写所有 processed data 文件的 MD5 校验码。checksums 可以使用以下方法计算:
-
Unix: md5sum <file> -
OS X: md5 <file> -
Windows: Windows Command Processor (cmd): certutil -hashfile <file> MD5
这里以 Windows 上命令行为例:
打开 cmd,输入以下命令:certutil -hashfile "F:\path\Sample1_expression_matrix.csv" MD5
![alt](https://img-blog.csdnimg.cn/img_convert/805f6e80cffbb52608a60efb07fe5506.png)
将文件名和生成的MD5码填入表格:
![alt](https://img-blog.csdnimg.cn/img_convert/a7e07e3df849490e1d13e7176e89881b.png)
3 上传数据
点击 Transfer files 开始上传数据。
![alt](https://img-blog.csdnimg.cn/img_convert/7f28c7f73f2ebaef2ce39e48c8d738e4.png)
进入后可以看到上传数据的个人空间地址,以及 FTP 服务器账号和密码。
![alt](https://img-blog.csdnimg.cn/img_convert/15dcaae0df225b6965d6450a3ffed20c.png)
下载 GEO 推荐的第三方文件传输软件 FileZila Client,下载地址:https://filezilla-project.org/download.php?show_all=1
。
下载后按下图操作:① 输入主机地址、用户名、密码;② 点击快速连接;③ 输入个人空间地址;④ 找到需上传文件地址;⑤ 将需上传文件拖拽到此处
![alt](https://img-blog.csdnimg.cn/img_convert/336014bdef805aea84a1e2db902f5e2c.png)
可以看到上传速度非常慢(0.5Mb/s),需要等待很长时间。这也是为什么不推荐将原始 fastq 文件上传到 GEO。荐用 Aspera 命令行直接将 fastq 文件上传到 SRA,上传速度可达 100Mb/s。
数据上传完成之后,上传 metadata 文件:
![alt](https://img-blog.csdnimg.cn/img_convert/8b21fb9b3e13c97083ae9a4f86cacd3c.png)
选择前面填写的 metadata Excel 文件,选择发布日期,然后点 Submit 提交。
![alt](https://img-blog.csdnimg.cn/img_convert/5cdb3b982e0f349a467f463d402117c7.png)
一般提交后一天内就会收到邮件,看到 GEO 编号,状态为 resolved,就表示数据提交成功了。邮件中还提供了后续如何更改信息,以及更改发布日期的相关连接。
![alt](https://img-blog.csdnimg.cn/img_convert/fda435b094b0e425dc4c7b04bf427379.png)
注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。
![alt](https://img-blog.csdnimg.cn/img_convert/fcdcc9cd99d86f1974a006a280294346.png)
本文由 mdnice 多平台发布