欢迎关注”生信修炼手册”!
在NAD+代谢相关基因的文章中,针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘,本文就以这两批GEO数据为例,来详细展示原始数据的下载过程
公共数据库的数据挖掘有多种模式,每种模式需要的原始数据也不尽相同。所以,首先我们要明确目标,对于这个基因建模而言,我们需要以下两种数据
1. 基因表达谱
2. 患者的生存数据
明确目标之后,我们就可以针对的来分析寻找数据了
1. 基因表达谱
在GEO数据库中收录的表达谱数据有两种类型
1. 基于NGS的表达谱
2. 基于芯片的表达谱
二者的模式稍有不同,芯片平台以探针为单位,而NGS的数据直接以基因为单位。我们最终希望得到的表达谱数据就是行为基因,列为样本的表达谱,所以
1.对于芯片平台,在下载表达谱的同时,我们还需要下载芯片对应平台的注释文件,主要是提供探针到基因的映射关系
2.对于NGS, 基因定量的坐标来自于GTF文件,芯片平台在NGS就对应了GTF的版本
GEO一开始就是用来存储芯片表达谱数据的,所以对于芯片恶言,会有一个通用的格式,以GSE112676为例,数据链接如下
https://www.ncbi.nlm.nih.gov/geo/