公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

欢迎关注”生信修炼手册”!

在NAD+代谢相关基因的文章中,针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘,本文就以这两批GEO数据为例,来详细展示原始数据的下载过程

fe3960ed55aa368e3b57d6b79895e95b.png

公共数据库的数据挖掘有多种模式,每种模式需要的原始数据也不尽相同。所以,首先我们要明确目标,对于这个基因建模而言,我们需要以下两种数据

1. 基因表达谱

2. 患者的生存数据

明确目标之后,我们就可以针对的来分析寻找数据了

1. 基因表达谱

在GEO数据库中收录的表达谱数据有两种类型

1. 基于NGS的表达谱

2. 基于芯片的表达谱

二者的模式稍有不同,芯片平台以探针为单位,而NGS的数据直接以基因为单位。我们最终希望得到的表达谱数据就是行为基因,列为样本的表达谱,所以

1.对于芯片平台,在下载表达谱的同时,我们还需要下载芯片对应平台的注释文件,主要是提供探针到基因的映射关系

2.对于NGS, 基因定量的坐标来自于GTF文件,芯片平台在NGS就对应了GTF的版本

GEO一开始就是用来存储芯片表达谱数据的,所以对于芯片恶言,会有一个通用的格式,以GSE112676为例,数据链接如下

https://www.ncbi.nlm.nih.gov/geo

  • 8
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值