GEO数据库

了解GEO数据库

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA398328

1.GEO Platform(GPL) 各种芯片、测序仪

2.GEO Sample(GSM) 样本

3.GEO Series(GSE) 数据集(每篇文章都会有一个GSE号) 42589

4.GEO Dataset(GDS)

★我们的起点就是一个数据集(GSE),搞清楚里面有多少Sample(GSM)

★了解GEO中一个GSE页面的信息内容是怎么组成的

bowtie2

fq全称FASTQ,是一种存储生物学序列信息(通常是DNA序列或RNA序列)及其相应质量信息的文本文件格式。FASTQ 文件通常由高通量测序平台生成,例如Illumina。

FASTQ 文件的基本结构如下:

行1: 序列标识符(Sequence Identifier)以“@”开头。 行2: 序列数据,即生物学序列。 行3: 以“+”开头的行,通常包含与序列相关的额外信息,但可能为空。 行4: 质量值,表示与相应序列位置相关的测序质量。

bowtie2是用来做比对的,比对需要参考基因组和fq测序文件,参考基因组需要构建索引

二.GEO数据下载的三种方式

一些生信包的概念:

1.Bioconductor:是一个用于生物信息学和生物统计学的开源软件项目,提供了丰富的 R 语言包和工具 用于处理和分析生物学数据。

1.1GEOquery:用于从(GEO) 数据库中获取实验数据

  1.1.1GEODataSet:提供了用于存储和处理生物学数据的基本类和函数。它包含 ExpressionSet 类型,用于表示基因表达数据

  1.2Biobase: 提供了用于存储和处理生物学数据的基本类和函数。它包含 ExpressionSet 类型, 用于表示基因表达数据。

     1.2.1ExpressionSet:GEODataSet 是 GEOquery 包中定义的对象,用于存储从 GEO 数据库中检 索的实验数据。它是一个通用的容器,可以包含多种类型的实验数据,不 仅限于基因表达数据

  一些数据结构概念: 1.exprs()用于ExpressionSet数据对象

1.主页下载原始数据

Download中的custom,不推荐,不一定能分析好

2.下载表达矩阵,read读取数据(读到的就是GSE42872_series_matrix.txt这个文件)

Download family中的Series Matrix File(s),(注意可能显示下载完了但没下下来)可以使用命令读到R中(读到的是表达矩阵):

 

#读到exprSet中,过滤!开头的数据 exprSet=read.table('GSE42872_series_matrix.txt.gz', sep = '\t',quote = "", fill = T, comment.char = "!",header = T) #设置列名 rownames(exprSet)=exprSet[,1] exprSet=exprSet[,-1]

3.在R中getGEO直接读GSE id号(读出来的是一个对象,对象里不仅包括Data,还包括其他信息)

先安装BiocManager包:

 

if(!requireNamespace('BiocManager',quietly = TRUE)) install.packages('BiocManager')

再用BiocManager包安装GEOquery包

 

BiocManager::install('GEOquery')

再根据GSE号下载数据

 

library(GEOquery) #导入GEOquey包 gset<-getGEO('GSE42872',destdir = ".")#使用包的getGEO命令下载数据

一个GEO可能有多个平台(platform,也就是芯片)

 

class(gset) #这就是为什么class(gset)是list,list对应平台,一个GEO如有几个平台,就会有几个list,通过gser[[x]]来查看第x个平台的数据

这里GSE42872数据集只有一个GPL,所以:

 

b = gset[[1]]#把第一个(也是唯一一个)数据框拿出来。gset 是一个 GEODataSet 对象 exprSet = exprs(b)#用exprs函数从数据集(这里的数据集是gset中的第一个数据集,他是一个ExpressionSet 对象)中提取表达矩阵

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值