1、GEO数据库介绍
GEO全称GENE EXPRESSION OMNIBUS,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。创建于2000年,收录世界各国研究机构提交的高通量基因表达数据。
GEO上有四类数据GSM, GSE, GDS, GPL
1.GSM是单个样本的实验数据
2.GDS是人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的
3.GSE是一个实验项目中的多个芯片实验,可能使用多个平台
4.GPL是芯片的平台,如Affymetrix, Aglent等
网址入口:http://www.ncbi.nlm.nih.gov/geo
2、GEO数据下载
例如:我想找胃癌相关的疾病资料、研究文献,那么可以直接搜索gastric carcinoma
若只想关注人相关的研究,在右方选择——如图:
做基因表达谱构建,我们必须要有这两个文件(如图)
1.GPL探针文件
2.表达矩阵(Series Matrix File)