一、GEO基本界面
GEO主要的四类数据:
1、GEO Dataset (GDS):人工整理的某个类别的GSM集合
2、★GEO Series (GSE):所有样本的实验数据集合
3、GEO Sample (GSM):样本的实验数据
4、GEO Platform (GPL):GPL是芯片的平台,如Affmetrix, Aglent等
- 一篇文章可有多个GSE数据集,一个GSE可有多个GSM样本;多个GSM可根据研究目的整合为一个GDS但使用少;每个GSE都有着对应的芯片平台,就是GPL。
- 芯片、NGS GEO差别主要在原始数据、表达矩阵所处位置,是否需要测序注释信息等
二、高通量测序/二代测序技术/NGS
1、简介:原理等同于PCR,属于基因全序列测定;由于PCR放大过程,因此灵敏度较好,但片段的浓度比例不准确,定量不准;成本较高,但可以发现差异基因、未知基因
2、数据分布及R实现:数据呈离散形式,表达量越高、read占比越大、越容易被检出,read、count服从泊松分布,不能直接用正态分布t检验、方差分析,应采用DESeq2、apeglm、edgeR包进行分析,仅能对count矩阵(都是非负整数)进行分析,而非fpkm、芯片数据
3、GEO界面
4、原始数据
- SRA是测序最原始数据存储点,NGS需点击进入SRA网页下载每个样本原始数据;
- SRA结果为fasq文件(欲分析原始数据则需先将SRA下载的文件转为fasq文件再进行后面分析),经质控、去除测序接头、比对等操作,将reads数兼并为count表达值,再进行差异分析;
- GSM、download family、supplementary file栏目中为处理后的下游数据,须在在GSE界面中查看处理方式调整R处理参数
5、表达矩阵所处位置:Supplementary file
6、是否需要测序注释信息:无需下载GPL平台注释名,其表达矩阵的行名即为基因注释信息
三、基因芯片/DNA 微阵列/DNA micro-array
1、简介:原理等同于核酸杂交,属于部分序列测定;将大量已知序列(目标序列,疾病序列等)的探针集成在同一个基片上, 经探针杂交、测序;只有能与探针杂交的测序才可被检测出,不会显示全序列,定量准确;快速灵敏、样本用量少、成本低廉。
2、数据分布及R实现:数据连续,服从正态分布,差异分析可用t检验、方差分析(limma包)
3、GEO界面
4、原始数据:芯片数据中的在supplementary file 栏目 raw data下载连接中
5、表达矩阵所处位置:Download family栏
6、是否需要测序注释信息:表达矩阵行名为探针名,需从GPL下载注释文件