一、GEO基本界面
GEO主要的四类数据:
1、GEO Dataset (GDS):人工整理的某个类别的GSM集合
2、★GEO Series (GSE):所有样本的实验数据集合
3、GEO Sample (GSM):样本的实验数据
4、GEO Platform (GPL):GPL是芯片的平台,如Affmetrix, Aglent等
- 一篇文章可有多个GSE数据集,一个GSE可有多个GSM样本;多个GSM可根据研究目的整合为一个GDS但使用少;每个GSE都有着对应的芯片平台,就是GPL。
- 芯片、NGS GEO差别主要在原始数据、表达矩阵所处位置,是否需要测序注释信息等
二、高通量测序/二代测序技术/NGS
1、简介:原理等同于PCR,属于基因全序列测定;由于PCR放大过程,因此灵敏度较好,但片段的浓度比例不准确,定量不准;成本较高,但可以发现差异基因、未知基因
2、数据分布及R实现:数据呈离散形式,表达量越高、read占比越大、越容易被检出,read、count服