芯片、二代测序的差别及GEO数据库界面

一、GEO基本界面

GEO主要的四类数据:

1、GEO Dataset (GDS):人工整理的某个类别的GSM集合

2、★GEO Series (GSE):所有样本的实验数据集合

3、GEO Sample (GSM):样本的实验数据

4、GEO Platform (GPL):GPL是芯片的平台,如Affmetrix, Aglent等

  • 一篇文章可有多个GSE数据集,一个GSE可有多个GSM样本;多个GSM可根据研究目的整合为一个GDS但使用少;每个GSE都有着对应的芯片平台,就是GPL。
  • 芯片、NGS GEO差别主要在原始数据、表达矩阵所处位置,是否需要测序注释信息等

二、高通量测序/二代测序技术/NGS

1、简介:原理等同于PCR,属于基因全序列测定;由于PCR放大过程,因此灵敏度较好,但片段的浓度比例不准确,定量不准;成本较高,但可以发现差异基因、未知基因

2、数据分布及R实现:数据呈离散形式,表达量越高、read占比越大、越容易被检出,read、count服从泊松分布,不能直接用正态分布t检验、方差分析,应采用DESeq2、apeglm、edgeR包进行分析,仅能对count矩阵(都是非负整数)进行分析,而非fpkm、芯片数据

3、GEO界面

4、原始数据

  • SRA是测序最原始数据存储点,NGS需点击进入SRA网页下载每个样本原始数据;
  • SRA结果为fasq文件(欲分析原始数据则需先将SRA下载的文件转为fasq文件再进行后面分析),经质控、去除测序接头、比对等操作,将reads数兼并为count表达值,再进行差异分析;
  • GSM、download family、supplementary file栏目中为处理后的下游数据,须在在GSE界面中查看处理方式调整R处理参数

 

5、表达矩阵所处位置:Supplementary file

6、是否需要测序注释信息:无需下载GPL平台注释名,其表达矩阵的行名即为基因注释信息

三、基因芯片/DNA 微阵列/DNA micro-array

1、简介:原理等同于核酸杂交,属于部分序列测定;将大量已知序列(目标序列,疾病序列等)的探针集成在同一个基片上, 经探针杂交、测序;只有能与探针杂交的测序才可被检测出,不会显示全序列,定量准确;快速灵敏、样本用量少、成本低廉。

2、数据分布及R实现:数据连续,服从正态分布,差异分析可用t检验、方差分析(limma包)

3、GEO界面

 

4、原始数据:芯片数据中的在supplementary file 栏目 raw data下载连接中

5、表达矩阵所处位置:Download family栏

6、是否需要测序注释信息:表达矩阵行名为探针名,需从GPL下载注释文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医道无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值