【富集分析】

生信爱好者

已于 2022-02-25 12:30:45 修改

阅读量1.6k

点赞数

文章标签：生物信息学

于 2022-02-25 12:29:51 首次发布

本文链接：https://blog.csdn.net/weixin_47151413/article/details/123130355

版权

富集分析

富集分析方法
- ORA与GAEA
- - 数据格式

富集分析方法

过表征分析 (over representation analysis, ORA)

基因富集分析 (gene set enrichment analysis, GSEA）

ORA与GAEA

基因集的分析策略可以分成兩類: over-representation analysis (ORA)與gene-set enrichment analysis (GSEA)。這兩種方法最大的差別是，ORA會先經過篩選，挑出我們有興趣的基因，而GSEA則不經過篩選基因的動作。以轉錄體資料為例，實驗設計上，通常會比較兩種狀態，並利用統計方法找出哪些基因具有「表現差異」，可能會設定統計檢定的p值或fold-change，來決定這是我們有興趣的基因，接著就針對這群基因做解讀。這樣篩選的過程，p值或fold-change如何設定才能抓出真正具有「生物意義」的基因，且這種方法把每個基因都視為同等重要，然而每個基因的貢獻程度也許是不同的(即表現量差異大的可能比較重要)。而GSEA不做任何篩選動作，將所有實驗資料放入分析。

……ORA的方法……我們關心的是：有興趣的基因中(genes of interest)，與某個基因集(gene set)，共同基因有幾個(K值)……我們可以用超幾何分布(Hypergeometric distribution)或二項式分佈(binomial distribution)來計算觀察值k的機率。

……GSEA的概念……首先將高通量實驗所量測到的基因排序，排列的順序是根據實驗量測到的數值決定……GSEA採用一個稱random walk的方法，也就是從基因列表的頭走到尾，如果碰到是基因集的基因就加分，不是則扣分。走完一趟後，回頭看走到哪兒時，分數最高(或最低)，這個分數就是所謂的enrichment score (ES)……GSEA利用permutation testing的方法，也就是隨機抓取同等數量的基因當基因集，並計算得到隨機的ES，去估算實際觀察到的ES的P值，如果P值小於所設定的統計條件，就可以確保這ES並不是隨機就會發生。