【Bioinfo Blog 011】【R Code 008】——功能富集分析

本文详细介绍了基因集功能富集分析的概念、算法,如超几何分布和Fisher精确检验,并探讨了DAVID、Metascape、clusterProfiler、KOBAS和GOEAST等富集分析工具的使用方法和特点。这些工具提供了从ID转换、GO和KEGG富集到网络分析等多方面功能,有助于理解基因在生物学过程中的角色。
摘要由CSDN通过智能技术生成

一、基因集功能富集分析(Gene Set Enrichment Analysis)

基因功能富集分析,是指借助各类数据库和分析工具进行统计分析,挖掘在数据库中与我们要研究的生物学问题具有显著相关性的基因功能类别。

For example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.

通俗来说:富集分析是基于一个先验的知识图谱将输入内容进行聚类分析,得到聚类后结果。

上句话中逐个概念解析:

输入内容:一组基因或者基因产物(RNA、蛋白质)
知识图谱:往往是由符号连接的树状结构(DAG有向无环图)。
(1)有可能是描述功能的知识图谱,例如GO:描述“单个基因如何在分子,细胞和生物水平上的生物学贡献”。
(2)也可能是描述代谢通路的知识图谱,例如KEGG:一个整合了基因组、化学和系统功能信息的综合数据库,其中用的最多的数据库是描述基因通路的KEGG pathway
聚类:基于知识图谱进行映射分类
输出
(1)富集结果。输入内容所映射的分类结果,一般包括数量和p值
(2)可以查看具体的分类的注释信息
(3)具体分类所对应的局部知识图谱

简单来说,就是把我们挑出来的基因归归类,看看哪些基因的功能和我们的研究相关

二、富集分析算法

统计原理是用超几何分布型来检验一组基因(共表达或差异表达)中某个功能类的显著性,通过离散分布的显著性分析、富集度分析和假阳性分析, 得出与实验目的有显著关联的、低假阳性率的及靶向性的基因功能类别。

2.1 超几何分布

Over Representation Analysis (ORA) (Boyle et al. 2004) is a widely used approach to determine whether known biological functions or processes are over-represented (= enriched) in an experimentally-derived gene list, e.g. a list of differentially expressed genes (DEGs). The p-value can be calculated by hypergeometric distribution.
在这里插入图片描述
以上公式中:
N为所有基因中具有pathway/GO term注释的基因数目;
n为N中差异表达基因的数目;
M为所有基因中注释为某特定pathway/GO term的基因数目;
m为注释为某特定pathway/GO term的差异表达基因数目。

通过计算得到的P value会进一步经过多重检验校正,得到FDR值。然后以一定的FDR为阈值,满足此条件的pathway/GO term定义为在差异表达基因中显著富集的pathway/GO term。

2.2 Fisher精确检验

在这里插入图片描述在这里插入图片描述
例:In human genome background (30,000 gene total), 40 genes are involved in p53 signaling pathway. A given gene list has found that 3 out of 300 belong to p53 signaling pathway. Then we ask the question if 3/300 is more than random chance comparing to the human background of 40/30000.
在这里插入图片描述

三、富集分析工具

3.1 DAVID

DAVID是一个综合工具,提供基因间ID的转换、基因功能的分类和基因富集分析。DAVID平台是通过Fisher精确检验对gene富集分析。

DAVID网址:
https://david.ncifcrf.gov/

实例分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
一般主要关注它标红的几项:

在这里插入图片描述

3.2 Metascape

metascape是一个web工具,提供了基因富集分析,蛋白质互作网络分析等多种功能,集成了40多个基因功能注释数据库,并且提供了多样化的可视化方式,目前支持人,小鼠,大鼠等10个物种的基因分析。
对应的文章发表在nature communications上:
Metascape provides a biologist-oriented resource for the analysis of systems-level datasets

Metascape网址:
http://metascape.org/gp/index.html#/main/step1

在这里插入图片描述

分析类型:

  1. ID Conversion: 将基因标识符从流行类型(如Symbol,RefSeq,Ensembl,UniProt,UCSC)转换为人类Entrez基因ID,或反向转换;
  2. Gene Annotation:从许多功能相关的基因注释中提取,包括蛋白质家族,跨膜/分泌预测,疾病关联,复合关联等。
  3. Enrichment Analysis:识别丰富的生物学通路,特别是GO,KEGG,Reactome,BioCarta,以及MSigDB中收集的其他通路等。此外,丰富的GO本体术语自动聚类以减少冗余以便于解释。
  4. Interaction Network Analysis:蛋白质 - 蛋白质相互作用网络基于Bi
  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值