零代码学生信第十天-差异基因的富集分析

在上一节我们介绍了如何做差异法分析,通过差异分析可以了解在不同处理组存在哪些差异基因,接下来,我们需要对了解这些差异基因参与哪些生物学过程,有哪些生物功能,这时候需要对差异基因进行富集分析。富集分析作为高通量组学数据分析的常规手段,对于解释生物医学分子机制具有哪些重要的意义呢?

一、为什么做富集分析?

        随着高通量测序技术的高速发展,生物医学等相关领域已经进行组学时代,单基因的研究早已不能满足人们对于生命奥秘的探索,然而如此庞大的数据为信息的有效提取和分析带来新的挑战。不管是高通量测序数据还是芯片数据,分析的结果往往会得到差异表达的基因的列表。但对许多研究人员来说,将这一长串基因与某个待研究的生物学现象及其潜在机制联系起来是很困难的。应对这一挑战的一种方法就是将一个基因列表分成多个部分,从而减少分析的复杂度。研究人员为了解决分成哪些类,开发了多个注释数据库。为了解决怎么分成不同类,研究者通常会对基因功能进行富集分析, 期望发现在生物学过程中起关键作用的生物通路, 从而揭示和理解生物学过程的基本分子机制,在这过程中开发了多种软件。

      其中,功能富集分析可以将成百上千个基因、蛋白或者其他分子分到不同的通路中,以减少分析的复杂度。另外,在两种不同实验条件下,激活的通路显然比简单的基因或蛋白列表更有说服力。

二、富集分析的数据库及软件

常见的注释数据库:GO、KEGG、Reactome、msigdb等等

三、富集分析的方法

ORA: over-representation analysis 过表达分析

FCS:functional class scoring 功能集打分

PT:pathway topology 通路拓扑结构

NT:network topology 网络拓扑结构

1. ORA法

又称为"2X2法";

首先,获得一组感兴趣的基因(一般是差异表达基因),然后给定的基因列表与某个通路中的基因集做交集,找出其中共同的基因并进行计数(统计值),最后利用统计检验的方式来评估观察的计数值是否显著高于随机,即待测功能 集在基因列表中是否显著富集。最常用的统计检验包括:超几何分布、卡方检验、二项分布。

这里常用的软件或者网站有DAVID等;

优点:基于完备的统计学理论,具有结果稳健、可靠的优点

缺点:

(1)仅使用了基因数目信息,而没有利用基因表达水平或表达差异值,而为了获得感兴趣或者差异表达基因,需要人为的设置阈值;

(2)ORA法通常仅使用最显著的基因,而忽略差异不显著的基因。在获得感兴趣的基因时, 往往需要选取合适的阈值, 而这样有可能会丢失显著性较低但比较关键的基因, 导致检测灵敏性的降低;

(3)将基因同等对待,ORA法假设每个基因都是独立的,忽视了基因在通路内部生物学意义的不同(如调控和被调控基因的不同)及基因间复杂的相互作用;

(4)ORA假设通路与通路间是独立的,但这个前提假设是错误的。

2. FCS法

首先根据案例和对照状态下的基 因表达谱对基因组中所有基因表达水平的差异值进行打分或排序,或直接输入排序好的基因表达谱;其次是把待测基因功能集中的每个基因的分数通过特定的统计模型转换为待测基因功能集的分数或统计值;最后利用随机抽样获得的待测基因功能集统计值的背景分布来检验实际观测的统计值的显著水平,并判断待测基因功能集在案例和对照实验状态下是否发生了统计上的显著变化。

除了上述处理和对照组比较的方法外,FCS还有一类基于单样本的分析方法,如PLAGE/ZSCORE/SSGSEA,这些方法的一大优点是可以通过调整相关协变量,相对简单地分析一些非常复杂的,如包含时间进度的多样本设计。

优点:总体而言,FCS相较于ORA的方法,在理论上有明显的突破,考虑到了基因表达值的属性信息,而且以待测基因功能集为对象来进行检验,也使得检验结果更加灵敏。

缺点:

(1)与ORA类似,FCS仍独立分析每一条通路,但同一个基因可能涉及多条通路,所以不同通路间的基因出现重叠,所以别的通路可能由于重叠的基因,也出现显著富集;

(2)FCS 方法仍然把待测基因功能集中的每个基因作为独立的个体, 忽略了基因的生物学属性和基因间的复杂相互作用关系。

3. PT法

ORA和FCS方法在进行通路的富集分析时, 都将通路中的每个基因视作独立个体,而实际上通路内的基因需要通过调控、被调控、相互作用等复杂的关系一起来影响细胞的发育、分化或疾病等生物学过程。因而,在进行通路的富集分析时,尤其是基因表达的通路富集分析时,有必要考虑到通路中基因的生物学属性。例如,在一个调控通路中,上游基因的表达水平改变显然要远大于下游基因的表达水平改变对整个通路的影响。基于通路拓扑结构的PT富集分析方法就是把基因在通路中的位置(上下游关系),与其他基因的连接度和调控作用类型等信息综合在一起来评估每个基因对通路的贡献并给予相应的权重,然后再把基因的权重整合入功能富集分析。不同的PT方法在具体的权重打分时,采用了不同的方式。

GO 等注释数据库中基因功能集中不包含任何拓扑结构信息,仅提供了可能属于同一通路的所有基因列表。

所以,PT方法不能被用于GO通路的富集分析。

优点:对于研究较完善、拓扑结构完整的通路,基于PT的基因功能富集算法会有更强大显著性

缺点:对于通路拓扑结构存在依赖性,该类方法对于研究较少,信息不完善的通路稳健性较差,因此目前通路注释不完善也是限制基于PT的基因功能富集分析方法进一步发展的重要因素。

4. NT法

目前NT法有一些不同的思路:

(1)有一些基于生物网络拓扑结构的富集分析方法,它们利用数据库中的基因相互作用关系来间接地把基因的生物学属性整合入功能的富集分析。这些方法的主要思路是利用现有的全基因组范围的生物网络,如HPRD、FunCoup、STRING等,来提取基因间的相互作用关系,包括基因的连接度及基因在网络中的距离等,来计算一给定的基因列表与一待测的基因功能数据集在网络中的连接关系,从而来推测待测基因功能集是否与给定基因列表紧密相关;如『NEA/EnrichNet等软件』

(2)另一些方法是利用网络拓扑结构来计算基因对特定生物通路的重要性并给予相应的权重, 然后再利用传统的ORA 或 FCS 方法来评估特定生物通路的富集程度,如 GANPA 和 LEGO 等;

(3)有些方法是直接把基因列表中的功能富集问题利用网络转化为基因对的功能富集问题,如 NOA 等。

优点:与传统方法相比,基于网络的功能富集分析方法加入了系统层面的基因重要性程度及关联信息,使得预测结果更加准确可靠。

缺点:更多信息的加入也容易导致算法过于复杂,计算速度较慢。

https://www.cnblogs.com/wangshicheng/p/11131086.html

四、如何做富集分析

介绍完了富集分析的原理,那目前做富集分析比较多的是哪些方法,或者说目前主流做富集分析的方式有哪些?

1、R包---clusterProfiler----ORA

2、在线工具:DAVID---ORA

3、GSEA----FCS

GSEA基于基因的表达谱矩阵来做富集分析,使用的是FCS的方法。基于ORA的方式进行的富集分析对于背景的依赖性较大。DAVID对于不会代码的人来说,操作是非常简单的,但是由于DAVID数据库更新较慢,导致富集分析的结果不准确,目前做富集分析使用较多的是Y叔的clusterProfiler包。

但是大家都知道是使用clusterProfiler包就不可避免要学习R语言,如果要学习R语言的,网上资料很多,可以去找找。这里为大家介绍的一个基于clusterProfiler包做富集分析的在线工具

http://www.sxdyc.com/singleCollectionTool

第一个和第二个的区别在于,一个是用的在线数据库做的富集分析,一个用的本地数据库做的富集分析

对应的每一个工具,都有配套的示例数据。

同样的,该网站对应有一些富集分析的可视化

只要传入对应的数据,即可绘图,不管你是在哪里做的富集分析,都可以用此工具进行可视化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值