10X单细胞（10X空间转录组）富集分析GSEA、GSVA算法回顾

最新推荐文章于 2024-07-24 22:13:06 发布

追风少年ii

最新推荐文章于 2024-07-24 22:13:06 发布

阅读量1.4k

点赞数 25

文章标签：算法人工智能空间转录组单细胞数据分析

本文链接：https://blog.csdn.net/weixin_53637133/article/details/138647370

版权

又是周五，又一周即将过去，人生总会失去很多东西，但是，想到自己的初心，会明白很多的事情。好了，这一篇我们来简单回顾一下常用的富集分析方法GSEA、GSVA的分析算法原理，如有不准确之处，希望大家指出，共同进步。

期待有缘人的相逢

GSEA部分

Gene Set Enrichment Analysis (GSEA，基因集富集分析)用来评估一个预先定义的基因集的基因在与给定按照一定分类标准的基因表（可以是某个功能相关的基因列表，也可以是某个信号通路相关的基因列表）的分布趋势，从而判断其对这个功能或者信号通路的贡献。

其输入数据包含两部分，一是已知功能的基因集(可以是GO注释、MsigDB的注释或其它符合格式的基因集定义)，一是表达矩阵 (也可以是排序好的列表)，软件会对基因根据其与功能基因集的关联度(可以理解为表达值的变化)从大到小排序，然后判断基因集内每条注释下的基因是否富集于该功能基因集相关度排序后基因表的上部或下部，从而判断此基因集内基因的协同变化对该基因集描述的功能变化的影响。

GSEA原理

给定一个排序的基因表L和一个预先定义的基因集S(比如编码某个代谢通路的产物的基因, 基因组上物理位置相近的基因，或同一GO注释下的基因)，GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异，若研究的基因集S的成员显著聚集在L的顶部或底部，则说明此基因集成员对表型的差异有贡献，也是我们关注的基因集。

GSEA目的就是看样本差异表达基因在一些先验的基因通路或者给定的基因集合中的富集情况。原定假设是某个通路所有基因，在L中是随机分布的，假设我们能观测到某个通路的所有基因突然富集于L中的一端，计算其富集程度，计算其统计显著性，设定截断值，小于这个截断值，则拒绝原假设，认为该通路在L中被富集到，并进行富集程度打分，如果为正，则该通路倾向于在上调的基因中富集，如果为负，则该通路倾向于在下调的基因中富集。

1.对差异基因排序度量的选取

GSEA分析中，首先对样本检测的基因进行排序，用什么样的指标进行大小排序，这个非常关键，往往根据实验方案设计来进行选择。

对于实验vs对照的实验方案设计往往度量都是均值、标准差、log2FoldChange来进行排序。
对于连续性样本呢，往往可以使用Pearson相关系数、Cosine、Manhattan measure、Euclidean measure这些参数进行排序。

2. 计算富集得分（ ES, enrichment score）

然后根据基因集S与样本中基因排序L的顺序依次开始打分，计算ES分数。具体如下：

从基因集 L 的第一个基因开始，计算一个累计统计值（sum for ES）。
累加规则：当遇到一个落在 s 里面的基因，则增加统计值。遇到一个不在 s 里面的基因，则降低统计值。
每一步统计值增加或减少的幅度与基因的表达变化程度相关（统计使用的指标是第一步给定的指标进行）。
富集得分ES最后定义为最大的峰值。正值 ES表示基因集在列表的顶部富集，负值 ES表示基因集在列表的底部富集。

3.计算富集得分的显著性

通过基于表型而不改变基因之间关系的置换检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少，也可基于基因集做置换检验 (permutation test)，计算 p-value 。

4. 多重假设检验校正

首先对每个基因子集 s 计算得到的ES根据基因集的大小进行标准化得到Normalized Enrichment Score ( NES )。随后针对NES计算假阳性率。（计算NES也有另外一种方法，是计算出的ES除以置换检验得到的所有ES的平均值）

5.Leading edge analysis and core enriched genes

Leading-edge subset，对富集得分贡献最大的基因成员。Tags说明对富集分数有贡献的基因的百分比，List指出在列表中获得富集分数的位置，Signal是富集信号的强度。获得有助于富集的核心富集基因也将是非常有趣的。

GSEA应用范围

GSEA能在两种不同的生物学状态中，判断某一组有特定意义的基因集合的表达模式更接近于其中哪一种。因此GSEA是一种非常常见且实用的分析方法，可以将数个基因组成的基因集与整个转录组、修饰组等做出简单而清晰的关联分析。

除了对特定gene set的分析，反过来GSEA也可以用于发现两组样本从表达或其它度量水平分别与哪些特定生物学意义的基因集有显著关联，或者发现哪些基因集的表达模式或其他模式更接近于表型A、哪些更接近于表型B。这些特定的基因集合可以从GO、KEGG、、hallmark或MSigDB等基因集中获取，其中MSigDB数据库整合了上述所有基因集。也可自定义gene set (即新发现的基因集或其它感兴趣的基因的集合，所以有时候也用GSEA做细胞定义)。