欢迎关注微信公众号《生信修炼手册》!
Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA
和一个基因集数据库MSigdb
。本章主要介绍这个数据库,官网如下
对于human
的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB
数据库中。
该数据库是不断更新和完善的,目前最新版本为v6.2, 更新于2018年7月,共收录了17810个基因集。不同版本如下收录的基因集数目变化如下
如此多的数据,肯定需要分门别类的整理,在MSigDB
中,将所有的基因集划分为以下8大类别
1. H: hallmark gene sets
该类别包含了由多个已知的