因子分析是基因组学中广泛使用的降维方法。现有的因子分析模型假设观察到的样本是独立的,而这个假设在时空分析研究中并不适用。2022年1月《Nature methods》发表了一个灵活且通用的工具箱:MEFISTO,用于在已知样本之间的空间或时间依赖性的情况下对高维数据进行建模。MEFISTO不仅保持了因子分析对多模态数据的既定优势,还能够进行空间-时间上的降维、插补和平滑与非平滑变化模式的分离。此外,MEFISTO 可以通过以数据驱动的方式同时识别和对齐潜在的变异模式来整合多个相关数据集。
MEFISTO是什么?
MEFISTO是一个计算框架,开启了多模态因子分析在时间或空间分辨率数据集的应用。MEFISTO将一个数据集作为输入,该数据集包含一个或多个特征集(例如不同组学)的测量值,在下文中称为“视图(views)”,以及一个或多个样本集(例如来自不同实验条件、物种或个体),在下文中称为“组(groups)”。除了这些高维数据,每个样本还具有连续的协变量(例如一维时间坐标或二维空间坐标)。MEFISTO将输入数据分解为潜在因子,类似于传统的因子分析,从而恢复低维潜在空间中样本的联合嵌入。同时,该模型产生了一个稀疏的线性映射,因此可以解释潜在因子和观察到的特征之间的特定视图权重。在概率框架内制定的MEFISTO自然可以解释视图、组和协变量值的任