[translate]Multimodal Self-Paced Learning for Multi-Omics Feature Selection and Data Integration

用于多组学特征选择和数据集成的多模式自配学习

摘要


        高通量测序技术的快速发展导致了大量多组学生物数据集的产生,于是可以通过整合不同组学的数据来深入了解疾病机制,然而,多组数据的综合分析和预测建模面临三大挑战:1.重噪声,2.高维度,3.数据异质性。现在流行的多组学数据整合方法有着一些局限性并且容易收到噪声影响。本论文提出MSPL,这是一种鲁棒性强的有监督的多组学数据整合方法,他可以同时识别整合过程中的重要多组学特征,并预测癌症亚型(癌症亚型:个体不同,每个人的癌症成因不同(分子机制不同))。MSPL不仅继承了自学习的泛化性能,而且利用包含相关信息的多组数据的属性,以交互方式推荐用于模型训练的高置信度样本。为了证明MSPL的优越性,我们使用模拟数据和五个多组学数据集,整合了三个组学以识别潜在的生物特征,并评估了在二元和多类分类问题中与最新方法相比的性能。我们提出的模型使多组学数据集集成更加系统化,并且扩展了其应用范围。

        注:

        多组学(Multi-omics)研究是探究生物系统中多种物质之间相互作用的方法,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学、微生物组学等,这些物质共同影响生命系统的表型、性状等。

        高通量测序技术:高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。

        

介绍


        在新的高通量测序技术的推动下,具有不同格式、大小和结构的各种类型的生物数据以前所未有的速度增长。基因表达、miRNA表达、蛋白质、DNA甲基化和代谢物都是一些使用高通量技术(如微阵列和质谱)产生的生物数据的一些例子。通常,这些不同的生物数据类型提供了整个基因组的不同、部分独立和互补信息。因此,破译复杂的人类基因组和基因功能需要更加完整、互补的信息。多组学数据(如基因组学、转录组学、蛋白质组学和代谢组学)的整合使得我们可以从不同的角度和层次深入了解复杂的疾病机制、预测目标疾病的亚型、发现潜在的多组学生物特征。

        从多组学数据进行综合分析和预测模型的有效方法必须得克服至少三个计算问题:

                问题1:每种类型的生物数据都存在高水平的噪声和收集偏差

                不同生物数据样本中存在的随机噪声和系统/采集偏差不仅影响科学研究的成本和效益,而且扰乱了对患者的疾病亚型的精确预测,毫无疑问这对患者将产生巨大影响。此外,不同数据类型的不同噪声和偏差可能导致分类器性能降低,并找到不可靠的潜在生物特征。

                问题2:高维度,小样本

                生物数据通常有较多的特征值,但样本数量却非常小。从生物学角度来看,大多数的特征对于目标疾病是无关的,只有小部分的特征值与最后的目标预测是高度相关的。从机器学习的角度来看,大量的无关特征可能会导致过拟合,从而使最后的分类器较差。

                问题3: 数据异质性

                不同组学平台产生的不同类型的生物数据具有异构信息,例如遵循不同的统计分布,接受不同程度的不精确性,包含不同类型的不确定性。

        遗憾的是目前的多组学数据整合方法尚未同时解决这些问题。但是仍然有着迫切的需求来找寻一种鲁棒性强的方法来整合多组学数据。

        从多组学数据中训练预测模型的问题可以被考虑为一个多模态学习问题。一般来说,相较于单一模态,多模态获得的数据携带者更加完整、互补的信息。多组学数据在同一组样本中提供具有不同特征集的多种模式。现有的预测癌症亚型和识别重要的多组学特征的有监督的多模式数据集成方法可以被分为基于基于级联的,基于集成的,和knowledge-based的。

        基于级联的方法简单地将不同数据类型的所有特征组合到单个大型数据集中,于是预测与特征选择都基于这一个单一的统计模型。基于集成的方法则是对每个组学数据集都建立一个预测模型,最终通过用平均/多数投票方案组合预测结果。这些方法更适用于确定的组学数据类型,但并未考虑不同层面的组学之间的交互影响。近年的分类方法如广义弹性网络回归(Generalized
Elastic Net ),自适应正则化岭回归(adaptive Group-Regularized ridge regression),稀疏偏最小二乘鉴别分析(sparse Partial Least Squares Dis-criminantAnalysis)已经整合了生物数据,如遗传途径数据、甲基化数据和基因表达数据。然而这两种数据集成方法都没有考虑到不同类型的数据之间的交互影响,这限制了我们对不同层面生物功能之间存在的关系的认知。

        知识驱动的多模式数据集成考虑了不同的基于先验知识的不同模型之间的关系,Singh等人发表的《利用潜在成分发现生物标志物的数据集成分析》(Data Integration Analysis for Biomarker discovery using Latent components (DIABLO))论文,该论文旨在最大化多组分数据之间的相关信息。DIABLO实际上将稀疏广义典型相关分析(SGCCA)扩展到有监督分类模型。它是一种多变量降维方法,根据给定的设计矩阵最大化多组分变量线性组合之间的协方差,并结合所有潜在成分进行预测。但是选定的重要组学特征存在线性关系这种设想可能在其他的生物学领域中并不适用。此外DIABLO易受强噪声影响,这导致它的泛化性能很差。

        本论文提出MSPL,一种鲁棒性强的有监督的多组学数据整合方法,它可以同时识别整合过程中的重要多组学特征,并预测癌症亚型。MSPL(Multimodal Self-Paced Learning)采用样本重加权方式来提高噪声环境下学习过程的鲁棒性。MSPL的核心是交互式地推荐多个组学数据类型之间具有较小损失值的高置信度样本,并且自动选择样本(样本从易到难)来为每个模式来训练模型,这是一种完全自主的方式。这种方法实际是建立在自主学习(SPL:self-paced learning)上的,并且是它的一个变种。而且为了克服高维度特征,小规模样本带来的过拟合问题,MSPL嵌入了一种正则化方法来在学习过程中执行特征选择。以往已经提出了一系列用于特征选择的正则化方法,这里MSPL采用L1正则化(正则化解决过拟合问题)。在所有提出的方法中,MSPL试图解决多组学数据进行综合分析和预测模型所必须面临的三个数学问题。

        我们使用模拟数据和五个公开的多组学数据集(包括四个基准癌症数据集和一个乳腺癌多组数据集)展示了MSPL的能力,并将其预测和特征选择性能与其他最先进的方法进行了比较。而且乳腺癌样本大概有1000个样本,且包含4个乳腺癌亚型。在这些实验中,我们整合了三个组学数据集,并评估了所有竞争方法在二分类和多类分类问题中的性能。结果显示,MSPL与现有方法相比更具竞争性,特别是在存在强噪声的情况下更具有鲁棒性。


相关工作

A: Curriculum Learning(课程式学习)

        主张让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识。Curriculum Learning会根据样本的难易程度,给不同难度的训练样本分配不同的权重。初始阶段,给简单样本的权重最高,随着训练过程的持续,较难样本的权重将会逐渐被调高。这样一个对样本进行权重动态分配的过程被论文称之为课程(Curriculum),课程初始阶段简易样本居多,课程末尾阶段样本难度增加。

        优点:  

  • 可以加速机器学习模型的训练。在达到相同的模型性能条件下,Curriculum Learning可以加速训练,减少训练迭代步数;
  • 使模型获得更好的泛化性能,即能让模型训练到更好的局部最优值状态

摘录自论文导读:机器学习之课程式学习(Curriculum Learning) - 知乎

B:SELF-PACED LEARNING(自步学习)

      


MSPL模型

        多组学数据天然拥有多模态特性,多模态数据通常比单一模态数据包含更完整的描述和补充信息,可以收集多模态之间相互交互的数据来直观地证明这一点。我们假设不同的模式下共享样本置信度的共同知识。总之,一个组学中的高质量样本可能与其他组学中的高质量样本一致。

        

        

      

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值