机器学习(4)——弱监督学习

什么是弱监督学习?

监督学习技术通过学习大量标记的训练样本来构建预测模型,在很多领域获得了巨大成功。但由于数据标注的本身往往需要很高成本,在很多任务上都很难获得全部真值标签这样比较强的监督信息。而无监督学习由于缺乏制定的标签,在实际应用中的性能往往存在很大局限。针对这一问题,相关研究者提出了弱监督学习的概念,弱监督学习不仅可以降低人工标记的工作量,同时也可以引入人类的监督信息,在很大程度上提高无监督学习的性能。
弱监督学习是相对于监督学习而言的。同监督学习不同,弱监督学习中的数据标签允许是不完全的,即训练集中只有一部分数据是有标签的,其余甚至绝大部分数据是没有标签的;或者说数据的监督学习是间接的,也就是机器学习的信号并不是直接指定给模型,而是通过一些引导信息间接传递给机器学习模型。总之,弱监督学习涵盖的范围很广泛,可以说只要标注信息是不完全、不确切或者不精确的标记学习都可以看作是弱监督学习。
本节仅选取半监督学习迁移学习强化学习三个典型的机器学习算法来介绍弱监督学习的概念。

一、半监督学习

半监督学习是一种典型的弱监督学习方法。在半监督学习当中,我们通常只拥有少量有标注数据的情况,这些有标准数据并不足以训练出好的模型,但同时我们拥有大量未标注数据可供使用,我们可以通过充分地利用少量的有监督数据和大量的无监督数据来改善算法性能。因此,半监督学习可以最大限度地发挥数据的价值,使机器学习模型从体量巨大、结构繁多的数据中挖掘出隐藏在背后的规律,也因此成为近年来机器学习领域比较活跃的研究方向,被广泛应用于社交网络分析、文本分类、计算机视觉和生物医学信息处理等诸多领域。
在半监督学习中,基于图的半监督学习方法被广泛采用,近年来有大量的工作专注在此领域,也产生了诸多卓有成效的进展。该方法将数据样本间的关系映射为一个相似度图,如图7.10所示。其中,图的节点表示数据点(包括标记数据和无标记数据);图的边被赋予相应权重,代表数据点之间的相似度,通常来说相似度越大,权重越大。对无标记样本的识别,可以通过图上标记信息传播的方法实现,节点之间的相似度越大,标签越容易传播;反之,传播概率越低。在标签传播过程中,保持已标注数据的标签不变,使其像一个源头把标签传向未标注节点。每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其标签就越容易传播到相邻节点、相似节点的标签越趋于一致。当迭代过程结束时,相似节点的概率分布也趋于相似,可以划分到同一类别中,从而完成标签传播过程。
在这里插入图片描述
基于图的半监督学习算法简单有效,符合人类对于数据样本相似度的直观认识,同时还可以针对实际问题灵活定义数据之间的相似性,具有很强的灵活性。尤其需要指出的是,基于图的半监督学习具有坚实的数学基础作保障,通常可以得到闭式最优解,因此具有广泛的适用范围。该方法的代表性论文也因此获得了2013年国际机器学习大会“十年最佳论文奖”,由此也可以看出该范式的影响力和重要性。
近年来,随着大数据相关技术的飞速发展,收集大量的未标记样本已经相当容易,而获取大量有标记的样本则较为困难,而且获得这些标注数据往往需要大量的人力、物力和财力。例如,在医学图像处理当中,随着医学影像技术的发展,获取成像数据变得相对容易,但是对病灶等数据的标识往往需要专业的医疗知识,而要求医生进行大量的标注往往非常困难。由于时间和精力的限制,在多数情况下,医学专家能标注相当少的一部分图像,如何发挥半监督学习在医学影像分析中的优势就尤为重要。另外,在大量互联网应用当中,无标记的数据量时极为庞大甚至是无限的,但是要求用户对数据进行标注则相对困难,如何利用半监督学习技术在少量的用户标注情况下实现高效推荐、搜索、识别等复杂任务,具有重要的应用价值。

二、迁移学习

迁移学习是另一类比较重要的弱监督学习方法,侧重于将已经学习过的知识迁移应用到新的问题中。对于人类来说,迁移学习其实就是一种与生俱来的能够举一反三的能力。比如我们学会打羽毛球后,再学打网球就会变得相对容易;而学会了中国象棋后,学习国际象棋也会变得相对容易。对于计算机来说,我们同样希望机器学习模型在学习到一种能力之后,稍加调整即可以用于一个新的领域。
随着大数据时代的到来,迁移学习变得愈发重要。现阶段,我们可以很容易地获取大量的城市交通、视频监控、行业物流等不同类型的数据,互联网也在不断产生大量的图像、文本、语音等数据。但遗憾的是,这些数据往往都是没有标注的,而现在很多机器学习方法都需要以大量的标注数据作为前提。如果我们能够将在标注数据上训练得到的模型有效地迁移到这些无标注数据上,将会产生重要的应用价值,这就催生了迁移学习的发展。
在迁移学习当中,通常称有知识和量数据标注的领域为源域,是我们要迁移的对象;而把最终要赋予知识、赋予标注的对象称作目标域。迁移学习的核心目标就是将知识从源域迁移到目标域。目前,迁移学习主要通过三种方式来实现:
样本迁移,即在源域中找到与目标域相似的数据并赋予其更高的权重,从而完成从源域到目标域的迁移。这种方法的好处是简单且容易实现,但是权重和相似度的选择往往高度依赖经验,使算法的可靠性降低。
特征迁移,其核心思想是通过特征变换,将源域和目标域的特征映射到同一个特征空间中,然后再用经典的机器学习方法来求解。这种方法的好处是对大多数方法适用且效果较好,但是在实际问题当中的求解难度通常比较大。
模型迁移,这也是目前最主流的方法。这种方法假设源域和目标域共享模型参数,将之前在源域中通过大量数据训练好的模型应用到目标域上。比如,我们在一个千万量级的标注样本集上训练得到了一个图像分类系统,在一个新领域的图像分类任务中,我们可以直接利用之前训练好的模型,再加上目标域的几万张标注样本进行微调,就可以得到很高的精度。这种方法可以很好地利用模型之间的相似度,具有广阔的应用前景。
迁移学习可以充分利用既有模型的知识,使机器学习模型在面临新的任务时只需要进行少量的微调即可完成相应的任务,具有重要的应用价值。目前,迁移学习已经在机器人控制、机器翻译、图像识别、人机交互等诸多领域获得了广泛应用。

三、强化学习

除此之外,强化学习也可以看作是弱监督学习的一类典型算法,其算法理论的形成可以追溯到二十世纪七八十年代,但却是在最近才引起学界和工业界的广泛关注。具有里程碑意义的事件是2016年3月DeepMind开发的AlphaGo程序利用强化学习算法以4:1的结果击败世界围棋冠军李世石。如今,强化学习算法已经在游戏、机器人等领域开花结果,谷歌、facebook、百度、微软等各大科技公司更是将强化学习技术作为其重点发展的技术之一。著名学者David Silver(AlphaGo的发明者之一)认为,强化学习是解决通用人工智能的关键路径。
与监督学习不同,强化学习需要通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作,但是我们可以通过设置合适的奖励函数,使机器学习模型在奖励函数的引导下自主学习出相应策略。强化学习的目标就是研究在与环境的交互过程中,如何学习到一种行为策略以最大化得到的累计奖赏。简单来说,强化学习就是在训练的过程中不断地尝试,错了就扣分,对了就奖励,由此训练得到在各个状态环境当中最好的决策。就好比我们有一只还没有训练好的小狗,人类实际上并没有途径与狗直接进行沟通,告诉它应该做什么、不应该做什么,但是我们可以用食物(奖励)来诱导训练它。每当它把屋子弄乱后,就减少美味事物的数量(惩罚);表现好时,就加倍美味食物的数量(奖励),那么小狗最终会学到“把客厅弄乱是不好的行为”这一经验。从狗的视角来看,它并不了解所处的环境,但能够通过大量尝试学会如何适应这个环境。
需要指出的是,强化学习通常有两种不同的策略:一是探索,也就是尝试不同的事情,看它们是否会获得比之前更好的回报;二是利用,也就是尝试过去经验当中最有效的行为。举一个例子,假设有10家餐馆,你在其中6家餐馆吃过饭,知道这些餐馆中最好吃的可以打8分;而其余的餐馆也许可以打10分,也可能只有2分。那么你应该如何选择?如果你以每次的期望得分最高为目的,那就有可能一直吃打8分的那家餐厅;但是你永远突破不了8分,不知道会不会吃到更好吃的口味。所以,只有去探索未知的餐厅,才有可能吃到更好吃的,即使伴随着不可避免的风险。这就是探索和利用的矛盾,也是强化学习要解决的一个难点问题。
强化学习给我们提供了一种新的学习范式,它和我们之前讨论的监督学习有明显区别。强化学习处在一个对行为进行评判的环境中,使得在没有任何标签的情况下,通过尝试一些行为并根据这个行为结果的反馈不断调整之前的行为,最后学习到在什么样的情况下选择什么样的行为可以得到最好的结果。在强化学习中,我们允许结果奖励信号的反馈有延时,即可能需要经过很多步骤才能得到最后的反馈。而监督学习则不同,监督学习没有奖励函数,其本质是建立从输入到输出的映射函数。就好比在学习的过程中,有一个导师在旁边,他知道什么是对的、什么是错的,并且当算法做了错误的选择时会立刻纠正,不存在延时问题。
总之,由于弱监督学习涵盖范围比较广泛,其学习框架也具有广泛的适用性,包括半监督学习、迁移学习和强化学习等方法已经被广泛应用在自动控制、调度、金融、网络通信等领域。在认知、神经科学领域,强化学习也有重要研究价值,已经成为机器学习领域的新热点。

  • 11
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值