监督学习、无监督学习、强化学习、半监督学习、主动学习

监督学习、无监督学习、强化学习、半监督学习、主动学习

0.面试回答:

  • 监督学习是对有标注数据建模,本质是学习输入到输出的映射的统计规律。
  • 无监督学习是对无标注数据建模,本质是学习数据中的统计规律或潜在结构。
  • 半监督学习是指利用有标注和无标注数据进行学习,一般只有少部分的有标注数据;半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
  • 监督学习的输入输出是随机给出的,实际上是被动学习,主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
  • 强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能预测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

1.监督学习

  • 监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。(监督学习从训练数据training data集合中学习模型,对测试数据test data进行预测。)
  • 输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
  • 监督学习假设输入与输出的随机变量X 和Y遵循联合概率分布P(X, Y)。在学习过程中假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据和测试数据被看作是依联合概率分布独立同分布产生的。
  • 监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。
  • 监督学习分为学习和预测两个过程,由学习系统与预测系统完成。

2.无监督学习

  • 无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
  • 模型可以实现对数据的聚类、降维或概率估计。

3.强化学习

  • 强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能预测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
  • 强化学习的目标就是在所有可能的策略中选出价值函数最大的策略,而在实际学习中往往从具体的策略出发,不断优化已有策略。
  • 强化学习方法中有基于策略的(policy-based)、基于价值的(value-based),这两者属于无模型的(model-free)方法,还有有模型的(model-based)方法。
    • 有模型的方法试图直接学习马尔可夫决策过程的模型,包括(状态)转移概率函数P(s`|s, a)和奖励函数r(s, a)。这样可以通过模型对环境的反馈进行预测,求出价值函数最大的策略。
    • 无模型的、基于策略的方法不直接学习模型,而是试图求解最优策略。学习通常从一个具体策略开始,通过搜索更优的策略进行。
    • 无模型的、基于价值的方法试图求解最优价值函数,特别是最优动作价值函数,这样可以间接的学到最优策略,根据该策略在给定的状态下做出相应的动作。学习通常从一个具体价值函数开始,通过搜索更优的价值函数进行。
  • 书上第9页有详细解释

4.半监督学习与主动学习

  • 半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的收集不需要太多成本。
  • 半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
  • 主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是“被动学习”,主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
  • 半监督学习和主动学习更接近监督学习。

https://devpress.csdn.net/awstech/64ddd55a9ce083432426b042.html?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6Mjk5NTMwOSwiZXhwIjoxNjkzNDQ4NjI2LCJpYXQiOjE2OTI4NDM4MjYsInVzZXJuYW1lIjoid2VpeGluXzQ0NTU4NDc5In0.T09wcB762mUpTE2lvu3FhSVYRRtC0Ce7xbbrSm1DENs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值