监督学习、无监督学习、强化学习、机器学习的通俗理解

引言

      监督学习、无监督学习、强化学习、机器学习是学习AI必须要理解的基础概念。本文通过故事叙述的方式阐述监督学习、无监督学习、强化学习、机器学习的概念,深入浅出,帮助小伙伴们了解。

2、小明学AI

     从前有个叫小明的男孩,很喜欢吃苹果。为了让他认识苹果,妈妈找来了三个苹果,一个大苹果、一个小苹果,一个青苹果。

     妈妈拿起大苹果,告诉小明说:“这是苹果”;妈妈拿起小苹果,告诉小明:“这也是苹果”。最后妈妈拿起青苹果,告诉小明:“不管大小、颜色、如何变化,圆圆的、有把的就是苹果”。现在小明知道什么是苹果了。

       在人类和动物感知中,这通常叫做概念学习,在人工智能领域,这过程被成为监督学习

     几年后小明不仅认识了苹果,还认识了西红柿、还有一个非常喜欢的小皮球,小明觉得这三样东西有非常相似的地方。草莓、爸爸的领带、妈妈的餐盘也有同样的相似之处,妈妈告诉他,这种相似之处是红色。 

     在人类行为中,我们将这个过程称为归纳推理;在人工智能领域,我们叫他无监督学习

 

      升入初中后,小明开始面对考试。作为一个优秀的学生,每一次考试结束,小明都会认真观察批改好的将其中做错的题目单独找出,重新解答,直到找出正确的答案。

      在人工智能领域,我们将这个过程称为强化学习

     监督学习、无监督学习和强化学习都被称为机器学习

     小明将为了从一堆水果里找到自己喜欢的水果--苹果,于是将苹果、草莓、香蕉进行分类。

     这个过程在人工智能领域的机器学习任务中称为分类问题

     为了吃到苹果,小明去买水果,小明发现每个月的苹果价格不同,为了每个月都能吃到苹果,小明根据前几个月的数据预测了下个月的苹果价格。

      这个过程在人工智能领域的机器学习任务中称为回归问题

      进入社会,小明成为了一名工程师,他的朋友们有的成为了老师,有的成为了医生,还有人成为了作家。每个人都有自己擅长的领域,发挥着自己的作用,算法也是如此。

     为图片分类,将语音转化为文字,找到不同数据之间的联系。不同的算法自有擅长之处;与进入仍然不断提升自己的人类一样,算法也在不断的提升效果,不断的迭代。

     我们不断探讨人工智能,不断拓展技术的疆界,想要找到未来的答案,也许我们自身就是答案。

3、笔记总结

表1 机器学习

机器学习可以分为三种形式

监督学习(supervised learning)

非监督学习(unsupervised learning)

强化学习(reinforcement learning)

机器学习的主要任务

分类(classification)

将实例数据划分到合适的类别中

回归(regression)

主要用于预测数值型数据

表2 监督学习

概念理解

必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归)

特征

练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)

表3 无监督学习

概念理解

在未加标签的数据中,试图找到隐藏的结构。数据没有类别信息,也没有给定的目标值。

分类

聚类:将数据集分成由类似的对象组成多个类

密度估计:通过样本分布的紧密程度,来估计与分组的相似性

表4 强化学习

概念理解

所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,由于外部给出的信息很少,强化学习系统必须依靠自身的经历进行自我学习。通过这种学习获取知识,改进行动方案以适应环境。

强化学习最关键的三个因素

环境奖励

行为

强化学习和深度学习的主要区别

    第一,深度学习的训练样本是有标签的,强化学习的训练是没有标签的,它是通过环境给出的奖惩来学习

   第二,深度学习的学习过程是静态的,强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互,深度学习是给什么样本就学什么,而强化学习是要和环境进行交互,再通过环境给出的奖惩来学习

    第三,深度学习解决的更多是感知问题,强化学习解决的主要是决策问题。因此有监督学习更像是五官,而强化学习更像大脑。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值