从零实践强化学习之RL初印象(GYM+PARL)

昨天听了曾两度夺得NeurIPS强化学习赛事冠军的飞桨强化学习PARL团队核心成员科老师的课程,不得不说,满满的干货,于是今天打算再看一遍回放,并好好地做一下笔记。

在学习强化学习之前,我们先思考一下,我们想追求的智能是什么?

人类追求的智能是什么?

在这里插入图片描述

对人类来说,人的智能可以分为两部分:

  • 一小部分是天生遗传的
  • 绝大部分是要依靠我们出生之后的努力学习

后天的学习一般分两种:

  • 一种是有前人的经验了,我们直接模仿,依葫芦画瓢。
  • 另一种是没有任何的经验,我们只能在摸索中去前进和环境交互、探索

举个例子,一个人如果一出生就与世隔绝的话,他很有可能学不到任何东西。一个小孩,他从一出生开始就会挥一下胳膊、瞪一下腿,其实就已经开始和周围的环境产生的交互。交互会产生经验,小孩子会慢慢地知道做什么事情,大家会笑;做什么事情会被批评。

强化学习是一门灵感来源于心理学的学科。每个人都是过去经验的总和,你过去的经验造成了现在的你。

人类的智能是学习而来的,那人工智能可以像人类一样"学习"吗?

人工智能可以像人类一样"学习"吗?

答案是肯定的!

监督学习就是让人工智能像人类一样去模仿,给他一个样本,然后用神经网络训练一个模型,去学习怎么根据现有的样本预测新的数据

而更吸引人的是强化学习,他追求的是像人一样的自学,在没有人教学的情况下只能自己和环境交互,在交互中学习。这时又分为两种情况:

  • 已知的环境,就好像有一张地图,可以提前规划路径
  • 未知的环境,只能勇敢地探索与不断地试错

当然,在未知的环境里学习是更加困难的

科老师也推荐了一些资料,用于初学者学习:
在这里插入图片描述

强化学习的概念及应用

强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

核心思想:
  智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。

注意:从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。

智能体通过分析经验数据来学习,什么样的情况下应该做什么事情,这其实和我们人类的学习是类似的:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.郑先生_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值