强化学习五大方面-环境

前言

  接下来会对环境进行阐述,该文章内容和较少,但为保证系列文章完整性因此考虑独立写出来。

环境的概述

  在前面的文章中提到,环境是代理玩耍的场所,代理做出动作作用于环境,环境会像一个老师对代理所做的动作打分(奖励Reward),同时代理可以观察环境得到状态,也叫观察。

环境分类

  环境主要有两大类,物理环境和仿真环境

物理环境

  物理环境即为真实环境,我们实际生活的环境,例如要训练一个机器人自主行走,我们可以将机器人仍在地面,在真实环境中训练机器人。这样的好处很明显,因为没有什么比真实还要真实,这样子训练的机器人更加适应真实环境,但缺点也很明显,首先会损坏硬件设备,最初的机器人就是白痴,任何动作均会让机器人摔倒,所以会使得机器人损坏,第二是训练时间很长且不便于训练,机器人在前期的训练会不断摔倒,因此需要认为将其扶正,极度不变与浪费时间。因此便有了仿真环境。

仿真环境

  仿真环境便是根据现实环境进行抽象建模,仿照一个虚拟环境。好处是避免了物理硬件的损坏,同时也使得训练速度加快,是最常用的方法。

导航

五大方面之环境: https://blog.csdn.net/weixin_54445841/article/details/112965944.

五大方面之奖励与策略结构:
https://blog.csdn.net/weixin_54445841/article/details/112974078.

Q-Learning:
https://blog.csdn.net/weixin_54445841/article/details/115474440?spm=1001.2014.3001.5501

入门资料: https://download.csdn.net/download/weixin_54445841/14910862.

Python工程:
https://download.csdn.net/download/weixin_54445841/14910913.

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值