强化学习训练营-学习笔记

本文介绍了强化学习的基本思想,通过与环境交互学习达成目标。文章详细讲解了在强化学习中如何处理图像数据,如将RGB图像转为灰度图以减少计算资源消耗,使用SkipFrame技巧优化帧率,以及自定义奖励函数以更好地适应优化目标。此外,还提到了PPO算法,并对比了强化学习与有监督学习、无监督学习的区别,强调了探索与开发在RL中的重要性。
摘要由CSDN通过智能技术生成

强化学习是什么?

简单来说 强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法,比如走迷宫,传统的运筹学算法往往是通过遍历所有的点来完成路径规划,而强化学习则是实现一个anget,让这个 agent自己去随机探索路线,在探索的过程中学习如何走的更远并最终走到终点,这就是强化学习的思想。

R3.3常用env Wrapper技巧

R3.3.1 rgb图像转灰度图
想象一下你在玩超级玛丽时如果把彩色图像换成灰度图,其实对你的操作并没有多大影响(只要能看出来障碍物即可判断路线和动作),反而在模型训练中,rgb图像对算力和训练时间的要求会成倍增长,所以综合考虑咱们转换成灰度图才输入网络

R3.3.2 SkipFrame
由于超级玛丽等游戏开发是面向玩家的(人),而非电脑,所以面向人类通关设计时,很多游戏帧是被放慢了,比如执行一个action并不会立刻得到reard而是在接下来的几帧里才逐渐成效,换个通俗的说法,其实这么快速的游戏帧对我们并不需要,我们只需要每秒能看到几帧就足以通关了,所以我们根据经验,每四帧只取一帧即可

R3.3.2 CustomReward
强化学习的优化目标必须是可量化的,所以在游戏里我们直接的优化目标就是最大化reward,但是很多时候游戏直接设定的reward并不完全切合我们的实际目的(比如通关),或者在某个特定场景下(关卡下)不合适,所以越是复杂的游戏场景,越是需要自定义reward来进行修正。

R4 PPO(近

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值