强化学习训练营-学习笔记

最新推荐文章于 2023-12-31 01:10:32 发布

weixin_59882919

最新推荐文章于 2023-12-31 01:10:32 发布

阅读量4.4k

点赞数

文章标签：计算机视觉 python 人工智能

本文链接：https://blog.csdn.net/weixin_59882919/article/details/122760628

版权

本文介绍了强化学习的基本思想，通过与环境交互学习达成目标。文章详细讲解了在强化学习中如何处理图像数据，如将RGB图像转为灰度图以减少计算资源消耗，使用SkipFrame技巧优化帧率，以及自定义奖励函数以更好地适应优化目标。此外，还提到了PPO算法，并对比了强化学习与有监督学习、无监督学习的区别，强调了探索与开发在RL中的重要性。

摘要由CSDN通过智能技术生成

强化学习是什么？

简单来说强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法，比如走迷宫，传统的运筹学算法往往是通过遍历所有的点来完成路径规划，而强化学习则是实现一个anget,让这个 agent自己去随机探索路线，在探索的过程中学习如何走的更远并最终走到终点，这就是强化学习的思想。

R3.3常用env Wrapper技巧

R3.3.1 rgb图像转灰度图
想象一下你在玩超级玛丽时如果把彩色图像换成灰度图，其实对你的操作并没有多大影响（只要能看出来障碍物即可判断路线和动作），反而在模型训练中，rgb图像对算力和训练时间的要求会成倍增长，所以综合考虑咱们转换成灰度图才输入网络

R3.3.2 SkipFrame
由于超级玛丽等游戏开发是面向玩家的（人），而非电脑，所以面向人类通关设计时，很多游戏帧是被放慢了，比如执行一个action并不会立刻得到reard而是在接下来的几帧里才逐渐成效，换个通俗的说法，其实这么快速的游戏帧对我们并不需要，我们只需要每秒能看到几帧就足以通关了，所以我们根据经验，每四帧只取一帧即可

R3.3.2 CustomReward
强化学习的优化目标必须是可量化的，所以在游戏里我们直接的优化目标就是最大化reward,但是很多时候游戏直接设定的reward并不完全切合我们的实际目的（比如通关），或者在某个特定场景下（关卡下）不合适，所以越是复杂的游戏场景，越是需要自定义reward来进行修正。

R4 PPO（近

最低0.47元/天解锁文章

weixin_59882919

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习训练营-学习笔记

强化学习是什么？简单来说强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法，比如走迷宫，传统的运筹学算法往往是通过遍历所有的点来完成路径规划，而强化学习则是实现一个anget,让这个 agent自己去随机探索路线，在探索的过程中学习如何走的更远并最终走到终点，这就是强化学习的思想。R3.3常用env Wrapper技巧R3.3.1 rgb图像转灰度图想象一下你在玩超级玛丽时如果把彩色图像换成灰度图，其实对你的操作并没有多大影响（只要能看出来障碍物即可判断路线和动作），反而在模型
复制链接

扫一扫