【chatgpt】通过游戏理解强化学习概念策略policy，动作action和状态state

只是有点小怂

于 2024-07-17 21:42:55 发布

阅读量560

点赞数 3

分类专栏： chatgpt 文章标签：游戏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiong_xin/article/details/140506300

版权

可以将策略（policy）类比为一个游戏中的决策指南。假设你正在玩一个游戏，在每个游戏场景（状态）下，你需要决定下一步应该做什么（动作）。策略就是告诉你在每个场景下应该做什么的指南。

确定性策略：就像是一个固定的游戏攻略，比如说“在遇到敌人的时候总是向左躲避”。这意味着每次遇到相同的情况，你都会做同样的动作。
随机策略：就像是一个带有随机因素的攻略，比如说“在遇到敌人的时候，有70%的几率向左躲避，30%的几率向右躲避”。这意味着每次遇到相同的情况，你有一定的几率做不同的动作。

强化学习的目标就是找到一个最好的攻略，使得你在游戏中获得最高的分数或奖励。这就像是在不断尝试和改进你的策略，直到找到一个能让你在大部分情况下都能赢的最优方案。

来解释一下强化学习中的状态（state）和动作（action）。

状态（State）

状态代表了智能体在某一时刻所处的环境信息或情景。它是环境对智能体的一个观测值，可以包含各种信息。例如：

在棋盘游戏中，状态就是当前棋盘的布局。
在机器人控制中，状态可以是机器人的位置、速度、角度等。
在视频游戏中，状态可以是游戏画面的当前帧、角色的生命值、位置等。

状态是智能体做出决策的基础。智能体根据当前状态决定下一步该采取什么动作。

动作（Action）

动作是智能体在某一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。