王树森_DQN学习1

最新推荐文章于 2024-08-26 10:41:03 发布

kininee

最新推荐文章于 2024-08-26 10:41:03 发布

阅读量284

点赞数

分类专栏：深度强化学习文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46273323/article/details/129888177

版权

深度强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

概率论基本概念

随机变量：用大写字母表示随机变量，用小写字母表示随机变量的观测值，只是一个值。

在这里插入图片描述

概率密度函数PDF 所有取值和为1

期望：
在这里插入图片描述
随机抽样
可以用numpy里的choice来做

强化学习术语

状态，动作，策略
在这里插入图片描述

奖励强化学习目标获得的奖励总和尽量要高
在这里插入图片描述
状态转移
状态转移是随机的，随机性来自环境

agent和环境交互
在t时刻迭代时，agent根据策略Π在当前状态st采取动作at，然后环境接收该动作，生成奖励rt，并转移到下一状态st+1。

强化学习的随机性

动作具有随机性，动作是根据策略随机抽样得到的
状态转移有随机性，给定s和a，环境会随机生成新状态s’
在这里插入图片描述
奖励与回报

在这里插入图片描述
回报的随机性
如果游戏结束，所有的奖励都能被观测到，奖励都是数值用小写字母表示
在t时刻，游戏没有结束，奖励都是随机变量用大写字母表示
随机性来源于动作a和下一个状态
Ut依赖于未来所有的动作和状态
在这里插入图片描述
价值函数

如何让AI控制agent
1.策略学习：学习一个好的策略
2.价值学习：学习一个好的Q*函数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
王树森_DQN学习1

在t时刻迭代时，agent根据策略Π在当前状态st采取动作at，然后环境接收该动作，生成奖励rt，并转移到下一状态st+1。：用大写字母表示随机变量，用小写字母表示随机变量的观测值，只是一个值。如果游戏结束，所有的奖励都能被观测到，奖励都是数值用小写字母表示。状态转移有随机性，给定s和a，环境会随机生成新状态s’在t时刻，游戏没有结束，奖励都是随机变量用大写字母表示。动作具有随机性，动作是根据策略随机抽样得到的。状态转移是随机的，随机性来自环境。1.策略学习：学习一个好的策略。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。