王树森_DQN学习1

概率论基本概念

随机变量:用大写字母表示随机变量,用小写字母表示随机变量的观测值,只是一个值。

在这里插入图片描述
在这里插入图片描述
概率密度函数PDF 所有取值和为1
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

期望
在这里插入图片描述
随机抽样
可以用numpy里的choice来做
在这里插入图片描述

强化学习术语

状态,动作,策略
在这里插入图片描述
在这里插入图片描述

奖励 强化学习目标获得的奖励总和尽量要高
在这里插入图片描述
状态转移
状态转移是随机的,随机性来自环境
在这里插入图片描述
agent和环境交互
在t时刻迭代时,agent根据策略Π在当前状态st采取动作at,然后环境接收该动作,生成奖励rt,并转移到下一状态st+1。
在这里插入图片描述
强化学习的随机性

动作具有随机性,动作是根据策略随机抽样得到的
状态转移有随机性,给定s和a,环境会随机生成新状态s’
在这里插入图片描述
奖励与回报

在这里插入图片描述
回报的随机性
如果游戏结束,所有的奖励都能被观测到,奖励都是数值用小写字母表示
在t时刻,游戏没有结束,奖励都是随机变量用大写字母表示
随机性来源于动作a和下一个状态
Ut依赖于未来所有的动作和状态
在这里插入图片描述
价值函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如何让AI控制agent
1.策略学习:学习一个好的策略
2.价值学习:学习一个好的Q*函数
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值