概率论基本概念
随机变量:用大写字母表示随机变量,用小写字母表示随机变量的观测值,只是一个值。
概率密度函数PDF 所有取值和为1
期望:
随机抽样
可以用numpy里的choice来做
强化学习术语
状态,动作,策略
奖励 强化学习目标获得的奖励总和尽量要高
状态转移
状态转移是随机的,随机性来自环境
agent和环境交互
在t时刻迭代时,agent根据策略Π在当前状态st采取动作at,然后环境接收该动作,生成奖励rt,并转移到下一状态st+1。
强化学习的随机性
动作具有随机性,动作是根据策略随机抽样得到的
状态转移有随机性,给定s和a,环境会随机生成新状态s’
奖励与回报
回报的随机性
如果游戏结束,所有的奖励都能被观测到,奖励都是数值用小写字母表示
在t时刻,游戏没有结束,奖励都是随机变量用大写字母表示
随机性来源于动作a和下一个状态
Ut依赖于未来所有的动作和状态
价值函数
如何让AI控制agent
1.策略学习:学习一个好的策略
2.价值学习:学习一个好的Q*函数