强化学习学习笔记—— Chapter3 表格型方法

本文介绍了强化学习中的表格型方法,重点讲解了P函数和R函数的概念,以及Q表格的表示方法和时序差分(Temporal Difference)更新策略。此外,还详细阐述了SARSA算法的原理,强调了SARSA作为on-policy策略的特点,并对比分析了SARSA与Q-learning的区别,讨论了两者在探索与利用之间的平衡策略。
摘要由CSDN通过智能技术生成

Keywords

P函数和R函数: P函数反应的是状态转移的概率,即反应的环境的随机性,R函数就是Reward function。但是我们通常处于一个未知的环境(即P函数和R函数是未知的)。

Q表格型表示方法: 表示形式是一种表格形式,其中横坐标为 action(agent)的行为,纵坐标是环境的state,其对应着每一个时刻agent和环境的情况,并通过对应的reward反馈去做选择。一般情况下,Q表格是一个已经训练好的表格,不过,我们也可以每进行一步,就更新一下Q表格,然后用下一个状态的Q值来更新这个状态的Q值(即时序差分方法)。

时序差分(Temporal Difference): 一种Q函数(Q值)的更新方式,也就是可以拿下一步的 Q 值

SARSA算法: 一种更新前一时刻状态的单步更新的强化学习算法,也是一种on-policy策略。该算法由于每次更新值函数需要知道前一步的状态(state),前一步的动作(action)、奖励(reward)、当前状态(state)、将要执行的动作(action),即 (S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})这几个值,所以被称为SARSA算法。agent每进行一次循环,都会用 (S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})

Questions

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值