- 博客(3)
- 收藏
- 关注
原创 强化学习基础知识第三章_个人笔记
课程来源于bilibili西湖大学智能大学无人系统:西湖大学智能无人系统的个人空间-西湖大学智能无人系统个人主页-哔哩哔哩视频 (bilibili.com) 目标是找到最优的state value和最优的policy —> 使用贝尔曼最优方程(Bellman optimality equation) 针对一个2x2的grid - world,根据Bellman equation可以写出每一个state对应的state values和action values 当
2024-07-22 16:09:08
775
原创 第二章:强化学习笔记_Bellman Equation
使用折扣因子γ依次写出每一项。比如,V1 = r1+γ*r2+γ2*r3……%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi%5Cpi。
2024-07-21 21:54:55
647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人