强化学习
文章平均质量分 93
TwoMonkey
这个作者很懒,什么都没留下…
展开
-
【强化学习】周博磊第3章 无模型的价值估计和控制
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rngXFH0c-1690014648172)(img3/2023-07-22-11-39-49.png)]DP: 已知MDP,根据动态转移矩阵考虑后续所有状态,计算的状态的期望。TD:未知MDP,通过采样的方式进行。中采集数据并且学习,即目标策略和行动策略同样都是。更新目标策略真的实际采样,目标策略和行为策略一致。更新目标策略未进行真实采样,Imagine最大的。通过叠加计算的方式很重要,后续的推导经常采用。原创 2023-07-22 16:37:38 · 104 阅读 · 0 评论 -
【强化学习】周博磊第2章 马尔科夫决策过程
马尔科夫决策过程相比与奖励过程,加入了动作。也就是说,未来的状态由当前状态和动作共同决定的。Markov 链/ MRP: 像随波漂流的小船。Markov 决策过程:可以采取导航行为的小船。Policy 是指在某一状态执行某一动作的概率。动态转移方程和奖励由当前状态与动作共同决定。已知MDP,寻找最优价值函数和策略。未来的状态只与当前的状态相关。最优函数可以通过寻找最大化。MDP, 计算价值函数。原创 2023-07-17 23:36:12 · 75 阅读 · 1 评论