![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习
文章平均质量分 80
强化学习强化学习强化学习强化学习
bug别找我
愿每个程序员遇到的bug都可以解决,愿每个人都能被善意对待
展开
-
强化学习入门之MDP
我们已经知道使用MDP来对强化学习进行建模,所以这次来学习如何求解MDP马尔可夫决策过程的形式为,求解MDP通常有两种方式,一种是求解最优策略,另一种是求解最优值函数。求解之前我们需要了解值函数和策略的概念,值函数是为了评估当前状态或状态-动作的期望回报,值函数根据场景分为两种,一种是状态值函数,另一种是状态动作值函数;策略对应着MDP中的P,也就是状态转移函数,根据策略智能体进行状态转移。原创 2024-04-18 16:19:23 · 483 阅读 · 0 评论 -
强化学习入门之基本概念
开始学习强化学习,真是一言难尽!百度百科定义:强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。原创 2024-04-14 20:20:35 · 738 阅读 · 0 评论