- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 强化学习入门之马尔可夫决策过程(MDP)
马尔可夫决策问题(MDP)是一个四元组的问题,包含环境状态空间X,Agent的动作空间U,环境的迁移函数f,以及奖赏函数p1.状态X环境的状态集X定义为一个有穷集合{x1,x2,x3.....xn},其中n表示状态空间大小。2.动作空间UAgent的动作集U定义为一个有穷集合{u1,u2,u3.....um},其中m为动作空间的大小。3,迁移函数及奖赏函数迁移函数是描述采取
2017-04-28 08:50:35 1526
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人