马尔可夫决策过程是一个四元组(S, A, P, R),其中:
- S是状态集合,表示智能体(Agent)可能处于的所有状态;
- A是动作集合,表示智能体可以采取的所有动作;
- P是状态转移概率,描述了在当前状态下采取某个动作后转移到下一个状态的概率;
- R是奖励函数,描述了智能体在某个状态下采取某个动作后获得的奖励。
马尔可夫决策过程的一个重要特点是“无记忆性”,即未来只与现在有关,与过去无关。这种特性大大简化了决策问题的复杂度,使得我们可以通过动态规划(Dynamic Programming,简称DP)等方法来求解最优策略。
资料
强化学习