什么是MP(Markov Process)
马尔可夫性质:
状态转移矩阵:当前状态转移到下一个可能状态的概率
MP定义:
什么是sample episodes?
给定一个初始状态的状态序列
什么是MRP(Markov Reward Process)
MRP只是一个过程,并没有目的性质,只是针对定义的问题里面所有状态组成的马尔科夫链定义了Rewards,只有状态价值函数。
回报:是当前状态的即时奖励和带有折扣的未来奖励的和。如果折扣因子为0,说明没有前瞻性,只喜欢既得利益;如果折扣因子为1,说明未来的利益和当前利益一样重要。
设计折扣因子的原因:
①数学上的便利性②避免MP的无限循环③可以考虑未来的不确定性④对于经济和人类或动物行为学,通常只关注既得利益
※价值函数:状态s的长期价值
※MRP的贝尔曼方程
核心内容:价值函数可以分为①当前时刻即得回报②未来状态的折扣回报
贝尔曼方程可以用矩阵形式表示,方便求解,求解方法有动态规划Dynamic Programming,Monte-Carlo evaluation,Temporal-Difference learning。
什么是MDP(Markov Decision Process)
在MRP的基础上加了动作,想象自己是决策者,求解MDP的过程就是寻找整个问题的最优策略的过程POLICY。
什么是策略?
策略是在给定状态空间下动作空间的概率分布,也就是说一个策略就是在一个给定状态下采取某个动作的概率,一个策略可以完全定义一个智能体的行为。具有不受历史状态影响和静态特性。
状态价值函数和动作价值函数(这里由于存在动作,状态价值函数的形式和MRP的稍有不同)
状态价值函数和动作价值函数的贝尔曼方程
MDP两个重要的图(结合状态价值函数和动作价值函数)
最优价值函数
怎么判定一个策略好于另一个策略:需要这个策略在每个状态下的值函数都大于另一个策略
最优贝尔曼方程的求解
解决方法:value iteration,policy iteration,Q-learning,Sarsa