先挖个坑以后读论文慢慢填
mode-free
不需要预测状态转移 只需要预测在当前状态下做
a
i
a_{i}
ai 的回报
model-base
需要一个模型去学习状态转移概率函数
T
T
T,从
S
i
S_{i}
Si 做某个动作
a
i
a_{i}
ai 能转移到哪个
S
i
+
1
S_{i+1}
Si+1中去
On-policy
探索环境使用的策略和要更新的策略是一个policy(SARSA)
Off-policy
探索环境使用的策略和要更新的策略不是同一个policy(Q-learning)