Ⅰ:Q Learning:
- Learning是Value-Based的强化学习算法,强化学习五个部分为:Agent(智能体)Environment(环境)State(状态)Action(行动)Reward(奖励)而Q算法的额外在于他的统计方式-Q表格(矩阵)Q-Value(State, Action)。
Q-Learning是off-policy的,因为它的行动策略和评估策略不是一个策略。这也是它跟SARSA的一个差别,SARSA是on-policy。差别为:
Q-Learning中每次采取Action的行动策略是ε-greedy策略,而在学习更新Q表的时候使用的评估策略是