- 博客(12)
- 收藏
- 关注
原创 Q-learning
Q-learningQ-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。Q-learning的更新公式为:agent.pyimpor
2021-11-21 11:15:19 1112
原创 Sarsa
Sarsasarsa是强化学习中的一种Model-free的on-policy控制方法,更新公式如下:agent.pyimport numpy as npclass SarsaAgent(object): def __init__(self,obs_n,act_n,learning_rate=0.01,gamma=0.9,e_greed=0.1): self.act_n=act_n #动作维度,有几个动作选择 self.lr=learning_rate #
2021-11-20 15:48:32 1050
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人