自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 第300场周赛

300

2022-07-03 22:16:43 95 1

原创 第299场

299

2022-06-26 18:12:32 85 1

原创 第81场双周赛

81

2022-06-26 16:44:27 71

原创 第298场周赛

298

2022-06-19 17:57:41 74

原创 297场周赛

297

2022-06-12 18:10:11 56

原创 第80场双周赛

80双周赛

2022-06-12 16:22:53 59

原创 732. 我的日程安排表 III

11

2022-06-06 07:43:08 37

原创 leetcode296场周赛

296场周赛

2022-06-05 21:12:26 325

原创 478. 在圆内随机生成点

478

2022-06-05 08:00:53 149

原创 929. 独特的电子邮件地址

929. 独特的电子邮件地址

2022-06-04 08:02:11 379

原创 Q-learning

Q-learningQ-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。Q-learning的更新公式为:agent.pyimpor

2021-11-21 11:15:19 1112

原创 Sarsa

Sarsasarsa是强化学习中的一种Model-free的on-policy控制方法,更新公式如下:agent.pyimport numpy as npclass SarsaAgent(object): def __init__(self,obs_n,act_n,learning_rate=0.01,gamma=0.9,e_greed=0.1): self.act_n=act_n #动作维度,有几个动作选择 self.lr=learning_rate #

2021-11-20 15:48:32 1050

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除