自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

xl160917219的博客

原创第300场周赛

300

2022-07-03 22:16:43 100 1

原创第299场

299

2022-06-26 18:12:32 90 1

原创第81场双周赛

81

2022-06-26 16:44:27 73

原创第298场周赛

298

2022-06-19 17:57:41 78

原创 297场周赛

297

2022-06-12 18:10:11 65

原创第80场双周赛

80双周赛

2022-06-12 16:22:53 64

原创 732. 我的日程安排表 III

11

2022-06-06 07:43:08 42

原创 leetcode296场周赛

296场周赛

2022-06-05 21:12:26 352

原创 478. 在圆内随机生成点

478

2022-06-05 08:00:53 156

原创 929. 独特的电子邮件地址

929. 独特的电子邮件地址

2022-06-04 08:02:11 389

原创 Q-learning

Q-learningQ-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与Sarsa是一样的，采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式，先做出动作再更新。Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_action，并假设下一步动作是取最大Q值的动作。Q-learning的更新公式为：agent.pyimpor

2021-11-21 11:15:19 1126

原创 Sarsa

Sarsasarsa是强化学习中的一种Model-free的on-policy控制方法，更新公式如下：agent.pyimport numpy as npclass SarsaAgent(object): def __init__(self,obs_n,act_n,learning_rate=0.01,gamma=0.9,e_greed=0.1): self.act_n=act_n #动作维度，有几个动作选择 self.lr=learning_rate #

2021-11-20 15:48:32 1053

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

julia点c CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

12: 原创

-: 周排名

132万+: 总排名

3万+: 访问

: 等级

134: 积分

2: 粉丝

2: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

分类专栏

leetcode周赛 7篇
leetcode daily 3篇

最新评论

第299场
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

提示

确定要删除当前文章？

取消删除