![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
gym
码上行舟
接受自己的普通,然后全力以赴的出众
展开
-
强化学习——Sarsa算法
表格型方法——Sarsa简介实战简介Sarsa全称是state-action-reward-state’-action’,目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为:Sarsa在训练中为了更好的探索环境,采用ε-greedy方式来训练,有一定概率随机选择动作输出。实战使用 Sarsa 解决机器人找金币问题。机器人找金币环境下载AgentAgent是和原创 2020-09-26 16:00:44 · 6503 阅读 · 3 评论 -
gym自定义可视化环境练习1
构建如下迷宫世界原创 2020-09-24 18:14:52 · 678 阅读 · 0 评论 -
gym自定义可视化环境基础
gymrenderrender用 gym 搭建这个简单的环境原创 2020-09-22 16:34:17 · 3461 阅读 · 2 评论