强化学习
文章平均质量分 95
牛码当驴
这个作者很懒,什么都没留下…
展开
-
【强化学习】使用Q-Learning 和 Sara 解决GridWorld 炸弹环境
使用Q-Learning 和Sara算法解决GridWorld炸弹环境,分为两个类:gridWorld.py和Agent.py:环境类:继承gym.Wrapper,主要实现了render(显示每次的地图)。step(和环境交互,计算奖励值)Agent类:包括两种算法,主要实现了learn(学习方法,每次更新Q-table)predict(根据输入的观察值,预测输出的动作)。sample(根据输入的观察值,采样输入的动作)整体步骤为,首先根据grdiWordl创建出环境,每次机器人根据环境选择动作并更新原创 2024-01-27 18:51:39 · 672 阅读 · 0 评论 -
使用Q-Learning 和 Sara 解决GridWorld 炸弹环境
机器学习算法实现炸弹环境,使用QLearning和Sara算法。原创 2024-01-18 15:41:27 · 894 阅读 · 0 评论