- 博客(6)
- 收藏
- 关注
原创 Webots搭建强化学习二轮避障小车(看看吧 蛮详细的)
此文为使用webots搭建二轮机器人并进行避障设计的全过程,各部分足够详细,对于初学者能起到不少帮助。同时也包含强化学习DQN算法进行避障的尝试。有兴趣可以一看。
2023-01-12 00:09:03 5079 29
原创 强化学习入门(更新中......)
废话不多说,此篇文章用于记录强化学习的入门学习过程。环境一:taxi-v3环境描述: 出租车载客环境的地图尺寸为5*5,其目的是正确的将乘客送到指定的位置。解决代码: %%time import numpy as np import gym def restore(npy_file='./q_table.npy'): Q = np.load(npy_file) print(npy_file + ' loaded.') return Q def sa
2021-04-05 22:50:09 702 2
原创 cartpole强化学习DQN实战
本文章通过keras实现DQN算法来解决倒立摆的平衡问题一.环境cartpole是一个经典的环境,可以验证许多的算法。这次我用的是cartpole-v0,一个离散动作空间的倒立摆环境,该环境有两个动作,即左和右,并且包含环境的四个状态观测值。然后就瞅瞅这个环境:黑色的载体可以左右移动,来保持平衡杆直立然后看一下gym官方的描述:这里面尤其要注意的一点就是关于“Reward”的描述,每一步都给“1”分的回报,而且最关键的是,即使这一步导致一轮交互结束了,也给予“1”分的回报。这样显然是不可取的
2021-01-26 13:32:05 1431 6
原创 DQN强化学习 MountainCar Deep Q-Learning
虽则你我被每粒星唾弃,我们贫乏却去到金喜。 ———七百年后这篇文章关于神经网络的Qlearning实现,Qlearning的一些方法概念写在第一篇文章 “强化学习:Q表格方法”里:文章链接: https://blog.csdn.net/weixin_43968987/article/details/112959287对于Qlearning的方法,适用于动作空间是离散的环境,比如说象棋中的棋子,只能以有限的运动状态运动。我们可以看到,使用表格的方法解决较为复杂的环境,很容易使得表格变得很大,因为
2021-01-23 18:52:44 1356 8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人