- 博客(1)
- 资源 (6)
- 收藏
- 关注
原创 基于DQN的避障寻终点机器学习程序不能得到最优结果问题解决了
写了一个DQN的机器学习从任意位置出发,避开障碍走到终点“3”位置的程序,如图所示:运行过程中开始很多时候不收敛,并且很多时候并不能按照最优路线走(甚至跳着走),后来解决了这些问题,原因有以下几点:(1)奖励值的表中存在错误(2)选择动作时,前2000组观察数据时的动作也都使用随机动作,否则大概率根据初始的网络选择动作会导致很多“状态-动作”不会发生,导致后期无法减小值很大的Q值,存在跳着走现象(...
2018-04-13 11:41:00 2244 6
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人