- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 代码实现DQN的ε-greedy(Epsilon贪婪策略),取得相反结果
DQN训练中,设置ε-greedy策略,一开始让智能体选择较多的随机动作,越后期,随机动作越小,这样的训练效果最好,但为什么在我的实验中,是相反的?
2022-11-21 10:12:32 2161 1
粒子群算法(PSO)的matlab代码 最优化算法
1.使用粒子群算法求解任意函数最值(最大、最小均可)
2.计算过程中实时输出寻优图像
3.最终输出gif文件用于演示计算过程
4.粒子数、迭代次数、精度、目标函数值等可修改
5.有较多注释,简单易懂
2022-02-19
为什么DQN收敛趋势的方向呈现递减趋势?越训练越倒退?
2022-12-10
DQN训练中,设置ε-greedy策略,为什么取得相反的训练结果?
2022-11-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人