- 博客(5)
- 收藏
- 关注
原创 value-based DQN
目的:抽取ReplayBuffer中的序列时有随机性,从而减少样本间的相关性;每个序列有相同的抽取概率,不会用完即丢,提高数据使用率。
2023-05-24 16:35:38 86 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
目的:抽取ReplayBuffer中的序列时有随机性,从而减少样本间的相关性;每个序列有相同的抽取概率,不会用完即丢,提高数据使用率。
2023-05-24 16:35:38 86 1
TA创建的收藏夹 TA关注的收藏夹
TA关注的人