Solitary tian-CSDN博客

原创 DQN学习笔记

本文是DQN的学习笔记，学习内容为知乎上关于DQN的介绍。原文链接为https://zhuanlan.zhihu.com/p/21262246?refer=intelligentunit文章目录机器学习与RL：Value func and action value func：Value iteration：Q-Learning:Q-Learning的缺陷：维数灾难DQN：机器学习与RL：增强学习在某种程度上也可看成机器学习的一种：做很多次实验，每次实验得到一组数据样本{(s0,a0,r0),(s1

2021-08-31 22:26:57 139

原创李宏毅深度强化学习笔记

文章目录增强学习（RL）的一些基本概念：RL的基本组成：三者相互作用的过程：Policy：轨迹的概率：Expected Reward：Policy gradient:On-policy→\rightarrow→Off-policyImportance Sampling：PPO:注：增强学习（RL）的一些基本概念：RL的基本组成：1-actor：即操纵/需要学习的对象，如飞机大战里的飞机2-environment：外部环境，如飞机大战里除了飞机以外的所有东西，他们均为游戏内部设定3-reward：回

2021-08-31 21:55:17 756

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 DQN学习笔记

原创 李宏毅深度强化学习笔记

空空如也

空空如也

原创李宏毅深度强化学习笔记