Tensorflow学习笔记十一——深度强化学习

最新推荐文章于 2024-06-21 16:07:05 发布

谢欣燕

最新推荐文章于 2024-06-21 16:07:05 发布

阅读量311

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43941538/article/details/113308504

版权

70 篇文章 6 订阅

订阅专栏

11.1 基本概念
强化学习问题包含3个主要概念：环境状态（Environment State），动作（Action）和奖惩（Reward）。
11.2深度强化学习的思路

大体上可以认为强化学习原语1956年Bellman提出的动态规划方法
1977年Werbos在此基础上提出了自适应的动态规划方法
1989年Watkins提出了Q（状态-动作值函数）学习算法
1999年Thrum提出了部分可观测马尔科夫决策过程中蒙特卡罗方法
2006年Kocsis提出了置信上限树算法
2014年Sliver等提出了确定性决策梯度算法
2013年Google的Deepmind提出Q-Network，深度Q网络（DQN）。
2015年出现的AlphaGo将策略网路（Policy Network），估值网络（Value NetWork[DQN]）与蒙特卡罗搜索树（Monte Carlo Tree Search）结合起来，实现了超高水平的围棋对战程序。
出来DQN算法外，DeepMind还提出了A3C（Asynchronous Advantage Actor Critic）和UNREAL（Unsupervised Reinforcement and Auxiliary Learning）两大深度强化学习算法。
11.3 Q学习与深度Q网络