深度强化学习技术概述

最新推荐文章于 2024-06-13 00:41:07 发布

阿里云技术

最新推荐文章于 2024-06-13 00:41:07 发布

阅读量2.7k

点赞数 2

文章标签：深度学习人工智能神经网络阿里云云计算

本文链接：https://blog.csdn.net/weixin_43970890/article/details/126464253

版权

深度强化学习介绍

强化学习主要用来学习一种最大化智能体与环境交互获得的长期奖惩值的策略，其常用来处理状态空间和动作空间小的任务，在如今大数据和深度学习快速发展的时代下，针对传统强化学习无法解决高维数据输入的问题，2013年Mnih V等人首次将深度学习中的卷积神经网络（Convolutional Neural Networks，CNN）[1][2][3]引入强化学习中，提出了DQN（Deep Q Learning Network）[4][5]算法，至此国际上便开始了对深度强化学习（Deep Reinforcement Learning，DRL）的科研工作。除此之外，深度强化学习领域中一个里程牌事件是2016年的AlphaGo 对战李世石的围棋世纪大战[6][7]，谷歌旗下的人工智能团队DeepMind 基于深度强化学习开发出的围棋程序 AlphaGo击败了世界顶级围棋大师李世石，震惊了世界，也因此拉开了深度强化学习从学术界走向大众认知的帷幕。深度强化学习结合了深度学习[8]（Deep Learning，DL）的特征提取能力和强化学习（Reinforcement Learning，RL）的决策能力[9]，可以直接根据输入的多维数据做出最优决策输出，是一种端对端（end-to-end）的决策控制系统，广泛应用于动态决策、实时预测、仿真模拟、游戏博弈等领域，其通过与环境不断地进行实时交互，将环境信息作为输入来获取失败或成功的经验来更新决策网络的参数，从而学习到最优决策。深度强化学习框架如下：

上图深度强化学习框架中，智能体与环境进行交互，智能体通过深度学习对环境状态进行特征提取，将结果传递给强化学习进行决策并执行动作，执行完动作后得到环境反馈的新状态和奖惩进而更新决策算法。此过程反复迭代，最终使智能体学到获得最大长期奖惩值的策略。

深度强化学习的数学模型

强化学习[10]是一种决策系统，其基本思想是通过与环境进行实时交互，在不断地失败与成功的过程中学习经验，最大化智能体（Agent）从环境中获得的累计奖励值，最终使得智能体学到最优策略（Policy），其原理过程如下图所示：

最低0.47元/天解锁文章

阿里云技术

关注

2
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习技术概述

在本文中详细介绍了深度强化学习技术，将强化学习分成三大类来进行介绍。首先，从数学理论角度介绍了强化学习；接着，从不同适用方向对两类深度强化学习算法进行介绍；最后，介绍目前应用广泛的结合前两个算法的结合物AC算法。
复制链接

扫一扫