AlphaGo背后这项核心技术，后来怎么样了？

最新推荐文章于 2025-03-16 16:16:58 发布

大数据v

最新推荐文章于 2025-03-16 16:16:58 发布

阅读量2.5k

点赞数

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/106088472

版权

本文介绍了深度强化学习（DRL）的概念，它是深度学习与强化学习的结合，对人工智能领域产生了深远影响。DRL通过智能体与环境的互动学习最优行为，已应用于机器人控制、游戏和自动驾驶等领域。文章以AlphaGo为例，展示了DRL的强大能力，并展望了其广阔的应用前景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读：本文介绍AlphaGo背后的核心技术——深度强化学习。

作者：刘驰王占健戴子彭等

来源：大数据DT（ID：hzdashuju）

01 强化学习

近年来，深度学习（Deep Learning, DL）作为机器学习的一个重要研究领域，得到了长足的发展，为强化学习（Reinforcement Learning, RL）提供了强有力的支撑，使RL能够解决以前难以处理的问题，例如学习直接从像素玩视频游戏。

深度强化学习（Deep Reinforcement Learning, DRL）是DL和RL相结合的产物，有望彻底改变人工智能领域。人工智能领域的一个主要目标是生成完全自主的智能体（agent），这些智能体通过与环境的相互作用来学习最优行为。

从可以感知和响应其所处环境的机器人到基于软件的与自然语言和多媒体进行交互的智能体，建立一个能够有效学习且实时响应的人工智能系统一直都是一项长期挑战。幸运的是，DRL的出现使我们朝着建立自主系统的目标迈出了更近的一步，因为DRL对自主系统有更高层次的理解。

当然，DRL算法还有许多其他方面的应用，比如机器人控制技术，允许我们直接从现实世界中的摄像机输入来学习对机器人进行控制和操作的策略。

02 强化学习简介

在讨论深度神经网络对RL的贡献之前，我们先来介绍一下RL的一般领域。

RL的本质是互动学习，即让智能体与其外界环境进行交互。智能体根据自己每次感知到的外界环境状态来选择相应的动作，以对环境进行响应，然后观测该动作所造成的结果（或好或坏，结果的评判来自某种特殊的奖励管控机制），并根据结果来调整自身动作选择机制，最终让智能体可以对外界环境达到最优的响应，从而获得最好的结果（智能体针对外界环境采取一系列动作后获得的最大奖赏值，也称为累积奖赏值、预期回报）。

所以，RL的目标是使智能体在与环境的交互过程中获得最大的累积奖赏值，从而学习到对自身动作的最优控制方法。这种试错学习的方法源于行为主义心理学，是RL的主要基础之一。另一个关键基础是最优控制，它提供了支撑该领域的数学形式，特别是DP。

为了便于对RL模型结构的理解，我们首先对RL模型中最关键的三个部分进行描述。

1. 状态（state）

如图1.2所示，状态其实就是智能体所处的外界环境信息，该图中描述的状态就是一个石板铺成的具有间隔的桥面。而环境状态的具体表现形式可以有很多种，例如多维数组、图像和视频等。

外界环境的状态需要能够准确地描述外界环境，尽可能将有效信息包括在内，通常越充足的信息越有利于算法的学习。状态要着重体现出外界环境的特征。