AlphaGo背后这项核心技术,后来怎么样了?


导读:本文介绍AlphaGo背后的核心技术——深度强化学习。

作者:刘驰 王占健 戴子彭 等

来源:大数据DT(ID:hzdashuju)

01 强化学习

近年来,深度学习(Deep Learning, DL)作为机器学习的一个重要研究领域,得到了长足的发展,为强化学习(Reinforcement Learning, RL)提供了强有力的支撑,使RL能够解决以前难以处理的问题,例如学习直接从像素玩视频游戏。

深度强化学习(Deep Reinforcement Learning, DRL)是DL和RL相结合的产物,有望彻底改变人工智能领域。人工智能领域的一个主要目标是生成完全自主的智能体(agent),这些智能体通过与环境的相互作用来学习最优行为。

从可以感知和响应其所处环境的机器人到基于软件的与自然语言和多媒体进行交互的智能体,建立一个能够有效学习且实时响应的人工智能系统一直都是一项长期挑战。幸运的是,DRL的出现使我们朝着建立自主系统的目标迈出了更近的一步,因为DRL对自主系统有更高层次的理解。

当然,DRL算法还有许多其他方面的应用,比如机器人控制技术,允许我们直接从现实世界中的摄像机输入来学习对机器人进行控制和操作的策略。

02 强化学习简介

在讨论深度神经网络对RL的贡献之前,我们先来介绍一下RL的一般领域。

RL的本质是互动学习,即让智能体与其外界环境进行交互。智能体根据自己每次感知到的外界环境状态来选择相应的动作,以对环境进行响应,然后观测该动作所造成的结果(或好或坏,结果的评判来自某种特殊的奖励管控机制),并根据结果来调整自身动作选择机制,最终让智能体可以对外界环境达到最优的响应,从而获得最好的结果(智能体针对外界环境采取一系列动作后获得的最大奖赏值,也称为累积奖赏值、预期回报)。

所以,RL的目标是使智能体在与环境的交互过程中获得最大的累积奖赏值,从而学习到对自身动作的最优控制方法。这种试错学习的方法源于行为主义心理学,是RL的主要基础之一。另一个关键基础是最优控制,它提供了支撑该领域的数学形式,特别是DP。

为了便于对RL模型结构的理解,我们首先对RL模型中最关键的三个部分进行描述。

1. 状态(state)

如图1.2所示,状态其实就是智能体所处的外界环境信息,该图中描述的状态就是一个石板铺成的具有间隔的桥面。而环境状态的具体表现形式可以有很多种,例如多维数组、图像和视频等。

外界环境的状态需要能够准确地描述外界环境,尽可能将有效信息包括在内,通常越充足的信息越有利于算法的学习。状态要着重体现出外界环境的特征。

▲图1.2 外界环境状态示意图

2. 动作(action)或行动

如图1.3所示,动作就是智能体(多关节木头人)在

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值