大量关于AlphaGo Zero(DeepMind最新版的围棋人工智能系统)新闻头条的出现意味着对于强化学习(RL)的兴趣必定会增加。强化学习是人工智能中仅次于深度学习的最受关注的主题之一。对于大多数公司来说,强化学习是需要调查和评估的技术,但只有很少企业已经找到强化学习可能发挥作用的应用场景。在进入2018年之际,我想简要介绍一下已经采用强化学习的一些领域。
目前,强化学习经常被混淆地用来指代一系列问题和技术,所以让我们先来看看这篇文章里所说的强化学习是什么。一般来说,强化学习的目标是学习如何将观测和测量映射到一组行为。而这些行为会试图去最大化一些长期的奖励。这个目标通常会涉及到智能体与环境进行交互,并学习最佳序贯决策。在事实上,强化学习的许多最初的应用都是出现在长期寻求自动化贯序决策的领域。和传统的在线学习不同,强化学习带来了一系列独特的挑战,因为它经常会碰到延迟反馈、稀疏奖励等问题。同时(最重要的是)智能体会给它所互动的环境造成影响。
作为一种机器学习技术,深度学习已经开始被很多公司在机器学习应用中所使用,但强化学习还没有能进入许多企业。我写这篇文章的目标就是勾勒出强化学习的应用会出现的一些领域。