强化学习作为一门灵感来源于心理学中的行为主义理论的学科,其内容涉及概率论、统计学、逼近论、凸分析、计算复杂性理论、运筹学等多学科知识,难度之大,门槛之高,导致其发展速度特别缓慢。
随着近年来以 AlphaGo、AlphaZero、Deepmind 团队与暴雪团队合作开发的星际争霸 2 机器学习平台、OpenAI 开发的 dota2 游戏 AI 平台、腾讯AI Lab 开发的王者荣耀手游绝悟 AI为代表的机器智能领域的巨大突破,强化学习解决序列决策问题的能力得到了充分的展现。除计算机博弈领域之外,在机器人控制、汽车智能驾驶、人机对话、过程优化决策与控制领域,强化学习也被视为是实现高级人工智能最有潜力的方法。