深度强化学习之Deep Q Learning
本文主要讲解:Deep Q Network 下面我们简称为 DQN。DQN采用深度神经网络来表示Q函数,通常也称为Deep Q Learning 。
DQN是在论文《Playing Atari with Deep Reinforcement Learning》中提出的。这篇论文主要讲解如何用深度强化学习来玩Astair游戏。
首先,先来简单介绍一下Astair游戏中的breakout游戏的游戏规则:
游戏开始时,画面今显示8排砖块,每隔两排,砖块的颜色就不同。由下至上的颜色排序为黄色、绿色、橙色和红色。游戏开始后,玩家必须控制一块平台左右移动以反弹一个球。当那个球碰到砖块时,砖块就会消失,而球就会反弹。3当玩家未能用平台反弹球的话,那么玩家就输掉了那个回合。当玩家连续输掉3次后,玩家就会输掉整个游戏。
DQN要解决的问题是:如何从原始的游戏画面出发,通过强化学习自动学出玩游戏的方法。
Q-Learning算法是以Q(状态,动作)来表示函数。在这个过程中Q函数实际上Q函数是用一张表格来表示的。表格的每一行表示一种状态,每一列表示一种动作。