深度强化学习之Deep Q Learning

深度强化学习之Deep Q Learning

本文主要讲解:Deep Q Network 下面我们简称为 DQN。DQN采用深度神经网络来表示Q函数,通常也称为Deep Q Learning 。

DQN是在论文《Playing Atari with Deep Reinforcement Learning》中提出的。这篇论文主要讲解如何用深度强化学习来玩Astair游戏。

首先,先来简单介绍一下Astair游戏中的breakout游戏的游戏规则:
“打砖块”
游戏开始时,画面今显示8排砖块,每隔两排,砖块的颜色就不同。由下至上的颜色排序为黄色、绿色、橙色和红色。游戏开始后,玩家必须控制一块平台左右移动以反弹一个球。当那个球碰到砖块时,砖块就会消失,而球就会反弹。3当玩家未能用平台反弹球的话,那么玩家就输掉了那个回合。当玩家连续输掉3次后,玩家就会输掉整个游戏。

DQN要解决的问题是:如何从原始的游戏画面出发,通过强化学习自动学出玩游戏的方法。

Q-Learning算法是以Q(状态,动作)来表示函数。在这个过程中Q函数实际上Q函数是用一张表格来表示的。表格的每一行表示一种状态,每一列表示一种动作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值