深度学习(19): Deep Reinforcement learning(Policy gradient&interact with environment)

本文深入探讨深度强化学习,通过Alpha-Go的例子对比监督学习和强化学习的特点。介绍了聊天机器人的RL训练,RL的难点,以及RL的三个主要步骤。重点讲解了策略基方法,包括神经网络作为策略、价值函数、基线策略和批评者的作用。同时,讨论了与环境的交互,提出了A3C算法,并简述了逆向强化学习的概念。
摘要由CSDN通过智能技术生成

Deep Reinforcement learning

AL=DL+RL

Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward。正向的action reward positive。
在这里插入图片描述
机器不断学习去最大化期望得分
在这里插入图片描述

以alpha-go为例子

在这里插入图片描述
environment为对手,落子在不同位置会影响对手的反应

在这里插入图片描述
只有赢和输才会得到reward:1,-1。sparse reward。

Supervised vs. Reinforcement

  • supervised:根据棋谱做下一步的反应
  • reinforcement:和一个人对着下,如果赢了,得到positive reward。没有人告诉它过程中哪个是好的哪个是不好的,需要大量的训练数据,3000万盘以后。

在这里插入图片描述

Learning a chat-bot

seq2seq model
在这里插入图片描述
在这里插入图片描述
让machine不断地去跟人讲话,人生气了就是bad reward。

Chat-bot with RL

让两个chat-bot一起对话,一起训练

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

action:

  • 左右移动

  • 开火

  • machine 看到observation s1,实际上是一个由pixel组成的matrix

  • 往右移动,得到的reward是0

  • 得到observation s2

  • 有时候环境的变化是随机的,与machine action是无关的

  • action:开火,得到reward 5

  • observation改变 s3

在这里插入图片描述
一直进行下去,直到action 为T个,reward 为 r T r_T rT
进入到了一个state,会让游戏结束。

在这里插入图片描述

machine要做的就是在每一个episode里,怎么能得到最大的reward:杀死外星人且自己不被杀死

RL的难点

1、Reward delay

  • 只有开火在得到reward,开火前移动没有reward,可能导致机器为了得到reward一直开火,不移动
  • 短期的牺牲一些reward,可能会在长期有更大的收益

2、 agent 采取的行为会影响下一个observation。agent要学会做exploration,看到更多的observation。

RL outline

  • Policy-based
  • Value-based

在这里插入图片描述
目前最强的方法:A3C
alpha Go:policy based+value-based+model-based

第一部分: Policy-based Approach:learning an actor

在这里插入图片描述
将observation作为input,action作为output,定义function,通过reward来优化function

Three steps for RL

step1: Neural network as actor:deep RL

input:machine 看到的 observation,matrix or vector
output:action

在这里插入图片描述
the benefit of using network:
传统的table,根据observation采取一个action
电玩的话变化是pixel,NN可以对没看过的observation,它也会输出一个output,这个结果可能也会理想

Step 2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值