李宏毅深度学习——强化学习

本文详细介绍了强化学习(RL)的基本概念,包括RL的框架、Policy Gradient方法,重点讨论了Actor-Critic算法,包括Value Function的估计、优化策略以及解决稀疏奖励问题的Reward Shaping和逆向增强学习。通过模仿学习,解决无明确奖励场景下的学习问题。
摘要由CSDN通过智能技术生成

一、RL是什么

在这里插入图片描述
当人类也不知道正确答案是什么的时候,适合用RL,机器知道哪一步是合适的。

二、RL的框架

1、第一步:Function with unknown

以空间入侵游戏为例:
输入的是游戏画面,输出是不同行为的概率(相同的输入可能有不同的输出,输出具有随机性)
在这里插入图片描述

2、第二步:定义损失函数

看到一个游戏画面会产生行为然后会产生游戏的reward,再接下去另一个游戏画面输出行为,一直持续到游戏结束,将所有的reward相加,并且最大化reward,RL的损失函数为负的Total reward。
在这里插入图片描述

3、第三步:Optimization

在这里插入图片描述

  • 环境和actor都具有随机性

三、Policy gradient

(1)如何控制你的actor

  • 对于一个具体的观察如果要有一个固定的行为,就使损失函数越小越好
  • 如果是不要采取一个行为,就使损失函数越大越好
    在这里插入图片描述
    即:
    在这里插入图片描述
    a、收集训练资
  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值