蘑菇书EasyRL-task01强化学习基础

本文概述了强化学习的基本概念,包括与监督学习的区别、智能体与环境的交互、延迟奖励挑战以及智能体的类型。强化学习智能体通过探索环境以最大化累积奖励,其数据特性为序列相关而非独立同分布。文中还提到了应用实例,如机械臂控制和行走智能体。
摘要由CSDN通过智能技术生成

第1章 强化学习基础

1.1 概述

强化学习(reinforcement learning,RL
讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。
智能体的目的就是尽可能多地从环境中获取奖励。
强化学习流程图

1.1.1 强化学习与监督学习

监督学习:输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distributed,简称 i.i.d.)。

强化学习中得到的数据是相关时间序列数据,不满足独立同分布,且智能体无法得到即时的反馈
强化学习面临着延迟奖励(delayed reward),即现在的动作无法判定对错,直至游戏结束。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值