强化学习基础

RL:分为两部分三要素,agent→智能体,environment→环境,三要素为state状态,action动作,reward奖励。

核心思想为:智能体在环境中学习,通过环境的状态,执行动作,并根据环境的反馈(reward)来指导更好的动作。

Agent学习两种方案

Value-based

确定性策略,有Sarsa、Q-learning,DQN。

policy-based

随机性策略,policy-gradient

RL分类

  1. Model-based 基于模型
  2. model-free 无模型
    • Based-Value→1 on-policy (Sarsa) 2 off-policy(Q-learning)—→DQN
    • Policy-based>policy-gradient—>DDPG A3C PPO

一些仿真库

1 GYM—-Openai

连续控制场景:其动作不可以数,智能输出的动作不仅有方向还有角度

离散控制场景:可以选择的动作是可选的,比如只能往左往右

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值