RL:分为两部分三要素,agent→智能体,environment→环境,三要素为state状态,action动作,reward奖励。
核心思想为:智能体在环境中学习,通过环境的状态,执行动作,并根据环境的反馈(reward)来指导更好的动作。
Agent学习两种方案
Value-based
确定性策略,有Sarsa、Q-learning,DQN。
policy-based
随机性策略,policy-gradient
RL分类
- Model-based 基于模型
- model-free 无模型
- Based-Value→1 on-policy (Sarsa) 2 off-policy(Q-learning)—→DQN
- Policy-based>policy-gradient—>DDPG A3C PPO
一些仿真库
1 GYM—-Openai
连续控制场景:其动作不可以数,智能输出的动作不仅有方向还有角度
离散控制场景:可以选择的动作是可选的,比如只能往左往右