强化学习 基础分类

跟着莫烦老师的强化学习教程时做的笔记,原贴:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

 

几大要素:

State

Action

Reward

 

 

mlagents-learn D:\ML-Agent\ml-agents-master\config\sac\Fight.yaml --env=D:\ML-Agent\Training\ml-selfplay-fighter --run-id=firstRun

 

Model-Free RL 不理解环境(只能一步一步走)

Model-Based RL 理解环境(能通过想象预判情况)

 

基于概率和价值分类

基于概率(Policy-Based RL -可以适用于连续action

根据概率进行行动

基于价值(Value-Based RL -通常用于离散action

根据最高价值进行行动

 

Q-Learning(基于价值)

Sarsa

 

Policy Gradients(基于概率)

 

Actor-Critic(两者的结合)

Actor基于概率做出动作,Critic根据动作给出价值

 

回合更新和单步更新

回合更新:基础班Policy Gradients,Monte-Carlo Learing

单步更新:Q Learning,Sarsa,升级版的Policy Gradients(更有效率)

 

在线学习(On-Policy)和离线学习(Off-Policy

Sarsa

Sarsa(λ)(在线学习)

 

Q Learing

Deep Q Network(离线学习)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值