跟着莫烦老师的强化学习教程时做的笔记,原贴:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
几大要素:
State
Action
Reward
mlagents-learn D:\ML-Agent\ml-agents-master\config\sac\Fight.yaml --env=D:\ML-Agent\Training\ml-selfplay-fighter --run-id=firstRun
Model-Free RL 不理解环境(只能一步一步走)
Model-Based RL 理解环境(能通过想象预判情况)
基于概率和价值分类
基于概率(Policy-Based RL) -可以适用于连续action
根据概率进行行动
基于价值(Value-Based RL) -通常用于离散action
根据最高价值进行行动
Q-Learning(基于价值)
Sarsa
Policy Gradients(基于概率)
Actor-Critic(两者的结合)
Actor基于概率做出动作,Critic根据动作给出价值
回合更新和单步更新
回合更新:基础班Policy Gradients,Monte-Carlo Learing
单步更新:Q Learning,Sarsa,升级版的Policy Gradients(更有效率)
在线学习(On-Policy)和离线学习(Off-Policy)
Sarsa
Sarsa(λ)(在线学习)
Q Learing
Deep Q Network(离线学习)