强化学习可以分为 基于价值(value-based) 确定性策略:通过训练Q表格或者Q网络, 获得确定的动作(Action) 经典算法: Sarsa, Q-learning, DQN 基于策略 (policy-based) 随机性策略 通过训练Policy策略网络,获得动作的概率(Action 随机策略) 经典算法: 蒙特卡洛 (MD) 时序差分 (Actor-Critic) 策略梯度函数