q学习:强化学习之Q-Learning - 知乎 策略梯度:1 2 Important-Sampling:1 2 3 ppo:1 2 3 4 ppo代码解析: 1 2 Actor Critic:1 2 Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据 Critic的评分修改选行为的概率。 DDPG:1 2重点 3 4重点