ppo:1 2 3 4 ppo代码解析: 1 2 代码实现过程简述: 1. 初始化actor和critic两个网络模型,前者是得到不同动作的概率,后者是评价确定的动作的价值 2.与环境交互,保存交互数据,状态,动作,奖励 3.存储的数据够了之后,反向传播更新参数。更新的时候有个目标函数,根据这个目标函数更新,PPO核心和改变就在这个目标函数上,后续要加强理解。