Policy Gradient,Reinforce,PPO,GAE,

正在补充…

参考资料

  1. EasyRL:githubGitee(国内方便)
  2. 人人都能看懂的RL-PPO理论知识
  3. GAE Paper:HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION
  4. 【深度强化学习 CS285 2023】伯克利—中英字幕
  5. 强化学习算法梳理:从 PPO 到 GRPO 再到 DAPO
  6. https://huggingface.co/blog/NormalUhr/rlhf-pipeline#navigating-the-rlhf-landscape-from-policy-gradients-to-ppo-gae-and-dpo-for-llm-alignment
  7. 深度好文!从LLM的视角看策略梯度、PPO、GRPO
  8. 《强化学习的数学原理》
  9. 知乎:强化学习知识大讲堂
  10. 知乎:Actor-Critic算法小结
  11. PPO 算法的37个实现细节
  12. Policy Gradient Algorithms,Author: Lilian Weng
  13. A (Long) Peek into Reinforcement Learning

Policy Gradient

先跳过,待补充

在这里插入图片描述

 Trajectory  τ = { s 1 , a 1 , s 2 , a 2 , ⋯   , s t , a t } \text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}  Trajectory τ={s1,a1,s2,a2,,st,at}

Reinforce 算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值