
DPO 推导及其问题讨论
DPO 通过巧妙的推导,整合了 RLHF 的两阶段(RM + PPO)训练流程,直接根据偏好数据进行优化,大大简化了训练流程。但也由于缺少在线采样和打分的过程,探索能力有限,性能稍逊于 PPO/GRPO 等 RL 算法,对偏好数据集的质量要求更高。
技术分享
模型部署
openmmlab
diffusion
Python
shell
Misc
Linux
docker
自然语言处理
计算机视觉
PyTorch
机器学习
目标检测
MLSys
论文简析
数据结构与算法
生成
C++
cuda
OpenCV
GPU
issues
计算机系统
计算机网络
图像处理
tvm
树莓派
utils
Java
编译原理
NJU-JYY-OS 
新星杯·14天创作挑战营·第9期
这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc
