- 博客(10)
- 收藏
- 关注
原创 【无标题】
RLHF基本原理和DPO论文阅读RLHF基本原理LLM先进行有监督的微调学习一个reward model强化学习微调强化学习算法经常采用ppo算法,可以将reward funtion写为:DPO算法
2023-06-15 14:30:26 77 1
原创 git常用命令
git initgit add .git commit这是个多功能命令,可以开始跟踪新文件,可以将文件放入暂存区,也可以在合并分支时将冲突的文件标志为解决状态。git commit -m “message”git commit -a (先暂存再提交)克隆一个远程仓库,自动关联git fetch origin会抓取远程仓库的新推送的所有工作到本地,但是并没有合入当前工作。拉取远程分支并合入当前分支将当前分支推送到远程分支git push origin mastergit commit会指向父对象
2023-06-14 16:12:14 64
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人