每日论文
文章平均质量分 93
本专栏主要记录自己阅读的论文
一夜了
研究对话,LLM,多模态,RL。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【RL系列】RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
本文提出了StarPO(State-Thinking-Actions-Reward Policy Optimization)),这是一个轨迹级智能体强化学习的通用框架,并引入了RAGEN,这是一个用于训练和评估LLM智能体的模块化系统。原创 2025-04-30 21:32:26 · 2145 阅读 · 0 评论 -
【RL系列】ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
本文介绍了ReTool,一种tool-based RL训练方式,让llm训练后会调用tool。原创 2025-04-19 16:47:05 · 1469 阅读 · 0 评论 -
【RL系列】DAPO: An Open-Source LLM Reinforcement Learning System at Scale
尽管RL对complex reasoning效果提升有重要作用,但是在openAI o1和DeepSeek R1 technical report上都没有详细的实验细节。本文主要提出了DAPO算法,提出了4个关键技术点并开源参数和代码。在AIME 2024验证了DAPO算法的有效性。原创 2025-04-13 23:47:32 · 2116 阅读 · 0 评论 -
【RL系列】What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret
因为在long CoT训练中,采用的是rule-based reward,所以不太可能对output length有偏好。为了更好的定位这个问题,本文图示了value,advantage和token position之间的关系。时,会给accumulated reward带来较大的方差,最终会导致更慢的收敛。相比之下,在RLHF中,一个reward model或rule-based scoring mechanism提供了一个非积累和定义良好的轨迹级反馈。原创 2025-04-09 23:10:25 · 1439 阅读 · 0 评论 -
【RL系列】StepFun之Open-Reasoner-Zero
本文主要介绍了stepfun在PPO上的一些实践经验。并且开源了包括code,数据,实验参数等。原创 2025-04-09 18:35:43 · 1427 阅读 · 0 评论 -
【LLM系列】Deepseek-R1模型详细介绍
本文主要介绍了deepseek-r1和deepseek-r1-zero两种模型的数据构造方式及训练方式。原创 2025-02-26 20:44:50 · 1821 阅读 · 0 评论 -
预训练技巧:在训练末尾对领域数据上采样
介绍了一种在模型训练结尾对领域数据上采样能够提升在benchmark上的指标。通过实验表明上采样比例在10-20%是能够在通用语言能力与目标benchmark保持权衡的最好比例。原创 2024-09-30 15:50:43 · 1697 阅读 · 3 评论 -
随着Batch size增加,最佳learning rate如何选择?
一开始learning rate随着batch size增大而增大,随后达到一个点后,会随着batch size增加而降低,同时,随着训练不断进行,BnoiseB_{noise}Bnoise会不断后移。为了加速训练进程,可以设计自适应的learning rate和batch size。原创 2024-09-14 16:55:58 · 1911 阅读 · 3 评论 -
【MLLM系列】MiniCPM-V
模型结构层面和llava类似,只不过connection layer一个是MLP,一个是perceiver resampler,但对模型效果影响不大;预训练阶段仅训练vit和compression layer;多语言能力仅靠LLM和sft阶段;为了降低幻觉使用了RLAIF-V;目前MiniCPM-V2.6已经发布了,有了更强的OCR,多语言,可靠性,因为目前technical report还没发布,技术细节还不清楚。原创 2024-09-13 20:58:40 · 2161 阅读 · 0 评论 -
Post-Training有多重要?一文带你了解全部细节
本文主要介绍了llama3.1,Nemotron4-340B及gemma2三个模型在post-training阶段的一些工作。主要涉及数据搜集,合成数据,SFT及DPO等。原创 2024-09-07 18:29:26 · 5296 阅读 · 3 评论 -
论文阅读-Transformer Layers as Painters
尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。原创 2024-08-14 20:32:05 · 1717 阅读 · 3 评论 -
【MLLM系列】MM1
这部分主要探索三个(结构,数据和训练步骤)对多模态大模型效果的影响,模型基础配置:Image Encoder:ViT-L/14模型,训练loss为clip loss,训练数据DFN-5B和VeCap-300M,image size为336*336Vision-Language Connector:C-Abstractor,最大输出144 image token。原创 2024-07-15 17:13:02 · 1653 阅读 · 0 评论 -
【MLLM系列】LLaVA系列模型
本文主要介绍了LLaVA系列的多模态大模型,详细的介绍了每个版本的优化思路及方法。原创 2024-07-08 15:58:57 · 2472 阅读 · 0 评论
分享