
大模型-模型训练
文章平均质量分 83
大模型监督微调、奖励模型和强化学习等工作
大模型任我行
大模型探索者,每日论文分享,追踪技术前沿!之前的几百篇论文分享都在xhs(https://www.xiaohongshu.com/user/profile/61d5aec7000000001000568c),欢迎点赞收藏!
展开
-
浙大:基于内在偏好的LLM个性化对齐
大语言模型(LLM)在个性化对齐中对人类偏好的适应性不足。论文提出了一种名为Persona-judge的方法,通过模型内在的偏好判断能力实现个性化对齐,无需额外的训练或外部反馈。原创 2025-05-05 08:00:00 · 284 阅读 · 0 评论 -
港大:自我博弈优化LLM步骤推理
如何有效地评估和改进大语言模型(LLM)在推理过程中的每一步的正确性? 论文提出了一种新颖的自我对弈评论员(SPC)模型,通过对抗游戏不断演化,能够自动生成样本以增强LLM的推理能力。原创 2025-05-04 08:00:00 · 587 阅读 · 0 评论 -
浙大:优化视觉模型的过度思考
大型视觉语言模型(LVLM)在推理过程中出现过度思考现象。论文提出了FAST框架,通过动态调整推理深度来平衡推理准确性与推理长度,显著提高了LVLM的性能。原创 2025-05-03 08:00:00 · 387 阅读 · 0 评论 -
贝壳:通过强化学习提升音频推理
如何通过强化学习(RL)和课程学习来提升音频语言推理模型的能力?论文提出了一种基于课程引导的强化学习训练方案,显著提升了音频问答的推理性能,超越了传统的监督微调和之前的RL基线。原创 2025-04-30 10:00:00 · 915 阅读 · 0 评论 -
浙大:指导机制优化LLM偏好对齐
传统参考模型在直接偏好优化(DPO)中存在局限性,特别是如何利用指导参考模型提高数据利用率和模型性能。论文提出了一种新的训练范式Pre-DPO,通过使用指导参考模型来优化初始策略,从而提升现有偏好优化方法的性能,而无需依赖外部模型或额外数据。原创 2025-04-29 10:00:00 · 953 阅读 · 0 评论 -
USC:强化学习训练小型推理模型
如何以成本效益高的方式在小型语言模型中有效地训练推理能力?论文提出了Tina模型系列,通过LoRA和强化学习的结合,实现了在较低成本下的显著推理性能。原创 2025-04-28 08:00:00 · 393 阅读 · 0 评论 -
清华:LLM测试时无监督在线学习
在测试阶段如何利用无标签数据进行强化学习(RL)以提升模型性能?论文提出了一种新的框架——测试时强化学习(TTRL),通过无监督的方式实现模型在测试数据上的自我演化和性能提升。原创 2025-04-27 08:00:00 · 731 阅读 · 0 评论 -
HKUST:合成数据训练LLM的缩放定律
如何通过合成数据的扩展来提升大语言模型(LLM)的性能,并探讨是否存在合成数据的缩放定律?论文首次系统性地研究和验证了合成数据的缩放规律,以及其在语言模型微调中的应用效果。原创 2025-04-26 10:00:00 · 405 阅读 · 0 评论 -
上海交大:推理驱动的多模态提示重写
视觉语言模型(VLM)在处理文本和图像交互时存在安全性问题,尤其是在动态需求下的快速迭代和适应能力。论文提出了一种名为VLMGuard-R1的框架,通过多模态推理驱动的提示重写方法,增强VLM的安全性,避免了对模型参数的直接调整,从而降低了计算成本和时间。原创 2025-04-26 08:00:00 · 741 阅读 · 0 评论 -
CMU:LLM蒸馏对抗保护产权
如何有效防止模型蒸馏攻击,以保护前沿模型的知识产权?论文提出了一种新的采样方法——抗蒸馏采样,旨在调整教师模型的采样分布,以增强对抗蒸馏攻击的能力。原创 2025-04-25 10:00:00 · 450 阅读 · 0 评论 -
UIUC:LLM工具学习奖励
大语言模型(LLM)在工具集成推理(TIR)任务中,如何有效学习和优化奖励策略?论文提出了一种针对TIR的奖励设计框架,并通过强化学习(RL)算法验证了其有效性,为未来的LLM代理训练提供了实证路线图。原创 2025-04-25 08:00:00 · 494 阅读 · 0 评论 -
北大:LLM指令微调互对齐框架
如何在指令调优中实现指令与响应之间的有效对齐,以提高大语言模型(LLM)的性能?论文提出了一个互对齐框架,通过迭代优化指令与响应的关系,显著提升了指令调优的效果。原创 2025-04-24 10:00:00 · 527 阅读 · 0 评论 -
英伟达:LLM预训练自动数据混合
如何在大规模预训练语言模型中优化数据混合,以有效平衡通用知识和领域专长? 论文提出了一种名为CLIMB的框架,通过迭代的数据混合优化,自动发现和优化数据混合,显著提高语言模型的性能。原创 2025-04-22 10:00:00 · 506 阅读 · 0 评论 -
中兴:为LLM选择难度适合的CoT数据
如何为大语言模型(LLM)生成合适难度的高质量链式思维(CoT)数据? 论文提出了一种新的方法,通过LLM适应性问题难度评级来构建高质量的CoT数据集,从而提高模型的推理能力。原创 2025-04-22 08:00:00 · 912 阅读 · 0 评论 -
上海人工智能实验室:LLM无监督自训练
如何在没有外部监督的情况下,增强大语言模型(LLM)的推理能力?论文提出了一种名为Genius的通用自我训练框架,该框架仅依赖于无监督查询来提升LLM的推理能力。原创 2025-04-19 10:00:00 · 781 阅读 · 0 评论 -
华科:强化学习提升多模态大模型感知
在视觉感知任务中,如何有效应用强化学习(RL)以提升多模态大语言模型(MLLM)的感知能力?论文提出了一种基于规则的强化学习框架Perception-R1,首次实现了在多个视觉感知任务中超越专家模型的性能。原创 2025-04-17 10:00:00 · 604 阅读 · 0 评论 -
UIUC:基于主动学习的LLM弱到强框架
在教师和学生模型之间存在显著能力差距时,如何有效地进行监督和知识转移?论文提出了一种名为Alice的主动学习框架,通过教师的示范和不确定性表达,促进学生模型在弱到强的泛化过程中生成更高质量的训练数据。原创 2025-04-17 08:00:00 · 661 阅读 · 0 评论 -
清华:LLM微调过程中动态选择指令
如何在大语言模型(LLM)的微调过程中动态选择最有效的指令,以最大化模型性能?论文提出了一种名为RAISE的动态指令选择框架,通过任务目标驱动的获取函数和多样性约束机制,显著提升了模型在特定任务上的性能。原创 2025-04-16 10:00:00 · 634 阅读 · 0 评论 -
腾讯:强化学习优化大模型视频理解
如何评估多模态大语言模型(MLLM)在视频理解任务中的后训练有效性?🔸主要贡献:论文提出了SEED-Bench-R1基准,系统评估强化学习(RL)与监督微调(SFT)在视频理解中的表现,展示了RL的优越性和未来研究方向。原创 2025-04-15 08:00:00 · 1066 阅读 · 0 评论 -
人大:LLM在法律领域的三段论推理
大语言模型(LLM)在法律领域中缺乏显式三段论推理能力。论文提出了SyLeR框架,使LLM能够进行显式的三段论法律推理,提高了法律问答的准确性和可信度。原创 2025-04-14 10:00:00 · 470 阅读 · 0 评论 -
北大:LLM在NL2SQL中任务分解
在复杂的NL2SQL任务中,如何使大语言模型(LLM)有效地将自然语言查询转换为SQL语句?论文提出了LearNAT框架,通过任务分解和强化学习提升LLM在NL2SQL任务上的性能。原创 2025-04-12 10:00:00 · 1262 阅读 · 0 评论 -
微软:LLM多教师蒸馏学习深度思考
大语言模型(LLM)在推理过程中,如何平衡高计算成本与性能?论文提出了一种新颖的框架TwT,通过多教师指导的习惯性推理蒸馏方法,减少推理时的计算成本,同时保持高性能。原创 2025-04-12 08:00:00 · 396 阅读 · 0 评论 -
浙大:LLM在响应前先安全推理
大语言模型(LLM)在生成响应时如何有效地分析用户意图以防止有害输出的问题。论文提出了一种增强的安全对齐方法ERPO,通过事先推理偏好优化,提升模型的安全性和有效性。原创 2025-04-11 10:00:00 · 344 阅读 · 0 评论 -
上海交大:多模态大模型强化学习框架
在视觉语言模型(VLM)中缺乏可复现的强化学习(RL)训练框架和标准化评估方法。论文提出了一个透明的、从头实现的RL训练框架和一个综合评估方案,旨在提高VLM的训练效果和评估的一致性。原创 2025-04-11 08:00:00 · 1741 阅读 · 0 评论 -
MBZUAI:LLM大型优质数学语料MegaMath
当前缺乏大规模高质量开放数学数据集,以支持数学推理模型的训练。论文提出了MegaMath,这是迄今为止最大的开源英语数学语料库,包含371.6B个token,并设计了优化的数据处理管道。原创 2025-04-10 08:00:00 · 402 阅读 · 0 评论 -
DeepSeek:自我批评训练通用LLM奖励
如何提高通用奖励模型(RM)的推理时间扩展和灵活性?论文提出了一种新方法——自我原则批评调优(SPCT),以提升通用奖励模型的推理时间可扩展性,并展示了该方法在多个基准上的优越性能。原创 2025-04-09 08:00:00 · 1361 阅读 · 0 评论 -
阶跃星辰:简化LLM的强化学习流程
如何有效地从基础模型直接进行大规模的强化学习训练,以提高模型在推理任务上的表现?论文提出了一种名为Open-Reasoner-Zero的开源方法,展示了通过简化的奖励机制和基础的PPO算法实现大规模强化学习训练的有效性。原创 2025-04-07 08:00:00 · 921 阅读 · 0 评论 -
腾讯:LLM可验证奖励的强化学习框架
强化学习在多样化、无结构领域中,如何有效利用可验证奖励?论文扩展了可验证奖励的强化学习框架(RLVR),并验证了其在不同领域的有效性,提出了一种新的生成模型基础的软奖励机制。原创 2025-04-06 08:00:00 · 659 阅读 · 0 评论 -
南大:基于推理的LLM过程奖励
在数学推理过程中,如何有效评估每一步推理的正确性,并解决过程奖励模型(PRM)的数据稀缺?论文提出了一种基于推理驱动的过程奖励建模框架(R-PRM),通过利用每个推理步骤的推理过程来改善过程级评估的质量。原创 2025-04-04 08:00:00 · 736 阅读 · 1 评论 -
字节:将视觉模态以LoRA集成到LLM
如何将视觉理解能力有效集成到大语言模型(LLM)中,以克服传统多模态模型的缺陷?论文提出了一种新的方法"Vision as LoRA"(VoRA),通过低秩适应(LoRA)将视觉能力直接嵌入LLM中,避免了外部视觉模型的依赖,同时保持了语言知识的完整性。原创 2025-04-03 10:00:00 · 746 阅读 · 0 评论 -
北航:LLM多任务提示调优
多任务提示微调(Prompt Tuning)的性能不足,如何动态选择源任务以提高低资源目标任务的性能,避免潜在的负迁移?论文提出了一种新的方法动态任务向量分组(DTVG),通过动态选择源任务组来优化目标任务的提示初始化,从而提升迁移学习的效果。原创 2025-04-02 10:00:00 · 755 阅读 · 0 评论 -
人大:LLM数学指令融合增强
大语言模型(LLM)在解决复杂数学问题时,如何有效捕捉和利用数学知识的内在关系结构?论文提出了一种新的数据增强方法MathFusion,通过问题融合策略提高了LLM的数学推理能力,显著提升了模型在多步数学问题上的解决能力。原创 2025-04-02 08:00:00 · 737 阅读 · 0 评论 -
谷歌:LLM在预训练阶段如何获取知识?
大语言模型(LLM)在学习过程中,如何获取和记住事实知识?论文通过分析语言模型的学习动态,特别是数据分布对知识获取速度和停滞期的影响,提出了新的见解和方法。原创 2025-04-01 10:00:00 · 670 阅读 · 0 评论 -
腾讯:强化学习逐步增强LLM推理性能
在复杂推理任务中,如何提高大规模强化学习(RL)模型的训练效率与有效性?论文提出了一种名为FASTCURL的课程强化学习框架,通过渐进式上下文扩展策略,显著提高了R1类推理模型的训练效率。原创 2025-04-01 08:00:00 · 499 阅读 · 0 评论 -
浙大:LLM微调时预览答案前缀
对大语言模型(LLM)进行微调时,如何在提升性能的同时保持模型的安全性?论文提出了LookAhead Tuning方法,通过部分答案预览来增强模型的安全性,同时提高下游任务的表现。原创 2025-03-31 10:00:00 · 410 阅读 · 0 评论 -
HKUST:验证强化学习优化LLM推理
在不同基础模型中,零强化学习训练的推理能力如何发展,以及确保成功训练的关键因素有哪些?论文首次系统性地分析了零强化学习训练对多个开放基础模型的影响,并揭示了推理行为的演变过程。原创 2025-03-30 10:00:00 · 550 阅读 · 0 评论 -
阿里:多模态大模型预训练数据治理
在大规模视觉-语言预训练中,如何通过更细粒度的数据治理来提高数据质量和模型性能?论文提出了一种新的数据治理方法DataJuicer,通过精细化处理图像和文本数据,提高了模型在视觉-语言任务中的表现。原创 2025-03-30 08:00:00 · 503 阅读 · 0 评论 -
天津超算:LLM自适应持续学习框架
在领域特定的持续学习任务中,如何有效地进行自动化的指令调优,特别是在数据质量和系统级约束方面的挑战。论文提出了一种自动化的持续指令调优框架,能够在不干扰服务的情况下,实现无缝的模型更新,提升数据质量,并有效应对系统部署中的约束。原创 2025-03-29 08:00:00 · 875 阅读 · 0 评论 -
普林斯顿:奖励模型在LLM强化学习中的作用
在通过人类反馈的强化学习(RLHF)中,如何评估和优化奖励模型,特别是探讨奖励模型的准确性与奖励方差之间的关系,以及这些因素如何影响优化效率。论文从优化的角度分析奖励模型的特性,提出准确的奖励模型不一定是更好的教师,并且不同的语言模型可能对不同的奖励模型有不同的响应。原创 2025-03-27 10:00:00 · 387 阅读 · 0 评论 -
蚂蚁:LLM实现用户级的个性化偏好对齐
个性化对齐中如何有效捕捉和利用用户的独特偏好,以提升大规模用户交互的响应准确性和适应性。论文提出了一种新的个性化对齐方法和一个包含130万个示例的ALIGNX数据集,促进了对个体偏好的理解和模型的个性化响应生成。原创 2025-03-27 08:00:00 · 522 阅读 · 0 评论