
大模型-模型训练
文章平均质量分 83
大模型监督微调、奖励模型和强化学习等工作
大模型任我行
大模型探索者,每日论文分享,追踪技术前沿!之前的几百篇论文分享都在xhs(https://www.xiaohongshu.com/user/profile/61d5aec7000000001000568c),欢迎点赞收藏!
展开
-
NUS:元认知融合提升LLM高阶推理
如何提高大规模推理模型在高阶推理能力的可控性和一致性?论文提出了一种通过明确对接三种推理元能力(演绎、归纳和溯因)的方法,显著提高了模型在多种任务中的性能,并展示了模块化训练的优势。原创 2025-05-24 10:00:00 · 287 阅读 · 0 评论 -
中科大:课程学习提升RAG性能
如何通过课程学习来提升检索增强生成(RAG)系统的性能和稳定性?论文提出了一种基于课程学习的训练框架CL-RAG,首次将人类模仿学习的思想与RAG训练相结合,从而有效增强RAG系统的泛化能力和稳定性。原创 2025-05-24 08:00:00 · 347 阅读 · 0 评论 -
阿里:并行缩放策略提升LLM效果
如何通过并行计算来提高语言模型的训练效率和推理性能?论文提出了一种新的并行缩放策略(PARSCALE),该策略通过在多个并行流中重用现有参数来提升语言模型的性能,并建立了相应的并行缩放定律。原创 2025-05-23 10:00:00 · 1816 阅读 · 0 评论 -
阿里:LLM世界偏好建模
如何通过公开数据提升世界偏好建模的效果和效率?论文提出了一种新的世界偏好建模(WorldPM)方法,探索人类偏好的本质规律。原创 2025-05-23 08:00:00 · 1010 阅读 · 0 评论 -
阿里:思维模式融合优化Qwen3
如何通过改进模型架构和训练数据来提升大语言模型(LLM)的性能和多样性?Qwen3系列模型通过引入新的架构设计和多模态训练策略,显著提升了在多个任务和领域中的表现,并增强了多语言支持能力。原创 2025-05-21 10:00:00 · 953 阅读 · 0 评论 -
腾讯:可验证奖励优化LLM角色扮演
如何在角色扮演对话代理(RPCA)中设计可量化的奖励机制,以提高其角色意识能力?论文提出了一种基于可验证奖励的框架(VRAR),并通过实验证明了其在提升角色意识能力方面的有效性。原创 2025-05-21 10:00:00 · 1299 阅读 · 0 评论 -
Meta:强化学习优化LLM评估器
如何通过强化学习提升大语言模型(LLM)作为评判者的推理能力和判断质量?论文提出了一种新的训练方法J1,通过将判断任务转换为可验证任务并利用强化学习优化思维和判断过程,从而提高了LLM的评判性能。原创 2025-05-20 10:00:00 · 806 阅读 · 0 评论 -
贝壳:优化密集LLM推理能力
如何在不依赖私有数据或大规模Mixture-of-Experts (MoE)架构的情况下,释放32B规模密集模型的推理潜力?论文提出了一种经过精心设计的后训练流程,使得32B规模的密集模型在推理能力上与更大规模的MoE模型相竞争,甚至在某些基准测试中超越它们。原创 2025-05-19 10:00:00 · 720 阅读 · 0 评论 -
港中文:标记语言生成优化LLM文档理解
如何有效理解和解析复杂的视觉文档?论文提出了一种自适应标记语言生成的管道,并引入了两个精细化的结构化数据集(DocMark-Pile和DocMark-Instruct),显著提升了文档解析和推理任务的性能。原创 2025-05-16 08:00:00 · 720 阅读 · 0 评论 -
UIUC:通过最小化梯度方差优化LLM
如何在拒绝采样和强化学习中有效优化链式思维推理器的性能。论文提出了一种新的算法,通过最小化梯度方差来提高模型在推理任务中的效率和准确性。原创 2025-05-15 10:00:00 · 649 阅读 · 0 评论 -
面壁智能:筛选高质量LLM训练数据
如何有效地过滤和验证高质量的训练数据,以提升语言模型(LLM)的训练效果?论文提出了一种高效的数据过滤管道和验证策略,创建了高质量的Ultra-FineWeb数据集,并显著提高了LLM的训练性能。原创 2025-05-14 10:00:00 · 937 阅读 · 0 评论 -
哥大:降低噪声对LLM偏好对齐影响
大语言模型(LLM)在直接偏好对齐方法中面临冗长性和似然位移。论文提出了一种基于比较oracle的方法,通过有效处理噪声偏好对来改善LLM的性能,并提供了收敛性保证。原创 2025-05-14 08:00:00 · 468 阅读 · 0 评论 -
UIUC:深度思考运用在LLM奖励模型
如何提高奖励模型的可解释性和准确性?论文提出了一种新的奖励模型类——推理奖励模型(REASRMS),通过引入长推理链来增强下游奖励模型的性能,并系统性比较了不同的奖励模型训练范式。原创 2025-05-13 10:00:00 · 891 阅读 · 0 评论 -
腾讯:LLM思维链蒸馏学习
Mamba模型在处理超过训练长度的长上下文时记忆能力和推理能力不足。论文提出了一种新方法Recall with Reasoning (RwR),通过链式思维蒸馏直接提升Mamba的长上下文记忆能力,而无需丢弃输入的任何标记。原创 2025-05-13 08:00:00 · 345 阅读 · 0 评论 -
阿里:强化学习提升LLM搜索能力
如何在不依赖真实搜索引擎的情况下,提升大语言模型(LLM)的搜索能力?论文提出了一种名为ZEROSEARCH的强化学习框架,通过模拟搜索引擎来增强LLM的搜索策略,避免了与真实搜索引擎交互带来的成本和复杂性。原创 2025-05-12 08:00:00 · 670 阅读 · 0 评论 -
哈工大:LLM长短思维链联合微调
如何在大语言模型(LLM)监督微调中有效提升推理能力并避免继承过度思考?论文提出了一种新的长短链思维混合监督微调方法(LS-Mixture SFT),通过该方法实现了更高效的推理能力,并在多个基准测试中验证了其有效性。原创 2025-05-11 10:00:00 · 946 阅读 · 0 评论 -
NTU:LLM奖励学习综述
如何通过奖励学习来改善大语言模型(LLM)在后训练和测试时的表现?论文对LLM的奖励学习进行了全面的综述,提出了一个统一的概念框架,并分类总结了不同的奖励模型设计和学习策略。原创 2025-05-11 08:00:00 · 358 阅读 · 0 评论 -
清华:LLM自我生成学习任务
在缺乏数据的情况下,如何通过自我学习增强推理能力?论文提出了Absolute Zero范式,允许推理代理生成自己的学习任务分布,从而提升推理能力。原创 2025-05-10 10:00:00 · 987 阅读 · 0 评论 -
港中文:强化学习和双层推理优化图像生成
如何将语义层次和标记层次的链式思维(CoT)结合起来,以提升文本到图像生成的质量与一致性?论文提出了T2I-R1模型,首次将语义级和标记级CoT整合在同一框架内,通过BiCoT-GRPO强化图像生成过程。原创 2025-05-09 10:00:00 · 1050 阅读 · 0 评论 -
人大:LLM深度研究框架WebThinker
大型推理模型在复杂信息检索和科学报告生成中的能力不足。论文提出了WebThinker框架,增强了大型推理模型的深度研究能力,使其能够自主进行网络探索和报告生成。原创 2025-05-09 08:00:00 · 920 阅读 · 0 评论 -
人大:两阶段训练LLM数学批评能力
当前大语言模型(LLM)在数学推理任务中生成肤浅和不准确的批评。论文提出了DeepCritic框架,通过两阶段的训练流程,显著增强了LLM的批评能力,使其能够生成更深入、准确的批评。原创 2025-05-08 10:00:00 · 534 阅读 · 0 评论 -
谷歌:LLM微调结合上下文学习
预训练语言模型在上下文学习与微调过程中展现出不同的泛化模式。论文提出通过数据增强的方法来改善微调的泛化能力,并展示了上下文学习在多种情况下的泛化效果优于微调。原创 2025-05-08 08:00:00 · 2083 阅读 · 0 评论 -
MiroMind:LLM监督微调和强化学习综述
如何有效复制和扩展DeepSeek-R1模型的推理能力,以及探索推理语言模型(RLM)在各种任务中的应用?论文提供了对DeepSeek-R1的复制研究的全面回顾,重点分析了监督微调和可验证奖励的强化学习方法,提出了未来推理语言模型发展的新方向。原创 2025-05-07 10:00:00 · 541 阅读 · 0 评论 -
DeepSeek:LLM形式化数学推理
如何将非正式数学推理能力与正式定理证明系统相结合,以提高自动定理证明的效果?论文提出了一种新的模型DeepSeek-Prover-V2,通过递归子目标分解和强化学习方法,显著提升了形式化数学推理的能力。原创 2025-05-06 10:00:00 · 1063 阅读 · 0 评论 -
哈工大:LLM指令调优去偏见框架
大语言模型(LLM)在训练过程中从指令调优数据集中会学习到偏见。论文提出了一种信息增益引导的因果干预去偏见框架(IGCIDB),旨在消除指令调优数据集中的偏见特征,从而提高模型的泛化能力。原创 2025-05-06 08:00:00 · 485 阅读 · 0 评论 -
浙大:基于内在偏好的LLM个性化对齐
大语言模型(LLM)在个性化对齐中对人类偏好的适应性不足。论文提出了一种名为Persona-judge的方法,通过模型内在的偏好判断能力实现个性化对齐,无需额外的训练或外部反馈。原创 2025-05-05 08:00:00 · 429 阅读 · 0 评论 -
港大:自我博弈优化LLM步骤推理
如何有效地评估和改进大语言模型(LLM)在推理过程中的每一步的正确性? 论文提出了一种新颖的自我对弈评论员(SPC)模型,通过对抗游戏不断演化,能够自动生成样本以增强LLM的推理能力。原创 2025-05-04 08:00:00 · 819 阅读 · 0 评论 -
浙大:优化视觉模型的过度思考
大型视觉语言模型(LVLM)在推理过程中出现过度思考现象。论文提出了FAST框架,通过动态调整推理深度来平衡推理准确性与推理长度,显著提高了LVLM的性能。原创 2025-05-03 08:00:00 · 493 阅读 · 0 评论 -
贝壳:通过强化学习提升音频推理
如何通过强化学习(RL)和课程学习来提升音频语言推理模型的能力?论文提出了一种基于课程引导的强化学习训练方案,显著提升了音频问答的推理性能,超越了传统的监督微调和之前的RL基线。原创 2025-04-30 10:00:00 · 952 阅读 · 0 评论 -
浙大:指导机制优化LLM偏好对齐
传统参考模型在直接偏好优化(DPO)中存在局限性,特别是如何利用指导参考模型提高数据利用率和模型性能。论文提出了一种新的训练范式Pre-DPO,通过使用指导参考模型来优化初始策略,从而提升现有偏好优化方法的性能,而无需依赖外部模型或额外数据。原创 2025-04-29 10:00:00 · 983 阅读 · 0 评论 -
USC:强化学习训练小型推理模型
如何以成本效益高的方式在小型语言模型中有效地训练推理能力?论文提出了Tina模型系列,通过LoRA和强化学习的结合,实现了在较低成本下的显著推理性能。原创 2025-04-28 08:00:00 · 411 阅读 · 0 评论 -
清华:LLM测试时无监督在线学习
在测试阶段如何利用无标签数据进行强化学习(RL)以提升模型性能?论文提出了一种新的框架——测试时强化学习(TTRL),通过无监督的方式实现模型在测试数据上的自我演化和性能提升。原创 2025-04-27 08:00:00 · 758 阅读 · 0 评论 -
HKUST:合成数据训练LLM的缩放定律
如何通过合成数据的扩展来提升大语言模型(LLM)的性能,并探讨是否存在合成数据的缩放定律?论文首次系统性地研究和验证了合成数据的缩放规律,以及其在语言模型微调中的应用效果。原创 2025-04-26 10:00:00 · 419 阅读 · 0 评论 -
上海交大:推理驱动的多模态提示重写
视觉语言模型(VLM)在处理文本和图像交互时存在安全性问题,尤其是在动态需求下的快速迭代和适应能力。论文提出了一种名为VLMGuard-R1的框架,通过多模态推理驱动的提示重写方法,增强VLM的安全性,避免了对模型参数的直接调整,从而降低了计算成本和时间。原创 2025-04-26 08:00:00 · 777 阅读 · 0 评论 -
CMU:LLM蒸馏对抗保护产权
如何有效防止模型蒸馏攻击,以保护前沿模型的知识产权?论文提出了一种新的采样方法——抗蒸馏采样,旨在调整教师模型的采样分布,以增强对抗蒸馏攻击的能力。原创 2025-04-25 10:00:00 · 456 阅读 · 0 评论 -
UIUC:LLM工具学习奖励
大语言模型(LLM)在工具集成推理(TIR)任务中,如何有效学习和优化奖励策略?论文提出了一种针对TIR的奖励设计框架,并通过强化学习(RL)算法验证了其有效性,为未来的LLM代理训练提供了实证路线图。原创 2025-04-25 08:00:00 · 504 阅读 · 0 评论 -
北大:LLM指令微调互对齐框架
如何在指令调优中实现指令与响应之间的有效对齐,以提高大语言模型(LLM)的性能?论文提出了一个互对齐框架,通过迭代优化指令与响应的关系,显著提升了指令调优的效果。原创 2025-04-24 10:00:00 · 538 阅读 · 0 评论 -
英伟达:LLM预训练自动数据混合
如何在大规模预训练语言模型中优化数据混合,以有效平衡通用知识和领域专长? 论文提出了一种名为CLIMB的框架,通过迭代的数据混合优化,自动发现和优化数据混合,显著提高语言模型的性能。原创 2025-04-22 10:00:00 · 515 阅读 · 0 评论 -
中兴:为LLM选择难度适合的CoT数据
如何为大语言模型(LLM)生成合适难度的高质量链式思维(CoT)数据? 论文提出了一种新的方法,通过LLM适应性问题难度评级来构建高质量的CoT数据集,从而提高模型的推理能力。原创 2025-04-22 08:00:00 · 927 阅读 · 0 评论 -
上海人工智能实验室:LLM无监督自训练
如何在没有外部监督的情况下,增强大语言模型(LLM)的推理能力?论文提出了一种名为Genius的通用自我训练框架,该框架仅依赖于无监督查询来提升LLM的推理能力。原创 2025-04-19 10:00:00 · 792 阅读 · 0 评论