自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大模型任我行的博客

每日分享大模型论文,紧跟AI技术最前线!

  • 博客(642)
  • 收藏
  • 关注

原创 NUS:元认知融合提升LLM高阶推理

如何提高大规模推理模型在高阶推理能力的可控性和一致性?论文提出了一种通过明确对接三种推理元能力(演绎、归纳和溯因)的方法,显著提高了模型在多种任务中的性能,并展示了模块化训练的优势。

2025-05-24 10:00:00 202

原创 中科大:课程学习提升RAG性能

如何通过课程学习来提升检索增强生成(RAG)系统的性能和稳定性?论文提出了一种基于课程学习的训练框架CL-RAG,首次将人类模仿学习的思想与RAG训练相结合,从而有效增强RAG系统的泛化能力和稳定性。

2025-05-24 08:00:00 240

原创 阿里:并行缩放策略提升LLM效果

如何通过并行计算来提高语言模型的训练效率和推理性能?论文提出了一种新的并行缩放策略(PARSCALE),该策略通过在多个并行流中重用现有参数来提升语言模型的性能,并建立了相应的并行缩放定律。

2025-05-23 10:00:00 1411 1

原创 阿里:LLM世界偏好建模

如何通过公开数据提升世界偏好建模的效果和效率?论文提出了一种新的世界偏好建模(WorldPM)方法,探索人类偏好的本质规律。

2025-05-23 08:00:00 682

原创 HKUST:补充视觉信息缓解多模态幻觉

多模态大型语言模型(MLLM)中,因视觉输入与模型内部表示不充分对齐而导致的“幻觉”现象。论文提出了一种新的训练无关的幻觉缓解范式MEMVR,通过补充视觉线索来改善模型的回答准确性。

2025-05-22 10:00:00 430

原创 HKUST:长上下文视觉语言模型评估

当前长上下文视觉语言模型(LCVLM)在评估中存在不足,特别是在任务覆盖和上下文长度控制方面的局限。论文提出MMLONGBENCH基准,涵盖多种长上下文视觉语言任务,提供标准化的输入长度和多样化的评估,以全面评估模型的性能。

2025-05-22 08:00:00 631

原创 腾讯:可验证奖励优化LLM角色扮演

如何在角色扮演对话代理(RPCA)中设计可量化的奖励机制,以提高其角色意识能力?论文提出了一种基于可验证奖励的框架(VRAR),并通过实验证明了其在提升角色意识能力方面的有效性。

2025-05-21 10:00:00 1060

原创 阿里:思维模式融合优化Qwen3

如何通过改进模型架构和训练数据来提升大语言模型(LLM)的性能和多样性?Qwen3系列模型通过引入新的架构设计和多模态训练策略,显著提升了在多个任务和领域中的表现,并增强了多语言支持能力。

2025-05-21 10:00:00 952

原创 Meta:强化学习优化LLM评估器

如何通过强化学习提升大语言模型(LLM)作为评判者的推理能力和判断质量?论文提出了一种新的训练方法J1,通过将判断任务转换为可验证任务并利用强化学习优化思维和判断过程,从而提高了LLM的评判性能。

2025-05-20 10:00:00 805 1

原创 清华:LLM评估框架Feedbacker

如何在大语言模型(LLM)的评估中提供更及时和有效的反馈,而不仅仅是依赖于排名?论文提出了Feedbacker评估框架,通过细致的查询和创新的PC²点对点评估方法,实现了更全面和精确的模型性能反馈。

2025-05-20 08:00:00 1120

原创 贝壳:优化密集LLM推理能力

如何在不依赖私有数据或大规模Mixture-of-Experts (MoE)架构的情况下,释放32B规模密集模型的推理潜力?论文提出了一种经过精心设计的后训练流程,使得32B规模的密集模型在推理能力上与更大规模的MoE模型相竞争,甚至在某些基准测试中超越它们。

2025-05-19 10:00:00 719

原创 北大:分层检索增强LLM信息咨询

如何为多语言用户提供准确、及时的大学校园信息咨询服务?论文提出了ALOHA系统,通过分层检索增强大语言模型(LLM),以提高校园特定信息检索的准确性和及时性。

2025-05-19 08:00:00 346

原创 斯坦福:长上下文LLM简化agent流程

何利用长上下文语言模型(LCLM)来简化复杂的智能体设计,从而提高软件工程任务的效率?论文提出了一种无需复杂架构的状态上下文智能体设计方法,利用LCLM直接处理完整环境状态以提高问题解决能力。

2025-05-18 10:00:00 809

原创 中科院:LLM工具调用框架TUMS

大语言模型(LLM)在复杂任务中参数生成不准确和工具调用能力不足。论文提出了TUMS框架,通过参数级处理和多结构处理器显著提升了LLM的工具使用能力。

2025-05-18 08:00:00 946

原创 北大:基于因果的LLM形式化推理

如何将实际因果理论与大语言模型(LLM)结合,以实现更正式和可解释的实际因果推理?论文提出了AC-REASON框架,首次将实际因果理论与LLM整合,并构建了专注于实际因果关系的AC-BENCH基准。

2025-05-17 10:00:00 862

原创 OpenAI:LLM医疗健康评估基准HealthBench

如何有效评估大型语言模型在医疗健康领域的表现和安全性的问题。论文提出了HealthBench,一个全面且可信赖的评估基准,旨在提高AI模型在医疗健康中的应用效果。

2025-05-17 08:00:00 1748

原创 斯坦福:基于人类反馈的agent动态评估

如何从开放式人类反馈中诱导出适用于智能体评估的可解释性指标?论文提出了AutoLibra,一个新颖的智能体评估框架,通过人类反馈自动生成评估指标,以提高智能体的性能和评估质量。

2025-05-16 10:00:00 966

原创 港中文:标记语言生成优化LLM文档理解

如何有效理解和解析复杂的视觉文档?论文提出了一种自适应标记语言生成的管道,并引入了两个精细化的结构化数据集(DocMark-Pile和DocMark-Instruct),显著提升了文档解析和推理任务的性能。

2025-05-16 08:00:00 720

原创 UIUC:通过最小化梯度方差优化LLM

如何在拒绝采样和强化学习中有效优化链式思维推理器的性能。论文提出了一种新的算法,通过最小化梯度方差来提高模型在推理任务中的效率和准确性。

2025-05-15 10:00:00 649

原创 IBM:在RAG种执行超参数优化

在检索增强生成(RAG)中如何执行超参数优化(HPO)?论文系统地评估并比较了多种HPO算法在RAG中的性能,提供了关于不同超参数配置的深入分析。

2025-05-15 08:00:00 385

原创 面壁智能:筛选高质量LLM训练数据

如何有效地过滤和验证高质量的训练数据,以提升语言模型(LLM)的训练效果?论文提出了一种高效的数据过滤管道和验证策略,创建了高质量的Ultra-FineWeb数据集,并显著提高了LLM的训练性能。

2025-05-14 10:00:00 935

原创 哥大:降低噪声对LLM偏好对齐影响

大语言模型(LLM)在直接偏好对齐方法中面临冗长性和似然位移。论文提出了一种基于比较oracle的方法,通过有效处理噪声偏好对来改善LLM的性能,并提供了收敛性保证。

2025-05-14 08:00:00 468

原创 UIUC:深度思考运用在LLM奖励模型

如何提高奖励模型的可解释性和准确性?论文提出了一种新的奖励模型类——推理奖励模型(REASRMS),通过引入长推理链来增强下游奖励模型的性能,并系统性比较了不同的奖励模型训练范式。

2025-05-13 10:00:00 891

原创 腾讯:LLM思维链蒸馏学习

Mamba模型在处理超过训练长度的长上下文时记忆能力和推理能力不足。论文提出了一种新方法Recall with Reasoning (RwR),通过链式思维蒸馏直接提升Mamba的长上下文记忆能力,而无需丢弃输入的任何标记。

2025-05-13 08:00:00 345

原创 港中文:LLM网站生成基准WebGen-Bench

如何系统性地评估大语言模型(LLM)在从零开始生成网站的能力?论文提出了WebGen-Bench基准,首次系统性评估LLM驱动的代理生成符合用户指令的网站的能力。

2025-05-12 10:00:00 1598

原创 阿里:强化学习提升LLM搜索能力

如何在不依赖真实搜索引擎的情况下,提升大语言模型(LLM)的搜索能力?论文提出了一种名为ZEROSEARCH的强化学习框架,通过模拟搜索引擎来增强LLM的搜索策略,避免了与真实搜索引擎交互带来的成本和复杂性。

2025-05-12 08:00:00 670

原创 哈工大:LLM长短思维链联合微调

如何在大语言模型(LLM)监督微调中有效提升推理能力并避免继承过度思考?论文提出了一种新的长短链思维混合监督微调方法(LS-Mixture SFT),通过该方法实现了更高效的推理能力,并在多个基准测试中验证了其有效性。

2025-05-11 10:00:00 941 1

原创 NTU:LLM奖励学习综述

如何通过奖励学习来改善大语言模型(LLM)在后训练和测试时的表现?论文对LLM的奖励学习进行了全面的综述,提出了一个统一的概念框架,并分类总结了不同的奖励模型设计和学习策略。

2025-05-11 08:00:00 358

原创 清华:LLM自我生成学习任务

在缺乏数据的情况下,如何通过自我学习增强推理能力?论文提出了Absolute Zero范式,允许推理代理生成自己的学习任务分布,从而提升推理能力。

2025-05-10 10:00:00 986 1

原创 字节:增强LLM角色区分能力

大语言模型(LLM)在角色分离学习中的固有缺陷,特别是如何有效区分不同角色的输入。论文揭示了LLM在角色识别过程中存在的两种主要“捷径”,并提出了通过操控位置ID来增强角色区分能力的新方法。

2025-05-10 08:00:00 489

原创 港中文:强化学习和双层推理优化图像生成

如何将语义层次和标记层次的链式思维(CoT)结合起来,以提升文本到图像生成的质量与一致性?论文提出了T2I-R1模型,首次将语义级和标记级CoT整合在同一框架内,通过BiCoT-GRPO强化图像生成过程。

2025-05-09 10:00:00 1049

原创 人大:LLM深度研究框架WebThinker

大型推理模型在复杂信息检索和科学报告生成中的能力不足。论文提出了WebThinker框架,增强了大型推理模型的深度研究能力,使其能够自主进行网络探索和报告生成。

2025-05-09 08:00:00 918

原创 人大:两阶段训练LLM数学批评能力

当前大语言模型(LLM)在数学推理任务中生成肤浅和不准确的批评。论文提出了DeepCritic框架,通过两阶段的训练流程,显著增强了LLM的批评能力,使其能够生成更深入、准确的批评。

2025-05-08 10:00:00 534

原创 谷歌:LLM微调结合上下文学习

预训练语言模型在上下文学习与微调过程中展现出不同的泛化模式。论文提出通过数据增强的方法来改善微调的泛化能力,并展示了上下文学习在多种情况下的泛化效果优于微调。

2025-05-08 08:00:00 2083

原创 MiroMind:LLM监督微调和强化学习综述

如何有效复制和扩展DeepSeek-R1模型的推理能力,以及探索推理语言模型(RLM)在各种任务中的应用?论文提供了对DeepSeek-R1的复制研究的全面回顾,重点分析了监督微调和可验证奖励的强化学习方法,提出了未来推理语言模型发展的新方向。

2025-05-07 10:00:00 540

原创 上海交大:LLM注意力频域压缩

在推理过程中如何高效扩展大语言模型(LLM)的上下文窗口,同时避免性能下降?论文提出了一种新的频域压缩方法FreqKV,通过迭代压缩键值(KV)状态以支持更长的上下文窗口,且在效率上优于现有方法。

2025-05-07 08:00:00 580

原创 DeepSeek:LLM形式化数学推理

如何将非正式数学推理能力与正式定理证明系统相结合,以提高自动定理证明的效果?论文提出了一种新的模型DeepSeek-Prover-V2,通过递归子目标分解和强化学习方法,显著提升了形式化数学推理的能力。

2025-05-06 10:00:00 1060

原创 哈工大:LLM指令调优去偏见框架

大语言模型(LLM)在训练过程中从指令调优数据集中会学习到偏见。论文提出了一种信息增益引导的因果干预去偏见框架(IGCIDB),旨在消除指令调优数据集中的偏见特征,从而提高模型的泛化能力。

2025-05-06 08:00:00 485

原创 字节:LLM自动化证明工程基准

在形式数学库的维护和演进中,如何有效评估和增强自动化证明工程的能力?论文提出了APE-Bench I,这是第一个基于真实开发工作流的大规模文件级证明工程基准,旨在评估语言模型在实际证明工程任务中的性能。

2025-05-05 10:00:00 1004 1

原创 浙大:基于内在偏好的LLM个性化对齐

大语言模型(LLM)在个性化对齐中对人类偏好的适应性不足。论文提出了一种名为Persona-judge的方法,通过模型内在的偏好判断能力实现个性化对齐,无需额外的训练或外部反馈。

2025-05-05 08:00:00 427

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除