大模型任我行-CSDN博客

原创北邮：LLM金融数值推理基准FinanceReasoning

如何建立一个更可靠、全面且具有挑战性的基准，以评估大语言模型（LLM）在金融数值推理任务中的能力？论文提出了FinanceReasoning基准，通过重新注释公共数据集和新收集更具挑战性的数据，展示了LLM在金融数值推理中的卓越能力。

2025-06-13 10:00:00 373

原创清华：任务分解和协作提升LLM推理效率

如何高效地扩展大语言模型（LLM）的推理能力，同时降低计算成本和提高资源利用率？论文提出了一种名为R2-Reasoner的框架，通过强调任务分解和子任务分配来优化不同能力模型之间的协作，从而有效地提升LLM推理的效率。

2025-06-13 08:00:00 564

原创清华：整合推理过程与答案降低LLM幻觉

如何有效检测大型推理模型中的幻觉？论文提出了一种名为RACE的框架，通过联合评估答案和推理一致性来检测大型推理模型中的虚假回答。

2025-06-12 10:00:00 314

原创中科院：多重奖励优化LLM搜索推理

如何通过动态集成搜索和推理来提升大语言模型（LLM）在复杂问题解决中的表现？论文提出了R-Search框架，通过多重奖励机制优化推理搜索轨迹，提升了LLM在复杂推理任务中的表现。

2025-06-12 08:00:00 221

原创马里兰大学：LLM过度思考降低性能

在测试时扩展思考过程是否始终能提高推理模型的表现？论文揭示了在测试时间推理模型中，过度思考会导致性能下降，并提出了一种新的测试时间扩展策略——平行思考，以更有效地利用计算预算。

2025-06-11 10:00:00 287

原创百度：强化学习优化LLM的RAG知识冲突

如何有效整合大语言模型（LLM）中的参数知识和上下文知识，以解决知识冲突问题？论文提出了一种新颖的强化学习框架Knowledgeable-r1，能够在检索增强生成任务中优化知识探索策略。

2025-06-11 08:00:00 378

原创字节：LLM合成高质量编程指令

如何通过自动化方法生成高质量、丰富多样的编程指令数据，从而提升大语言模型（LLM）在代码生成任务中的表现？论文提出了Infinite-Instruct框架，通过双向合成和静态验证机制，显著提高了编程指令数据的生成质量与多样性。

2025-06-10 10:00:00 929

原创哈工大：多agent交互增强LLM训练数据

如何通过多代理模拟教学提高大语言模型（LLM）的性能和数据质量？论文提出了一种名为MASTER的框架，通过多代理互动和教学场景的模拟，生成了高质量的教学数据BOOST-QA，从而提升大语言模型的效果。

2025-06-10 08:00:00 285

原创港中文：自然语言反馈优化LLM数值强化学习

如何克服仅依赖数字反馈的强化学习在大语言模型（LLM）推理能力提升中的局限性？论文提出了一种新的框架Critique-GRPO，使得LLM能够同时利用自然语言反馈和数字反馈进行在线强化学习，从而有效优化策略。

2025-06-09 10:00:00 1593

原创人大：互信息揭示LLM推理的关键步骤

如何分析大语言模型（LLM）在推理过程中动态生成的思维过程，并识别对推理结果产生重大影响的关键环节？论文揭示了在LLM推理过程中存在的互信息峰值现象，并提出了两种简单有效的方法来提升模型的推理性能。

2025-06-09 08:00:00 491

原创港理工：LLM推理与推荐能力集成

如何将推理能力融入大型推荐模型以增强推荐性能？提出了R²ec，首个将推理和推荐集成在单一自回归结构中的统一大型推荐模型，并通过强化学习优化其联合性能。

2025-06-08 10:00:00 392

原创 NUS：LLM逻辑推理框架Aristotle

如何提高大语言模型（LLM）在逻辑推理任务中的表现？论文提出了一种名为Aristotle的完整逻辑推理框架，通过综合分解、搜索和解析模块，显著改善了逻辑推理的准确性和效率。

2025-06-08 08:00:00 361

原创腾讯：LLM大规模数学推理数据集

如何克服当前人工智能在复杂数学推理中的数据瓶颈，以推动此领域的发展？论文提出了DeepMath-103K，提供一个大规模、高挑战性、去污染和可验证的数学数据集，以支持强化学习模型的训练。

2025-06-07 10:00:00 983

原创上海交大：LLM自动化软件开发评测

如何评估和训练自动化特征驱动软件开发（FDD）系统的有效性以及其面临的挑战。论文提出了SWE-Dev数据集，这是第一个用于特征驱动软件开发的真实世界数据集，并对各种编码系统在复杂任务中的能力进行了评估。

2025-06-07 08:00:00 793

原创华科：视觉大模型动态剪枝框架FlowCut

如何更有效地识别视觉语言模型中的冗余视觉标记以提升计算效率？论文提出了一种基于信息流的动态剪枝框架FlowCut，有效提升了视觉语言模型的推理效率。

2025-06-06 10:00:00 870

原创复旦：LLM无监督对话查询重写

如何在没有外部重写监督的情况下，有效地对话查询进行重构，使其与检索器实现良好的对齐？论文提出了ConvSearch-R1，一个完全依赖自我驱动框架的对话查询重构方法，显著提高了重构性能，并消除了对昂贵人工注释的依赖。

2025-06-06 08:00:00 831

原创腾讯：强化学习提升LLM数学推理

如何利用自然语言和强化学习来提升大语言模型（LLM）在数学定理证明中的推理能力？论文提出了一种名为DeepTheorem的框架，该框架包括一个大规模的自然语言数据集以及一种新的强化学习方法（RL-Zero），显著提升了LLM在定理证明中的性能。

2025-06-05 10:00:00 1920 1

原创华为：分组专家优化LLM在MoE的负载均衡

如何解决传统Mixture-of-Experts（MoE）模型中的专家负载不均衡问题？论文提出了一种新的MoGE架构，通过分组专家和优化路由机制，实现了专家的负载均衡，提高了大语言模型（LLM）的推理效率。

2025-06-05 08:00:00 649

原创上海人工智能实验室：多模态空间推理评测

如何有效评估多图像空间推理能力，以推动多模态大语言模型（MLLM）的空间智能发展？论文提出了MMSI-Bench，一个专门用于评估多图像空间推理能力的基准，展示了当前MLLMs在该领域与人类表现之间的显著差距。

2025-06-04 11:45:00 575

原创腾讯：LLM偏好学习中引入长度优化

如何在保持大语言模型（LLM）的推理能力的同时，实现生成更简洁的Chain-of-Thought（CoT）响应？论文提出了一种新的两阶段强化学习框架ConciseR，旨在通过有效的策略优化增强模型推理能力并减少响应长度。

2025-06-04 08:00:00 561

原创港理工：分解LLM在强化学习的最终奖励

如何在长时间跨度且奖励稀疏延迟的环境中有效地训练大语言模型（LLM）代理，以提升其任务执行能力？论文提出了一种新的框架“逐步进展归因”（SPA），通过为每个步骤分配增量奖励，以解决传统强化学习中的稀疏和延迟反馈问题，从而优化LLM代理的训练过程。

2025-06-03 10:00:00 435

原创微软：LLM编程长推理数据集

如何生成高质量的、可验证的高难度编程问题及其测试用例，以提高大语言模型（LLM）在竞争性代码推理中的性能？论文提出了一种基于大规模专家数据集的rStar-Coder方法，通过可靠的测试用例生成机制，构建了一个418K个独特竞争性编程问题和580K个经过验证的长推理解决方案的数据集。

2025-06-03 08:00:00 1585

原创 OSU：agent网络操作安全对抗测试

如何进行计算机使用代理（CUA）在混合网络和操作系统环境中的现实对抗性测试，以评估其对间接提示注入的脆弱性？论文提出了REDTEAMCUA框架和RTC-BENCH基准，提供了一种系统化的对抗性分析方法，揭示了CUA在混合环境下的重大安全漏洞。

2025-06-02 10:00:00 788

原创阿里：强化学习提升agent推理决策

如何构建具有自主信息获取能力的网络智能体，以便在复杂的真实搜索环境中有效进行多轮信息检索？论文提出了一种系统化的端到端框架，通过结合拒绝采样微调和在线强化学习，构建具有复杂推理和自主决策能力的信息获取智能体WebDancer。

2025-06-02 08:00:00 419

原创腾讯：强化学习提高LLM机器翻译

这如何提高大语言模型（LLM）在机器翻译中对特定术语的翻译准确性？论文提出了TAT-R1，一个首个使用强化学习和词对齐奖励进行术语感知翻译的模型。

2025-06-01 10:00:00 505

原创九坤：熵最小化加速LLM收敛

如何实现一种有效的无监督方法来提升大语言模型（LLM）的推理能力，而不需要大量的标注数据？论文提出了一种名为“一次性熵最小化”（One-shot EM）的方法，该方法在无监督的情况下，实现了与传统强化学习相当甚至更优的模型性能。

2025-06-01 08:00:00 469

原创谷歌：贝叶斯框架优化LLM推理反思

在测试阶段，有效的反思性推理为何如此重要，并在什么情况下能够通过常规的强化学习训练出有效的反思性行为？论文提出了一种基于贝叶斯自适应强化学习的框架（BARL），优化大语言模型（LLM）在推理任务中的测试时间表现，并自然引导反思性探索行为。

2025-05-31 10:00:00 1483

原创腾讯：LLM混合架构提升效率与性能

如何通过合成Mamba和Transformer架构以及自适应思维链方法，提升大语言模型（LLM）的效率与性能？论文提出了一种新的大语言模型Hunyuan-TurboS，结合Transformer和Mamba架构，显著提高了生成效率和推理能力，同时减少了生成成本。

2025-05-31 08:00:00 1111

原创美团：优化LLM推理思考长度

如何提高大型推理模型（LRM）在不同难度问题上的推理效率和准确性？论文提出了自适应自恢复推理框架（ASRR），优化了LRM在推理过程中的难度感知与资源分配，显著减少了冗长的推理链并提升了模型性能。

2025-05-30 08:00:00 447

原创复旦：多模态时序理解基准DanmakuTPPBench

如何构建一个有效的多模态基准，以促进时序点过程（TPP）建模及理解，特别是如何整合文本、视觉及时间信号的丰富上下文信息？论文提出DanmakuTPPBench，这是第一个针对多模态TPP建模与理解的综合性基准，包含DanmakuTPP-Events和DanmakuTPP-QA两个数据集。

2025-05-30 08:00:00 553

原创北大：引入终止符提升LLM推理性能

如何在不牺牲答案质量的情况下，通过早期终止推理来减少大语言模型（LLM）在链式推理（CoT）过程中的冗余推理和计算开销？论文提出了一种训练无关的框架ThinkLess，该框架通过插入推理终止符号在推理过程中有效减少冗余信息，从而提升推理效率。

2025-05-29 10:00:00 423

原创阿里：潜在令牌改善LLM长序列标签

如何有效地在解码器Transformer模型中引入潜在计算，并提升其对长序列生成及复杂任务的处理能力？论文提出了一种统一的方法，通过在解码器Transformer中引入潜在token，以增强潜在计算，从而改善模型在长序列和复杂任务中的表现。

2025-05-29 08:00:00 392

原创虾皮：动态优化LLM思维过程

如何在有预算限制的情况下优化大语言模型（LLM）的随时推理性能？论文提出了一种新的框架AnytimeReasoner，通过引入可验证的稠密奖励和预算相对策略优化（BRPO）技术，显著提升了推理效率和准确性。

2025-05-28 10:00:00 461

原创人大：LLM工具强化学习框架Tool-Star

如何增强大语言模型（LLM）在多工具协作推理中的能力？论文提出了一种名为Tool-Star的框架，通过强化学习和工具综合设计，提升了LLM的多工具协作推理能力。

2025-05-28 08:00:00 920

原创腾讯：LLM在推理时自我验证

如何通过自我验证的方法提升大语言模型（LLM）的推理能力与自我评估能力？论文提出RISE（Reinforcing Reasoning with Self-Verification），一种新颖的在线强化学习框架，该框架同时训练语言模型的解题能力和自我验证能力。

2025-05-27 10:00:00 583 1

原创清华：LLM推理时自主选择思考模式

如何使推理模型能够根据输入问题的难度自适应地选择思考模式，从而提高推理效率而不牺牲性能？论文提出了一种新颖的强化学习算法AdaptThink，使推理模型能够根据问题难度自适应选择思考模式，从而显著降低推理成本并提高准确性。

2025-05-27 08:00:00 806

原创 HKUST：多模态推理大模型作为评估器

如何提升多模态大语言模型（MLLM）作为裁判的评估能力，尤其是在复杂开放式任务中缺乏明确标准答案时的判断准确性与可解释性？论文提出MR.Judge框架，将判断过程转化为带推理的多选题任务，通过反向合成负样本和文本推理模型蒸馏提升MLLM裁判的推理与评估能力。

2025-05-26 10:00:00 724

原创英伟达：LLM多任务和语言的偏好数据集

如何构建一个高质量、开放的人类标注偏好数据集，以支持多任务和多语言环境下的大语言模型（LLM）的训练。论文收集并公开发布了多样化任务和语言的偏好注释数据集，旨在提高模型的对齐能力。

2025-05-26 08:00:00 1294

原创 NUS：多模态大模型评估基准General-Bench

现有多模态大语言模型（MLLMs）评估基准存在不足，如何构建一个有效的基准来评估多模态智能和任务协同能力？论文提出了一个新的评估框架General-Level和一个大规模的多模态评估基准General-Bench，以全面评估多模态通用模型的能力。

2025-05-25 10:00:00 1438

原创复旦：评估LLM作为教师模型的能力

当前大语言模型（LLM）评估方法存在局限性，特别是如何通过间接方式评估模型的多维能力？论文提出了一种新的间接评估框架Teach2Eval，通过测量教师模型指导弱学生模型的能力，来反映教师模型的综合能力。

2025-05-25 08:00:00 344

空空如也

空空如也