自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大模型任我行的博客

每日分享大模型论文,紧跟AI技术最前线!

  • 博客(600)
  • 收藏
  • 关注

原创 Kimi:统一架构的音频LLM

如何构建一个统一的音频基础模型,同时处理音频理解、生成和对话等多种音频处理任务?Kimi-Audio作为一个开源的音频基础模型,实现了在多个音频处理任务上达到最先进的性能,并提供了可重复的评估工具包。

2025-05-03 10:00:00 607

原创 浙大:优化视觉模型的过度思考

大型视觉语言模型(LVLM)在推理过程中出现过度思考现象。论文提出了FAST框架,通过动态调整推理深度来平衡推理准确性与推理长度,显著提高了LVLM的性能。

2025-05-03 08:00:00 226

原创 中科大:LLM几何推理数据生成

现有几何问题求解模型在推理能力和训练数据稀缺性方面面临瓶颈。论文提出了一种名为GeoGen的管道,可以自动生成几何多步推理数据,并构建了两个大型数据集GeoExpand和GeoSynth,以增强几何问题求解模型的训练效果。

2025-05-02 10:00:00 684

原创 阿里:LLM多语言数学推理基准PolyMath

当前多语言数学推理基准不足以有效评估先进大语言模型(LLM)的推理能力。论文提出了PolyMath,一个多语言数学推理基准,涵盖多种难度级别,旨在推动多语言推理能力的研究。

2025-05-02 08:00:00 372

原创 NUS:多模态多视角理解评估

多模态大型语言模型(MLLM)在多视角理解能力方面存在不足,以及缺乏有效的评估基准。论文提出了All-Angles Bench基准,包含2100多个经人工注释的多视角问题-答案对,全面评估MLLM在多视角场景中的表现。

2025-05-01 10:00:00 828

原创 中科院:通过内部表示优化LLM上下文利用

大语言模型(LLM)在生成过程中如何有效利用上下文信息,特别是在应对外部知识时的保真度不足?论文提出了一种上下文感知层增强(CaLE)的方法,通过对模型内部表示的上下文信息进行增强,以提高LLM在问答任务中的上下文保真性。

2025-05-01 08:00:00 358

原创 贝壳:通过强化学习提升音频推理

如何通过强化学习(RL)和课程学习来提升音频语言推理模型的能力?论文提出了一种基于课程引导的强化学习训练方案,显著提升了音频问答的推理性能,超越了传统的监督微调和之前的RL基线。

2025-04-30 10:00:00 905

原创 中科院:提前终止LLM深度思考

大规模推理语言模型(LRLM)在生成长链思维(CoT)时存在过度思考,如何提高推理的效率与准确性?论文提出了一种简单有效的方法DEER,允许LRLM在生成过程中自我截断链思维,通过动态判断何时提前退出推理,提升了模型的推理效率和准确性。

2025-04-30 08:00:00 312

原创 浙大:指导机制优化LLM偏好对齐

传统参考模型在直接偏好优化(DPO)中存在局限性,特别是如何利用指导参考模型提高数据利用率和模型性能。论文提出了一种新的训练范式Pre-DPO,通过使用指导参考模型来优化初始策略,从而提升现有偏好优化方法的性能,而无需依赖外部模型或额外数据。

2025-04-29 10:00:00 945

原创 华为:从网页数据中合成LLM训练指令

在没有人工注释的情况下,如何从原始网页数据中合成高质量的指令调优(IT)数据?论文提出了一种名为Web Reconstruction(WebR)的新框架,该框架能够高效地从原始网络文档合成IT数据,并在多个基准测试中显著超越现有的最先进方法。

2025-04-29 08:00:00 854

原创 复旦:多模态几何求解数据构建

在几何问题求解中高质量数据短缺。论文提出了一个名为TrustGeoGen的可扩展和形式验证的数据引擎,用于生成可信的多模态几何推理数据。

2025-04-28 10:00:00 1241

原创 USC:强化学习训练小型推理模型

如何以成本效益高的方式在小型语言模型中有效地训练推理能力?论文提出了Tina模型系列,通过LoRA和强化学习的结合,实现了在较低成本下的显著推理性能。

2025-04-28 08:00:00 390

原创 北大:LLM物理推理基准PHYBench

当前大语言模型(LLM)在复杂物理推理能力评估中存在不足。论文提出了名为PHYBench的基准,专门设计用于评估模型在物理上下文中的推理能力,并引入了新的评价指标EED Score。

2025-04-27 10:00:00 908

原创 清华:LLM测试时无监督在线学习

在测试阶段如何利用无标签数据进行强化学习(RL)以提升模型性能?论文提出了一种新的框架——测试时强化学习(TTRL),通过无监督的方式实现模型在测试数据上的自我演化和性能提升。

2025-04-27 08:00:00 725

原创 HKUST:合成数据训练LLM的缩放定律

如何通过合成数据的扩展来提升大语言模型(LLM)的性能,并探讨是否存在合成数据的缩放定律?论文首次系统性地研究和验证了合成数据的缩放规律,以及其在语言模型微调中的应用效果。

2025-04-26 10:00:00 402

原创 上海交大:推理驱动的多模态提示重写

视觉语言模型(VLM)在处理文本和图像交互时存在安全性问题,尤其是在动态需求下的快速迭代和适应能力。论文提出了一种名为VLMGuard-R1的框架,通过多模态推理驱动的提示重写方法,增强VLM的安全性,避免了对模型参数的直接调整,从而降低了计算成本和时间。

2025-04-26 08:00:00 738

原创 CMU:LLM蒸馏对抗保护产权

如何有效防止模型蒸馏攻击,以保护前沿模型的知识产权?论文提出了一种新的采样方法——抗蒸馏采样,旨在调整教师模型的采样分布,以增强对抗蒸馏攻击的能力。

2025-04-25 10:00:00 447

原创 UIUC:LLM工具学习奖励

大语言模型(LLM)在工具集成推理(TIR)任务中,如何有效学习和优化奖励策略?论文提出了一种针对TIR的奖励设计框架,并通过强化学习(RL)算法验证了其有效性,为未来的LLM代理训练提供了实证路线图。

2025-04-25 08:00:00 494

原创 北大:LLM指令微调互对齐框架

如何在指令调优中实现指令与响应之间的有效对齐,以提高大语言模型(LLM)的性能?论文提出了一个互对齐框架,通过迭代优化指令与响应的关系,显著提升了指令调优的效果。

2025-04-24 10:00:00 526

原创 OpenAI:agent网页信息获取基准

如何评估人工智能代理在浏览互联网时获取信息的能力,特别是面对复杂和难以找到信息的问题?论文提出了一个新的基准数据集BrowseComp,包含1266个具有挑战性的问题,旨在评估AI代理的浏览能力和信息获取的创造性。

2025-04-24 08:00:00 466

原创 阿里:LLM几何推理基准GeoSense

如何评估多模态大型语言模型(MLLM)在几何问题中的表现?论文提出了GeoSense这一首个综合性双语基准,系统评估MLLM在几何推理中的识别和应用几何原则的能力。

2025-04-23 10:00:00 610

原创 谷歌:预测LLM微调后的性能

如何可靠地预测大语言模型(LLM)在进行监督微调(SFT)后的表现?论文提出了新的预测代理(如PPL-SC和Kshot-RAG)以及学习比较(LTC)框架,从而显著提高了对微调结果的预测准确性。

2025-04-23 08:00:00 587

原创 英伟达:LLM预训练自动数据混合

如何在大规模预训练语言模型中优化数据混合,以有效平衡通用知识和领域专长? 论文提出了一种名为CLIMB的框架,通过迭代的数据混合优化,自动发现和优化数据混合,显著提高语言模型的性能。

2025-04-22 10:00:00 503

原创 中兴:为LLM选择难度适合的CoT数据

如何为大语言模型(LLM)生成合适难度的高质量链式思维(CoT)数据? 论文提出了一种新的方法,通过LLM适应性问题难度评级来构建高质量的CoT数据集,从而提高模型的推理能力。

2025-04-22 08:00:00 911

原创 北航:LLM基于聚类的专家剪枝

如何解决Mixture-of-Experts (MoE) 大语言模型(LLM)中的专家剪枝问题,以提高模型的效率和性能?论文提出了一种基于聚类的专家剪枝方法(C-PRUNE),有效减少了参数数量,同时保持了模型的任务特异性功能。

2025-04-21 10:00:00 526 1

原创 北大:LLM中文幻觉评测系统C-FAITH

如何自动构建和评估针对大语言模型(LLM)幻觉的高质量基准数据集?论文提出了HaluAgent,一个多代理系统,能够自动生成用于幻觉评估的问答数据集,并提供了C-FAITH,一个具有细粒度的中文幻觉评估基准。

2025-04-21 08:00:00 407

原创 中科院:LRM在简单问题上缺失快思考能力

如何评估大型推理模型(LRM)在简单任务上的系统1思维能力?论文提出了S1-Bench基准,专门用于评估LRM在简单问题上的表现,填补了现有研究的空白。

2025-04-20 10:00:00 354

原创 信通院:LLM推理验证器xVerify

如何有效评估大语言模型(LLM)对客观问题的回答正确性?论文提出了一种名为xVerify的高效答案验证器,专门用于评估LLM的推理模型输出。

2025-04-20 08:00:00 661

原创 上海人工智能实验室:LLM无监督自训练

如何在没有外部监督的情况下,增强大语言模型(LLM)的推理能力?论文提出了一种名为Genius的通用自我训练框架,该框架仅依赖于无监督查询来提升LLM的推理能力。

2025-04-19 10:00:00 779

原创 HKUST:LLM旅行规划中的时空感知评测

如何提升大语言模型(LLM)在旅行规划中的时空感知能力,以生成更高效、舒适和灵活的旅行计划?论文提出了一种新的评估基准TP-RAG,专注于查询特定的时空上下文化和轨迹级知识利用,以提高LLM在旅行规划中的表现。

2025-04-19 08:00:00 610

原创 英伟达:拓展LLM上下文长度

如何解决标准Transformer模型在处理超出训练上下文长度的序列时出现性能衰退?论文提出了一种新的SWAN架构,通过结合不同类型的注意力机制,实现了对长上下文的有效处理,而无需额外的长上下文特定训练。

2025-04-18 10:00:00 697

原创 AllenAI:LLM响应追溯到训练来源

如何将大语言模型(LLM)的输出追溯到其训练数据中的确切来源?论文提出了OLMOTRACE系统,能够实时跟踪LM输出与训练数据之间的逐字匹配,并展示相关文档,提高了对LLM行为的理解。

2025-04-18 08:00:00 310

原创 华科:强化学习提升多模态大模型感知

在视觉感知任务中,如何有效应用强化学习(RL)以提升多模态大语言模型(MLLM)的感知能力?论文提出了一种基于规则的强化学习框架Perception-R1,首次实现了在多个视觉感知任务中超越专家模型的性能。

2025-04-17 10:00:00 596

原创 UIUC:基于主动学习的LLM弱到强框架

在教师和学生模型之间存在显著能力差距时,如何有效地进行监督和知识转移?论文提出了一种名为Alice的主动学习框架,通过教师的示范和不确定性表达,促进学生模型在弱到强的泛化过程中生成更高质量的训练数据。

2025-04-17 08:00:00 659

原创 清华:LLM微调过程中动态选择指令

如何在大语言模型(LLM)的微调过程中动态选择最有效的指令,以最大化模型性能?论文提出了一种名为RAISE的动态指令选择框架,通过任务目标驱动的获取函数和多样性约束机制,显著提升了模型在特定任务上的性能。

2025-04-16 10:00:00 631

原创 中科大:多模态视频理解基准VCR-Bench

当前视频理解领域缺乏有效的评估工具来衡量视频的链式思维(CoT)推理能力。论文提出了VCR-Bench,一个专门用于评估大型视觉语言模型(LVLM)在视频链式思维推理中的表现的基准框架。

2025-04-16 08:00:00 924

原创 MIT:LLM元推理框架DISCIPL

在大语言模型(LLM)生成过程中,如何高效并准确地满足复杂约束条件?论文提出了一种新的元推理框架DISCIPL,使语言模型能够动态生成推理程序,从而提高生成文本的准确性和流畅性。

2025-04-15 10:00:00 527

原创 腾讯:强化学习优化大模型视频理解

如何评估多模态大语言模型(MLLM)在视频理解任务中的后训练有效性?🔸主要贡献:论文提出了SEED-Bench-R1基准,系统评估强化学习(RL)与监督微调(SFT)在视频理解中的表现,展示了RL的优越性和未来研究方向。

2025-04-15 08:00:00 1065

原创 人大:LLM在法律领域的三段论推理

大语言模型(LLM)在法律领域中缺乏显式三段论推理能力。论文提出了SyLeR框架,使LLM能够进行显式的三段论法律推理,提高了法律问答的准确性和可信度。

2025-04-14 10:00:00 468

原创 微软:LLM推理一致性评估

大语言模型(LLM)在推理任务中如何评估其推理一致性?论文提出了一种新的度量标准“推理一致性”,用于评估AI系统在推理过程中依据其中间步骤的有效性。

2025-04-14 08:00:00 1524

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除