LLM arxiv每日论文

原创于 2025-11-26 08:29:02 发布 · 402 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems

论文链接：https://arxiv.org/pdf/2511.19368v1

核心问题：多Agent强化学习（MARL）在移动系统中因Agent同步更新导致非平稳性，引发训练不稳定、政策收敛差等问题，随Agent数量增加而加剧。

主要方法：提出RELED框架，整合LLM驱动的专家演示与自主Agent探索。包含①Stationarity-Aware Expert Demonstration模块（利用非平稳性边界增强LLM生成的高奖励、训练稳定的轨迹）；②Hybrid Expert-Agent Policy Optimization模块（自适应平衡Agent对专家生成与自主探索轨迹的学习）。

关键结果：在基于OpenStreetMap的真实城市网络实验中，性能显著优于最先进的MARL方法。

研究意义：通过LLM增强专家演示质量，解决了MARL的非平稳性难题，提升了移动系统中多Agent的训练稳定性与收敛效率。

Leveraging LLMs for reward function design in reinforcement learning control tasks

论文链接：https://arxiv.org/pdf/2511.19355v1

核心问题：强化学习（RL）中奖励函数设计依赖大量人类专业知识，现有方法需初步评估指标或环境源代码，限制了通用性与自动化程度。

主要方法：提出LEARN-Opt框架，基于LLM实现全自主的奖励函数生成、执行与评估。从系统描述与任务目标中自动推导性能指标，无需初步指标或环境代码；通过LLM生成奖励函数候选，结合环境反馈优化。

关键结果：性能媲美或优于EUREKA等state-of-the-art方法，且低-cost LLMs能找到优于大模型的高绩效奖励函数。

研究意义：实现了奖励函数的自动化设计，减少人类参与，提升了RL在控制任务中的通用性与效率。

Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning

论文链接：https://arxiv.org/pdf/2511.19343v1

核心问题：现有GRPO方法依赖低质量数据，样本无法引发多模态LLM（MLLM）的多样化响应，限制了RL训练的探索范围。

主要方法：提出Syn-GRPO框架，引入在线数据生成器在GRPO训练中合成高质量、多样化训练数据。包含①数据服务器（异步生成新样本，提升效率）；②GRPO工作流（用多样性奖励引导MLLM生成图像描述，确保样本多样性）。

关键结果：在三个视觉感知任务中，数据质量大幅提升，性能显著优于现有MLLM感知方法。

研究意义：从数据根源解决了MLLM RL训练的多样性问题，提升了感知推理能力，为长周期自进化RL提供了基础。

Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces

论文链接：https://arxiv.org/pdf/2511.19333v1

核心问题：如何利用大模型生成的推理轨迹，训练中小LLM的复杂推理能力，比较不同大模型（如GPT-OSS与DeepSeek R1）生成轨迹的效果。

主要方法：用DeepSeek R1与GPT-OSS生成数学问题的推理轨迹，作为监督数据训练中小LLM（如LSTM、BanglaT5-small），评估准确性与推理效率。

关键结果：比较了不同大模型轨迹的训练效果，为中小LLM的推理训练提供了基准。

研究意义：探索了用大模型轨迹训练小模型推理能力的方法，为小模型的推理性能提升提供了参考。

Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval

论文链接：https://arxiv.org/pdf/2511.19325v1

核心问题：跨语言信息检索（CLIR）中，短查询与长文档的语义差距大，现有方法依赖翻译或词汇扩展，效果有限。

主要方法：用多语言LLM（mLLMs）生成伪文档进行查询扩展，比较不同mLLMs与微调变体的效果，评估生成式扩展策略对CLIR性能的影响。

关键结果：查询长度决定了提示策略的有效性，复杂提示未带来额外增益；跨脚本语言的检索性能仍较差。

研究意义：证明了mLLM生成式扩展在CLIR中的有效性，为跨语言检索的查询优化提供了新方向。

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models

论文链接：https://arxiv.org/pdf/2511.19324v1

核心问题：跨语言信息检索中，现有方法依赖翻译或单语检索，存在资源依赖与语义对齐问题，性能受限。

主要方法：系统评估四种干预类型（文档翻译、多语言dense检索、对比学习、交叉编码器重排序），比较不同方法在CLIR中的性能。

关键结果：CLIR专用dense检索模型优于词汇匹配，对比学习缓解了语言偏见；跨编码器重排序效果依赖训练数据质量。

研究意义：揭示了多语言语义嵌入与对齐在CLIR中的关键作用，为跨语言检索系统设计提供了指导。

PRInTS: Reward Modeling for Long-Horizon Information Seeking

论文链接：https://arxiv.org/pdf/2511.19314v1

核心问题：现有过程奖励模型（PRM）无法处理长horizon信息寻求任务的多维度步骤质量与增长的上下文，导致Agent性能受限。

主要方法：提出PRInTS生成式PRM，具备①密集评分（基于多维度步骤质量，如工具输出解释、工具调用信息性）；②轨迹总结（压缩上下文，保留关键信息）。

关键结果：在FRAMES、GAIA等基准测试中，提升了开源模型与专用Agent的信息寻求能力，匹配或超过frontier模型。

研究意义：解决了长horizon信息寻求的奖励建模难题，提升了Agent的多步骤推理与信息整合能力。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。