LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems
论文链接:https://arxiv.org/pdf/2511.19368v1
核心问题:多Agent强化学习(MARL)在移动系统中因Agent同步更新导致非平稳性,引发训练不稳定、政策收敛差等问题,随Agent数量增加而加剧。
主要方法:提出RELED框架,整合LLM驱动的专家演示与自主Agent探索。包含①Stationarity-Aware Expert Demonstration模块(利用非平稳性边界增强LLM生成的高奖励、训练稳定的轨迹);②Hybrid Expert-Agent Policy Optimization模块(自适应平衡Agent对专家生成与自主探索轨迹的学习)。
关键结果:在基于OpenStreetMap的真实城市网络实验中,性能显著优于最先进的MARL方法。
研究意义:通过LLM增强专家演示质量,解决了MARL的非平稳性难题,提升了移动系统中多Agent的训练稳定性与收敛效率。
Leveraging LLMs for reward function design in reinforcement learning control tasks
论文链接:https://arxiv.org/pdf/2511.19355v1
核心问题:强化学习(RL)中奖励函数设计依赖大量人类专业知识,现有方法需初步评估指标或环境源代码,限制了通用性与自动化程度。
主要方法:提出LEARN-Opt框架,基于LLM实现全自主的奖励函数生成、执行与评估。从系统描述与任务目标中自动推导性能指标,无需初步指标或环境代码;通过LLM生成奖励函数候选,结合环境反馈优化。
关键结果:性能媲美或优于EUREKA等state-of-the-art方法,且低-cost LLMs能找到优于大模型的高绩效奖励函数。
研究意义:实现了奖励函数的自动化设计,减少人类参与,提升了RL在控制任务中的通用性与效率。
Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning
论文链接:https://arxiv.org/pdf/2511.19343v1
核心问题:现有GRPO方法依赖低质量数据,样本无法引发多模态LLM(MLLM)的多样化响应,限制了RL训练的探索范围。
主要方法:提出Syn-GRPO框架,引入在线数据生成器在GRPO训练中合成高质量、多样化训练数据。包含①数据服务器(异步生成新样本,提升效率);②GRPO工作流(用多样性奖励引导MLLM生成图像描述,确保样本多样性)。
关键结果:在三个视觉感知任务中,数据质量大幅提升,性能显著优于现有MLLM感知方法。
研究意义:从数据根源解决了MLLM RL训练的多样性问题,提升了感知推理能力,为长周期自进化RL提供了基础。
Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces
论文链接:https://arxiv.org/pdf/2511.19333v1
核心问题:如何利用大模型生成的推理轨迹,训练中小LLM的复杂推理能力,比较不同大模型(如GPT-OSS与DeepSeek R1)生成轨迹的效果。
主要方法:用DeepSeek R1与GPT-OSS生成数学问题的推理轨迹,作为监督数据训练中小LLM(如LSTM、BanglaT5-small),评估准确性与推理效率。
关键结果:比较了不同大模型轨迹的训练效果,为中小LLM的推理训练提供了基准。
研究意义:探索了用大模型轨迹训练小模型推理能力的方法,为小模型的推理性能提升提供了参考。
Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval
论文链接:https://arxiv.org/pdf/2511.19325v1
核心问题:跨语言信息检索(CLIR)中,短查询与长文档的语义差距大,现有方法依赖翻译或词汇扩展,效果有限。
主要方法:用多语言LLM(mLLMs)生成伪文档进行查询扩展,比较不同mLLMs与微调变体的效果,评估生成式扩展策略对CLIR性能的影响。
关键结果:查询长度决定了提示策略的有效性,复杂提示未带来额外增益;跨脚本语言的检索性能仍较差。
研究意义:证明了mLLM生成式扩展在CLIR中的有效性,为跨语言检索的查询优化提供了新方向。
What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models
论文链接:https://arxiv.org/pdf/2511.19324v1
核心问题:跨语言信息检索中,现有方法依赖翻译或单语检索,存在资源依赖与语义对齐问题,性能受限。
主要方法:系统评估四种干预类型(文档翻译、多语言dense检索、对比学习、交叉编码器重排序),比较不同方法在CLIR中的性能。
关键结果:CLIR专用dense检索模型优于词汇匹配,对比学习缓解了语言偏见;跨编码器重排序效果依赖训练数据质量。
研究意义:揭示了多语言语义嵌入与对齐在CLIR中的关键作用,为跨语言检索系统设计提供了指导。
PRInTS: Reward Modeling for Long-Horizon Information Seeking
论文链接:https://arxiv.org/pdf/2511.19314v1
核心问题:现有过程奖励模型(PRM)无法处理长horizon信息寻求任务的多维度步骤质量与增长的上下文,导致Agent性能受限。
主要方法:提出PRInTS生成式PRM,具备①密集评分(基于多维度步骤质量,如工具输出解释、工具调用信息性);②轨迹总结(压缩上下文,保留关键信息)。
关键结果:在FRAMES、GAIA等基准测试中,提升了开源模型与专用Agent的信息寻求能力,匹配或超过frontier模型。
研究意义:解决了长horizon信息寻求的奖励建模难题,提升了Agent的多步骤推理与信息整合能力。
670

被折叠的 条评论
为什么被折叠?



