LLM arxiv每日论文

LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems

论文链接https://arxiv.org/pdf/2511.19368v1

核心问题:多Agent强化学习(MARL)在移动系统中因Agent同步更新导致非平稳性,引发训练不稳定、政策收敛差等问题,随Agent数量增加而加剧。

主要方法:提出RELED框架,整合LLM驱动的专家演示与自主Agent探索。包含①Stationarity-Aware Expert Demonstration模块(利用非平稳性边界增强LLM生成的高奖励、训练稳定的轨迹);②Hybrid Expert-Agent Policy Optimization模块(自适应平衡Agent对专家生成与自主探索轨迹的学习)。

关键结果:在基于OpenStreetMap的真实城市网络实验中,性能显著优于最先进的MARL方法。

研究意义:通过LLM增强专家演示质量,解决了MARL的非平稳性难题,提升了移动系统中多Agent的训练稳定性与收敛效率。

Leveraging LLMs for reward function design in reinforcement learning control tasks

论文链接https://arxiv.org/pdf/2511.19355v1

核心问题:强化学习(RL)中奖励函数设计依赖大量人类专业知识,现有方法需初步评估指标或环境源代码,限制了通用性与自动化程度。

主要方法:提出LEARN-Opt框架,基于LLM实现全自主的奖励函数生成、执行与评估。从系统描述与任务目标中自动推导性能指标,无需初步指标或环境代码;通过LLM生成奖励函数候选,结合环境反馈优化。

关键结果:性能媲美或优于EUREKA等state-of-the-art方法,且低-cost LLMs能找到优于大模型的高绩效奖励函数。

研究意义:实现了奖励函数的自动化设计,减少人类参与,提升了RL在控制任务中的通用性与效率。

Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning

论文链接https://arxiv.org/pdf/2511.19343v1

核心问题:现有GRPO方法依赖低质量数据,样本无法引发多模态LLM(MLLM)的多样化响应,限制了RL训练的探索范围。

主要方法:提出Syn-GRPO框架,引入在线数据生成器在GRPO训练中合成高质量、多样化训练数据。包含①数据服务器(异步生成新样本,提升效率);②GRPO工作流(用多样性奖励引导MLLM生成图像描述,确保样本多样性)。

关键结果:在三个视觉感知任务中,数据质量大幅提升,性能显著优于现有MLLM感知方法。

研究意义:从数据根源解决了MLLM RL训练的多样性问题,提升了感知推理能力,为长周期自进化RL提供了基础。

Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces

论文链接https://arxiv.org/pdf/2511.19333v1

核心问题:如何利用大模型生成的推理轨迹,训练中小LLM的复杂推理能力,比较不同大模型(如GPT-OSS与DeepSeek R1)生成轨迹的效果。

主要方法:用DeepSeek R1与GPT-OSS生成数学问题的推理轨迹,作为监督数据训练中小LLM(如LSTM、BanglaT5-small),评估准确性与推理效率。

关键结果:比较了不同大模型轨迹的训练效果,为中小LLM的推理训练提供了基准。

研究意义:探索了用大模型轨迹训练小模型推理能力的方法,为小模型的推理性能提升提供了参考。

Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval

论文链接https://arxiv.org/pdf/2511.19325v1

核心问题:跨语言信息检索(CLIR)中,短查询与长文档的语义差距大,现有方法依赖翻译或词汇扩展,效果有限。

主要方法:用多语言LLM(mLLMs)生成伪文档进行查询扩展,比较不同mLLMs与微调变体的效果,评估生成式扩展策略对CLIR性能的影响。

关键结果:查询长度决定了提示策略的有效性,复杂提示未带来额外增益;跨脚本语言的检索性能仍较差。

研究意义:证明了mLLM生成式扩展在CLIR中的有效性,为跨语言检索的查询优化提供了新方向。

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models

论文链接https://arxiv.org/pdf/2511.19324v1

核心问题:跨语言信息检索中,现有方法依赖翻译或单语检索,存在资源依赖与语义对齐问题,性能受限。

主要方法:系统评估四种干预类型(文档翻译、多语言dense检索、对比学习、交叉编码器重排序),比较不同方法在CLIR中的性能。

关键结果:CLIR专用dense检索模型优于词汇匹配,对比学习缓解了语言偏见;跨编码器重排序效果依赖训练数据质量。

研究意义:揭示了多语言语义嵌入与对齐在CLIR中的关键作用,为跨语言检索系统设计提供了指导。

PRInTS: Reward Modeling for Long-Horizon Information Seeking

论文链接https://arxiv.org/pdf/2511.19314v1

核心问题:现有过程奖励模型(PRM)无法处理长horizon信息寻求任务的多维度步骤质量与增长的上下文,导致Agent性能受限。

主要方法:提出PRInTS生成式PRM,具备①密集评分(基于多维度步骤质量,如工具输出解释、工具调用信息性);②轨迹总结(压缩上下文,保留关键信息)。

关键结果:在FRAMES、GAIA等基准测试中,提升了开源模型与专用Agent的信息寻求能力,匹配或超过frontier模型。

研究意义:解决了长horizon信息寻求的奖励建模难题,提升了Agent的多步骤推理与信息整合能力。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值