MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Model svia Dynamic Expert Skipping
论文链接:https://arxiv.org/pdf/2511.15690v1
核心问题:MoE多模态LLM推理效率低,现有专家跳过方法未考虑层间专家异质性和模态特异性,导致性能下降。
主要方法:提出MoDES框架,包含全局调制局部门控(GMLG,整合层重要性到路由概率)、双模态阈值(DMT,分模态处理token),及frontier搜索算法优化阈值。
关键结果:对Qwen3-VL-MoE-30B-A3B-Instruct,跳过88%专家时性能提升10.67%;
研究意义:首次实现训练-free的MoEMLLM高效推理,平衡效率与性能,为多模态大模型的实际部署提供技术支撑。
总结:针对MoE多模态LLM推理效率与性能的矛盾,本文提出MoDES框架,通过动态跳过冗余专家解决现有方法的性能下降问题。实验显示,该方法在大幅提升推理速度的同时,显著改善模型性能,为多模态大模型的高效推理提供了新路径。
DuoZone: AUser-Centric, LLM-Guided Mixed-Initiative XR Window Management System
论文链接:https://arxiv.org/pdf/2511.15676v1
核心问题:XR环境下手动管理多窗口认知负担重,影响生产力,现有系统未充分结合用户意图与LLM的自动化能力。
主要方法:设计DuoZone系统,分为推荐区(LLM生成布局模板、推荐应用)和布置区(用户直接调整窗口),结合混合主动性(用户与LLM协同)。
关键结果:用户研究显示,任务完成速度提升,mentaleffort减少,对系统的控制感增强。
研究意义:将LLM与XR窗口管理结合,为混合主动性系统设计提供范例,推动空间计算的人性化发展。
总结:针对XR环境中窗口管理的认知负担问题,本文提出DuoZone系统,通过混合主动性设计让用户与LLM协同管理窗口——LLM提供智能推荐,用户进行精准调整。实验表明,该系统提升了任务效率,降低了心理负担,为XR空间中的人机协同提供了新的解决方案。
VisPlay: Self-Evolving Vision-Language Models from Images
论文链接:https://arxiv.org/pdf/2511.15661v1
核心问题:现有RL方法改进VLM依赖人工标注或启发式奖励,难以扩展,且易产生幻觉。
主要方法:提出VisPlay框架,让VLM扮演“图像条件提问者”(生成视觉问题)和“多模态推理者”(生成答案),通过GroupRelativePolicyOptimization(GRPO)联合训练,引入多样性与难度奖励。
关键结果:在Qwen2.5-VL和MiMo-VL上,MM-Vet、MMMU等基准的推理能力、compositionalgeneralization提升,幻觉减少。
研究意义:实现VLM的自进化,为多模态智能的可扩展发展提供路径。
总结:针对VLM改进的标注成本与扩展性问题,本文提出VisPlay自进化框架,让VLM通过自我交互生成训练数据并优化推理能力。实验验证了框架在视觉推理、泛化能力和幻觉抑制上的提升,为多模态大模型的自主进化提供了新方法。
LLM-Mem Cluster: Empowering Large Language Models with Dynamic Memory for Text Clustering
论文链接:https://arxiv.org/pdf/2511.15424v1
核心问题:LLM直接用于文本聚类的限制:缺乏状态记忆、难以管理聚类粒度,依赖外部模块。
主要方法:提出LLM-MemCluster框架,引入DynamicMemory(保存聚类状态)和Dual-PromptStrategy(让LLM自主确定聚类数)。
关键结果:调优-free的情况下,在多个基准数据集上显著超过现有LLM聚类方法。
研究意义:实现LLM原生的端到端文本聚类,为无监督学习提供新范式。
总结:针对LLM聚类的状态缺失与粒度控制问题,本文提出LLM-MemCluster框架,通过动态记忆保存聚类状态,让LLM自主推理聚类数量。实验表明,该框架在无需调优的情况下超越现有方法,为LLM的无监督文本聚类提供了端到端的解决方案。
DEPO: Dual-Efficiency Preference Optimization for LLM Agents
论文链接:https://arxiv.org/pdf/2511.15392v1
核心问题:LLMAgent的推理链过长,交互效率低,缺乏系统的效率定义与优化方法。
主要方法:定义dual-efficiency(step-level:减少每步token;trajectory-level:减少步骤数),提出DEPO框架通过偏好优化奖励简洁响应与少步骤。
关键结果:在WebShop和BabyAI上,token使用减少60.9%,步骤减少26.9%,性能提升29.3%。
研究意义:为LLMAgent的效率优化提供系统方法,推动Agent的实际应用。
总结:针对LLMAgent的效率问题,本文提出DEPO框架,通过双效率定义与偏好优化,让Agent生成更简洁、步骤更少的推理链。实验验证了框架在效率与性能上的提升,为Agent的轻量化部署提供了技术支撑。
Auto Prune: Breaking Expert Knowledge Limits for Large Language Models
论文链接:https://arxiv.org/pdf/2511.15390v1
核心问题:现有LLM剪枝依赖手动设计,需要专家知识,高剪枝率下因outliers导致性能下降。
主要方法:提出AutoPrune框架,用LLM自动设计剪枝算法(通过Graph-drivenChain-of-Thought优化prompt),并引入Skew-awareDynamicSparsityAllocation(SDSA)解决outlier问题。
关键结果:在多个LLM基准上超过SOTA剪枝方法,高剪枝率下性能损失小。
研究意义:实现LLM的自剪枝,突破专家知识限制,为模型压缩提供自动化方案。
总结:针对LLM剪枝的专家依赖与性能下降问题,本文提出AutoPrune框架,让LLM自主设计剪枝算法,并通过SDSA处理outlier。实验表明,该框架在高剪枝率下仍保持性能,为LLM的自动化压缩提供了新路径。
SOLID: Synergizing Optimization and LLMs for Intelligent Decision-Making
论文链接:https://arxiv.org/pdf/2511.15202v1
核心问题:数学优化与LLM的协同不足,难以平衡决策质量与模块化、数据隐私。
主要方法:提出SOLID框架,让优化算法与LLMAgent通过双价格(dualprices)和偏差惩罚(deviationpenalties)迭代协作,保持凸性下的收敛性。
关键结果:在股票投资案例中,年化收益超过优化-only基线,验证了协同效果。
研究意义:为优化与LLM的协同决策提供框架,推动智能决策的跨领域应用。
总结:针对优化与LLM的协同问题,本文提出SOLID框架,通过迭代协作让两者优势互补——优化提供数学严谨性,LLM提供上下文理解。实验表明,该框架在股票投资中提升了收益,为智能决策的跨领域应用提供了新范式。
When to Think and When to Look: Uncertainty-Guided Lookback
论文链接:https://arxiv.org/pdf/2511.15613v1
核心问题:LVLMs的test-timethinking(生成推理链)有时因长链忽略图像,导致性能下降,现有方法未充分利用不确定性信号。
主要方法:提出不确定性引导的lookback策略,结合不确定性信号、自适应lookback提示和广度搜索,让模型在推理时主动回顾图像。
关键结果:MMMU基准性能提升,在标准thinking弱的类别(如数学)增益更大,超过多个基线。
研究意义:改进LVLMs的视觉推理能力,为test-time策略设计提供新方向。
总结:针对LVLMs推理时忽略图像的问题,本文提出不确定性引导的lookback策略,让模型根据不确定性主动回顾图像。实验显示,该策略提升了视觉推理性能,尤其是在数学等复杂任务中,为LVLMs的test-time优化提供了新方法。
AVATAAR: Agentic Video Answer in gvia Temporal Adaptive Alignment and Reasoning
论文链接:https://arxiv.org/pdf/2511.15578v1
核心问题:长视频QA中LVLMs难以处理nuanced查询,需要综合全局与局部上下文,现有方法缺乏迭代推理。
主要方法:提出AVATAAR框架,包含全局摘要(PersistentGlobalSummary)、PreRetrievalThinkingAgent(优化检索策略)和RethinkModule(反馈循环优化答案)。
关键结果:CinePile基准上,temporal推理(+5.6%)、技术查询(+5%)、主题理解(+8%)等指标提升。
研究意义:为长视频QA提供模块化、可解释的框架,推动视频理解的实际应用。
总结:针对长视频QA的上下文整合与迭代推理问题,本文提出AVATAAR框架,通过全局摘要、检索优化和反馈循环提升视频理解能力。实验验证了框架在多个任务上的提升,为长视频QA的实际应用提供了有效方案。
Game Master LLM: Task-Based Role-Playing for Natural Slang Learning
论文链接:https://arxiv.org/pdf/2511.15504v1
核心问题:二语学习者难以习得和使用日常俚语,尽管正式proficiency强,现有方法缺乏沉浸式场景。
主要方法:设计LLM驱动的角色扮演游戏,GPT-4o作为GameMaster引导学习者通过三阶段叙事(选择俚语、对话练习、反馈)学习。
关键结果:RPG组在俚语理解与使用上的增益大于传统虚拟教室组,参与度更高。
研究意义:将LLM与游戏化学习结合,为二语俚语习得提供沉浸式方案。
总结:针对二语俚语习得的场景缺失问题,本文提出LLM驱动的角色扮演游戏,让学习者在沉浸式对话中练习俚语。实验表明,该方法提升了俚语的理解与使用能力,为二语习得的游戏化设计提供了新范例。
CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
论文链接:https://arxiv.org/pdf/2511.15443v1
核心问题:短视频搜索的denseretrieval受filterbubble影响,训练信号单一(仅用户交互),导致检索性能下降。
主要方法:提出CroPS框架,从查询重构(用户修改查询)、推荐流(系统推荐的视频)、LLM知识(世界知识)三个视角引入正样本,用HierarchicalLabelAssignment(HLA)和H-InfoNCE损失整合。
关键结果:KuaishouSearch上离线和A/B测试提升,查询重构率减少。
研究意义:为商业短视频搜索提供有效方法,服务亿级用户。
总结:针对短视频检索的filterbubble问题,本文提出CroPS框架,从多视角引入正样本丰富训练信号。实验表明,该框架提升了检索性能,减少了用户的查询重构,为商业短视频平台的搜索优化提供了新方案。
HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation
论文链接:https://arxiv.org/pdf/2511.15435v1
核心问题:MRAG系统易受知识poisoning攻击,但视觉攻击(仅修改用户图像)未被充分研究,挑战在于retriever与generator的鲁棒性。
主要方法:提出HV-Attack框架,通过分层两阶段策略(破坏跨模态对齐→破坏语义对齐)让retriever召回无关知识,干扰generator。
关键结果:CLIPretriever的检索性能下降,BLIP-2、LLaVA的生成性能降低。
研究意义:揭示MRAG的视觉攻击脆弱性,为防御设计提供依据。
总结:针对MRAG的视觉攻击空白,本文提出HV-Attack框架,通过破坏图像与文本的对齐让retriever召回无关知识。实验验证了框架的有效性,揭示了MRAG的视觉脆弱性,为防御策略的设计提供了重要依据。
Small Language Models for Phishing Website Detection: Cost, Performance, and Privacy Trade-Offs
论文链接:https://arxiv.org/pdf/2511.15434v1
核心问题:传统钓鱼检测需要大量特征工程和维护,proprietaryLLM成本高、依赖外部provider,SLM的性能与成本权衡未知。
主要方法:评估15个SLM(1B-70B参数),用rawHTML检测钓鱼网站,分析性能、成本、隐私的权衡。
关键结果:SLM虽不如proprietaryLLM,但提供可行的本地部署方案,平衡性能与成本。
研究意义:为钓鱼检测提供SLM替代方案,降低部署成本与隐私风险。
总结:针对钓鱼检测的成本与隐私问题,本文评估了15个SLM的性能,发现SLM虽不如proprietaryLLM,但能本地部署、成本更低。实验为钓鱼检测的SLM应用提供了依据,为中小企业的安全部署提供了经济方案。
Parameter Importance-Driven Continual Learning for Foundation Models
论文链接:https://arxiv.org/pdf/2511.15375v1
核心问题:领域特定后训练导致LLM灾难性遗忘,传统持续学习方法依赖历史数据、额外参数,或下游性能差。
主要方法:提出PIECE框架,基于Fisher信息和二阶归一化估计参数重要性,仅更新0.1%的核心参数。
关键结果:保持通用能力,在多个下游任务上超过SOTA持续学习方法。
研究意义:实现LLM的无遗忘领域适应,为基础模型的动态更新提供方案。
总结:针对LLM的灾难性遗忘问题,本文提出PIECE框架,通过参数重要性估计仅更新核心参数,避免遗忘通用能力。实验表明,该框架在保持通用能力的同时,提升了下游任务性能,为基础模型的动态更新提供了新方法。
EntroPIC: Towards StableLong-Term Training of LLM svia Entropy Stabilization with Proportional-Integral Control
论文链接:https://arxiv.org/pdf/2511.15248v1
核心问题:LLM长期训练中,熵控制困难(正负样本影响不同),导致过早收敛到次优解。
主要方法:提出EntroPIC方法,用比例积分(PI)控制动态调整正负样本的损失系数,稳定熵。
关键结果:保持熵水平,稳定RL训练,避免过早收敛。
研究意义:为LLM的长期稳定训练提供控制方法,推动模型的持续进化。
总结:针对LLM长期训练的熵不稳定问题,本文提出EntroPIC方法,通过PI控制动态调整损失系数,稳定熵水平。实验验证了框架在保持训练稳定性上的效果,为LLM的长期进化提供了技术支撑。
Context Cascade Compression: Exploring the Upper Limits of Text Compression
论文链接:https://arxiv.org/pdf/2511.15244v1
核心问题:长上下文LLM的计算与内存挑战,现有压缩方法(如DeepSeek-OCR)性能低(60%准确率)。
主要方法:提出C3框架,级联小LLM(压缩长上下文为latenttokens)和大LLM(解码latenttokens),实现高压缩比。
关键结果:20x压缩比时解码准确率98%,40x时93%,远超DeepSeek-OCR。
研究意义:探索文本压缩的上限,为长上下文LLM的部署提供纯文本方案。
总结:针对长上下文LLM的压缩问题,本文提出C3框架,通过小LLM压缩、大LLM解码实现高准确率的文本压缩。实验表明,该框架在20x压缩比下仍保持98%的准确率,为长上下文LLM的轻量化部署提供了新方案。
OEMA: Ontology-Enhanced Multi-Agent Collaboration Framework for Zero-Shot Clinical Named Entity Recognition
论文链接:https://arxiv.org/pdf/2511.15211v1
核心问题:临床NER的监督模型需要costly标注,zero-shotNER的LLM方法存在示例选择与prompt整合问题。
主要方法:提出OEMA框架,多Agent协作:self-annotator生成示例,discriminator用SNOMEDCT过滤,predictor用实体描述推理。
关键结果:MTSamples和VAERS上精确匹配性能SOTA,接近监督模型(如BioClinicalBERT)。
研究意义:为零样本临床NER提供本体引导的多Agent方案,降低标注成本。
总结:针对临床NER的标注成本问题,本文提出OEMA框架,通过多Agent协作和本体过滤生成高质量示例,实现零样本NER。实验表明,该框架的性能接近监督模型,为临床NLP的低成本应用提供了有效方案。
多篇LLM前沿论文速览
1006

被折叠的 条评论
为什么被折叠?



