📖标题:Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
🌐来源:arXiv, 2408.07666
摘要
🔸模型合并是机器学习社区中一种高效的增强技术,不需要收集原始训练数据,也不需要昂贵的计算。随着模型合并在各个领域中越来越普及,全面了解可用的模型合并技术变得至关重要。然而,目前文献中存在一个重要的差距,即缺乏对这些技术进行系统和全面审查的论述。
🔸本文综述了模型合并方法和理论的全面概述,以及它们在各种领域和环境中的应用和未来研究方向。具体而言,我们首先提出了一种新的分类方法,详尽地讨论了现有的模型合并方法。其次,我们讨论了模型合并技术在大型语言模型、多模态大型语言模型以及包括持续学习、多任务学习、少样本学习等在内的10多个机器学习子领域中的应用。最后,我们强调了模型合并面临的剩余挑战,并讨论了未来的研究方向。
🔸关于模型合并的全面论文列表可在 https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications上找到。
🛎️文章简介
🔸研究问题:现有文献缺乏对模型合并技术系统和彻底的审查。
🔸主要贡献:论文提出了一种新的模型合并方法分类体系,详细讨论了模型合并的理论和应用,并指出了未来的研究方向和挑战。
📝模型合并方法分类
🔺预合并:旨在为合并创造更好的条件。
🔸用线性化微调实现权重空间和输入空间解耦。
🔸执行架构转换,将异构模型转换为同构模型。
🔸对齐权重,将它们放在同一个池中。
🔺过程合并:侧重于设计复杂的技术将多个模型合并为一个
🔸基本合并方法,执行最简单的参数合并策略。
🔸加权合并方法,根据特定规则计算的重要性来合并多个模型。
🔸子空间合并方法,将多个模型投影到稀疏子空间中进行合并。
🔸基于路由的方法,在推理过程中根据输入样本动态合并模型。
🔸基于后校准的方法来校正合并模型。
🔎从模型合并中受益的应用
🔸可以应用于多种基础模型,包括大语言模型、多模态大语言模型和图像生成模型。
🔸不同的机器学习子领域,包括持续学习、多任务/多领域学习、小样本学习等子领域。
💡挑战和未来机遇
🔸随着任务数量的增加,现有方法和独立专家模型之间的性能差距变得显著增大。
🔸当前的模型合并方法在合并过程中会产生巨大的内存成本,并且缺乏信任保证以及深入的理论分析。