东北大学:LLM模型合并技术综述

在这里插入图片描述

📖标题:Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
🌐来源:arXiv, 2408.07666

摘要

🔸模型合并是机器学习社区中一种高效的增强技术,不需要收集原始训练数据,也不需要昂贵的计算。随着模型合并在各个领域中越来越普及,全面了解可用的模型合并技术变得至关重要。然而,目前文献中存在一个重要的差距,即缺乏对这些技术进行系统和全面审查的论述。
🔸本文综述了模型合并方法和理论的全面概述,以及它们在各种领域和环境中的应用和未来研究方向。具体而言,我们首先提出了一种新的分类方法,详尽地讨论了现有的模型合并方法。其次,我们讨论了模型合并技术在大型语言模型、多模态大型语言模型以及包括持续学习、多任务学习、少样本学习等在内的10多个机器学习子领域中的应用。最后,我们强调了模型合并面临的剩余挑战,并讨论了未来的研究方向。
🔸关于模型合并的全面论文列表可在 https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications上找到。

🛎️文章简介

🔸研究问题:现有文献缺乏对模型合并技术系统和彻底的审查。
🔸主要贡献:论文提出了一种新的模型合并方法分类体系,详细讨论了模型合并的理论和应用,并指出了未来的研究方向和挑战。

📝模型合并方法分类

🔺预合并:旨在为合并创造更好的条件。

🔸用线性化微调实现权重空间和输入空间解耦。
🔸执行架构转换,将异构模型转换为同构模型。
🔸对齐权重,将它们放在同一个池中。

🔺过程合并:侧重于设计复杂的技术将多个模型合并为一个

🔸基本合并方法,执行最简单的参数合并策略。
🔸加权合并方法,根据特定规则计算的重要性来合并多个模型。
🔸子空间合并方法,将多个模型投影到稀疏子空间中进行合并。
🔸基于路由的方法,在推理过程中根据输入样本动态合并模型。
🔸基于后校准的方法来校正合并模型。

🔎从模型合并中受益的应用

🔸可以应用于多种基础模型,包括大语言模型、多模态大语言模型和图像生成模型。
🔸不同的机器学习子领域,包括持续学习、多任务/多领域学习、小样本学习等子领域。

💡挑战和未来机遇

🔸随着任务数量的增加,现有方法和独立专家模型之间的性能差距变得显著增大。
🔸当前的模型合并方法在合并过程中会产生巨大的内存成本,并且缺乏信任保证以及深入的理论分析。

附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值