Transformer作者都在抢着发的方向！模型融合！分高不卷！

Python编程杰哥

于 2024-10-20 10:45:00 发布

阅读量1.1k

点赞数 27

文章标签： transformer 人工智能深度学习学习知识图谱 llama

本文链接：https://blog.csdn.net/xx_nm98/article/details/143085431

版权

今天给大家分享一个能发A会且不卷的方向：模型融合！

光是ICLR2025的投稿，其增长就跃升至前30，可见热度很高！但相比其他领域，总量还不大，相对蓝海，创新空间很大。

其所以这么热门，是因为它能够通过结合多个模型的预测，来提高整体性能、减少过拟合风险！更为特别的是，在某些情况下，我们无需重新训练模型，只要利用已有的模型参数，就能进行融合，创建新的模型，从而节省大量的成本。最近Transformer作者，便通过自动化的模型融合策略，成功地创建了具有特定功能的新型基础模型，还实现了准确率飙升45.6%的效果。

An Empirical Study of Multimodal Model Merging

内容：文章探讨了通过插值或任务算术等技术将不同任务训练的多个模型融合成多任务解决方案的模型融合技术。研究者们将这一概念扩展到了多模态设置中，通过合并在不同模态上训练的变换器（transformers），旨在创建一个参数高效的模态不可知架构，该架构可以处理视觉、语言和跨模态变换器。文章通过全面实验，系统研究了影响模型合并后性能的关键因素，包括初始化、合并机制和模型架构，并提出了两个可以作为合并结果指标的权重合并距离度量方法。研究结果表明，通过模型合并可以有效训练出与从头开始预训练的模态不可知基线相匹配的性能，并且在各种任务上显著优于简单合并，例如在VQA上提高了3%，在COCO检索上提高了7%，在NLVR2上提高了25%，在Flickr30k上提高了14%，在ADE20k上提高了3%。

Training-FreePretrainedModelMerging

内容：文章介绍了一种名为MuDSC（Merging under Dual-Space Constraints）的创新模型融合框架，用于将多个单一任务模型合并成一个多任务模型，而无需额外的训练或微调。MuDSC通过在线性组合激活空间和权重空间的相似性矩阵来寻找更优的排列矩阵，实验结果表明，该方法能显著提升合并模型在多种任务和架构下的性能。此外，通过多任务损失景观的可视化，展示了MuDSC使得合并模型位于每个任务统一较低损失的重叠部分，从而在多任务场景中更好地平衡了不同任务的性能。

Evolutionary Optimization of Model Merging Recipes

内容：文章介绍了一种基于进化算法的模型融合方法，用于自动化创建具有特定功能的强大基础模型。这种方法能够在参数空间和数据流空间中进行优化，不仅提高了模型的效率和泛化能力，还能跨领域融合模型，例如创建具有数学推理能力的日语大型语言模型（LLM）和能够处理特定文化内容的日语视觉-语言模型（VLM）。实验结果表明，这些模型在多个基准测试上达到了最先进的性能，甚至超过了一些参数数量更多的模型。此外，文章还强调了这种方法在开源社区中的潜力，为替代传统的基于梯度训练的模型开发方法提供了新的可能性。

MODEL MERGING BY UNCERTAINTY-BASED GRADIENT MATCHING

内容：文章提出了一种新的模型融合方法，称为基于不确定性的梯度匹配（Model Merging by Uncertainty-Based Gradient Matching），用于改善通过加权平均参数融合多个模型时的性能。这种方法通过减少合并模型间的梯度不匹配来提高融合模型的准确性，并通过实验验证了其在大型语言模型和视觉变换器上的有效性，无论是在性能还是对超参数的鲁棒性方面都有一致的改进。文章还探讨了与其他模型融合方案（如算术平均、任务算术和Fisher加权平均）的隐含假设，并讨论了如何利用贝叶斯方法进一步改进模型融合。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述