Palette: Towards Multi-source Model Selection and Ensemble for Reuse

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126871767

深度学习的成功为重用源域的预训练模型来解决训练数据可能有限的目标任务提供了令人兴奋的机会。虽然各种预训练模型已经开发出来并可用，但没有原则的方法来选择适当的模型进行重用。虽然源任务和目标任务应该足够相似，但任务相关度的计算通常需要额外的源训练数据存储和领域专家的大量工作，这在许多应用中是不切实际的。本文研究了多源模型选择与集成(Multi-source Model Selection and Ensemble, MSMSE)问题。给定一组源模型，旨在选择一个源模型子集，并开发一个对目标任务达到最佳性能的集成模型。多个模型的集成可以更充分地利用各种底层源知识，从而提高泛化能力。本文提出Palette，一个通用框架，首先从源模型池中选择可能表现良好的模型，然后通过细化构建集成。介绍了不同的模型选择策略，将多臂匪徒与自适应资源分配和贝叶斯优化技术相结合，以加速选择过程。实验结果验证了Palette和模型选择策略的有效性和高效性。

方法：

开发了Palette，一个通用框架，首先从源模型池中选择可能表现良好的模型，然后通过细化构建集成。将模型选择过程视为一个多臂赌博机问题(MAB)[5]。在MAB中，每个模型都可以看作是一个bandit的手臂，观察到的模型评估结果表明扮演一个想得到的bandit的奖励，目标是快速识别具有最高奖励的arms。本文研究了MAB的top-K arms识别问题，提出了一种自适应资源分配策略，可以有效地修剪表现不佳的模型。此外，使用GP-UCB[6]对各种预训练模型之间的相关性进行建模，以加快选择过程。在获得K个微调源模型后，Palette的细化过程进一步修剪精度较低或高度相关的模型，以构建产生最佳泛化性能的集成。