Domain Generalization | 域适应、域泛化、OOD、开放集问题定义

最新推荐文章于 2024-12-31 17:01:22 发布

ABTols

最新推荐文章于 2024-12-31 17:01:22 发布

阅读量1.6k

点赞数

文章标签：人工智能迁移学习

原文链接：https://zhuanlan.zhihu.com/p/481537410

版权

文章探讨了在机器学习中，训练集和测试集分布差异带来的挑战。领域自适应（DA）利用目标域的先验知识来调整模型，而领域泛化（DG）则在没有目标域数据的情况下寻求解决方案。分布外泛化（OODG）关注模型对未见过的分布的泛化能力，开放集问题则涉及识别未知类别的输入。研究焦点包括单源域和多源域DG的方法，以及如何仅使用源域信息来提升模型的泛化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在实际场景中，训练集和测试集往往存在分布差异，导致模型不work。领域自适应是解决这类问题的一种方法，但是它需要测试数据的一些先验知识。但是很多时候，在测试数据到来前我们往往对它们是一无所知的，因此近年来很多人开始考虑一种更有实际意义的研究场景，也就是领域泛化。

下面我们先就来梳理一下领域自适应（Domain Adaptation, DA），领域泛化（Domain Generalization, DG），分布外泛化（Out-of-Distribution Generalization, OODG）,分布外检测（Out-of-Distribution Detection, OODD），开放集（Open Set, OS）这几个概念的定义。

在迁移学习中，我们通常称训练模型的数据集，即训练集，为源域，称模型在应用时遇到的数据，即测试集，为目标域。

领域自适应

在这里插入图片描述

领域泛化

DG的分布差异类型和DA完全一样，也是源域和目标域存在Domain Shift。DG与DA的最大区别是：在模型训练集阶段，DG没有目标域的任何先验信息，通俗来说就是DA在训练时可以拿到少量目标域数据，这些目标域数据可能是有标签的（有监督DA），也可能是无标签的（无监督DA），但是DG在训练时看不到目标域数据。

现在对DG的研究主要分为单源域DG和多源域DG，一般定义多源域DG每个源域内部的数据是同分布的。

现有的很多DG方法都是仅利用源域的特征信息进行模型学习。