以下是几个来自不同领域的常见 OOD(Out-of-Distribution)数据集例子,这些数据集常用于测试和研究模型在分布变化或分布外数据上的泛化能力:
1. 计算机视觉领域
-
CIFAR-10 vs. CIFAR-10-C / CIFAR-100-C:
- 描述:CIFAR-10 是一个包含 10 类图像的小型数据集,而 CIFAR-10-C 是对 CIFAR-10 应用了各种噪声、模糊、对比度变化等干扰后的版本,模拟了分布外的数据。
- 用途:用于评估图像分类模型在面对数据分布变化时的表现,尤其是面对不同环境扰动时的鲁棒性。
-
SVHN vs. MNIST:
- 描述:SVHN(Street View House Numbers)是一个包含房屋门牌号图像的数据集,MNIST 是手写数字数据集。虽然都涉及数字识别,但图像风格和数据分布完全不同。
- 用途:评估模型的泛化能力,测试模型在处理不同数据源的数字识别任务时的表现。
-
ImageNet vs. ImageNet-O:
- 描述:ImageNet 是一个大规模图像分类数据集,而 ImageNet-O 是一个专门构造的 OOD 数据集,包含不属于 ImageNet 原始 1000 类的图像。
- 用途:测试模型在面对完全新类别图像时的 OOD 检测能力。
2. 自然语言处理(NLP)领域
-
IMDB Sentiment Analysis vs. Amazon Reviews:
- 描述:IMDB 数据集包含电影评论的情感分析任务,而 Amazon Reviews 包含产品评论。虽然任务相同,但来源和语言风格差异很大。
- 用途:用于评估情感分析模型在不同领域的泛化能力和稳健性。
-
SQuAD vs. TriviaQA:
- 描述:SQuAD 是一个问答数据集,TriviaQA 是一个更加开放式、且包含更多嘈杂问题和答案的数据集。
- 用途:测试问答模型的 OOD 表现,尤其在问题和答案格式发生显著变化时的表现。
-
GLUE vs. ANLI:
- 描述:GLUE 是一套标准的语言理解基准测试,而 ANLI 是一个挑战性的自然语言推理数据集,包含较多的反例和复杂句子结构。
- 用途<