3、预训练基础模型与数据集准备全解析

yog99

于 2025-08-16 14:34:29 发布

阅读量69

点赞数

CC 4.0 BY-SA版权

分类专栏：预训练模型实战指南文章标签：预训练模型自然语言监督数据集准备

本文链接：https://blog.csdn.net/yog99/article/details/151235431

预训练模型实战指南专栏收录该内容

24 篇文章 ¥69.90 ¥499.90 限时 7 天

订阅专栏

超级会员免费看

预训练基础模型与数据集准备全解析

1. 对比预训练与自然语言监督

在计算机视觉领域，如今有许多顶尖模型。而将大语言模型技术与视觉相结合的早期方法之一，就是对比预训练和自然语言监督。从2006年的ImageNet到2022年Stable Diffusion使用的LAION - 5B等现代和经典图像数据集，其标签都是由自然语言组成的。由于图像包含现实世界中的物体，标签必然比单个数字更细致，这种问题框架被称为自然语言监督。

假设有一个包含数千万张图像的大型数据集，每张图像都配有标题。标题不仅能命名物体，还能提供更多关于图像内容的信息。例如“Stella坐在黄色沙发上”或“Pepper，澳大利亚小狗”，这些简短的描述比单纯描述物体能提供更多上下文。可以使用预训练模型（如编码器）将语言处理成密集向量表示，再用图像编码器将图像处理成另一个密集向量表示，然后将它们组合在一个可学习的矩阵中，这就是对比预训练。Alex Radford团队提出的对比语言 - 图像预训练（CLIP）模型，能让我们同时学习图像和语言之间的关系。当然，CLIP并非唯一使用自然语言监督的视觉 - 语言预训练任务，2019年中国研究团队提出的视觉 - 语言BERT模型也有类似目标。此后，视觉 - 语言基础模型的联合训练变得非常流行，Flamingo、Imagen和Stable Diffusion等都有出色表现。