3、预训练基础模型与数据集准备全解析

预训练基础模型与数据集准备全解析

1. 对比预训练与自然语言监督

在计算机视觉领域,如今有许多顶尖模型。而将大语言模型技术与视觉相结合的早期方法之一,就是对比预训练和自然语言监督。从2006年的ImageNet到2022年Stable Diffusion使用的LAION - 5B等现代和经典图像数据集,其标签都是由自然语言组成的。由于图像包含现实世界中的物体,标签必然比单个数字更细致,这种问题框架被称为自然语言监督。

假设有一个包含数千万张图像的大型数据集,每张图像都配有标题。标题不仅能命名物体,还能提供更多关于图像内容的信息。例如“Stella坐在黄色沙发上”或“Pepper,澳大利亚小狗”,这些简短的描述比单纯描述物体能提供更多上下文。可以使用预训练模型(如编码器)将语言处理成密集向量表示,再用图像编码器将图像处理成另一个密集向量表示,然后将它们组合在一个可学习的矩阵中,这就是对比预训练。Alex Radford团队提出的对比语言 - 图像预训练(CLIP)模型,能让我们同时学习图像和语言之间的关系。当然,CLIP并非唯一使用自然语言监督的视觉 - 语言预训练任务,2019年中国研究团队提出的视觉 - 语言BERT模型也有类似目标。此后,视觉 - 语言基础模型的联合训练变得非常流行,Flamingo、Imagen和Stable Diffusion等都有出色表现。

2. 2023年4月的顶级语言模型

语言建模是与基础模型密切相关的重要任务。以下是不同数据集上的语言模型基准测试结果:
| 数据集 | 最佳模型 | 是否基于Transformer | 性能 |
| — | — | — | — |
| WikiText - 103

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值