在ViT(Vision Transformer)中,class token(类别令牌)是一种特殊的位置编码,它被添加到图像的嵌入表示中,并且在训练过程中与图像的标签相关联。这个类别令牌的作用是为模型提供关于整个图像类别的全局信息,从而帮助模型学习对图像内容进行分类的表示。
如图:
作用
-
全局信息集成: 类别令牌允许模型在推理时通过整体图像的类别信息进行分类决策。它捕捉了整个图像的语义内容,而不是仅仅依赖于图像中各个局部区域的特征。
-
联合训练: 类别令牌在训练过程中与图像的标签进行联合,这样模型可以学习将全局特征与标签联系起来的有效表示。这种方法有助于提高模型在分类任务中的性能。
预测过程
在预测阶段,ViT模型使用类别令牌来预测图像的类别。具体步骤如下:
-
提取特征: 首先,ViT模型将输入的图像分成若干个图像块,并对每个图像块进行线性变换以获得初始的图像块表示。
-
加入类别令牌: 在初始的图像块表示中,类别令牌被添加为一个额外的向量。这个向量通常与模型的其他位置编码向量具有相同的维度。
-
Transformer编码: 将加入类别令牌的图像块表示作为输入,通过Transformer编码器进行多层次的自注意力机制和前馈网络操作,以学习图像的语义表示。
-
分类预测: 在Transformer的最后一个输出层之后,通常会接一个全连接层或者类似的结构,将最后一个位置的特征向量(通常是类别令牌的特征向量)映射到预测类别的空间。这个过程可以理解为一个简单的分类器,它基于全局的图像表示进行分类决策。
通过这种方式,类别令牌在ViT模型中发挥了关键作用,帮助模型有效地处理图像分类任务,并在推理时结合全局信息进行准确的预测。