n V s-CSDN博客

原创 clip模型思考

在这个网络里面，输入经过一个线性层（线性函数y=wx+b）后来到神经网络的节点上面，接着是节点上面的激活函数对y进行处理，经过处理后的y继续经过一个线性层（线性函数y=wx+b）来到输出层。图像处理：将一个RGB图像分割成图像块，每个图像块大小是patch_size*patch_size，卷积核的大小等于图像块的大小，步长stide当然就是patch_size.里面的维度变化：输入层到隐藏层输入维度m变成输入的四倍维度m*4，隐藏层到输出层m*4变成m。前向传播中接收参数：q(查询)，k(键),v(值),

2024-07-11 23:06:16 436

原创 CLIP模型

embed_dim:嵌入维度。图像和文本将被嵌入到这个维度的向量空间中。int：图像的分辨率。指输入到模型的图像的大小（例如，224x224像素）。视觉模型的层数。如果是一个整数，表示层的数量；如果是一个元组，表示每个阶段的块数/层数。视觉模型的宽度。通常指的是卷积层的输出通道数int：视觉模型中每个补丁的大小。在Vision Transformer（ViT）中，图像被分割成小块（patch），这个参数指定每个块的大小。int：上下文长度。指的是文本输入的最大长度。词汇表大小。

2024-07-08 21:56:57 903

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人