- 博客(2)
- 收藏
- 关注
原创 clip模型思考
在这个网络里面,输入经过一个线性层(线性函数y=wx+b)后来到神经网络的节点上面,接着是节点上面的激活函数对y进行处理,经过处理后的y继续经过一个线性层(线性函数y=wx+b)来到输出层。图像处理:将一个RGB图像分割成图像块,每个图像块大小是patch_size*patch_size,卷积核的大小等于图像块的大小,步长stide当然就是patch_size.里面的维度变化:输入层到隐藏层输入维度m变成输入的四倍维度m*4,隐藏层到输出层m*4变成m。前向传播中接收参数:q(查询),k(键),v(值),
2024-07-11 23:06:16 436
原创 CLIP模型
embed_dim:嵌入维度。图像和文本将被嵌入到这个维度的向量空间中。int:图像的分辨率。指输入到模型的图像的大小(例如,224x224像素)。视觉模型的层数。如果是一个整数,表示层的数量;如果是一个元组,表示每个阶段的块数/层数。视觉模型的宽度。通常指的是卷积层的输出通道数int:视觉模型中每个补丁的大小。在Vision Transformer(ViT)中,图像被分割成小块(patch),这个参数指定每个块的大小。int:上下文长度。指的是文本输入的最大长度。词汇表大小。
2024-07-08 21:56:57 903
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人