自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 clip模型思考

在这个网络里面,输入经过一个线性层(线性函数y=wx+b)后来到神经网络的节点上面,接着是节点上面的激活函数对y进行处理,经过处理后的y继续经过一个线性层(线性函数y=wx+b)来到输出层。图像处理:将一个RGB图像分割成图像块,每个图像块大小是patch_size*patch_size,卷积核的大小等于图像块的大小,步长stide当然就是patch_size.里面的维度变化:输入层到隐藏层输入维度m变成输入的四倍维度m*4,隐藏层到输出层m*4变成m。前向传播中接收参数:q(查询),k(键),v(值),

2024-07-11 23:06:16 436

原创 CLIP模型

embed_dim:嵌入维度。图像和文本将被嵌入到这个维度的向量空间中。int:图像的分辨率。指输入到模型的图像的大小(例如,224x224像素)。视觉模型的层数。如果是一个整数,表示层的数量;如果是一个元组,表示每个阶段的块数/层数。视觉模型的宽度。通常指的是卷积层的输出通道数int:视觉模型中每个补丁的大小。在Vision Transformer(ViT)中,图像被分割成小块(patch),这个参数指定每个块的大小。int:上下文长度。指的是文本输入的最大长度。词汇表大小。

2024-07-08 21:56:57 903

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除