自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 glob模块中glob函数和glob1函数的区别

print(txt_files) # 输出可能包括 'my_data/subfolder1/doc1.txt' 和 'my_data/subfolder1/doc2.txt'在这个例子中,`glob.glob1` 函数只会列出 `my_data` 目录下的文件,不会搜索子目录 `subfolder1` 和 `subfolder2`。现在我们想使用 `glob` 模块来查找 `my_data` 目录中的所有 `.jpg` 图像文件和所有 `.txt` 文本文件。**使用 `glob.glob` 函数:**

2024-05-30 16:19:41 148

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

实际上这里在参与Attention计算的B是relative_position_bias_table这个可学习的参数,而relative_position_index则是作为一个index去取relative_position_bias_table中的值来参与运算,有了相对位置索引(relative_position_index)之后,后续将相对位置bias(relative_position_bias_table)加入Q、K的计算中。能保持在原有的window个数下,最后的计算结构等价。

2024-04-24 15:23:49 1752

原创 Masked Autoencoders Are Scalable Vision Learners(MAE模型)

等把模型训练到八九不离十,这是后再根据下游任务(Downstream Tasks)的不同用带标签的数据集把参数训练到完全成型,这时候用的数据集量就不用太多了,因为参数经过了第1阶段就已经训练得差不多了。MAE方法:Mask掉输入图像的随机patches并重建它们。(2)高比例的随机mask掉patches(例如75%),产生了一个明显的且有意义的自监督任务。(4)把Encoder的输出,结合masked tokens(可学习的向量),执行unshuffle操作回复顺序,再一起输入到Decoder中。

2024-04-23 20:09:38 1329

原创 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT模型)

(1)patch embedding:输入的图片大小为224×224,将图片分为固定大小的patch,patch大小为16×16,则每张图片会生成224×224/16×16=14×14=196个patch,即输入序列长度为196,每个patch维度为16×16×3=768,通过线性投影层之后的维度为196×768(token:[token的数量,token的维度])。但是因为对图片进行分类,因此在输入序列中加入一个特殊的cls_token,该token对应的输出即为最后的类别预测。

2024-04-23 15:54:53 1477

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除