- 博客(4)
- 收藏
- 关注
原创 glob模块中glob函数和glob1函数的区别
print(txt_files) # 输出可能包括 'my_data/subfolder1/doc1.txt' 和 'my_data/subfolder1/doc2.txt'在这个例子中,`glob.glob1` 函数只会列出 `my_data` 目录下的文件,不会搜索子目录 `subfolder1` 和 `subfolder2`。现在我们想使用 `glob` 模块来查找 `my_data` 目录中的所有 `.jpg` 图像文件和所有 `.txt` 文本文件。**使用 `glob.glob` 函数:**
2024-05-30 16:19:41
148
原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
实际上这里在参与Attention计算的B是relative_position_bias_table这个可学习的参数,而relative_position_index则是作为一个index去取relative_position_bias_table中的值来参与运算,有了相对位置索引(relative_position_index)之后,后续将相对位置bias(relative_position_bias_table)加入Q、K的计算中。能保持在原有的window个数下,最后的计算结构等价。
2024-04-24 15:23:49
1752
原创 Masked Autoencoders Are Scalable Vision Learners(MAE模型)
等把模型训练到八九不离十,这是后再根据下游任务(Downstream Tasks)的不同用带标签的数据集把参数训练到完全成型,这时候用的数据集量就不用太多了,因为参数经过了第1阶段就已经训练得差不多了。MAE方法:Mask掉输入图像的随机patches并重建它们。(2)高比例的随机mask掉patches(例如75%),产生了一个明显的且有意义的自监督任务。(4)把Encoder的输出,结合masked tokens(可学习的向量),执行unshuffle操作回复顺序,再一起输入到Decoder中。
2024-04-23 20:09:38
1329
原创 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT模型)
(1)patch embedding:输入的图片大小为224×224,将图片分为固定大小的patch,patch大小为16×16,则每张图片会生成224×224/16×16=14×14=196个patch,即输入序列长度为196,每个patch维度为16×16×3=768,通过线性投影层之后的维度为196×768(token:[token的数量,token的维度])。但是因为对图片进行分类,因此在输入序列中加入一个特殊的cls_token,该token对应的输出即为最后的类别预测。
2024-04-23 15:54:53
1477
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人