念嘉-CSDN博客

原创 glob模块中glob函数和glob1函数的区别

print(txt_files) # 输出可能包括 'my_data/subfolder1/doc1.txt' 和 'my_data/subfolder1/doc2.txt'在这个例子中，`glob.glob1` 函数只会列出 `my_data` 目录下的文件，不会搜索子目录 `subfolder1` 和 `subfolder2`。现在我们想使用 `glob` 模块来查找 `my_data` 目录中的所有 `.jpg` 图像文件和所有 `.txt` 文本文件。**使用 `glob.glob` 函数：**

2024-05-30 16:19:41 148

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

实际上这里在参与Attention计算的B是relative_position_bias_table这个可学习的参数，而relative_position_index则是作为一个index去取relative_position_bias_table中的值来参与运算，有了相对位置索引（relative_position_index）之后，后续将相对位置bias（relative_position_bias_table）加入Q、K的计算中。能保持在原有的window个数下，最后的计算结构等价。

2024-04-24 15:23:49 1752

原创 Masked Autoencoders Are Scalable Vision Learners（MAE模型）

等把模型训练到八九不离十，这是后再根据下游任务（Downstream Tasks）的不同用带标签的数据集把参数训练到完全成型，这时候用的数据集量就不用太多了，因为参数经过了第1阶段就已经训练得差不多了。MAE方法：Mask掉输入图像的随机patches并重建它们。（2）高比例的随机mask掉patches（例如75%），产生了一个明显的且有意义的自监督任务。（4）把Encoder的输出，结合masked tokens（可学习的向量），执行unshuffle操作回复顺序，再一起输入到Decoder中。

2024-04-23 20:09:38 1329

原创 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（ViT模型）

（1）patch embedding：输入的图片大小为224×224，将图片分为固定大小的patch，patch大小为16×16，则每张图片会生成224×224/16×16=14×14=196个patch，即输入序列长度为196，每个patch维度为16×16×3=768，通过线性投影层之后的维度为196×768（token：[token的数量，token的维度]）。但是因为对图片进行分类，因此在输入序列中加入一个特殊的cls_token，该token对应的输出即为最后的类别预测。

2024-04-23 15:54:53 1477

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人