1.224x224x3------------------------输入图片尺寸
2.196x768---------------------------分割为尺寸为16x16的patch序列s。224/16=14, 14*14个patch,一共196个patch。通道数变为768,768这个数是怎么出来的?16x16x3=768,即可以理解为把每个小patch的所有信息压成一个向量
Transformer在视觉中的应用VIT算法
于 2023-08-11 23:22:12 首次发布
1.224x224x3------------------------输入图片尺寸
2.196x768---------------------------分割为尺寸为16x16的patch序列s。224/16=14, 14*14个patch,一共196个patch。通道数变为768,768这个数是怎么出来的?16x16x3=768,即可以理解为把每个小patch的所有信息压成一个向量