接上一篇
P28P30
实验效果-ViT模型的影响
n
性能惊艳:
ImageNet-1K
最高
87.8%
。与当前
SOTA
自监督预训练方法相比,对于
ViT
-B
的表现结果都很接近。对于
ViT
-L
不同方法的结果就存在很大差距,这表明更大模型的挑战是减少过度拟合。
n
再看最后一列,仅使用
ImageNet-1K
数据时,
ViT
-Huge
模型的最高精确度为
87.8%
,这明显超过了所有在
ImageNet-21K
预训练的
ViT
变种模型。
实验效果-参数改变
n
改变各种参数后的对比实验
实验效果-Mask方式的影响
n
Here each output is from an MAE trained with the specified masking strategy.
n
Left: random sampling (our default).
n
Middle: block-wise sampling that removes large random blocks.
n
Right: grid-wise sampling that keeps one of every four patches.
以上为叶梓老师上课讲义,供有基础的朋友或者同行使用,未完,下一篇继续……