mask autoencoder包含三个主要的部分。
一个是编码器,编码器的输入是image和mask的ratio,也就是对于输入的img来进行mask。然后输出是latent和mask和ids_restore,这个latent应该就是hidden feature,这个mask就是生成的mask。
forward encoder的过程,输入是x也就是图像,mask 比例就是mask的比例。
mask,发生的是在patch后面,也就是说,不是在原图上mask,而是在新的hidden feature上进行mask。 这个x是mask过后的。也就是encoder的时候,输入的是mask后的x。