接上一篇
P5 P6
iGPT
n
OpenAI
是一个想把一切
GPT
化,但是图像是个三维的数据(长
x
宽
x
通道),不像文字一样可以变成一维向量的序列。如果直接把图像的三维矩阵拼成二维也可以,但这样数量就太多了。
n
于是
iGPT
就想到了一个方法,把图像马赛克化,变成一个个色块,数量一下就减少了,可以像
NLP
一样愉快地输入到
Transformer
了。
iGPT
结果表明基于BERT模型的线性探测器具有明显的劣势但却能在调优下实现后来者居上。
iGPT最大的问题主要还是这个马赛克操作
从输入上就降低了模型的拟合能力。
未完,下一篇继续……