- 博客(2)
- 收藏
- 关注
原创 记录第一次使用Hugging Face预训练模型
Vision Transformer 简介Vision Transformer 借鉴了原版 Transformer 的思路,将图片分成多个图片块,将它们看作句子中不同的每个token。将他们 flatten 后进行embedding就获得了每个图片的向量表示。
2024-06-19 18:13:42
820
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人