【论文笔记】BEIT 3 ——Image as a Foreign Language: BEIT Pretraining forAll Vision and Vision-Language Tasks

最新推荐文章于 2024-04-25 16:43:42 发布

华农度假村村长

最新推荐文章于 2024-04-25 16:43:42 发布

阅读量345

点赞数

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50862344/article/details/131384233

版权

beit，beit2都还只是单模态的工作，到第三代变成了一个多模态的工作，半响不敢确认是不是beit3... 这篇工作还是能看到他们组其他工作的影子，beit系列自不必多说，还有vlmo等，可以算是一个集大成的工作。

六边形战士

1. BEIT 3

1.1 基本骨架：Multiway Transformer

每一层都包含一个视觉专家和一个语言专家。

最后三层拥有为融合编码器设计的视觉语言专家。

1.2 预训练任务

区别与之前的工作舍弃了经典三样，训练任务只有一个：掩蔽数据建模。（确实是很呼应标题了）

（1）文本数据

由SentencePiece tokenizer标记，随机屏蔽了15%

（2）图片数据

图像数据由BEIT v2的令牌化器进行令牌化，以获得离散视觉令牌作为重建目标，掩蔽40%的图像块。

（3）图像-文本对

随机屏蔽50%的文本标记，掩蔽40%的图像块。

2.代码

2.1 beit3

beit3最基础的代码在torchscale库中

from torchscale.model.BEiT3 import BEiT3

华农度假村村长

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】BEIT 3 ——Image as a Foreign Language: BEIT Pretraining forAll Vision and Vision-Language Tasks

beit，beit2都还只是单模态的工作，到第三代变成了一个多模态的工作，半响不敢确认是不是beit3... 这篇工作还是能看到他们组其他工作的影子，beit系列自不必多说，还有vlmo等，可以算是一个集大成的工作。六边形战士。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。