前言
现在模态间的联系越来越多,模态间的信息互补也符合人类对周边事务的认知习惯。故写下此文记录一些有意思的多模态模型。
paperweekly的一篇推送 300+篇文献!一文详解基于Transformer的多模态学习最新进展
扩散模型文本生成图像最近很火啊, 扩散模型与其在文本生成图像领域的应用
论文
X-CLip
ECCV 2022
论文: Expanding Language-Image Pretrained Models for General Video Recognition
代码: https://github.com/microsoft/VideoX/tree/master/X-CLIP
博文: ECCV 2022 | 视频理解新框架X-CLIP:仅用微调的成本,达到预训练的全能
ReferFormer
Language as Queries for Referring Video Object Segmentation
arxiv: https://arxiv.org/abs/2201.00487
代码: https://github.com/wjn922/ReferFormer
CVPR 2022
ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。
博文: https://mp.weixin.qq.com/s/MkQT8QWSYoYVhJ1RSF6oPQ
ViLT
ICML 2021 (long talk)
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
代码: https://github.com/dandelin/vilt
它的论文确实值得一读,背景部分写的像综述,概括了最近的 视觉-文本预训练模型,
受ViT启发,使用了Linear Projection, 同时还用了两个小技巧, whole word masking和image augmentation(多模态文本图像对 之前很少人对图像去数据增强)。其中图像增强用了RandAugment, 但是不使用color inversion和cutout。
CLIP
Learning Transferable Visual Models From Natural Language Supervision
论文: https://arxiv.org/abs/2103.00020
github: https://github.com/openai/CLIP
适合抽特征,检索类任务。不适合VQA,Vision Reasoning类任务。
一个实战项目: 基于CLIP/ViT模型搭建相似图像检索系统_bilibili
一篇挺好的知乎文章: CLIP:多模态领域革命者