多模态模型小抄(1)

前言

现在模态间的联系越来越多,模态间的信息互补也符合人类对周边事务的认知习惯。故写下此文记录一些有意思的多模态模型。

CV领域经典backbone模型小抄(1)

CV目标检测模型小抄(1)

CV语义分割模型小抄(1)
CV实例分割模型小抄(1)

多模态模型小抄(1)

paperweekly的一篇推送 ​300+篇文献!一文详解基于Transformer的多模态学习最新进展

扩散模型文本生成图像最近很火啊, 扩散模型与其在文本生成图像领域的应用


论文

X-CLip

ECCV 2022
论文: Expanding Language-Image Pretrained Models for General Video Recognition
代码: https://github.com/microsoft/VideoX/tree/master/X-CLIP
博文: ECCV 2022 | 视频理解新框架X-CLIP:仅用微调的成本,达到预训练的全能



ReferFormer


Language as Queries for Referring Video Object Segmentation
arxiv: https://arxiv.org/abs/2201.00487
代码: https://github.com/wjn922/ReferFormer
CVPR 2022


ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。
博文: https://mp.weixin.qq.com/s/MkQT8QWSYoYVhJ1RSF6oPQ



ViLT

ICML 2021 (long talk)
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

代码: https://github.com/dandelin/vilt

它的论文确实值得一读,背景部分写的像综述,概括了最近的 视觉-文本预训练模型,

受ViT启发,使用了Linear Projection, 同时还用了两个小技巧, whole word masking和image augmentation(多模态文本图像对 之前很少人对图像去数据增强)。其中图像增强用了RandAugment, 但是不使用color inversion和cutout。



CLIP

Learning Transferable Visual Models From Natural Language Supervision
论文: https://arxiv.org/abs/2103.00020
github: https://github.com/openai/CLIP

适合抽特征,检索类任务。不适合VQA,Vision Reasoning类任务。


一个实战项目: 基于CLIP/ViT模型搭建相似图像检索系统_bilibili

一篇挺好的知乎文章: CLIP:多模态领域革命者

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值