多模态模型小抄(1)

Andy Dennis

已于 2022-08-21 19:28:29 修改

阅读量1.2k

点赞数

分类专栏：人工智能文章标签：自然语言处理人工智能计算机视觉语音多模态

于 2022-07-28 19:14:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43850253/article/details/126041956

版权

人工智能专栏收录该内容

47 篇文章

订阅专栏

前言

现在模态间的联系越来越多，模态间的信息互补也符合人类对周边事务的认知习惯。故写下此文记录一些有意思的多模态模型。

CV领域经典backbone模型小抄(1)

CV目标检测模型小抄(1)

CV语义分割模型小抄(1)
CV实例分割模型小抄(1)

多模态模型小抄(1)

paperweekly的一篇推送 300+篇文献！一文详解基于Transformer的多模态学习最新进展

扩散模型文本生成图像最近很火啊, 扩散模型与其在文本生成图像领域的应用

论文

X-CLip

ECCV 2022
论文: Expanding Language-Image Pretrained Models for General Video Recognition
代码: https://github.com/microsoft/VideoX/tree/master/X-CLIP
博文: ECCV 2022 | 视频理解新框架X-CLIP：仅用微调的成本，达到预训练的全能

ReferFormer

Language as Queries for Referring Video Object Segmentation
arxiv: https://arxiv.org/abs/2201.00487
代码: https://github.com/wjn922/ReferFormer
CVPR 2022

ReferFormer。其将语言描述视为查询条件，直接在视频中查找目标对象，除此之外，通过实例序列的整体输出自然地完成目标物体的跟踪，无需进行任何后处理。
博文: https://mp.weixin.qq.com/s/MkQT8QWSYoYVhJ1RSF6oPQ

ViLT

ICML 2021 (long talk)
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

代码: https://github.com/dandelin/vilt

它的论文确实值得一读，背景部分写的像综述，概括了最近的视觉-文本预训练模型，

受ViT启发，使用了Linear Projection, 同时还用了两个小技巧， whole word masking和image augmentation(多模态文本图像对之前很少人对图像去数据增强)。其中图像增强用了RandAugment, 但是不使用color inversion和cutout。

CLIP

Learning Transferable Visual Models From Natural Language Supervision
论文: https://arxiv.org/abs/2103.00020
github: https://github.com/openai/CLIP

适合抽特征，检索类任务。不适合VQA，Vision Reasoning类任务。

一个实战项目: 基于CLIP/ViT模型搭建相似图像检索系统_bilibili

一篇挺好的知乎文章: CLIP：多模态领域革命者

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。