分享一篇多模态大模型综述论文

麻辣牛肉面

于 2024-08-31 22:11:23 发布

阅读量218

点赞数 3

文章标签： transformer 机器学习语言模型深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/youmaob/article/details/141759655

版权

前面介绍了大语言模型，LLM属于Foundation model一种，除了LLM外，Foundation model还包括视觉大模型（Large Vision Models），和多模态大模型（Large Multimodal Models）。

目前比较火的文生图大模型Stable Diffusion，DALL-E、文生视频大模型Sora，图文检索，视觉内容生成都属于多模态大模型范畴，今天给大家推荐一篇多模态大模型的综述论文，后续还会推出视觉大模型论文，请持续关注。

以下是文档内容的思维导图概括：
在这里插入图片描述

上图阐述了多模态大模型试图解决的三个代表性问题：视觉理解任务、视觉生成任务，以及具有语言理解和生成能力通用接口。

上图描述了基础模型在语言和视觉/多模态领域的发展趋势，指出了从专门模型向通用助手演进的趋势，并强调了需要进一步研究来确定如何最佳地实现这一转变。

整篇论文章节内容结构

视觉理解总结

大语言模型的发展除了算力，数据因素外，也离不开模型架构的发展，Transformer是语言大模型的基础，在CV领域，ViT则是视觉大模型的基础。

视觉内容生成总结

图像生成大事件年表

GANs擅长于生成与训练集中的图像非常相似的逼真图像，VAEs擅长于创建各种各样的图像，现有的模型还没有成功地将这两种功能结合起来，直到Stable Diffusion的出现，它融合了GAN和VAE的优点，能生成真实且多样的图片。

CLIP是将语言和图像映射到统一嵌入空间的开山之作，是多模态大模型的基础。

BeiT，MAE，IGPT开启了图像预训练时代，CV中的BERT。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

麻辣牛肉面

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享一篇多模态大模型综述论文

前面介绍了大语言模型，LLM属于Foundation model一种，除了LLM外，Foundation model还包括视觉大模型（Large Vision Models），和多模态大模型（Large Multimodal Models）。目前比较火的文生图大模型Stable Diffusion，DALL-E、文生视频大模型Sora，图文检索，视觉内容生成都属于多模态大模型范畴，今天给大家推荐一篇多模态大模型的综述论文，后续还会推出视觉大模型论文，请持续关注。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。