多模态
文章平均质量分 85
AI强仔
人工智能爱好者、机器人爱好者
展开
-
Muse:采用mask transformer的图像生成模型
本文根据google research 团队2023年1月的《Muse: Text-To-Image Generation via Masked Generative Transformers 》翻译总结的。图像生成有GAN、扩散(diffusion)、自回归模型等,而Muse采用mask图像的建模方法,非扩散、非自回归。给定从预训练大预言模型(LLM)中提取的文本embedding,Muse是被训练来预测随机mask的图像token。翻译 2023-06-09 17:21:05 · 997 阅读 · 0 评论 -
百度UNIMO模型--统一模态理解、跨模态对比学习
我们提出了UNIMO(UNIfied-MOdal ),可以同时使用单模态数据和多模态数据,在理解和生成任务。翻译 2023-05-25 17:28:40 · 425 阅读 · 0 评论 -
stable diffusion(LDM)--图片生成模型
我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。翻译 2023-04-20 16:41:55 · 3550 阅读 · 0 评论 -
各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)
ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等原创 2023-04-14 23:25:42 · 6777 阅读 · 0 评论 -
DALL·E 2 :OpenAI第二代文本生成图片模型(unCLIP--基于CLIP的文本生成图像模型)
《Hierarchical Text-Conditional Image Generation with CLIP Latents》翻译总结的。如题,基于CLIP进行图片生成翻译 2022-09-22 23:01:56 · 3438 阅读 · 0 评论 -
CLIP--zero-shot语言-图像对比学习模型
Contrastive Language-Image Pre-training,简称CLIP,即对比学习语言-图像预训练模型翻译 2022-09-18 11:28:27 · 3847 阅读 · 0 评论 -
视觉与文本多模态模型-ViLBERT
1 简介本文根据2019年《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》翻译总结的。主要是同时处理视觉和文本输入,多模态模型。ViLBERT ( Vision-and-Language BERT),我们将流行的BERT模型扩展到多模双流模型,首先以分别独立的流来处理视觉和文本输入,然后通过co-attentional transformer相互作用。2翻译 2021-09-11 10:18:46 · 1192 阅读 · 0 评论