文章目录
一、多模态大预言模型(MLLM)的定义
1)跨模态模型
(1)以视觉、文本、音频三种模态为例(艺术人对话):
①Real3D-Portrait
②SadTalker
③Audio2Photoreal
(2)suno:文本\歌词->音乐生成
(3)音色克隆、语音发言:GPT-SoVITS
2)单模态大模型
1)视觉大模型
2)语言大模型
3)多模态模型
二、(图-文)多模态模型的发展历程
1)发展历程
①vision transformer(ViT)模型:图片模型
②基于transformer架构的图像-文本联合建模
以VisualBert为例子
③大规模 图-文 Token对其模型 CLIP(开放域下的图像分类-目标检测-图像分割)
文本和图片的特征提取出来
更加深入理解:(图片分类CLIP->物体检测GLIP->像素级别检测MaskCLIP)
2)CLIP代码举例展示
- 代码目的:文生图或图生文
#1、加载模块
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained