7月第一讲,LLaMA模型指令微调字节跳动多模态视频大模型

最新推荐文章于 2024-09-02 16:33:50 发布

wudi野葵

最新推荐文章于 2024-09-02 16:33:50 发布

阅读量272

点赞数

文章标签： llama 人工智能深度学习

本文链接：https://blog.csdn.net/wudi555551/article/details/131629144

版权

Valley是字节跳动基于LLaMA模型的视频场景多模态指令微调成果，它采用了CLIP的ViT-L/14作为视觉编码器，新增时空池化操作，结合多模态指令跟踪数据集，提升视频理解能力。相比于LLaVA，Valley使用Stable-Vicuna模型，并通过ChatGPT生成对话增强数据集，有望在视频相关任务中提供更强大的理解与解释功能。

摘要由CSDN通过智能技术生成

Valley: Video Assistant with Large Language model Enhanced abilitY 大家好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师，带来最新的前沿AI知识和工具，包括AI相关技术、ChatGPT、AI绘图等，欢迎大家交流~。

近期基于LLaMA微调的模型有很多，Alpaca，Vicuna都是基于ChatGPT等数据进行文本场景指令微调，LLaVA也使用图文对数据进行了图文场景多模态能力的扩展（这几个模型往期文章都有涉及，不清楚/感兴趣的可以看）。

而本文提到的Valley则是字节发布的视频场景多模态指令微调LLaMA模型。其中这几个指令微调版本的模型都大差不差，主要还是数据与训练的差异。本文描述Valley当然对标的是其类似模型LLaVA，原文introduction部分翻译修改后如下：在Valley中，我们遵循 LLaVA 的先预训练然后指令调整的流程，采用一个简单的投影模块作为视频、图像和语言模式之间的桥梁。我们采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器（与LLaVA一致），然后提出一种时空池化操作来统一视频和图像输入的视觉编码（模型差异点）。通过更新投影模块进行预训练，以使统一的视觉嵌入与 LLM 保持一致，其中 Stable-Vicuna (Chiang et al., 2023)

最低0.47元/天解锁文章

wudi野葵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
7月第一讲,LLaMA模型指令微调字节跳动多模态视频大模型

结合论文内容，我对Valley的贡献作了概括：模型：基于LLaVA的方法，添加了时空池化模块应对视频（多帧）场景，将LLaVA从单图扩展为多图（动态长度），同时将LLaVA的Vicuna语言模型换为Stable-Vicuna模型。近期基于LLaMA微调的模型有很多，Alpaca，Vicuna都是基于ChatGPT等数据进行文本场景指令微调，LLaVA也使用图文对数据进行了图文场景多模态能力的扩展（这几个模型往期文章都有涉及，不清楚/感兴趣的可以看）。dozer其实是对我们熟知的beanutils的封装。
复制链接

扫一扫