MLU370-M8运行Qwen2-vl手册

13 篇文章 1 订阅
11 篇文章 0 订阅


前言

Qwen2-VL-Chat 是由阿里巴巴开发的多模态大语言模型,它是 Qwen2-VL 系列的一部分,专门设计用于处理图像和文本的联合输入与输出。这个模型能够在视觉与语言任务中表现出色,比如图像描述、视觉问答、图像中的文字识别等。它的多模态能力使其能够理解并生成与图片和文本相关的复杂回答,甚至支持多轮对话和多图像比较​(

Qwen2-VL-Chat 的特点包括:

多图像输入:支持同时处理多张图片,并能够根据用户的提示进行比对和回答。
语言与视觉结合:可以处理图片中的文字信息,如文档问答、图表分析等,特别适合中文和英文的双语场景。
开放领域的定位:支持通过自然语言提示来定位图片中的特定物体。
这个模型的应用场景非常广泛,包括图像生成、多轮视觉问答、以及更复杂的视觉推理任务


一、平台环境准备

卡选择:MLU370系列
驱动选择:5.10.29以上
镜像选择:SDK版本>v24.0 pytorch >= 2.1
本次操作镜像如下:
在这里插入图片描述
温馨提示:操作时请挂载存储卷,防止文件丢失


二、模型下载

git-lfs clone https://www.modelscope.cn/qwen/Qwen2-VL-7B-Instruct.git

三、代码准备

#在这里我们直接下载Github代码
git clone https://github.com/QwenLM/Qwen2-VL.git 

四、环境安装

注释掉github中requirements_web_demo.txt里面的torch 和torchvision

直接 pip insatll -r requirements_web_demo.txt

小提示:如果你的transformers安装超时,不妨把txt的github.com改成githubfast.com,如果你莫名报错gradio改成3.50.1说不定能解决问题

五、代码修改

1.在web_demo_mm.py文件最上方加入两行

import torch_mlu
from torch_mlu.utils.model_transfer import transfer

2.将代码中torch_dtype="auto"改成torch_dtype=torch.float16
3.路径修改成你自己的模型路径
4.直接运行


六、运行效果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

在新版本的sdk torch2,1以上镜像中,基本只需要在头文件加两行代码即可解决问题
但在老版本的torch2.1以下镜像中,还是需要torchgpu2mlu脚本转换下源码编译才能运行哦!

如有问题回复不及时,大概在其他作品Yolov5作品底下有联系方式,可以扫码联系,请备注才通过哈!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值