huggingface半精度预训练模型BLIP-2 inference报错

最新推荐文章于 2025-02-12 22:25:58 发布

yuanze_

最新推荐文章于 2025-02-12 22:25:58 发布

阅读量708

点赞数

分类专栏：问题总结文章标签： python pytorch

本文链接：https://blog.csdn.net/yuanze_/article/details/131501784

版权

文章讲述了在使用BLIP-2模型进行图片caption时遇到的apex包不兼容问题。作者发现由于apex包版本过旧，导致在半精度(fp16)环境下运行模型出错。解决方案是升级apex包或者使用torch.autocast进行精度转换，但后者可能影响结果质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目场景：

使用BLIP-2，对图片进行caption。

问题描述

按照model card上的描述执行：

# pip install accelerate
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
model

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yuanze_

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

AI学习指南HuggingFace篇-模型部署与推理

俞兆鹏的博客

02-02

168

本文介绍了如何将Hugging Face模型部署为API并实现推理，探讨了模型部署的常见方法和优化技巧。通过使用Hugging Face Inference API或本地部署，开发者可以快速将模型应用于实际场景。推理优化技巧（如硬件加速、模型量化和多线程）能够显著提升模型性能，确保高效运行。希望本文能帮助读者掌握模型部署与推理的基本方法。

BLIP-2：下一代多模态模型的雏形

阿木寺的博客

02-17

1万+

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【多模态学习】微信技术交流群作者：竹鼠商人 | （源：知乎）编辑：CVerhttps://zhuanlan.zhihu.com/p/606364639最近ChatGPT风头正劲，但只能理解文字或多或少限制其才华的发挥。得益于Transformer在NLP和CV领域的大放异彩，多模态近几年取得了非常大的进步。但之...

1 条评论您还未登录，请先登录后发表或查看评论

VLM BLIP和BLIP2

duoyasong5907的博客

03-28

757

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding&Generation BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

使用blip2进行图片输入文本输出

qq_44442727的博客

12-15

4163

期间碰到了transformer的问题，从transformer库导入有问题，我降低了版本，我目前的版本是。多模态的重要模型blip2,官方提供模型可以直接用来图片生成文本。把上面页面中的所有文件下载下来，放到blip2的工作空间中。或者根据个人需求改成批量化生成文本的代码也可以。一般是下载上面这个模型，也有其他的可以下载，期间如果提示缺什么库，按要求装上就可以了。然后就可以跑官方提供的demo了。

Blip2.0本地部署

最新发布

2301_76836428的博客

02-12

1426

三步完成blip2.0本地部署

huggingface.co/Salesforce/blip-image-captioning-base

08-22

clone from https://huggingface.co/Salesforce/blip-image-captioning-base

BLIP-2: 基于冻结图像编码器和大型语言模型的语言-图像预训练引导

OverlordDuke的博客

01-26

2501

BLIP-2是BLIP-2论文的官方实现，是一种通用且高效的预训练策略，可以轻松地利用预训练视觉模型和大型语言模型（LLMs）进行语言-图像预训练。BLIP-2在零-shot VQAv2上击败了Flamingo（65.0对56.3），在零-shot字幕生成上建立了新的技术水平（在NoCaps上的121.6 CIDEr分数，相对于之前的最佳113.2）。搭载强大的LLMs（如OPT、FlanT5），BLIP-2还为各种有趣的应用解锁了新的零-shot指导的视觉到语言生成能力！

BLIP-2：节约多模态训练成本：冻结预训练好的视觉语言模型参数

u012374012的专栏

07-18

1330

BLIP-2 是一种多模态 Transformer 模型，主要针对以往的视觉-语言预训练 (Vision-Language Pre-training, VLP) 模型端到端训练导致计算代价过高的问题。所以，如果能够使用，应该能够节约不少的计算代价。BLIP-2 就是这样，这个工作提出了一种借助现成的和的，高效的视觉语言预训练方法。但是，简单的冻结预训练好的视觉模型的参数或者语言模型的参数会带来一个问题：就是视觉特征的空间和文本特征的空间，它不容易对齐。

当 BLIP-2 遇上 Diffusion！可控图像生成的最优解，图像主题、风格任意切换，指哪改哪

10-13

本文将深入探讨一个结合了BLIP-2和Diffusion模型的系统，它实现了图像生成的高可控性，允许用户随心所欲地切换图像的主题和风格，甚至可以指定修改图像的特定区域。这一突破性进展为艺术创作、设计、以及各种视觉...

BLIP-2 ~2

whaosoft143ai的博客

06-25

362

这个是BLIP-2的第二部啊 ,节约多模态训练成本：冻结预训练好的视觉语言模型参数BLIP-2提出了一种借助现成的冻结参数的预训练视觉模型和大型语言模型的，高效的视觉语言预训练方法。BLIP-2 是一种多模态 Transformer 模型，主要针对以往的视觉-语言预训练 (Vision-Language Pre-training, VLP) 模型端到端训练导致计算代价过高的问题。所以，如果能够使用，应该能够节约不少的计算代价。BLIP-2 就是这样，这个工作提出了一种借助现成的和。whaosoft aiot

Huggingface.js: 强大的JavaScript库助力人工智能开发

Nifc666的博客

09-04

1453

Huggingface.js是由Hugging Face公司开发的一套JavaScript库集合,旨在为开发者提供便捷的方式与Hugging Face API进行交互。这些库涵盖了从模型推理到仓库管理等多个方面,使得在JavaScript环境中使用和部署AI模型变得更加简单。Huggingface.js为JavaScript开发者提供了一套强大的工具,使得在Web环境中集成和使用先进的AI模型变得更加容易。

BLIP2模型加载在不同设备上

Blankit1的博客

10-08

1144

现在大语言模型越来越大，占用的内存越来越多，这导致内存较小的设备无法体验大模型的效果。放在0号显卡上，其余模型放在cpu上。模型的名称在模型的index文件中。提供了将一个大模型分别加载在gpu和cpu上的方法。

NLP实践——VQA/Caption生成模型BLIP-2的应用介绍

weixin_44826203的博客

02-16

1万+

本文介绍最新的图文生成模型BLIP-2，从下载安装到简单的应用。

基于BLIP-2的看图问答原理及实现

新缸中之脑

09-14

847

大型语言模型 (LLM) 最近获得了很大的关注，出现了许多流行的模型，如 GPT、OPT、BLOOM 等。这些模型擅长学习自然语言，非常适合构建聊天机器人、编码助手、决策助手或翻译系统。然而，他们缺乏其他模式的知识—例如，他们无法处理图像、音频或视频。这就是 BLIP 的用武之地，通过视觉理解来增强LLM的自然语言能力。推荐：用快速搭建可编程3D场景本质上，你可以向 BLIP 模型提供图像和文本对来执行各种任务，例如视觉问答 (VQA)、图像字幕或图像文本检索。

下载huggingface预训练模型到本地并调用

热门推荐

fovever_的博客

11-15

2万+

在大模型横行的时代，无法在服务器上连接外网的研究僧真的是太苦逼了，每次想尝试类似于CLIP，BLIP之类的大模型面临无法从外网下载预训练权重的问题，本篇博客详细介绍了在本地下载预训练模型文件，并在服务器上调用的过程。

多模态图生文模型lora微调Blip2ForConditionalGeneration

weixin_40777649的博客

12-06

2786

在该过程中，图像和文本一起经过Qfromer的bert，将文本的token id和query一起embeding和图像进行交互，此过程中query的图像和文本可以互。该过程中query和文本互相看不见，避免了query直接从文本学习信息，如果query直接从文本学习，这样query就学不到图像信息，对比学习也就没有意义了。即解码时文本可以看到图像信息和解码过的文本信息，但是图像看不到文本，解码时看着文本和图像一起进行解码，这样模型预测的文本可。这是一个分类任务，判断图像和文本描述是一对，是为1，否则为0。

Stable Diffusion - 图像反推 (Interrogate) 提示词算法 (BLIP 和 DeepBooru)

AGI

07-19

1万+

图像反推 (Interrogate) 功能，是指根据给定的图像生成一个或多个文本提示，这些提示可以描述图像的内容、风格、细节等方面。这个功能可以帮助用户快速找到合适的文本提示，从而生成自己想要的图像变体。图像反推功能，使用了 CLIP (BLIP) 和 DeepBooru 两种提示词反推算法，分别使用视觉和语言的联合表示和基于标签的图像检索。

【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列（附代码讲解说明）

零碎@流年絮语的博客

10-01

1万+

这样的好处在于对于同一张图片，根据不同的instruction，我们可以得到基于instruction偏好更强的视觉特征，同时对于两个不一样的图片，基于instruction内嵌的通用知识，可以使得模型有更好的知识迁移效果。Q-Former的文本输入，保证了Query提取到的特征更加的精炼。使用BLIP-2模型w/ViT-g和FlanT5XXL的指示零样本图像到文本生成的精选示例，其中显示了广泛的功能，包括视觉对话、视觉知识推理、视觉共感推理、故事讲述、个性化图像到文本的生成等。其他与BLIP2基本一样。

怎么从huggingface下载BLIP-2模型使用

12-27

### 下载并使用BLIP-2模型为了从Hugging Face下载并使用BLIP-2模型，可以遵循特定的步骤来确保顺利安装和应用该模型。首先，需要准备环境以便能够执行必要的命令。这通常涉及到安装`huggingface_hub`库以及配置访问令牌[^2]。 #### 安装依赖项对于初次使用者来说，应当先更新或安装`huggingface_hub`工具包，并设置好个人认证信息以获得API访问权限： ```bash pip install -U huggingface_hub ``` 接着利用`huggingface-cli`来进行具体的资源拉取工作。需要注意的是，在运行这些命令之前应该已经完成了网站上的账户创建流程并且获取到了自己的访问密钥(token)，这个token用于验证身份从而允许下载受保护的内容。 #### 获取模型及其元数据针对想要使用的具体版本或者变体形式（比如BLIP-2），可以通过指定仓库名称的方式精确指向目标位置。这里假设要加载名为`OpenGVLab/InternVid`的数据集作为例子说明如何操作；实际情况下应替换为目标模型的确切路径名。同时也要记得调整本地存储目录(`--local-dir`)参数至合适的位置保存所取得的信息。 ```bash huggingface-cli download --token YOUR_ACCESS_TOKEN_HERE blip2-model-name-or-id --local-dir ./blip2_model_directory ``` 上述命令中的`YOUR_ACCESS_TOKEN_HERE`需被真实的用户Token替代，而`blip2-model-name-or-id`则代表了BLIP-2的具体标识符或者是其所在的空间地址。 #### 加载与调用模型一旦成功地把所需的组件都安置到位之后，就可以借助于Python脚本或者其他支持的语言接口去实例化预训练好的神经网络结构并对新输入做预测分析了。下面给出了一段简单的代码片段展示怎样快速启动一个基于Transformers库构建的应用程序[^3]： ```python from transformers import Blip2Processor, Blip2ForConditionalGeneration import torch processor = Blip2Processor.from_pretrained("./blip2_model_directory") model = Blip2ForConditionalGeneration.from_pretrained("./blip2_model_directory") device = "cuda" if torch.cuda.is_available() else "cpu" model.to(device) # 假设有一个图像文件 'image.png' inputs = processor(images=image, text="描述这张图片", return_tensors="pt").to(device) generated_ids = model.generate(**inputs) result = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip() print(result) ``` 这段代码展示了如何初始化处理器对象(processor)和条件生成器(model), 并通过给定提示词对一张图片进行描述的任务处理过程。