昇腾显卡部署qwen2_5报错记录--持续更新

24-12-02 15:54:56,655 [ERROR] model.py:39 - [Model] >>> Exception:BuildModelGraph error,check ATB_LOG, ASDOPS_LOG
Traceback (most recent call last):
File “/usr/local/python3.11.10/lib/python3.11/site-packages/model_wrapper/model.py”, line 37, in initialize
return self.python_model.initialize(config)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File “/usr/local/python3.11.10/lib/python3.11/site-packages/model_wrapper/standard_model.py”, line 144, in initialize
self.generator = Generator(
^^^^^^^^^^
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/text_generator/generator.py”, line 101, in init
self.warm_up(max_prefill_tokens, max_seq_len, max_input_len, max_iter_times, inference_mode)
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/text_generator/generator.py”, line 245, in warm_up
self.generator_backend.warm_up(model_inputs)
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/text_generator/adapter/generator_backend.py”, line 128, in warm_up
_ = self.forward(model_inputs, **kwargs)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/utils/decorators/time_decorator.py”, line 38, in wrapper
return func(*args, **kwargs)
^^^^^^^^^^^^^^^^^^^^^
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/text_generator/adapter/generator_torch.py”, line 92, in forward
logits = self.model_wrapper.forward(model_inputs, self.cache_pool.npu_cache, **kwargs)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/modeling/model_wrapper/atb/atb_model_wrapper.py”, line 65, in forward
logits = self.forward_tensor(
^^^^^^^^^^^^^^^^^^^^
File “/usr/local/python3.11.10/lib/python3.11/site-packages/mindie_llm/modeling/model_wrapper/atb/atb_model_wrapper.py”, line 92, in forward_tensor
logits = self.model_runner.forward(
^^^^^^^^^^^^^^^^^^^^^^^^^^
File “/usr/local/Ascend/llm_model/atb_llm/runner/model_runner.py”, line 157, in forward
return self.model.forward(**kwargs)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File “/usr/local/Ascend/llm_model/atb_llm/models/base/flash_causal_lm.py”, line 380, in forward
self.init_ascend_weight()
File “/usr/local/Ascend/llm_model/atb_llm/models/qwen2/flash_causal_qwen2.py”, line 182, in init_ascend_weight
self.acl_encoder_operation.set_param(json.dumps({**encoder_param}))
RuntimeError: BuildModelGraph error,check ATB_LOG, ASDOPS_LOG

不知道这是啥意思,有大佬知道吗?

### Qwen2-7B-Instruct-AWQ与vllm的使用说明 #### 下载文档 对于希望利用`Qwen2-VL-7B-Instruct-AWQ`模型并借助`vllm`工具来提升性能的研究者或开发者而言,获取必要的资源是第一步。可以从指定的项目地址下载所需材料[^1]。 #### 安装配置环境 安装过程中涉及创建适合运行该模型及其优化器`vllm`的工作环境。通常建议通过Docker容器化技术简化这一过程,确保不同操作系统上的兼容性和一致性[^2]。具体操作如下: ```bash docker pull registry.gitcode.com/hf_mirrors/ai-gitcode/qwen2-vl-7b-instruct:latest docker run -it --gpus all -p 8000:8000 qwen2-vl-7b-instruct bash ``` 上述命令用于拉取最新的镜像文件,并启动带有GPU支持的服务端口映射到本地8000端口上。 #### 升级vllm包 为了保持最佳实践状态以及获得最新特性,在实际部署前应当确认已安装版本是最新的。可以通过pip工具轻松完成更新动作[^3]: ```bash pip install --upgrade vllm ``` 此指令会自动处理依赖关系并将软件包升级至最高稳定版。 #### 示例代码展示 下面给出一段简单的Python脚本作为实例,展示了如何加载预训练好的`Qwen2-VL-7B-Instruct-AWQ`模型并通过`vllm`执行推理任务: ```python from transformers import AutoModelForCausalLM, AutoTokenizer import torch tokenizer = AutoTokenizer.from_pretrained("qwen2-vl-7b-instruct-awq") model = AutoModelForCausalLM.from_pretrained("qwen2-vl-7b-instruct-awq", device_map="auto") input_text = "描述一张美丽的风景画" inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 这段程序实现了从输入提示词到生成对应描述的过程,其中包含了调用CUDA加速计算的能力。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

几道之旅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值