一、概要
记录基于华为昇腾推理服务器+Atlas300IPro两卡基于MindIE大模型推理引擎和Embedding、Rerank部署dify大模型应用平台。(LangChain-ChatChat和NextChat同样也ok)
二、平台介绍和相关链接
| 环境 | 型号 | CANN版本 | 加速卡 |
|---|---|---|---|
| 推理环境 | Atlas800-3010 推理服务器 | CANN8.0.RC2及以上 | Atlas300IPro * 2 |
mindie安装和部署参考
embedding和rerank部署参考
以上两个环境的安装和部署就不过多赘述,请参考相关链接。
三、MindIE、Embedding、Rerank接口测试
提示:在部署dify之前,首先要确保llm、embedding、rerank三个模型的接口是通的
- llm模型openai接口测试:
time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
"model": "qwen",
"messages": [{
"role": "user",
"content": "有五天假期,去海南玩,帮我安排一个行程"
}],
"max_tokens": 512,
"presence_penalty": 1.03,
"frequency_penalty": 1.0,
"seed": null,
"temperature": 0.5,
"top_p": 0.95,
"stream": false
}' http://127.0.0.1:1025/v1/chat/completions
- embedding接口测试:
curl http://127.0.0.1:1027/embed \
-X POST \
-d '{"inputs":"What is Deep Learning?"}' \
-H 'Content-Type: application/json'
- rerank接口测试:
curl http://127.0.0.1:1028/rerank \
-X POST \
-d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
-H 'Content-Type: application/json'
接口调用结果:
-
LLM:


tips:因为我跑的是14B的模型,所以显存占用较高,如果是7B模型,显存使用会减半。 -
embedding测试:

-
rerank测试:

四、Dify安装和部署
提示:本次样例使用的是v0.8.2版本的dify进行测试验证
- 下载dify代码
# clone代码,并checkout到v0.8.2版本
git clone https://gitee.com/dify_ai/dify
git chekcout 0.8.2
- 部署dify
进入dify/docker文件夹下执行以下命令进行部署,
cp .env.example .env
docker compose up -d
在部署的过程中会遇到下拉镜像失败的情况,打开以下连接:
https://docker.aityp.com/image/docker.io
搜索对应的镜像进行下载,我已langgenius/dify-api:0.8.2为例如下:


将这两句复制到命令行下拉镜像,其他依赖情况一样操作。
所有的镜像部署完后执行docker compose ps显示如下,部署完成。

注:dify首次进入需要设置邮箱和用户及密码,根据情况设计即可。
-
首次打开dify页面,空空如也:

-
配置llm
进入右上角,点击用户名,选择设置。

选择模型供应商,然后找到OpenAI-API-Compatible选项。

输入测试好的mindie的api信息和配置:


-
配置embedding、配置rerank

embdding配置:

rerank配置:


配置完成后如下图:

五、测试
提示:7B模型大概占用两张卡的60%左右的显存占用,embedding和rerank两个模型大概分别占用1~2 GB显存,所有两张300IPro 加速卡完全能够跑起来Qwen2.5 7B 加bge-large-zh-v1.5和bge-reranker-large模型
-
llm测试:



-
生成的速度:

-
知识库创建和测试:







2988

被折叠的 条评论
为什么被折叠?



