使用llama-cpp-python制作api接口

LLM挣扎学员

已于 2024-07-17 15:35:23 修改

阅读量349

点赞数 15

文章标签： llama python 自然语言处理

于 2024-07-17 15:30:29 首次发布

本文链接：https://blog.csdn.net/zc1226/article/details/140495041

版权

文章目录

概要

使用llama-cpp-python制作api接口，可以接入gradio当中，参考上一节。
llama-cpp-python的github网址

整体操作流程

下载llama-cpp-python。首先判断自己是在CPU的环境下还是GPU的环境下。以下操作均在魔搭提供的免费GPU环境下。

#CPU
pip install llama-cpp-python
#GPU
CMAKE_ARGS="-DGGML_CUDA=on FORCE_CMAKE=1" pip install llama-cpp-python --no-cache-dir

在这里插入图片描述

启动服务
模型可以采用量化的版本，也可以采用原版本大小，看自己的硬件环境。

# 模型注意力层有32层，cpu8核，可以自己修改。
python -m llama_cpp.server --model 模型路径/模型名称.bin --n_gpu_layers 32 --m_thread 8

在魔搭上启动可能报错如下：
在这里插入图片描述

这也就是缺少依赖包，解决如下：

pip install starlette-context
pip install pydantic-settings

成功启动后会显示：
在这里插入图片描述

测试一下能不能行
api_key 随便写，一个模板而已，因为是自己构建的api。
base_url 就是上面图所示的，为什么加v1等会在下面解释端口号自己可以改的，在启动服务的时候设置。

!pip install -q openai
import openai

openai.api_key = 'qqqqqqqqqqqqqqqqqq'  
openai.base_url = "http://localhost:8000/v1/"  
#模型参数设置
completion = openai.completions.create(
    model="llama",
    max_tokens=256,   
    top_p = 0.2,
    temperature = 0.6,
    prompt="出现了黄疸、恶心、呕吐等症状，可能患了什么疾病？",
)
print(completion.choices[0].text)