本地部署AI大模型

mac windows 同理

用到的软件 docker  ollama 大家可以到官网下载

在ollama官网选择models,这里面有用到的大模型

我用到的是 qwen2 ,这个对中文比较友好

注意,每个模型有不同的参数版本,参数量越大,对电脑配置越高,越聪明,一搬选择7b就可以了

复制一下给到的命令   ollama run qwen2:7b

打开终端,用管理员身份运行刚复制的命令

sudo ollama run qwen2:7b

 这时会进入下载,耐心等待下载完毕

这时候就可以聊天了

2、如果想用聊天框的形式 可以利用docker实现

首先电脑安装docker

接着安装 open-webui

找到How to Install下的第一个命令

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

 打开命令行 把刚才复制的内容粘贴进去 等待安装

成功后如图

这时候docker里面就有刚下载的 open-webui了

打开

 打开后选择对应的模型

这时候就可以聊天了 

### 本地部署 AI 大模型的方法和工具 对于希望在本地环境中运行大模型的用户而言,有多种方法和工具可供选择。这些工具不仅能够帮助简化复杂的部署流程,还能提高资源利用率并优化性能。 #### 工具一:Docker 容器化解决方案 容器技术是实现本地部署的一种常见方式。通过 Docker 将预训练的大模型封装成镜像文件,可以轻松地跨平台迁移和运行[^1]。这种方法的优势在于其隔离性和一致性,使得开发环境与生产环境之间的差异最小化。以下是使用 Docker 的基本步骤: ```bash docker pull model_registry/large_model:v1.0 docker run -it --gpus all -p 8501:8501 model_registry/large_model:v1.0 ``` 上述命令会拉取指定版本的大模型镜像,并启动支持 GPU 加速的服务端口映射[^2]。 --- #### 工具二:Hugging Face Transformers 和 Accelerate 库 Hugging Face 提供了一套完整的生态系统来处理自然语言处理 (NLP) 类型的任务。其中 `transformers` 是用于加载预训练模型的核心库,而 `accelerate` 则专注于加速推理过程以及降低硬件需求的影响。例如,可以通过以下 Python 脚本快速加载 BERT 或 GPT 系列模型: ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("distilgpt2") model = AutoModelForCausalLM.from_pretrained("distilgpt2") input_text = "Hello world!" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 此脚本展示了如何利用 Hugging Face 生态系统完成简单的文本生成任务。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值