大模型历险记-部署

5477327

已于 2024-05-14 21:06:17 修改

阅读量1.2k

点赞数 37

分类专栏：大模型初体验文章标签： llama

于 2024-05-14 21:04:34 首次发布

本文链接：https://blog.csdn.net/weixin_56299035/article/details/138869510

版权

大模型初体验专栏收录该内容

2 篇文章 0 订阅

订阅专栏

01.配置环境

首先就是开工第一步，先搭环境

我用的是学院的服务器，没有用租服务器的那种，需要租云服务器的话可以自己参考别的文章~

根据服务器的cuda配对应的python和pytorch

python=3.9

cuda=12.1

2.下载llama的模型

git clone https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat

*git在服务器和本地都会超时，可能是我的VPN不稳吧

最后选择了网页上直接下载,这样那两个参数文件都断断续续下载了一个下午,嗯...

然后把模型upload到服务器上

3.下载并部署gradio

1. 把链接中的gradio_demo.py和requirements.txt下载到服务器

https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/inference/gradio_demo.py

2.安装requirements.txt

* https://github.com/huggingface/peft.git 下载失败，又是网络的问题

按照github上的直接pip install peft，完成

*peft是什么

Parameter-Efficient Fine-Tuning (PEFT) 方法可以使预训练语言模型 (PLM) 高效适应各种下游应用，而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面，PEFT 方法仅微调少量（额外）模型参数，从而大大降低了计算和存储成本。最近最先进的 PEFT 技术实现了与完全微调相当的性能。

3.把gradio.py里59、60、61行注释掉，然后手动安装gradio和gradio_demo.py里import的包；

pip install gradio
pip install bitsandbytes
pip install accelerate
pip install scipy

这两步中间会因为部分依赖代码没装上，需要继续把依赖的pip上

4.启动

python gradio_demo.py --base_model /home/camp/wsqllm/model/Llama2-Chinese-7b-Chat --tokenizer_path /home/camp/wsqllm/model/Llama2-Chinese-7b-Chat --gpus 0

这里的base_model和tokenize_path路径记得换成自己的

遇到bug

import torch无法实现，CUDA版本不匹配

原因是服务器的账户没实现多个账号环境变量区分，导致多人使用的cuda版本都混在一起了

*修改cuda的版本就可以了

吐槽一下这个服务器的账户，之前另一个3080的服务器大家都是一人一号，环境变量比较好控制，现在共用一个很怕改坏了影响别人的实验，部署完又重置回去了，等下次自己要用了再改过来。。

运行

遇到问题：并没有出现URL

报错如下：

Traceback (most recent call last):

File "/home/camp/wsqllm/gradio_demo.py", line 297, in <module>

user_input = gr.Textbox(

AttributeError: 'Textbox' object has no attribute 'style'

这个问题之前另一个实验也遇到过,没有某个attribute大概率是因为版本问题,参考的部署教程是去年9余额的,搜索了一下果然

gradio 新版本没有这个属性

pip install gradio==3.40.0

降低版本再次运行,成功生成对应URL

5.建立SSH隧道本地映射

有一个问题是这个linux服务器并不是本地的，由于不是商用也没有公网地址

因此需要自己搭建SSH通道，才能在本地电脑上查看

在本地的命令行里面输入ssh -L的命令,这里把服务器的IP地址码掉了，根据自己的实际更换一下

前面的端口号是生成的URL的端口号，后面的是访问服务器的地址和端口号

ssh -L 端口号:localhost:端口号 username@IP地址 -p 服务器端口号

完成后点击URL就可以看见搭建的可视化界面了

*感觉gradio也挺有意思的,可以快速搭建前端界面。让我想到之前本科用pycharts直接生成网页化图表再用前端知识做略微修改的过程。确实能提升一部分效率

由于只是想部署实操一下大模型就没有深挖这一块的内容，最新版本汇报错的坑以后有机会再挖掘吧

复盘了一下部署，整个流程还是挺方便简单的。但是花了2天左右的时间，除开自己摸鱼，有半天的时间花在了下模型文件上，有一天在配环境，还有半天在处理各种明明教程里写得很通畅但是自己疯狂报错的bug们

明天继续尝试微调的任务，希望下一个复盘贴可以来得快一些

5477327

关注

37
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录