-
【真实项目复盘】从显卡困局到双4070显卡极限突围
-
【显卡党必看】双4070显卡血泪教程:从炸显存到跑通7B模型的生死线
-
Windows 11双显卡部署LLaMA-Factory:4070显卡显存溢出终极解决方案
-
WSL2下微调避坑指南:双4070显卡跑通Qwen2.5-7B-Instruct的4bit量化实录
-
LLaMA-Factory实战:12G显存显卡用量化压缩玩转3B/7B大模型
“本以为双4070就能硬刚7B模型,结果Windows下双卡并行都炸了…过程中各种报错,各种查原因,问了Deepseek,又问gpt,再问豆包,再问搜索引擎,所有有名大模型都问了,都搜了,解决方案屈指可数啊,花三天踩穿各种环境陷阱、显存陷阱,最终靠WSL2+量化压缩实现反杀!操作过程从头整理如下:”
有图有真相,双4070并行微调,双12G显存全部100%占满
设备数量2,训练完毕,完全在webui操作执行
一、从头说起:当企业级需求撞上消费级显卡
大模型有大模型的用处,小模型有小模型的用处,项目需要,考虑小参数模型解决基本问题即可:
现状:
- 预算限制无法采购A100/H100等专业卡
- 现有工作站配备双4070(12G×2)消费级显卡
- 需求:微调3B-7B量级大模型用于项目基本应用场景
Windows:
- 版本 Windows 11 专业版
- 处理器 Intel® Core™ Ultra 7 265K 3.90 GHz
- 机带 RAM 128 GB (127 GB 可用)
- 系统类型 64 位操作系统, 基于 x64 的处理器
显卡(nvidia-smi)
二、Windows多卡并行血泪史:从希望到绝望
初次尝试:直接执行LLaMA-Factory
按照LLaMA-Factory指南直接安装,自动识别设备数为2
下载速度慢,就执行这个源,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e ".[torch,metrics]"
# 之后就开始做微调,但是报错,报错现场还原,如下:
[2025-05-01 20:35:10,200] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)
W0501 20:35:10.995000 28028 site-packages\torch\distributed\elastic\multiprocessing\redirects.py:29] NOTE: Redirects are currently not supported in Windows or MacOs.
[INFO|2025-05-01 20:35:13] llamafactory.cli:143 >> Initializing