LLaMA-Factory是大模型微调框架,内部集成了多种微调方法,可以直接调用。
具体做法可以从官方github上找到:https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md
安装依赖
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
遇到包冲突时,可使用 pip install --no-deps -e .
解决。
使用ModelScope下载模型
设置环境变量:
export USE_MODELSCOPE_HUB=1 # Windows 使用 `set USE_MODELSCOPE_HUB=1`
更改yaml文件
↓这是github上的一段描述,我们更改其中yaml的内容可以快速切换模型和参数。
将github中的examples/train_lora/llama3_lora_sft.yaml修改一下,得到qwen_14b_lora_sft.yaml
### model
model_name_or_path: qwen/Qwen1.5-14B-Chat # 指定了要使用的模型或模型路径
### method
stage: sft # 微调阶段,sft通常表示有监督微调
do_train: true # 指定是否进行训练
finetuning_type: lora # 微调类型,LoRA
lora_target: all # LoRA 的目标层,'all'表示应用于所有层
### dataset
dataset: novel_zh # 数据集名称,可以是逗号分隔的多个数据集
template: qwen # 模板名称,用于指定模型或预处理模板
cutoff_len: 1024 # 截断长度,通常用于限制序列的最大长度
max_samples: 1000 # 最大样本数量,指定要处理的样本的最大数量
overwrite_cache: true