由百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。
一.Baichuan2模型
Baichuan2模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。
一.Baichuan2模型 Baichuan2模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。
一.Baichuan2模型 Baichuan2模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。
二.模型推理1.Chat模型
2.Base模型
3.命令行工具方式和网页demo方式
三.模型微调1.依赖安装 如需使用LoRA等轻量级微调方法需额外安装peft,如需使用xFormers进行训练加速需额外安装xFormers,如下所示:
2.单机训练 下面是一个微调Baichuan2-7B-Base的单机训练例子,训练数据data/belle_chat_ramdon_10k.json来自multiturn_chat_0.8M采样出的1万条,如下所示:
3.多机训练 多机训练只需要给一下hostfile,同时在训练脚本里面指定hosftfile的路径:
其中,hostfile内容如下所示:
4.轻量化微调 如需使用仅需在上面的脚本中加入参数--use_lora True,LoRA具体的配置可见fine-tune.py脚本。使用LoRA微调后可以使用下面的命令加载模型:
四.其它1.对Baichuan1的推理优化迁移到Baichuan2 用户只需要利用以下脚本离线对Baichuan2模型的最后一层lm_head做归一化,并替换掉lm_head.weight即可。替换完后,就可以像对Baichuan1模型一样对转换后的模型做编译优化等工作:
2.中间Checkpoints
下图给出了这些checkpoints在C-Eval、MMLU、CMMLU三个benchmark上的效果变化:
2.中间Checkpoints 下图给出了这些checkpoints在C-Eval、MMLU、CMMLU三个benchmark上的效果变化:
参考文献:[1]https://github.com/baichuan-inc/Baichuan2[2]baichuan-inc:https://huggingface.co/baichuan-inc[3]https://huggingface.co/baichuan-inc/Baichuan2-7B-Intermediate-Checkpoints[4]Baichuan 2: Open Large-scale Language Models:https://arxiv.org/abs/2309.10305