Langchain-Chatchat项目：1.2-Baichuan2项目整体介绍

最新推荐文章于 2024-07-09 09:52:00 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2024-07-09 09:52:00 发布

阅读量381

点赞数

文章标签： langchain

原文链接：https://mp.weixin.qq.com/s/dDjtQ8hC2FR48w3tzNwuCQ

版权

百川智能的新一代开源大语言模型Baichuan2，基于2.6万亿高质量语料训练，表现出色。模型提供不同规模的Base和经过PPO训练的Chat版本，并支持多语言和领域测试。文章详细介绍了模型的推理方式、微调选项以及与前代模型的迁移优化。

摘要由CSDN通过智能技术生成

由百川智能推出的新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练，在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果，发布包含有7B、13B的Base和经过PPO训练的Chat版本，并提供了Chat版本的4bits量化。

一.Baichuan2模型

Baichuan2模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。

一.Baichuan2模型 Baichuan2模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。

二.模型推理1.Chat模型

2.Base模型

3.命令行工具方式和网页demo方式

三.模型微调1.依赖安装如需使用LoRA等轻量级微调方法需额外安装peft，如需使用xFormers进行训练加速需额外安装xFormers，如下所示：

2.单机训练下面是一个微调Baichuan2-7B-Base的单机训练例子，训练数据data/belle_chat_ramdon_10k.json来自multiturn_chat_0.8M采样出的1万条，如下所示：

3.多机训练多机训练只需要给一下hostfile，同时在训练脚本里面指定hosftfile的路径：

其中，hostfile内容如下所示：

4.轻量化微调如需使用仅需在上面的脚本中加入参数--use_lora True，LoRA具体的配置可见fine-tune.py脚本。使用LoRA微调后可以使用下面的命令加载模型：

四.其它1.对Baichuan1的推理优化迁移到Baichuan2 用户只需要利用以下脚本离线对Baichuan2模型的最后一层lm_head做归一化，并替换掉lm_head.weight即可。替换完后，就可以像对Baichuan1模型一样对转换后的模型做编译优化等工作：

2.中间Checkpoints

下图给出了这些checkpoints在C-Eval、MMLU、CMMLU三个benchmark上的效果变化：

2.中间Checkpoints 下图给出了这些checkpoints在C-Eval、MMLU、CMMLU三个benchmark上的效果变化：

参考文献：[1]https://github.com/baichuan-inc/Baichuan2[2]baichuan-inc：https://huggingface.co/baichuan-inc[3]https://huggingface.co/baichuan-inc/Baichuan2-7B-Intermediate-Checkpoints[4]Baichuan 2: Open Large-scale Language Models：https://arxiv.org/abs/2309.10305