书生大模型训练营第3期-基础岛-第5关 XTuner 微调个人小助手认知任务

AshwaganDNA

已于 2024-10-08 00:04:38 修改

阅读量449

点赞数 3

文章标签：机器学习人工智能

于 2024-10-08 00:03:50 首次发布

本文链接：https://blog.csdn.net/weixin_46075375/article/details/142748829

版权

使用 XTuner 微调 InternLM2-Chat-1.8B 实现自己的小助手认知，如下图所示（图中的伍鲜同志需替换成自己的昵称），记录复现过程并截图。

step1：准备一个数据集文件assistant.json，文件内容为对话数据。

step2：通过脚本生成的方式来准备数据。创建一个脚本文件xtuner_generate_assistant.py，在里面设置我们的用户名叫Adam同学。

import json

# 设置用户的名字
name = 'Adam同志'
# 设置需要重复添加的数据次数
n = 8000

# 初始化数据
data = [
    {"conversation": [{"input": "请介绍一下你自己", "output": "我是{}的小助手，内在是上海AI实验室书生·浦语的1.8B大模型哦".format(name)}]},
    {"conversation": [{"input": "你在实战营做什么", "output": "我在这里帮助{}完成XTuner微调个人小助手的任务".format(name)}]}
]

# 通过循环，将初始化的对话数据重复添加到data列表中
for i in range(n):
    data.append(data[0])
    data.append(data[1])

# 将data列表中的数据写入到'datas/assistant.json'文件中
with open('datas/assistant.json', 'w', encoding='utf-8') as f:
    # 使用json.dump方法将数据以JSON格式写入文件
    # ensure_ascii=False 确保中文字符正常显示
    # indent=4 使得文件内容格式化，便于阅读
    json.dump(data, f, ensure_ascii=False, indent=4)