使用LLaMA-Factory进行诗词数据集预训练

1.数据集准备

在魔搭社区下载开源的中国诗词数据集

git clone https://www.modelscope.cn/datasets/modelscope/chinese-poetry-collection.git

数据预览

该数据集仅有一列,且为csv格式,目前LLaMA-Factory微调仅支持alpaca格式和sharegpt格式,参考示例数据集中的c4_demo.json格式,因此首先对数据做预处理,代码如下:

import json

import pandas as pd


def csv_to_json(input_csv_path, output_json_path):
    # 读取CSV文件
    df = pd.read_csv(input_csv_path)

    # 将DataFrame转换为包含字典的列表,每个字典只有一个键'text'
    json_list = [{'text': row['text1']} for index, row in df.iterrows()]

    # 写入JSON文件
    with open(output_json_path, 'w', encoding='utf-8') as json_file:
        json.dump(json_list, json_file, ensure_ascii=False, indent=4)


# 设置输入CSV路径和输出JSON路径
input_csv_path = ''  # 替换为你的CSV文件路径
output_json_path = ''  # 替换为你想要保存的JSON文件路径

# 调用函数进行转换
csv_to_json(input_csv_path, output_json_path)

 转换后格式如下:

上传到LLaMA-Factory/data文件夹后进行数据注册,打开dataset_info.json,添加内容:

2.训练

启动LLaMA-Factory可视化界面后,选择参数如下:

然后开始训练即可

3.推理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值