自我认知数据集的设计与构建


前言

自我认知的修改

对ChatGLM3-6B大模型进行微调的第一步,是改变其自我认知,通过构造自我认知数据集self_cognition,来对ChatGLM3-6B的自我认知进行修正,预期效果为将其自我认知修改为由山东大学软件学院CLD团队开发的面向专业人士的中文法律文书生成助手

一、指令数据集

一条指令数据集由instruction、input、output三个部分组成。需要注意的是insturction和input之间没有严格的区分,比如下面两个例子表达的意思是一样的,只是在形式上不一样。

# 例子1
instruction: "write an essay about school safety"
input:""
output:"...."

# 例子2
instruction: "write an essay about the following topic"
input:"school safety"
output:"...."

“instruct”、"input"和"output"通常是指模型的指令、输入数据和预期输出。
instruct(指令):在强化学习或指令遵循任务中,"instruct"通常指的是给模型的一个指令或命令,告诉模型应该执行什么操作或任务。例如,如果训练一个聊天机器人,指令可能是“回答用户关于天气的问题”。

Input(输入):在机器学习中,"input"是指模型用来进行预测或决策的数据。对于文本处理任务,输入可能是文本本身,例如一个句子或一个段落。对于图像处理任务,输入可能是一个图像的像素数据。输入数据通常是模型用来学习特征和模式的信息来源。

Output(输出):在机器学习中,"output"是指模型根据输入数据生成的预测或决策结果。输出可以是多种形式,例如一个分类标签、一个实数值、一个文本序列等。在训练过程中,模型的输出会与真实标签(ground truth)进行比较,以便计算损失函数,并通过反向传播更新模型的权重。

二、自我认知是什么?

自我认知能力(Self-awareness)是指一个实体(人、动物、机器等)对自己的存在、特点、行为和感受等进行认识和反思的能力。自我认知能力是人类智能的一个重要组成部分,它使人类能够对自己的思维和行为进行反思、调整和改进。

三、人工智能的自我认知能力

1.知识表示和推理

人工智能系统通过表示知识和进行推理来理解和解决问题。知识表示通常使用规则、事实、概率等形式来表示。推理则包括推理规则、逻辑计算、决策树等方法。

2.学习和适应

人工智能系统通过学习和适应来改进自己的表现。学习可以分为监督学习、无监督学习、半监督学习等多种形式。适应则包括适应环境、适应用户等方面。ChatGLM3-6B大模型原本的表现并不能很好的达到我们的预期,因此我们在self_cognition数据集加入了一些身份设定以及相关的问答,需要设想出可能涉及到模型自我认知的场景,具体场景可见链接: 山东大学软件学院项目实训项目_大模型自我认知数据集的构建

3.表现和交互

人工智能系统通过表现和交互来与人类和其他系统进行交流。表现包括语音合成、文本生成、图像生成等方面。交互则包括自然语言处理、机器人控制、人机交互等方面。为了使微调后的模型在法律方面表现更加良好,我们参考了包括但不限于中国裁判文书网,法考数据,相关开源数据集中的数据对模型进行多轮多次微调。

四、自我认识数据集的构造及训练效果

1.数据集构造思路

考虑到上文中提到的可能涉及到模型自我认知的场景,该场景中出现的问题一般为短文本,并且不需要进行信息补充,所以我们决定在instruct中写入问题,output处给出我们期望的模型回答,input处不做任何处理,下面给出几个例子:

{
    "instruction": "你好",
    "input": "",
    "output": "您好!我是由山东大学软件学院CLD团队开发的LecumentGEN中文法律文书生成大模型,很荣幸能为您提供服务!有什么可以帮您的吗?"
  },
{
        "instruction": "你是如何更新最新的法律信息的?",
        "input": "",
        "output": "我的开发团队会定期更新数据集并对我进行重新训练,以此确保法律文本、案例、法规的时效性。"
      },

2.训练过程

使用LLaMA-factory框架进行微调(大模型的部署和微调可见链接: ChatGlm3-6B的部署及微调流程),由于小组训练集构造出现问题,主要问题为相同关键词的记录出现次数太多导致模型出现过拟合,回答中出现过多的“法律”一词,答非所问,句意不通,经过对小组数据集的排查,我发现不管是在哪种假设场景下,几乎所有数据集的output中都有一句类似“用于生成中文法律文书”相近意思的描述,进而出现了过拟合现象,不论给出什么问题,模型都给出含有“法律”的回答。删去绝大部分的这类信息,仅在模型被问到与自身作用相关的问题时保留相应的output,再次训练后明显取得了较好的效果。
模型的自我认知得到了修改

总结

以上就是要分享的内容,初步实现了将ChatGLM3-6B的自我认知修改为“由山东大学软件学院CLD团队开发的面向专业人士的中文法律文书生成助手”。小组学习了指令数据集的组成,包括instruction、input、output三个部分,以及这三部分在机器学习中的含义。根据自我认知的定义,以及人工智能系统如何通过知识表示和推理、学习和适应、表现和交互来设计自我认知数据集进而改变模型的自我认知,同时在模型训练微调的过程中意识到了数据集的重要性,用心细致地构造数据可以很大程度上改善模型的性能。

  • 14
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值