为LLM编辑个性

23年10月浙江大学、阿里实验室和舟山市东海实验室的论文“Editing personality for LLMs”。

本文介绍一项以编辑大语言模型(LLM)个性特征为重点的任务。该任务旨在调整模型对特定主题上与观点相关问题的响应,因为个体的性格往往以他们表达的观点表现出来,从而展示了不同的性格特征。具体而言,构建一个基准数据集PersonalityEdit来解决这个问题。借鉴社会心理学(Goldberg,1990)的理论,分离出三个代表性特征,即神经质(NEUROTICISM)、外向性(EXTRAVERSION)和宜人性(AGREEABLENESS),作为基准的基础。然后,使用GPT-4收集数据,生成的响应不仅与特定主题相一致,而且体现面向的性格特征。

如图所示:

添加图片注释,不超过 140 字(可选)

自然语言是一个丰富的信息来源,用于推断个人个性特征的各个方面。因此,NLP技术在个性相关研究中发挥了重要作用。一些研究一直以个性分类为中心(Keh&Cheng,2019;Flekova&Gurevych,2015;Yang,2021)。DesPrompt(Wen,2023)利用个性描述性提示来调整PLM进行个性识别。另一个研究领域则利用NLP来分析个性特征。Pennebacker&King(1999)的开创性工作利用NLP分析论文,引发了社交网络领域的后续研究(Hutto&Gilbert,2014;Schwartz,2013;Sang,2022;Jukic,2022.)。随着LLM能力的增加,最近的研究(Miotto,2022;Tu,2023;Jiang,2020;Miotto,2022)已经检查了这些模型中的个性。Miotto(2022)提供了GPT-3模型的心理评估证据,而Li(2022.)从心理学角度评估GPT-3。Pan&Zeng(2023)使用MBTI测试评估LLM的个性类型。Safdari(2023)提出了一项综合心理测量测试,分析LLM的个性特征。相当多的方法(Jiang,2023;Tu,2020;Safdari,2023)试图塑造LLM的个性,但它们都使用固定的人物角色提示来让模型表达相应的个人身份,从而完成相应的个性测试或个人指导。本文提出的任务旨在编辑LLM在表达对某些主题的意见时的个性特征。

本文数据集既可以用作模型编辑的训练数据集,也可以用作测试数据集。

当前的模型编辑方法通常分为两类:1.基于提示的方法,该方法不更新参数,但每次需要不同的演示。对于基于提示的方法,几个例子足以让当前的大模型执行给定的命令。2.持久化方法(具有修改的参数或额外的参数)包括基于训练的方法和模型中的目标定位方法。对于这些,目标文本,如预生成文本,是必不可少的。尽管本文实验表明,这些方法还不是特别有效,但模型编辑的发展正朝着这个方向进行,使数据集适用于这些方法。希望编辑的模型是持久的,而不是依赖于每个任务的提示,这在应用中可能是一种更有前途的方法。

同时,数据集可以用于测试。测试阶段的离线数据集在一定程度上服务于之前基于逻辑的评估度量。尽管在实验中,这些度量与编辑质量没有很好的相关性,但逻辑度量在另一方面仍然有意义。如果出现更有效的度量,该数据集将是一个有价值的参考。此外,虽然GPT-4验证显示与人类评估一致,但仍存在一些差距,需要在未来利用预生成的文本进行更准确的测量。

本文跟从模型编辑方法(Mitchell,2022b;Meng,2022a;Yao,2023b),为LLM编辑人格的任务定义为用编辑描述符将基础模型fb编辑为编辑的模型fe。具体来说,基本模型fb由函数f表示:X ⇒ Y,该函数将输入x投影到其相应的预测y。在任务中,x指某个主题的问题,y表示对该主题的回答意见。对于每个主题t,数据实例包括三个主要的个性特征(personality traits)p ∈ {EXTRAVERSION, AGREEABLENESS, NEUROTICISM},以及每个个性特征的表现(facet),以及为每种个性类别预生成的相应响应yp。编辑描述符可以表示为(te ,pe )。这里的te 表示要编辑的主题,pe 表示希望模型在表达主题te的看法时表现的目标个性。

下表提供了数据的一个例子。这些主要的个性特征是从Big Five 模型的个性特征(Goldberg,1990;Costa Jr & McCrae,1995)中选择的。

添加图片注释,不超过 140 字(可选)

关于个性特征和表现详细清单如下表:

添加图片注释,不超过 140 字(可选)

本文提出的基准包括主题、个性特征和预生成的文本,这些文本表达了特定个性特征背景下对特定主题的看法。构建过程包括多个阶段,如图所示。下表概述了基准数据集的统计细节。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值