Weaver: 创造性写作的基础模型

298 篇文章 2 订阅
295 篇文章 1 订阅

24年1月杭州AI公司波形智能的论文“Weaver: Foundation Models for Creative Writing”。

Weaver是致力于内容创建的大语言模型(LLM)家族。Weaver是在精心挑选的语料库上进行预训练的,该语料库侧重于提高大语言模型的写作能力。然后,对Weaver进行微调,实现创造性和专业写作目的,并使用一套指令数据合成和LLM对齐方法,使其符合专业作家的偏好,使其能够生成更人性化的文本,并遵循更多样的内容创作指示。Weaver系列由Mini(1.8B)、Base(6B)、Pro(14B)和Ultra(34B)大小的模型组成,适用于不同的应用程序,路由智体可以根据查询复杂性动态调度,平衡响应质量和计算成本。在一个评估LLM写作能力而精心策划的基准进行评估,表明各种大小的Weaver模型都优于比它们大几倍的多面手LLM。值得注意的是,最强大的Weaver Ultra模型在各种写作场景上都超过了GPT-4,这是一种最先进的多面手LLM,展示了为写作目的训练专业LLM的优势。此外,Weaver本机支持检索增强生成(RAG)和函数调用(工具使用)。

作者设计了一套自动化数据收集、数据注释和数据过滤的策略,用于预训练和对齐。这能够在多样化、人性化和时尚的文本上预训练和调整Weaver。具体来说,进行了广泛的预训练数据滤波,只在预训练语料库中保留书籍、小说、故事和文章等高质量内容,使预训练的骨干更有可能生成类人文本。

至于对齐阶段,提出一个新的指令反翻译框架,其灵感来自LongForm(Köksal2023)和Humpback(Li2021),该框架综合了多种自然的指令,这些指令对应于专业作家编写的高质量输出,并受到人类用户的青睐。指令反翻译框架将众包注释器的工作从编写指令和输出转换为简单地收集高质量的内容,如故事、小说、文章、社交媒体副本和博客文章。这大大降低了指令数据注释的成本和对众包注释器的要求,同时显著提高了注释数据的质量。

此外,还提出一种用于偏好优化的Constitutional DPO算法,更好地使Weaver与专业作家和内容创作者的偏好保持一致。Constitutional DPO的灵感来源于并结合了之前方法的优点,包括DPO(Rafailov2023)、Constitutional AI(Bai2022)、Self-Align(Sun2021)和RLCD(Yang2023a)。具体而言,Constitutional DPO利用专家(例如,专业编辑)注释的原则,根据从最佳策略中采样的积极例子(例如,专业作家或内容创作者制作的文本),综合违反某些原则的负面例子。与使用DPO的常见实践相比,DPO使用LLM来对两个模型生成的响应,如Zephyr(Tunstall2023)产生偏好注释,合成的成对偏好数据包含较少的噪声,因为与正示例相比,负示例被故意合成为质量较低。Consitutional DPO生成的成对偏好数据还包含更具原则性和针对性的学习信号,人类专家可以根据目标域和应用进行调整。

最后,将指令反翻译和Constitutional DPO阶段使用的注释指令和响应转换为注释指令和评估指令。通过这种方式,Weaver不仅具有遵循写作指令的能力,而且还可以注释写作指令和评估写作输出。作者还为检索增强生成(RAG)和函数调用策划指令数据,使Weaver能够利用外部知识和工具。不同数据源的组合使Weaver成为一个多面手基础模型,同时专门从事创造性写作。

由于Weaver模型是从强大的开源LLM初始化的,因此已经拥有足够的世界知识,因此持续的预训练数据量不需要太多。持续的预训练阶段是Weaver学习重新分配或重新平衡其能力的过程:该模型将更多的能力分配给写作和内容创作,同时减少数学和编码等其他领域的能力。
因此,只在预训练数据中包括手动验证的数据源,包括各种内容,如书籍、小说、故事、新闻文章、论文、报告、社交媒体副本等。结合基于规则和机器学习的方法来过滤低质量的文本。除了数据源和滤波,还仔细控制不同域之间的数据混合。具体来说,将小说数据(即小说和故事)和非小说数据(如文章、论文、报告等)以1:1的比例混合。还将中文和英文数据以4:1混合,使Weaver同时支持中文和英文。

用标准的自回归语言建模任务来训练Weaver,其中模型学习基于先前tokens的上下文来预测下一个token。使用4096的上下文长度来训练Weaver模型。对文档进行混洗和合并,然后将它们截断为指定的上下文长度,创建训练批次。结合Megatron-Deepspeed(Shoeybi 2019)和Flash Attention2(Dao2023;Dao2022),提高计算效率并减少内存使用。采用标准优化器AdamW(Loshchilov&Hutter,2017),并设置超参数𝛽1 = 0.9, 𝛽2=0.95,以及学习率𝜀 = 10−8。用余弦学习率规划,每个模型都有指定的峰值学习率。学习率衰减到峰值学习率10%的最小学习率。为了训练稳定性,所有模型都使用BFloat16混合精度进行训练。在下表中给出了每个模型的详细预训练配置作为weaver家族的描述:

添加图片注释,不超过 140 字(可选)

做指令反翻译而不是self-instruct(Wang 2023a)等指令扩充方法的动机很简单:希望在高质量、时尚和人性化的书面文本上与Weaver保持一致。为了实现这一目标,首先收集高质量的故事、小说章节和不同领域的副本。在下表SFT(有监督微调)数据源的描述中列出了收集文本的类别:为了简单起见,将相似的子域组合在相同的字段中。整个训练集包括34个子域和大约500000个指令输出对。“Picked”是指手动选择相应域中的原始数据。

添加图片注释,不超过 140 字(可选)

然后,用精心设计的少量提示模板来合成上述所有写作任务的指令-响应对。具体来说,对于每个子域任务对,注释如何编写指令-响应对的5个案例,包括注释的结果和注释过程的理由:首先从案例中选择一个文本范围作为输出(除了概述、集思广益和审查任务,其中输出是通过附加提示从所选文本范围转换而来的)。然后,识别或生成输出的上下文。例如,对于润色任务,上下文应该是目标输出的更糟糕版本,因此可以修改目标输出的措辞和结构,使其看起来更糟糕。然后推断出可以用来将上下文转换为输出的指令。再次以润色任务为例,需要对所做的修改进行推理,并相应地合成润色指令。对于每个未标记的案例,用注释的案例作为少样本,并要求GPT-4首先以思维链(CoT)风格生成注释过程(Wei 2022),然后生成合成的指令-响应对。指令反翻译流水线如图所示(Li2023,Humpback来自Meta AI的论文”Self-Alignment with Instruction Backtranslation“):

添加图片注释,不超过 140 字(可选)

通过这个流水线在所有域和任务中合成了500000个高质量的指令-响应对。最后,按照(Liu 2023)中描述的实践进行指令数据选择过程:

首先用GPT-3.5-turbo对所有指令响应对进行评分,然后在每个子域任务对中选择排名靠前的数据进行监督微调。具体来说,根据指令的质量和多样性以及指令和响应之间的相关性对每个指令-响应对进行评分。

最后,作者提出Constitutional DPO,这是一种对齐方法,鼓励LLM从偏好数据中学习,该数据由最优策略的样本和人工智能反馈合成的“原则性”负面例子组成。该方法结合Constitutional AI(Bai 2022;Sun 2023)的优势,Constitutional AI基于人类专家编写的原理来训练奖励模型,RLCD(Yang et al.)促使LLM生成正/负示例,并用人工智能生成的偏好数据训练奖励模型,它省略了奖励模型训练并进行了直接的偏好优化。如图所示是Constitutional DPO框架示意图。

添加图片注释,不超过 140 字(可选)

具体来说,首先邀请包括专业作家、编辑和内容创作者在内的人类专家为不同的写作任务注释原则。与以前只写一个简短的原则描述的“基于原则”方法不同,对于每个原则,还收集了一个坚持原则的案例和一个违反原则的案例,以及解释这些案例为什么坚持或违反原则的自然语言理据。然后,对在上述数据过滤过程中得分最高的指令数据子集进行采样,并将其视为最佳策略的样本,因为输出文本是经过仔细选择的,指令输出对是排名靠前的。对于每个样本,首先提出任务的原则,并要求GPT分析哪种原则最能解释为什么响应质量好。然后,要求GPT合成违反原则的响应对应项,同时添加最小的修改,并且不影响原始响应的其他良好方面。

下表是在4个域和样本任务其专家标注原则的例子:

添加图片注释,不超过 140 字(可选)

根据收集的数据,将原始-扰动响应对进行标准的DPO训练。通过这种方式,每个数据对都包含关于相应原理的关键训练信号,并有助于微调模型遵循这些原理。与标准RLAIF流水线相比,作者的方法合成的偏好数据包含的噪声要小得多,尤其是在写作领域,因为LLM很难做文学评论家。与RLCD(最相关的偏好数据生成方法)相比,采用高质量的SFT数据而不是LLM生成的正示例,并使用专家编写的原理生成负示例。这使得训练信号的噪声更小并且更有原则性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值