语言模型中合成数据的最佳实践和经验教训


论文名称:Best Practices and Lessons Learned on Synthetic Data for Language Models
论文链接:https://arxiv.org/pdf/2404.07503

人工智能模型的成功取决于大规模、多样化和高质量的数据集的可用性,由于数据稀缺、隐私问题和高成本,获取这些数据集可能具有挑战性。合成数据作为一种生成模仿真实世界模式的人工数据的方法已经成为一个有前途的解决方案。本文概述了合成数据研究的应用、挑战和未来方向。我们通过先前的研究经验提供实证证据,展示其有效性,并强调确保其真实性、忠实性和无偏见的重要性。我们强调了对合成数据的负责任使用,以构建更强大、包容和值得信赖的语言模型。

引言

图1 | 由 Imagen(Saharia等,2022a)v2.0 生成的一个合成图像,包含以下描述的提示:“在一个机器人工厂中,人形机器人在装配线上合作设计、制造、测试和组装新的机器人。他们正在制造的新机器人看起来与制造它们的机器人工人相似。”我们还添加了一些控制风格的文本,考虑了美学因素。

人工智能(AI)技术的快速发展导致它们被广泛应用于许多领域,从助理代理(例如 Adept AI 的 ACT-1)和软件开发(例如 Cognition Lab 的 Devin)到医疗保健和金融。然而,AI 模型的成功在很大程度上取决于用于训练和评估的大规模、多样化和高质量数据集的可用性。由于数据稀缺、隐私问题和数据收集和标注的高昂成本,获取这些数据集可能是一个重大挑战。悲观主义者预测,到 2050 年我们将耗尽新鲜文本数据,到 2060 年我们将耗尽图像数据。

合成数据已经成为解决这些挑战的一个有前途的解决方案。合成数据是指通过算法、生成模型或甚至模拟而不是直接由人类创建的方式生成模拟真实世界数据特征和模式的人工生成数据。通过利用合成数据,我们不仅可以克服真实世界数据的局限性,还可以释放潜力开发更健壮、可靠和公平的人工智能模型。

合成数据的许多好处之一是可以大规模生成,为人工智能模型提供了大量的训练和测试数据。这在真实世界数据稀缺或难以获取的领域尤为重要(例如,覆盖所有条件的天气数据)。其次,合成数据可以根据特定要求定制,例如通过引入受控变化来确保不同类别的平衡表示。对数据特征的这种控制可以提高模型性能和泛化能力。第三,合成数据可以帮助缓解隐私问题,通过创建不包含敏感个人信息的匿名或去标识化数据集。这在医疗保健等领域至关重要,患者隐私是最重要的。

尽管合成数据具有前景,但也存在需要解决的挑战。其中之一是确保合成数据的真实性和忠实性,因为在虚假、幻觉或有偏见的合成数据上训练的模型可能无法推广到真实场景。研究人员必须开发复杂的生成模型和评估指标,以创建准确反映真实数据中复杂模式和关系的合成数据。另一个挑战是,如果不经过精心设计和验证,合成数据可能会放大偏见或引入新的偏见。我们认为严格的测试和公平性评估是必要的,以减轻这些风险。

在本文中,我们跟踪合成数据研究的当前状态,并讨论当前的最佳实践和经验教训。本文的其余部分组织如下。第 2 节概述了合成数据生成技术及其在模型训练中的应用,提供案例研究和实证证据。第 3 节讨论了合成数据在评估中的用处。第 4 节讨论了合成数据的挑战和限制,第 5 节概述了潜在解决方案和未来研究方向。

训练中的合成数据

合成数据是通过模仿从现实世界收集的真实数据生成的,已被证明是真实数据的有效且相对低成本的替代方案。本节探讨了几个利用合成训练数据的显著领域。

推理

数学。 最近在语言模型(LMs)的数学推理方面取得的进展导致了开发各种方法来提高数学相关任务的性能。一种方法是在针对数学的预训练数据上进行训练,例如 Minerva、Llemma 和 DeepSeekMath。另一种主流方法是生成合成问题和答案,以模仿目标基准测试集的训练或验证集。例如,WizardMath 利用一系列操作使用 GPT-3.5 增加问题和答案的复杂性,而 MetaMath 通过以不同方式重写 MATH 和 GSM8K 中的问题(如语义重述、自我验证和向后推理)来引导问题。GAIR-Abel 发现增强答案的格式对最终性能至关重要,以问题的释义开头,然后是逐步解决方案的答案比普通格式的表现更好。Xwin-Math 进一步扩展了合成 SFT 数据的生成规模,发现LLaMA-2 7B 模型仍然可以从数据扩展中受益。MMIQC 组合了一系列数据集,将 SFT 风格数据(通过问题-答案重述或直接从 MetaMath 中获取)与一些高质量的数学预训练数据(如 OpenWebMath)相结合。

扩大合成数学数据的生成是一个直接的过程,但确保生成的数学正确性对从业者来说仍然是一个重大挑战。AlphaGeometry 是最近一次尝试解决这个问题的尝试,它使用 1 亿个合成数据点训练神经模型。该模型提出解决方案,并指导符号推导引擎在解决复杂几何问题时验证每个分支的正确性。通过将合成数据的力量与严格的验证过程相结合,AlphaGeometry 实现了与人类奥林匹克金牌获得者相当的问题解决能力,展示了这种方法在解决复杂数学推理任务中的潜力。

代码。 与数学不同,代码推理的合成数据可以自然地将执行结果与结构化代码结合起来,因为正确代码的一个要求是可执行的。在增强代码模型中,CodeRL 提出了一种演员-评论家方法,通过对合成代码样本的反馈信号来改进预训练语言模型。Haluptzok 等人提出了一种自我改进策略,模型生成自己的合成谜题-解决方案对。这些对在真实解释器之前由真实解释器验证和过滤的对进行微调。Shypula 等人进一步提出了一个框架,利用模拟环境和自我改进的合成数据生成以及用于代码优化的 CoT 提示的适应策略。Yang 等人开发了 InterCode,这是一个旨在增强强化学习环境内的交互式代码生成的框架,其中代码作为动作,执行反馈作为观察。Reflexion 利用外部或内部模拟的语言反馈信号来提高语言模型的代码推理能力。关于合成 SFT 数据,Code Alpaca 包括一个数据集,其中包含通过将 ChatGPT 应用于 SELF-INSTRUCT 在 21 个种子任务中自动生成的 20K 个代码指令。WizardCoder 引入了 Code Evol-Instruct 来指导 ChatGPT 以启发式提示增强合成数据的复杂性和多样性。同时,Magicoder 开发了 OSS-INSTRUCT,从开源代码片段生成了 75K 个多样化的合成指令样本。
其他推理任务。 合成数据在其他推理任务中也表现出色。例如,Wei等人(2023a)通过用任意符号替换自然语言标签来增强现有的自然语言数据集,生成了超过50万个合成示例。利用这些合成数据进行监督微调显著提高了模型在未见上下文学习和算法推理任务上的性能。STaR(Zelikman等人,2022)生成合成的思维链理由,并过滤掉导致错误答案的理由,以微调语言模型以提高其推理能力。在物理推理领域,Mind’s Eye(Liu等人,2022)采用一种新颖的方法,通过用合成的“文本描述 → 渲染代码”数据训练文本到代码模型。这使得模型能够将文本问题转换为渲染代码,然后在物理引擎中执行(即 DeepMind MuJoCo(Todorov等人,2012))。渲染结果被注入到上下文中,使得即使是装备有Mind’s Eye的小型语言模型也能达到与大100倍的模型相媲美的性能。

工具使用和规划

通过合成轨迹学习工具使用。 合成数据也是使语言模型通过模拟轨迹学习工具使用能力的强大方法,因为收集真实世界的人类工具使用数据可能耗时,而对工具的实际分布可能存在偏差。例如,LaMDA(Thoppilan等人,2022)不仅在网络文档上进行训练,还在众包工作者与模型本身之间的互动数据上进行训练,合成数据中标注了对适当工具的调用。这种训练过程使LaMDA能够开发使用计算器进行算术、使用搜索引擎进行实时信息检索以及使用机器翻译进行翻译的能力。类似地,Toolformer(Schick等人,2024)通过在模板生成的数据上进行训练,学会决定调用哪些API以及传递什么参数,而Galactica(Taylor等人,2022)将API调用数据融入到预训练混合中。ToolAlpaca(Tang等人,2023)是一个新颖的框架,旨在通过构建多智能体仿真环境并让智能体迭代地选择和使用工具来自动生成多样的工具使用语料库。这些示例展示了合成轨迹在使语言模型获得工具使用能力并增强其在各个领域的推理能力方面的潜力。

在合成环境中学习规划。 自主机器智能(LeCun,2022)中代理的一个重要特征是规划——将复杂任务分解为子任务并以奖励最优的方式完成子任务的能力(Kambhampati等人,2024)。合成数据在这里可以是一个有价值的工具,因为它可以作为从模拟器中收集的反馈信号,并且在其上学习可以使代理意识到任务的可负担性(Ahn等人,2022;Liang等人,2022)。例如,Inner Monologue(Huang等人,2022)利用模拟环境生成的自然语言形式反馈来教授基于LLM的机器人规划。他们发现,这种反馈显著提高了在模拟和现实领域中高级指令完成的完成度。为了组合大量逼真的规划任务(例如“重新排列桌子上的物体以匹配给定场景”),VIMA(Jiang等人,2022)创建了一个名为VIMA-Bench的多模拟环境,支持可扩展的对象和纹理集合。在Minecraft游戏中,Voyager(Wang等人,2023)部署了一些基于GPT-4的代理与合成环境进行交互,并发现代理在合成反馈的帮助下可以更快地掌握新技能并更有效地完成规划任务。

多模态

从视觉到文本的逆渲染。 视觉-语言对齐数据侧重于将视觉输入准确地与LLM(通常通过视觉编码器)对齐。在过去几年中,网络抓取的图像标题对一直是最受欢迎的多模态对齐数据,因为自CLIP(Radford等人,2021)和ALIGN(Jia等人,2021)以来。然而,网络抓取的图像-文本对通常存在噪声,并且只有粗粒度的对应关系,不足以将图像的细节与语言进行对齐。在文档、屏幕、图表和图示等领域,这种细粒度的对齐最方便地可以通过使用构建有图像渲染引擎的数据合成管道来获得。Pix2Struct(Lee等人,2023)使用网络服务器将HTML代码渲染为网站截图,训练任务是将遮罩截图解码为完整的HTML代码。MatCha(Liu等人,2023b)和DePlot(Liu等人,2023a)使用Python绘图库将表格数据渲染为图表,并通过给出渲染图像来预训练基础模型并生成代码和/或表格数据。Si等人(2024)和Laurençon等人(2024)在合成生成的HTML和CSS文件上进行训练,用于将网页截图转换为代码实现。在合成数据上微调的模型可以在从互联网上抓取的现实数据上表现出相当好的泛化能力。Borkman等人(2021)提出使用物理引擎或游戏引擎(例如Unity)作为合成数据生成器,以帮助计算机视觉研究。

多模态指令跟随。 多模态LLM的下游应用需要推理和指令跟随能力。这些数据通常是长格式问题-回答对,并且人类创建起来成本高昂。LLaVA(Liu等人,2024b)使用现有的图像标题来提示GPT-4(仅文本模式)撰写多样化和长格式的提示-答案对。在多模态LLM训练中,图像和提示被用作输入,而标题和边界框信息可以被隐藏。除了图像标题,其他图像属性信息的来源,如对象边界框(Zhao等人,2023)、OCR(Zhang等人,2023d)和解码的图表(Carbune等人,2024;Masry等人,2023),都可以适用于这种图像属性+文本LLM重写合成数据管道。

多语言

反向翻译增强。 许多多语言语言模型使用反向翻译作为数据增强方法,从单语数据源创建合成平行训练数据(Bi等人,2021;Caswell等人,2019;Liao等人,2021;Marie等人,2020;Pham等人,2021;Sennrich等人,2016;Xu等人,2022;Zheng等人,2020)。例如,Sennrich等人(2016)将单语目标数据反向翻译为源语言数据,为重要的翻译任务提供了额外的平行训练样本,从而改善了翻译任务的性能。研究人员还探索了不同的反向翻译采样方法(例如,束搜索、约束采样、无约束采样)及其比较有效性(Edunov等人,2018;Graça等人,2019;Sennrich等人,2016)。Xu等人(2022)强调了合成数据的权重和质量对于使用反向翻译实现最佳NMT性能的重要性。他们提出了一种方法,通过优化搜索方法之间的比率和伽马分数来平衡估计的重要性权重和质量。然而,基于反向翻译的合成数据生成存在一些局限性。例如,合成数据的质量和多样性取决于反向翻译方法的性能。如果合成数据太嘈杂或不够多样化,性能提升将受到限制。

大规模生成多语言问题和答案。 最近的研究探讨了生成和利用合成多语言问题-答案(QA)对来提高语言模型在多语言和跨语言问答中的性能(Abulkhanov等人,2023;Asai等人,2021;Chi等人,2020;Kumar等人,2019;Li和Callison-Burch,2023;Riabi等人,2021)。一种方法是将现有的单语问题和/或答案翻译成其他语言(Asai等人,2021)。另一种方法涉及使用问题生成(QG)模型根据答案和/或源文本以跨语言方式生成合成问题(Chi等人,2020;Kumar等人,2019;Riabi等人,2021)。最近的努力还专注于同时在多种语言中生成问题和答案以获得更大的灵活性(Li和Callison-Burch,2023;Shakeri等人,2021)。例如,Shakeri等人(2021)在预训练的多语言T5模型(Xue等人,2020)上微调混合了QA生成任务和多语言掩码语言建模任务,以生成多语言的合成QA对。这些努力通常表明,训练在合成QA对上的语言模型在多语言QA和信息检索基准上表现出改善。
指令遵循。 合成数据可以作为训练指令遵循模型的一种有前途的方法,特别是在真实世界数据稀缺、昂贵或难以获取的情况下。Self-instruct(王等,2022a)和Stanford Alpaca(Taori等,2023)都在使用LLM生成涵盖各种场景的指令遵循数据。它们首先选择一小组“种子指令遵循样本”,然后要求LLM模仿格式生成更多演示。这种方法的一个关注点是如何保持生成的数据高质量,其中涉及查询的复杂性(刘等,2023d)、语义的多样性(丁等,2023)以及合成数据集的规模(袁等,2023)。为此,徐等人(2023)提出了Evol-Instruct,通过提示向简单指令添加复杂性。穆克吉等人(2023)利用LLM迭代修订指令和响应,以在FLAN数据集(魏等,2022)中包含高质量的解释追踪,他们发现训练模型在许多自然语言处理任务中的性能有所提高。UltraChat(丁等,2023)是一个大规模、多轮次的合成对话数据集,由两个独立的ChatGPT Turbo API模型生成——一个充当用户角色,另一个充当助手。他们使用精心设计的提示指导用户模型模仿真实人类用户行为。

许多语言模型经过监督微调以学习如何遵循指令,但在学习这种行为时,它们可能会无意中学会阿谀奉承(佩雷斯等,2023),调整其响应以迎合用户的观点,即使该观点在客观上并不正确(魏等,2023b)。夏尔马等人(2024)发现证据表明偏好模型(即用于RLHF训练的奖励模型)甚至人类有时也更喜欢阿谀奉承的回应。在这方面,魏等人(2023b)生成合成数据以鼓励模型对用户意见具有鲁棒性,并在微调步骤中添加这些数据以减少对保留提示的阿谀奉承行为。

减轻幻觉。 许多广泛使用的语言模型利用监督微调(SFT)来学习如何使其与用户的互动保持一致(王等,2022b;张等,2023b)。特别是,存在许多生成合成SFT数据的方法,可以提高推理和对齐等能力(魏等,2023a,b)。然而,已经显示出这些合成数据可能会通过包含大量虚构的答案或迫使模型学习回答其不知道答案的问题而向语言模型引入幻觉(张等,2023c)。这些案例表明,如果不正确应用,合成数据实际上可能会增加语言模型中的幻觉。

另一方面,最近的研究也显示了使用合成数据减轻幻觉的有希望的结果。例如,GPT-4(OpenAI,2023)使用了利用合成幻觉数据进行强化学习的奖励模型进行训练(张等,2023c)。这种方法在TruthfulQA(林等,2022)数据集上取得了显著的性能提升(张等,2023c)。类似地,琼斯等人(2023)设计了一个合成任务,其中幻觉可以被轻松评估,利用这个任务通过前缀调整学习连续的后缀来优化LLM输出。田等人(2023)使用自动事实检查和置信度分数来排名模型响应对的事实性分数,然后用DPO(Rafailov等,2023)微调语言模型以提高其事实性。然而,使用合成数据减轻幻觉的持续研究仍受到限制,因为缺乏可扩展评估幻觉的合成任务。

与共享人类偏好和价值观保持一致。 直接在价值观一致或人类偏好数据上微调是一种对齐语言模型的简单方法,但这种方法通常需要大量人工标注,尤其在规模上可能成本过高。此外,这种标注经常表现出不同风格和不一致的质量,特别是在质量较低的样本上(吉拉尔迪等,2023b;Meta,2023)。为了解决这些实际挑战,提出了一种先进技术,称为“从人类反馈中强化学习(RLHF)”(克里斯蒂亚诺等,2017;莱克等,2018;欧阳等,2022)。这种方法涉及训练一个奖励模型以代表人类判断,指导LM生成策略的优化。

最近的研究提出了混合合成数据和真实人类数据来训练更强大的奖励模型(高等,2023)。Constitutional AI(白等,2022)建议使用一小组原则来引导AI生成的评论和反馈,并使用这种合成数据替换典型RLHF流程中的真实人类数据。使用这种RLAIF(即从AI反馈中进行强化学习)方法训练的模型显示出与RLHF基线类似的强大性能。总的来说,合成数据通过允许研究人员以低成本的方式生成大规模、多样化和可控的训练数据集,为人类价值观和偏好的对齐提供了强大的解决方案。通过模拟涉及伦理困境(佩雷斯等,2022)、社会互动(刘等,2023c)和文化规范(齐姆斯等,2023)的各种场景,合成数据使得可以全面系统地测试AI模型与人类价值观的对齐。这种方法有助于在AI系统部署到真实世界环境之前识别和减轻与偏见(刘等,2021;恩托西等,2020)、公平性(兰德斯和贝伦德,2023;赵等,2018)和意外后果相关的问题。

然而,重要的是要认识到低保真度的合成人类偏好数据可能在准确反映微妙的人类判断方面存在局限(阿格尔等,2023)。因此,由此产生的模型可能在“越狱攻击”(德希潘德等,2023;黄等,2023a)下不够稳健,并且即使通过安全训练,也可能展现出策略性的欺骗行为(埃弗里特等,2021;潘等,2022;斯坦哈特,2022)。为了减轻这些风险,研究人员必须不断完善和提高合成数据的质量和多样性,纳入更复杂和全面的场景,以更好地捕捉人类价值观和偏好的复杂性。此外,将合成数据与真实数据相结合,并在与真实世界同步的交互环境中创建合成数据,是一种有希望的补救措施。随着对有效的AI治理和监管需求的增长,合成数据将在促进信任、问责和开发符合人类价值观和社会期望的AI技术的可扩展监督机制方面发挥越来越重要的作用。

评估中的合成数据

合成数据广泛用于不同视角的评估中:

事实性。 AI系统可能生成不基于事实知识或数据的信息或响应,导致产生误导性或虚假内容,形式上称为幻觉(季等,2023)。事实性评估旨在确保AI系统输出的知识与其训练数据和知识库中提供的知识一致(季等,2023;张等,2023c)。早期基于统计的幻觉评估方法依赖于n-gram直接计算输入和输出内容之间词汇重叠的重叠度(Dhingra等,2019;王等,2020)。然而,这些方法存在局限性,因为它们只考虑词汇重叠,不考虑语义或句子含义(季等,2023),使其不适用于评估更复杂形式的幻觉。随后的保证方法从统计方法转向基于模型的方法,与基于标记差异的方法相比更为稳健(Honovich等,2021)。虽然这些基于模型的评估方法比其前身更先进,但它们仍然存在局限性。例如,模型只能输出幻觉程度,可能难以准确定位具体错误(Falke等,2019)。冯等人(2023a)提出将LLM生成与知识图上的随机游走相结合,为事实性生成合成评估数据,该方法了解图上的实体和关系。魏等人(2024)创建了一个名为LongFact的合成数据集,用于长篇事实性评估,并使用Google搜索作为基础来源和LLM进行自动判断,以实现人类级别的准确性但成本显著降低(Min等,2023)。
安全性。 红队测试是评估人工智能模型安全性和稳健性的强大技术(Casper等,2023b; Ganguli等,2022)。通过生成多样化和逼真的场景,旨在引发不一致或有害输出(Casper等,2023a),红队测试可以暴露人工智能系统的漏洞和弱点(Perez等,2022)。例如,Perez等人(2023)使用语言模型生成数据集来评估其他语言模型的行为。他们最终生成了154个经人类验证的高质量数据集,并发现了语言模型在规模变大时变得更糟的新情况。Hubinger等人(2024)利用合成数据大规模触发语言模型的后门攻击;他们发现语言模型可能表现出欺骗性行为,并在此类攻击下产生虚假的安全印象,标准的“安全训练”无法轻易消除这种欺骗。这些方法展示了利用人工智能辅助扩大人类监督(Bowman等,2022)解决复杂问题和未知领域的可行性。

辅助人类评估。 最近的研究表明,在许多情况下,大规模语言模型(LLMs)的合成判断可以作为实际人类评估的合格、快速和低成本替代品(Gilardi等,2023a)。以GPT-4为评判者,Alpaca Eval(Li等,2023b)和MT Bench(Zheng等,2023)是两个流行的基准,用于衡量基于语言模型的ChatBot的综合能力。在编码任务中,合成环境是帮助人类评估的常见选择,因为人类可以通过实际执行和分析运行日志更有效地进行评估。Gu等人(2024)提出了CRUXEval,一个由CodeLLaMA-34B生成的包含800个Python函数的代码执行推理基准。类似地,Liu等人(2024a)介绍了CodeMind,一个用于评估LLMs在独立执行推理(IER)、依赖执行推理(DER)和规范推理(SR)上的代码推理能力的框架。所有这些基于合成数据的评估显示与真实人类判断之间存在很强的相关性。

合成数据的挑战和限制

尽管合成数据提供了许多好处和应用,但必须承认并解决与其使用相关的潜在挑战和限制。本节探讨了围绕合成数据的三个重要关注点:

滥用合成数据可能会传播错误信息。 合成数据的潜在滥用是一个重要问题,必须加以解决,以确保人工智能系统的负责任发展。当前的人工智能模型越来越能够生成类似人类的数据,包括文本(Gemini-Team等,2023,2024)、图像(Ramesh等,2022;Saharia等,2022b)、歌曲,甚至视频(例如OpenAI SORA)。当合成数据用于冒充真实人物、操纵公众舆论或影响政治过程时,这可能特别危险。此外,基于合成数据传播的错误信息可能会破坏对合法信息来源的信任,使人们越来越难以区分真假(Byman等,2023;Rid,2020)。为了减轻这些风险,研究人员、开发人员和政策制定者需要建立明确的合成数据的道德生成和使用准则和最佳实践,包括检测和对抗合成错误信息的强大机制。通过积极应对这些挑战,我们可以利用合成数据的好处,同时最大限度地减少其潜在危害。

合成数据可能导致人工智能对齐的模糊性。 在对齐人工智能模型(例如宪法人工智能)中越来越多地使用合成数据可能会引入重大的模糊性和不确定性。人工智能对齐的目标是确保人工智能系统的行为与人类的价值观和意图保持一致。然而,合成数据是人工生成的,而不是从现实世界的来源收集的,可能无法准确代表人类价值观和偏好的微妙和复杂之处。这种差异可能导致人工智能模型从具有偏见(Feng等,2023b;Liu等,2021)、不合理(Liu等,2022;Patel和Pavlick,2022)或不真实的场景(Ji等,2023;Weidinger等,2021)的数据中学习。因此,基于合成数据训练的人工智能系统可能表现出与人类期望不一致的行为,可能导致意外后果甚至有害行为。此外,合成数据引入的模糊性可能使解释和理解人工智能模型的决策过程变得困难,进一步复杂化了确保对齐的任务。为了减轻这些风险,研究人员需要仔细考虑在对齐研究中使用合成数据的限制和潜在缺陷,并开发验证和测试基于这些数据训练的人工智能模型的强大方法。

使用合成数据进行训练使评估去污染更加困难。 在模型训练中使用合成数据会给公平评估带来重大挑战。评估基准通常是通过参考公共文本来源(例如课程网站或论坛)创建的。因此,可以提出这样一个论点:所有公开可用的基准测试案例可能偶尔包含在LLMs的预训练数据中。使用合成数据加剧了这个问题,而不是减轻它。尽管社区已经提出了几种技术来检测这种评估污染,例如min-𝑘% prob(Shi等,2023),它检查𝑘长尾标记的概率,但当模型使用合成数据进行训练时,这些标记级别的去污染方法是不够的。合成数据可能包含基准数据的重新表述版本,使标记级别的去污染失效。除了开发更先进的评估污染检测技术外,我们建议模型开发人员投资创建和维护内部和受保护的评估基准。这些专有基准应该受到仔细保护,以防止泄漏,并确保评估过程的完整性。

未来工作方向

随着合成数据领域的不断发展,有几个有前途的研究和发展方向。本节概述了三个值得进一步探索的关键领域:

合成数据的扩展。 许多过度训练的小型语言模型(例如Mistral系列模型,Gemma系列模型等)表现出色,这表明有必要使用大量标记进行训练(甚至超过计算最优的“毛丝鼠法则”)。然而,关于使用合成数据进行训练是否得出类似的结论仍然是一个开放问题,因为合成数据的质量可能不如真实数据一致。未来的研究应该探讨合成数据的扩展规律,并确定合成样本数量和质量之间的最佳平衡。这一探索可以帮助我们了解在训练大规模语言模型时利用合成数据的最有效策略,可能导致更高效和成本效益的方法。

进一步提高合成数据的质量和多样性。 尽管现有的生成合成数据方法显示出潜力,但在创建高质量、带属性的合成样本方面仍有改进空间,以便更接近真实数据。未来的研究应该专注于开发新的先进技术(或基于现有技术,如生成对抗网络(GANs)或扩散模型等),这些技术可以控制和操纵生成数据的特定属性,从而创建多样化和可定制的合成数据集。此外,研究人员应该探索能够整合领域特定知识的方法,以确保生成的数据符合目标领域中存在的约束和模式(例如,通过检索增强生成)。通过推动属性合成数据生成技术的最新进展,我们可以为隐私保护分析和跨各个领域的模型训练开辟新机会,从医疗保健(例如合成医学图像)和金融(例如模拟交易轨迹)到社会科学等领域。
朝着高保真度和更高效的可扩展监督迈进。 随着人工智能模型变得越来越复杂和自主,使用传统的监督方法来监测和评估它们的行为变得具有挑战性,这些方法依赖于人类监督或真实世界数据(Amodei等,2016)。未来的研究应该探索使用合成数据来实现这些先进系统的高保真度可扩展监督。现有方法通常通过社交迭代模拟特定场景,如辩论(Leike等,2018)、反思(Zhang等,2023a)或修订(Liu等,2023c)以获取合成数据,而新方法可以涵盖更全面的场景和更多的形式(Sun等,2023),因为最近的研究发现了仅涵盖缩小范围(Cheng等,2023)或过于简化(Zhou等,2024)场景的模拟存在许多问题。展望未来,另一个增长方向可能是如何更高效地实现可扩展监督——鉴于我们完全控制合成数据的生成,我们可能可以用更少的合成数据提供更有针对性的监督。随着对有效的人工智能治理和监管的需求增长,合成数据将在促进更加可信赖的可扩展监督机制方面发挥日益重要的作用,从而推动人工智能技术的稳健、负责任和安全部署,造福社会(Askel等,2021;Bowman等,2022)。

新兴的自我改进能力。 我们通常选择最有能力的模型生成合成数据,因为它的生成质量更高。然而,一个有趣的问题出现了:一个模型能否生成比其训练数据更好的合成数据,从而使其自我改进?通过合成数据生成实现自我改进的概念是未来研究的一个激动人心的方向。如果一个模型能够生成比其原始训练集更高质量的数据,它可能通过反复从增强的合成数据中学习来自我启动其性能(Chen等,2024)。这种自我改进能力可能导致更先进的人工智能系统的出现,这些系统可以随着时间自主地完善其技能和知识(Burns等,2023;Huang等,2023b)。尽管最近的工作在这个方向上取得了令人鼓舞的进展(Chen等,2024;Yuan等,2024),但自我改进的上限以及其有效性的根本原因仍然是一个悬而未决的问题。未来的研究应该探讨通过合成数据生成实现自我改进在更多不同场景中的理论基础和实际可行性,考察必要条件、潜在限制和相关风险。通过释放新兴的自我改进能力的潜力,我们可以实现更具适应性、高效性和自主性的学习过程(LeCun,2022)。

结论

合成数据已经成为解决人工智能开发中数据稀缺、隐私问题和高成本挑战的一种有前途的解决方案。通过生成逼真多样的数据集,合成数据使得能够在各个领域规模化地训练和评估人工智能模型成为可能。随着我们接近人类水平甚至超人类水平的智能,获取合成数据变得更加关键,因为模型需要比平均水平的人类质量更好的数据来进步。然而,确保合成数据的真实性、保真度和缺乏偏见仍然是一个重要挑战。

未来关于合成数据的研究方向可以集中在提高生成模型的保真度和可控性,制定标准化的评估和污染协议和工具,以及探索将合成数据与其他技术的整合及其在其他领域的应用。尽管存在挑战,但合成数据在推动人工智能研究方面的潜在好处是显著的。通过负责任和有效地利用合成数据,我们可以构建更强大、包容和值得信赖的人工智能系统,造福整个社会。

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值