大模型中的数据

科学禅道

已于 2023-12-01 18:42:11 修改

阅读量98

点赞数

分类专栏：大模型专栏文章标签：数据库人工智能

于 2023-12-01 18:39:25 首次发布

本文链接：https://blog.csdn.net/xw555666/article/details/134741566

版权

大模型专栏专栏收录该内容

90 篇文章 21 订阅

订阅专栏

简介：

数据是基础大模型的生命线;这些模型的训练数据在很大程度上决定了这些模型可以获得哪些功能。数据的中心性并不是基础大模型所独有的;最近对以数据为中心的人工智能的呼吁表明了管理、理解和记录用于训练机器学习模型的数据的普遍重要性。具体而言，对于基础大模型，目前的做法是使用未指定或不明确的原则选择训练数据，并且训练数据的性质普遍缺乏透明度。我们认为，需要一种替代方法来重新构想围绕基础模型的数据生态系统：我们利用数据可视化和管理方面的工作，为基础模型提出一个数据中心。我们阐述了该提案如何与基础模型的许多相关的以数据为中心的考虑因素相关：选择，策展，文档，访问，可视化和检查，质量评估和法律的监管。

基础模型标志着一种范式转变，越来越多的大量数据被“馈送”到这些模型中，以提高适应性能，总体经验法则是“数据越多越好”。如前所述，对数据策展的关注引起了对基础模型数据生命周期的关注，包括：

1. 管理如此大规模的数据，

2. 在新模式中整合数据，

3. 对许可证和治理法规的推理-特别是考虑到基础模型培训中使用的大规模网络爬行时，

4. 理解数据质量。

虽然基础大模型为这些挑战增加了新的和困难的方面，但我们看到这些问题与数据管理和数据分析以及工业ML管道等社区的核心挑战之间存在相似之处。例如，数据管理长期以来一直在研究可扩展的声明性系统，用于数据分析，版本控制，出处和集成解决挑战1和2。行业拥有应对挑战3的渠道，以管理各种数据许可证并帮助减少数据违规。有一个完整的研究和系统生态系统来应对挑战4，以支持交互式数据分析和可视化。虽然这些解决方案不一定是“基础模型就绪”，但我们认为，更好地管理基础模型数据生命周期的路径应该从这些现有系统中获得灵感。

在本文中，我们将讨论管理基础模型数据生命周期。我们首先概述了四个必要条件，包括大规模数据管理、对异构数据源的支持、数据治理和数据质量监控。然后，我们设想如何将所有这些需求集成到称为数据中心的整体数据管理解决方案中。数据中心只是一个数据管理工具包，可供私营或公共部门使用，以更好地支持基础模型数据生命周期的交互式管理。

1. 必要的数据管理

当前基础模型开发的实践通常在从数据管理和数据文档到模型监测和修补的整个生命周期中是临时的。数据管理社区的研究表明，定义良好的数据管理平台通过数据摄取、数据版本控制、数据来源、有效分析和模型监控促进了大规模的ML模型开发.从数据管理社区中汲取灵感，我们在为基础模型构建整体数据管理平台时考虑了核心需求。

(1) 可扩展性。基础模型正在越来越大量的数据上进行训练，Wudao 2.0模型正在4.9TB的多模态数据上进行训练。随着大多数最新模型主要在面向公众的数据集上进行训练，预计这一规模将增加。与每天收集并用于工业基础模型管道的PB级业务和个人数据相比，公共数据只占数据的极小部分。因此，对于可以处理多模态基础模型数据集的高度可扩展技术的需求日益增长。

(2) 数据整合。最近使用基础模型的工作表明，利用集成的结构化和非结构化数据可以帮助模型更好地泛化到罕见的概念，并提高事实知识的回忆。尽管最近取得了这些成功，但为基础模型集成数据集仍然是一个挑战。许多作品使用具有结构化实体知识或图像数据的非结构化文本数据。越来越需要跨文本、视频、眼动跟踪和机器人模拟等多种模式集成数据集。我们需要能够在工业规模上应用于多种模式和多个领域（如政府、商业和科学）的数据集成解决方案。

(3) 隐私和治理控制。用于基础模型的训练数据可能存在侵犯数据主体隐私的风险;他们的数据可能在未经其同意的情况下被披露、收集或使用，或者在最初同意的背景之外。同意和使用的问题与基础模型特别相关，因为下游应用并不总是可以预期的。正如合法性中所解释的那样，这些问题与用于基础模型训练的网络抓取数据集的流行情况更加复杂。由于关于如何管理和保护网络抓取的数据仍然存在公开的法律的问题，公共和私营部门的基础模型提供商仍然不清楚使用网络数据的后果。我们需要工具来帮助基础模型提供商适应新兴的法规和指导方针，以确保安全和负责任的数据管理。

(4) 了解数据质量。数据质量影响模型性能;然而，系统地、可扩展地理解训练数据和相关数据子集的工具包或方法仍处于起步阶段。数据创建过程可能很混乱，数据可能包含不同类型的偏差，并由有毒、虚假或重复的信息组成。数据也会不断更新和细化，可能会出现新的实体、分布变化和概念含义变化。此外，一旦部署，基础模型可能会在基础模型提供商需要检测和缓解的关键细粒度数据子群体上呈现不良行为。我们需要能够检测并潜在地缓解不同类型的不良数据的工具包，以交互和迭代的方式提高模型性能。这种工具包还需要适应训练数据的动态性质。

2. 数据中心解决方案

在数据管理、数据科学和数据分析方面，我们设想了一个基础模型生命周期数据管理解决方案，我们称之为数据中心。虽然存在以ML为重点的数据中心以及更传统的数据管理系统的示例，但它们有下述特点：

（1）不将数据集成视为第一类原语，

（2）不原生地支持具有模型预测的端到端生命周期，

（3）不允许交互驱动的数据管理和细化，其中基础模型提供者可以根据访问控制指南动态地探索和更新可能的数据集。

我们现在讨论数据中心如何解决这四个迫切需要。

数据规模

为了应对大规模管理的挑战，数据中心将需要标准的数据管理解决方案，例如随着时间的推移存储和维护大规模数据集的基础设施，以及查询、选择和过滤数据集的可扩展接口。中心应该支持异构计算以及云基础设施，以支持不同环境中的可扩展解决方案。

数据整合

中心应该将数据集成作为一等公民。它将需要先进的数据集成解决方案，以允许跨模态和领域合并结构化和非结构化知识。此外，这意味着集线器将需要支持对异构数据集和源的存储和查询。

访问控制

考虑到中心的访问控制，中心将需要支持各种文件，例如，数据集表或数据声明，允许数据管理者反思他们的流程，并对预期用例、潜在偏差和数据集的局限性保持透明。数据中心将需要决定要上传的数据需要哪些文档（例如，数据源和数据描述）以及推荐哪些信息（例如，数据可以用于什么任务）。此外，随着数据集的发展，可能需要更新文档。数据源通常与许可证相关联，中心将需要整合具有不同法律的问题和条件的不同来源。此外，某些数据集具有保护数据主体隐私的法律的指南。该中心将需要方法来确保数据集不会释放个人身份信息（PII），匿名或去身份化数据的聚合不会释放PII，并且数据主体已经对其数据的传播给予了知情同意。从数据集成中提取想法，该中心应支持各种机制，以便能够有效和安全地维护和分享数据资源。特别是某些公共数据集的合法性（例如，Web转储）仍在决定中，中心迫切需要工具来帮助识别许可违规并减轻任何治理违规的影响。由于某些违规行为可能与模型行为有关，因此我们需要系统来支持更好地理解模型行为，正如我们接下来描述的那样。

数据质量工具

借鉴数据分析和探索领域，随着用户交互式地选择、过滤和细化用于训练或适应的数据，中心将需要工具来快速理解用户的当前数据集及其对模型行为的影响。这些系统可以通过结合最近在切片上的工作的模型性能，允许端到端的基础模型监控（亚群）发现、相关子集的模型验证和数据评价。最近的工作还提出了使用模型来检测哪些数据亚群对给定输出贡献最大的方法，以进一步帮助模型调试。

一旦用户可以监控模型的行为，特别是在罕见的，但关键的子人群，中心应该为用户提供方法和指导，以维护模型，纠正模型错误。虽然“模型修补”仍然是一个悬而未决的问题，但的工作首次描述了使用数据工程来维护生产自监督系统，该系统通过更改数据而不是模型来纠正不良行为。我们认为数据中心需要支持用户接口，以便为模型维护注入有针对性的数据修改。

我们还承认，数据管理和探索不是孤立进行的，并认为数据中心应该支持围绕共享有用指标和分析管道的社区。受Hugging Face的ModelHub或Tableau Public的可视化共享平台等类似社区共享平台的启发，我们希望用户分享有关基础模型训练数据的见解。

开放性问题

虽然我们描述的数据中心是受现有工具包和解决方案的启发，但我们不认为它们都准备好应对基础模型的挑战。特别是，围绕设计数据中心的一些悬而未决的问题是：我们应该如何支持数据版本化，以便在维护旧版本的同时更新数据集以实现再现性？一旦部署了模型并确定了错误桶，可能需要更新数据集以包含这些错误桶中的更多示例。应该如何收集这些新的、有针对性的例子？·如训练中所述，我们想象更少的模型将从头开始训练，更多的模型将被微调。我们如何支持来源或谱系信息以了解原始数据的来源，同时保持受试者隐私？在公共部门，数据中心可能由一个由数据管理者和基础模型提供者组成的开源社区组织和运行。在这种情况下，谁存储数据等问题的答案？谁来为电脑买单如果违反许可证，谁负责？特别模糊。数据中心如何提供正确的工具，以便一旦这些问题的答案得到解决，它们就可以轻松地操作？·什么是正确的数据统计，以提供适当的文件，而不是太昂贵或难以获得？·数据中心如何支持有针对性的数据修改，如增强或数据编程？·监控工具包如何更好地检测基础模型何时需要更新，因为动态变化的评估数据性能不佳？我们对数据中心的愿景并不完整或完全详细。然而，我们提出了关于数据挑战的初步想法，以及一个解决方案，以促进思考如何改进基础模型生命周期的数据管理。

科学禅道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型中的数据

数据是基础大模型的生命线;这些模型的训练数据在很大程度上决定了这些模型可以获得哪些功能。数据的中心性并不是基础大模型所独有的;最近对以数据为中心的人工智能的呼吁表明了管理、理解和记录用于训练机器学习模型的数据的普遍重要性。具体而言，对于基础大模型，目前的做法是使用未指定或不明确的原则选择训练数据，并且训练数据的性质普遍缺乏透明度。我们认为，需要一种替代方法来重新构想围绕基础模型的数据生态系统：我们利用数据可视化和管理方面的工作，为基础模型提出一个数据中心。
复制链接

扫一扫