你知道什么是AI的数据设计吗

在人工智能领域,数据是推动AI技术发展的基础。而AI模型的性能和公平性取决于数据的质量和代表性。因此,在设计AI模型时,数据设计是至关重要的一环。它涉及到各种问题,例如如何选择数据、如何标注数据、如何收集数据以及如何评估数据的质量。

bef9d77a42415a1b356580e75e254af4.jpeg

在人工智能应用程序的开发过程中,设计数据是开发AI模型的第一步。这个过程通常是一个迭代的过程,需要使用试验数据来开发初始的AI模型,并通过收集额外数据来修补模型的局限性。关键标准是确保数据适用于任务,并且覆盖足够的范围来代表模型可能遇到的不同我们和场景。

然而,目前用于开发AI的数据集通常覆盖范围有限或者具有偏差。这会对AI模型的性能产生负面影响,因为不同人群和场景的数据缺乏代表性。为了提高数据覆盖率,让更广泛的社区参与数据的创建是一种方法。目前最大的公共数据集Common Voice项目就是一个例子,该项目包含了来自166,000多名参与者的76种语言的11,192小时语音转录。

de40001aabe7f4021e83205619014909.jpeg

当现实世界中的代表性数据难以获得时,合成数据可以被用来填补覆盖空白。例如,在医疗保健领域,可以共享合成医疗记录来促进知识发现,而无需披露实际的患者信息。在机器人技术中,真实世界的挑战是终极的测试平台,也可以用高保真模拟环境来让智能体在复杂和长期任务中实现更快、更安全的学习。

然而,合成数据也存在一些问题。由于合成数据与现实数据之间总是存在差距,因此将基于合成数据训练的AI模型转移到现实世界时通常会出现性能下降。如果模拟器的设计不考虑少数群体,那么合成数据也会加剧数据差异。因此,在标准化和透明的报告中记录数据设计地上下文就非常重要。

为了更好地理解数据的质量和相关信息,研究人员已经开始创建各种「数据营养标签」(data nutrition labels)来捕获有关数据设计和注释过程的元数据(metadata)。这些元数据包括数据集中参与者的性别、年龄、种族和地理位置的统计数据,这有助于发现是否有代表性不足的亚群未被覆盖。数据来源也是一种元数据,它跟踪数据的来源和时间以及产生数据的过程和方法。

0d69308810fdc9ce1ea39053579617e1.jpeg

元数据可以保存在一个专门的数据设计文档里,数据文档对于观察数据的生命周期和社会技术背景来说非常重要。文档可以上传到稳定且集中的数据存储库(例如Zenodo)中。这些元数据标签和文档可以帮助研究人员、政策制定者和公众更好地理解数据,以及评估AI模型的性能和公平性。

在未来,随着技术和数据资源的不断发展,我们相信数据设计的过程会越来越透明和标准化。这将有助于确保数据的质量和代表性,并为开发高效、高效、平等的AI模型提供坚实的基础。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值