Xtreme1设计之初就是为Data-centric MLOps提供基础软件工具,我们的入门功能是对文字、语音、图像、3D点云等数据的标注工具,但Xtreme1更关注终端用户的真实需求——AI工程师和科学家们——他们的主要目标是在有限的资源或预算下,为特定应用场景开发出性能良好的模型。在深度学习领域快速发展的今天,许多AI公司投入大量资金到数据采集和标注——当投入程度合理时,收益是显著的。
然而,当深度学习技术收敛、积累的数据量达到峰值时,投资回报率将可能因为数据冗余和长尾问题而大幅下降。之所以大力推广这个功能,是因为我们在现代AI企业和组织中观察到:很多标注结果和工程师需求之间是脱节的。同样,数据采购或数据管理部门又不具备人工智能专业背景或能力去评估特定数据的价值。最终,价格、数量和准确性成为他们评估和签署合同的首要指标。
主动学习提供了一种选择标注最有价值数据而非所有数据的方法,当预算有限、AI工程师高度参与建模数据准备时,主动学习是标准的、传统的前提条件。之所以在海量标注行业中主动学习被低估或缺失,是因为它可能会影响标注业务的营收。Xtreme1则不同,我们希望通过平台架起标注员与工程师之间的桥梁,从而使工程师能够灵活动态地调整标注需求——包括通过主动学习将标注的样本重新分配。
图例1演示了典型主动学习循环模式:当最初标注结果不可用时,可以随机选择并分发为第一批数据进行标记;在第一批数据准备好后,AI工程师可构建初始模型并用它来预测其余数据