面向ML的数据标注原理-2.确定目标和选择数据的基本逻辑

这是AI数据标注猿的第51篇原创

      一个用数据视角看AI世界的标注猿    

标注小课堂会陆续推出系列文章主要是深入讲解面向ML的数据标注原理、系统的项目管理、数据预处理等。

主要适用人群是目前数据标注行业内的小伙伴、AI公司负责数据标注相关项目的小伙伴、即将从事AI应用场景数据相关的项目经理产品经理运营经理标注员等。欢迎小伙伴持续关注。

另外征集数据标注平台方或者可以提供AI场景解决方案的商务合作伙伴,最好有自动辅助标注功能或者可以提供算法服务的平台方

主要联合输出面向AI公司场景化的数据解决方案或面向传统企业的AI产品解决方案,提供系列的软文推广。目前公众号主要关注人群有政府人员、AI厂商人员、传统厂商人员、投资人、媒体、学校人员、数据标注行业相关人员等,可以给合作伙伴提供良好的品牌价值输出。

应用场景下的AI更应该从数据出发,数据是核心原料,而算法是实现目标效果的方法或手段。

数据标注的目标是提供给算法可以学习和训练的场景化带有标签结构化数据,从而来在具体问题上实现AI技术的应用。

所以对标注目标进行清晰的定义对于任何一个以应用于机器学习为目的工程来说都是至关重要的。否则很容易在标签设计环节、撰写需求环节、标注环节、训练环节因为细节而迷失方向以至于忘记最终想要实现的目标是什么。

所以本文从以下三个方面对数据标注初始环节必须要做的确定目标和选择数据的角度进行讲解:

  • 定义清晰的目标

  • 准备适合的数据

  • 数据集中的“假设空间”及“归纳偏好”

一.定义清晰的目标

依据MATTER标注开发方法,第一个步骤就是建立模型,那么如何确定一个好的目标定位可以帮助你在MATTER循环的后续阶段中持续聚焦。

我们可以将目标定位分成两个步骤:

  1. 对目标进行陈述,以便覆盖标注任务的基本要素。

    如果您不能想出包含一两个句子的概述来描述你的研究目标,那么在标注任务的剩下部分你将面临许多困难。

    并且在形成标注模型之前,这个陈述仍然需要持续改进,可以基于以下四个问题进行改进。

    a.这个标注工作将用作何种用途?

    b.标注工作的最终结果是什么?

    c.数据的来源是什么?

    d.通过何种途径产生标注结果?

    你想要进行的任务可能需要大量的标注工作。假定你对研究“幽默”感兴趣,即使你拥有时间、金钱和人力来对“幽默”的各个方面进行综合研究,但你任然需要将任务分解成可以控制的多个部分以便为不同类型的“幽默”分别进行标注。

    如果你想了解“讽刺”和“双关语”的作用,你可以为每个任务建立更多的数据集,或者愿意花时间创建一个覆盖所有标注内容的总体标注规格说明,但是建议,如果有可能,先从小的标注任务开始,在将多个小的标注任务合并起来。

  2. 使用这个陈述在关于目标的“怎么样”问题上进一步展开。

    既然你有了目标陈述,你需要将他转变成为任务描述,以便用于创建模型,即标注方案和需求说明。

    需要把握好两种情况的界线:

    a.进行对任务最有用的标注(信息量高度丰富)

    b.使标注结果正确性更高

    值得注意的是有些数据中存在内部的逻辑关系,可以依据封闭规则等判断出关联信息,可以实现部分信息的自动完成。

    而围绕着信息量和正确性的思考与一个影响标注任务的最大因素密切相关,这个因素就是项目的范围。我们要从两个角度的范围进行考虑:

    a.标注工作的范围

    b.计划数据覆盖的范围

    标注任务的范围:

    基于上面4个问题的理解,基本上可以缩小将使用哪些类型的特征和标注的整体目标是什么。但是当将任务归入一个分类中后,仍然有大量因素需要考虑。

    如果你是首次从事标注和数据集构建工作,你可以从更宽泛的类或者更简单的任务开始,当你熟悉了数据集的复杂细节和标签集时,能够以更有意义和有用的方式对标注项目做进一步的提炼。

    通过定义不同的可能关系类型,更容易识别哪些部分与标注任务更相关。

    如果你能够将标注任务作为一个分类任务来思考,那么你已经有一个稳固的框架来开始考虑标注任务的范围。在确定哪些特征与数据和标注任务相关时,你可能已经有了一些直觉。这种直觉也能帮助你决定哪个层次的信息量是好的分类结果所需要的,以及你期望标注人员达到何种准确率。

    从分类问题的角度来思考标注工作的范围,现在可以开始描述最终结果所涉及的具体类型。而标注方案的详细程度可能需要经过多轮标注和评价的迭代才能最终得出结论。

    值得注意的是,标注任务使用的类型越多,训练高准确度的机器学习算法就可能会越困难。但这并不意味着一开始就需要对标注工作进行限制,可以在以后的MATTER循环的迭代中,就可能会发现需要将某些类型合并。

二.准备合适的数据

我们已经讨论了整合数据集需要考虑的一些问题:标注任务的范围、文档与标注信息等。那么数据的准备有哪些需要考虑的呢?

  • 数据集的代表性与平衡性

    任何一个场景数据集都很难包含使用到的所有可能性的子集,所以应尽力确保数据集能够代表总体样本更大范围内的变化性。用于抽样的“总体”取决于标注任务的目标和范围。

    创建数据集过程中另一个重要的概念就是平衡性。它包含的不同类型数据的比例应该与有依据的基于直觉的判断相一致。而需要考虑的一个重要问题就是数据集是否与任务目标相匹配。

  • 数据集的规模

    你已经知道想要寻找何种类型的数据以及如何表现它,那么就还需要决定需要收集与标注多少数据。

    无论标注目标是什么,收集与标注的数据越多,就离达到目标越近。但是实际情况时间、金钱、有限的资源以及精力都可能是限制你能完成标注规模的因素。

    我们建议在第一次进行标注时从较小的规模开始,首先为标注人员选择少量的数据,看看标注任务与标注指南是否合适。一旦解决问题,就可以返回到前面的步骤中并在需要时增加数据量。

三.数据集中的“假设空间”及“归纳偏好”

如上面我们进行讨论的,在确定目标之后会对数据集规模、数据集中包含的数据进行确定,然后在进行标注。但在算法中存在着“假设空间”和“归纳偏好”的问题,也是需要我们在准备数据阶段需要了解和参考信息。

假设空间:

我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中在判断正确的假设,假设一旦确定,假设空间及其规模大小就确定了。

可以有许多策略对这个假设空间进行搜索,例如自顶而下、从一般到特殊或者子底而上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将获得与训练集一致(即对所有训练你样本能够进行正确判断)的假设,这就是我们学得的结果。

需要注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。

归纳偏好:

通过学习得到的模型对应了假设空间中的一个假设,而版本空间也会给我们带来一个麻烦:现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却有可能产生不同的输出。

实际上任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果,可以想象,如果没有偏好,我们的算法产生的模型每次在进行预测时随机抽选训练集上的等效假设,学得模型后时而告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果显然没有意义。

归纳偏好可以看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。而实际中也有很多一般性的原则来引导算法确立“正确的”偏好。例如:“奥卡姆剃刀”:若有多个假设与观察已知,则选择最简单的那个等。

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能

也就是说我们可以清楚的认识到,脱离具体问题,空泛的谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须要针对具体的学习问题。

这一点在数据集的准备阶段是一致的,在我们准备数据的时候就必须要针对具体的问题,考虑假设空间,因为我们无法一次性或几次就把所有的假设空间覆盖。同时还需要考虑数据的多样性覆盖,尽量避免或减少数据自身偏见的存在。

本文是面向ML的数据标注原理的第二篇文章,这一系列文章会围绕着MATTER标注开发过程进行深入讲解,有助于小伙伴们深入了解数据标注的开发流程及逻辑,后续文章会深入对每个一个环节进行分析讲解,结合数据原理及业务梳理进行完整的AI数据模型建立思路的输出。欢迎小伙们持续关注。

注:文章主要内容是经过以下两本书学习整理,有感兴趣的小伙伴也可以直接购买学习。

-----------------------完---------------------

公众号:AI数据标注猿

知乎:AI数据标注猿

CSDN:AI数据标注猿

-----------------------完---------------------

感谢你的阅读,关注公众号回复“抽奖”两个字,即可参与现金抽奖。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI数据标注猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值