标注猿的第64篇原创
一个用数据视角看AI世界的标注猿
首先感谢小伙伴的关注、转发分享、点赞,最近的几篇文章也得到大家的热烈关注讨论。为了给小伙伴们一个交流的空间,新建了“AI数据标注猿交流社区”供大家进行行业内的信息交流,交流社区不做人员分类限制,会增加多维度人员对行业内信息的交流与碰撞,希望可以从多角度提出更多的解决方案的思路。
这几天也和投过行业内公司的投资人、准备下场做数据标注自动化标注工具的研发型公司的小伙伴深入交流很多思路和想法。其中也聊到了数据标注行业的发展困境,以及导致发展困境的一些问题。本文就针对数据标注行业中“睁一只眼闭一只眼”的趣事儿进行讨论,主要角度是以供应商角度去探讨如下三个问题。
-
平台工具的预标注、自动标注功能
-
标注准确率99.5%
-
禁止分包
一.平台工具的预标注、自动标注功能
首先我们先了解定义什么是预标注、自动标注。在数据标注行业里,主要是用已有的是识别算法对数据进行预处理或自动标注得到预处理的结果的过程。得到的预处理结果会再有人工进行进一步处理加工以得到更高准确率的标注结果集,用于对算法的训练。
目前来看自动标注功能在需求方公司是必然需要实现的,是可以实现数据闭环的,即使无法完成非常准确的自动标注,但只是在待标注数据的优化以及标注效率提升上都会有不错的效果。即使是在局部标注过程中标注员的感觉效率提升还是很有限的,但是从整体数据集的考虑效果还是非常好的。
但从供应商的平台工具角度,宣传时会提到准确率可以达到99.5%,自动标注可以提高很大效率。但这里面会有几点逻辑“悖论”?从以下几个原因进行探讨:
-
数据标注本是非标的项目,及时是相同的数据不同的公司的需求都会有差异,及时是相同的公司不同的时段也会有差异。这样数据标注公司就无法像需求方公司一样在某一个方向进行深入的算法迭代。
-
而需求方为了降低项目成本也会对待标注数据进行多次的处理工作,基本给出来的场景数据都是在算法表现不好的才需要标注。那么从这个逻辑来考虑,供应商的预处理算法一定是无法起到想要的预处理效果的。
-
数据的所有权应该归客户所有,即使客户把数据给到供应商,供应商也无权利用数据及标注结果训练数据,那么就无法提升算法效果,也就不存在越标注效率越高的说法,如果真的越标注预识别的效果越好,那么是不是就可以怀疑未经授权使用数据及结果了呢?
二.标注准确率99.5%
当我第一次看到有公司如此宣传的时候,还是非常惊讶的。基于目前行业内的质检方法来看,几乎都是无法保障能达到这个数值的。后来转念一下,得到这个数值的逻辑,可以参考汽车的100公里加速秒数的逻辑。
都是出于理想状态下获取的数值,实际却基本无法达到。
这里可以列举几个目前行业内“传说”中常见的质检方法,为什么是“传说”呢,核心原因是大部分都只是听说,实战非常少使用。
-
全检
-
抽检(常用)
-
埋点检测
-
多人互审
目前使用最多的方式还是抽检,但是目前使用的抽检方法存在很大的问题,这个在之前写过一篇文章专门讨论过,有兴趣的小伙伴可以去看看:【数据抽样质检】你的数据标注被“白嫖”过么?
但为什么不用其他效果更好的质检方法呢?核心问题就是在成本上,目前抽检是唯一一个可以把成本尽可能多的转嫁到供应商或者底层员工身上。不管是全检、埋点质检还是多人互审等等,预算成本都会成倍增加。
所以不管是供应商自身还是最终客户,质检的逻辑基本都是把通过期望交给了未知概率的概率了。合作时间长的数据处理者和质检人员慢慢也会达成某种“默契”,如果一旦质检人员大概率就是无法通过的,还需要质检返工几次才可以通过。
其实这也是为什么如果是平台方质检人员虽然通过了,但是大概率还是需要被打回修改几遍的,这样质检平台方人员的作用就是提升未知概率不被命中的可能性而已,但只要质检是人为主体,还有非常重要的心理因素,这样整个事件的通过率就变成了未知概率的概率的概率了,最终通过的决定因素大概率就变成了心理因素主导了。
这也是行业需要解决的核心问题之一。
三.禁止分包
行业几乎所有公司都会要求项目禁止分包,不管是出于质量的考虑,还是出于对数据安全的考虑,但是在任意一个行业群里都会经常看到项目分包的消息。即使是相对好一点的项目也会分包,这是为什么呢?
其核心主要还是两个极其不可控的风险:1.项目断档风险,2.准确率高导致的成本无限的风险。
而规避这两个风险最容易的方式就是风险转嫁,由于项目预算低并且上面的两个风险是目前项目执行逻辑下无法规避的,同时项目的利润又无法支撑承担风险,那么最容易最不靠谱的方式就变成了最好的方式。
所以分包便屡见不鲜。最终也变成了一种行业“默契”了。
以上就是针对数据标注行业中“睁一只眼闭一只眼”那些有意思的事的一些思考。或许还有更多有意思的事儿,小伙伴们也可以一起交流讨论。
相关文章阅读:
-----------------------完--------------------
公众号:AI数据标注猿
知乎:AI数据标注猿
CSDN:AI数据标注猿
微信交流群:
微信号:MBZData
抖音号:MBZData
-----------------------完--------------------