标注猿的第63篇原创
一个用数据视角看AI世界的标注猿
进入6月以来,很多行业内小伙伴的日子都不太好过了,留言咨询最多的问题就变成了是否有项目了。上半年的疫情影响逐渐显现出来了,特别是北京上海的疫情断断续续没有停,也导致了很多甲方公司居家办公,无法供应上新的数据。库存数据也在6月份陆陆续续被消耗殆尽,就出现了集中断档的情况。或许这也是其中一个主要原因之一,另外一点是否是由于客户需求减少或客户不再有新的需求呢?这个部分计划后面单独再写一篇数据分析文章做分析。
本文重点讨论一个问题“数据标注的终点会是众包么?”,首先说一下为什么在这个时间点去讨论这个问题,疫情过后数据恢复期大概会在3个月的时间,而且是陆续恢复,这个阶段会出现非常严重的需求方市场情况,供需严重不平衡。而价格体系一旦被打破平衡只会降低并且基本无法恢复到被打破平衡之前的水平。所以初步判断价格会出现新的一轮降低,留给整个行业退让的空间已经微乎其微了。但行业不会消失,只会有层出不穷的解决方案而已。
记得在几年前就讨论过这个问题,基地模式一定会是制约平台方发展的一条路径,众包未尝不是一种好的方案,但是在行业初期的时候谈众包还是尚早,核心两个原因:一个是项目利润客观,二是行业初期产业环境不成熟。
刚好又2021年参加了“信息技术众包服务平台功能通用要求”的国家标准的制作,对众包进行了学习了解,就结合对目前数据标注发展思路做一个讨论。
基于本文讨论的问题,我们从三个方面去讨论:
-
什么是众包?
-
数据标注的终点是众包么?
-
众包下的机遇是什么?
一.什么是众包?
“众包”一词是美国南加州大学安嫩伯格学院新闻与传播系教授 达·C·布拉汉姆第一个使用的,用于阐释分布式解决问题的能力和生产模式。
对于“众包”也提出了定义:众包是一种参与性的网上活动,使得特定的个人、机构、非营利性组织或者公司能过通过方式灵活的公开选拔,从具有不同知识背景,具有异质性的庞大人群中挑选资源承担其任务的个人群体。被大众分担的任务复杂多变并且具有模块性,而参与其中的个人则会利用他们各自的劳动、资金、知识乃至经验做出自己的贡献;这对所有参与者都是互惠互利的。参与众包活动的个人不仅会得到心理上的满足感,还能在经济上也会得到收益,在社会层面上得到认同、建立自尊,同时还能锻炼自己的工作能力。而发布众包任务的组织会从广大众包参与者的劳动中获得收益,其收益形式则取决于众包活动的种类。
主要归纳4要素:
1.存在一个发布任务的组织;
2.存在一个自愿承担任务的社区大众;
3.存在一个能够上载众包工作的网络平台。在该平台上,组织和大众能够充分互动。
4.组织和大众能够互惠互利。
这里面分享布拉汉姆教授根据解决问题种类差异的划分方法:
类型 | 工作方式 | 适应对象 |
知识发现与管理类 | 组织给大众分发的任务是发现和收集相关信息,并使用一种制定方式送到制定网络 | 适合信息收集,组织和问题报告,以创造集体共享资源 |
宣传查询类 | 组织给大众分发的任务是激发大众针对解决某一具体问题提供对策 | 适合对一些科学问题提供一些具体的可操作的解决方案 |
同行审查与创造性生产类 | 组织给大众分发的任务是创造和选择创新思想 | 适合一些涉及或美学问题,其解决方案知识一种品位的选择或对市场的支持 |
分布式智慧任务委派类 | 组织向大众分发的任务是大量信息的分析 | 适合分析那些不太适合计算机分析的大规模数据 |
二.数据标注的终点是众包么?
从数据标注项目的特性来看个人认为标注任务的确是非常适合众包的形式来完成的。就如同上面众包定义来看众包面向的群体不一定是个人,机构、组织也都是可以的。
而在行业内也有一个很有意思的一点就是,大部分供应商、甲方客户都喜欢称呼为团队,而非公司。这一点从业的供应商公司里面就已经认为自己的潜在逻辑就是一个非正式组织了。
但数据标注的终点会是众包么?在回答这个问题之前,我们还是从如下两点进行一个详细讨论:
-
当前数据标注行业面临的问题
对于从业的供应商公司来说最大的痛点就是项目稳定性的问题,而对于客户来说项目的敏捷性却是刚需,而对于行业来说是无法调节的。这部分我们重点不讨论客户因素部分,重点放到众包的适用性角度进行讨论。
对于众包来说其中有一条重要的要素是要有一个上载众包工作的网络平台,而目前行业内出现的转包、分包形式都不属于我们讨论范围,主要讨论范围还是在目前行业内的已有的平台。
-
-
-
基地模式发展是制约平台发展的核心因素
基地模式发展不管是公司成本角度还是资本发展角度来说对于平台类公司一定是一种阻碍,短期来看由于项目可以支持就会有较好利润率,但是从长远来看是无法解决行业痛点的。
所以平台的发展目前是尴尬的,提供解决方案依然是第三方服务层面的解决方案,而非技术及技术创新的层面。如果深入某一领域的技术创新又会甲方客户产生直接竞争。
但是如果走平台快速扩展的方向,目前以基地的模式业务是完全无法支撑的,平台的体量又上不去,这样平台的属性又变成了工具,其商业价值就会大大降低。
但是如果深入工具研发又会因为陷入行业的非标需求太深,市场体量局限导致工具价值就会非常局限。
-
平台不能因为风险转嫁而侥幸
转嫁风险是市场商业化的选择,但是如果想走平台的发展路线,就不能因为风险的转嫁而感到侥幸。初心不变,方得始终。
-
30亿、100亿的体量不是平台发展的终点
目前的标注市场体量以及标注BPO的服务性质,目前来看体量是有局限的了,如何突破体量成为了很关键的问题。
-
小数据时代已到
前一段时间写一篇文章数据标注的未来:吴恩达“未来十年AI会以数据为中心”中提到过,虽然AI未来的10年是数据中心的,但是如何利用数据,特别是小数据量最为关键,吴老师的公司也是致力于利用工业场景中小数据来做模型应用的。
从数据标注的角度来看也必然会回归理性,小数据快迭代会成为必然。动态响应会是刚需。
-
-
-
众包在数据标注行业的优缺点以及难点
单独从数据标注来说,有两个主要特点:
基于这两点和实际需求我们可以推导出众包对于数据标注的优缺点。
优点:
-
-
-
需求理解的难度随着时间的推移难度会直线下降。
-
我们能守住的底线是决策。
-
-
-
众包的灵活性是非常适用于数据标注行业
-
在某些场景下数据的多样性需求满足
-
平台的优化一定是减少数据、优化流程、降低难度的,标注员最需要做的是决策。
-
-
缺点:
-
-
-
项目需求需要快速反应。如果不能调动起来自发性,协调运营难度就会非常大。
-
项目准确率要求高,对整体的结果的一致性要求也非常高。质检难度很大,即使结果一致性高,但是不一定是需要的结果。有可能出现群体偏见。
-
-
难点:
-
-
-
运营难度比较大,用户活跃很难保障
-
平台灵活性和工具多样性要求比较高,业务逻辑设计有一定难度
-
质检算法复杂度与项目利润权衡的高效质检算法
-
数据安全如何保障
-
-
数据标注的终点会是众包么?我们不得而知,但是从内卷程度和数据标注这个单一环节的特点,众包会是一个很好的选择。
三.众包下的机遇是什么?
虽然没有明确模式,但是在很多场景下,行业已经趋于“众包”模式发展了。那么在内卷严重的大背景下,作为供应商来说能守住的底线只有两点:
-
培训
-
持续解答问题
随着平台工具及客户工具的发展和丰富,大规模人员管理一定是要回归平台工具,但当管理、效率等信息公开给客户的那一刻,供应商已经完全丧失了主动权。
所以个人认为平台发展的破局会是众包模式的发展,平台基于基地模式的重运营发展只是一种过渡。而供应商在这个过程中更多的是在扮演教育用户和培育产业环境的工作。
以上就是对目前行业发展与众包模式结合的一些思考,接下来的几篇文章会围绕着目前行业现状做一定的数据分析以及行业报价逻辑分析进行讨论。欢迎小伙伴们持续关注,也欢迎小伙伴们留言交流。
另外简单说一下,这也是为什么上半年的工作重点放在了人工智能训练师职业技能等级考培工作的核心原因之一,在这里也统一回复一下大家之前的问题,7月中旬以后人工智能训练师的高级证书可以挂证了,有想申请当地人社职业技能培训资质或者做职业技能培训增项的小伙伴可以后台私信了。
最后打一个广告,新建了一个AI数据标注猿交流社区群欢迎大家加入交流。如果二维码失效了可以加我微信私信进群哈(请备注姓名-公司)。
相关文章阅读:
----------------------完--------------------
公众号:AI数据标注猿
知乎:AI数据标注猿
CSDN:AI数据标注猿
微信交流群:
微信号:MBZData
抖音号:MBZData
-----------------------完--------------------