深度从业者看2020 AI数据训练产业趋势【转自彭瀚的脉脉专栏】

原贴【https://maimai.cn/article/detail?fid=1380657661&efid=FwoWujrZKZVfUFYdYLgmfg】

本文系我近年间的AI训练从业经验，来聊聊接下来一年AI数据产业的短中期趋势。

我自2016年底开始在一家AI创业公司从事名为“AI训练员”的职位，7个月后成为产品工程组长，着手“针对产品实现可能性的AI模型训练需求”——【规划】，到“合理寻求数据来源并获取数据”——【采集】，到“效率化筛选产品需求相性良好数据”——【清洗】，到“效率化精细化打标清洗后数据”——【标注】，以及“跑训练、测试集并调阈优化所需模型（caffeNet、MXNet）”——【建模】，这一套流程的操作和不断优化。

后来荣幸签到[南京]创新工场（但仍在鼎好A-10办公），为开复“AI赋能新金融、新零售和传统行业”愿景下的“赋能新零售”项目尽一份绵薄之力。

之后还参与了好未来集团的“智能作业批改”、“AI老师”和“直播NLP”项目，并有幸辅助了“智能作业批改”项目在当时成功上线。

再后来，我同时以[地推销售]、[训练培训师]、[数据质检员]、[商务]、[项目经理]和[工作室创始人]的身份经营了一个【线上的】、【兼职性质的】、【内部众包的】AI数据训练团队，带领60+名（包含志同道合的前同事、现实中朋友的外呼下岗团队、现实中朋友介绍的宝妈们以及一小部分从网络渠道加入的有经验人士）团队成员一同为那些有AI数据需求的公司提供优质的中、小批量数据训练（规划、采集、标注、建模、质检）。

合作过的公司包括：中国平安、Appen、360、4Paradigm、Momenta、Recurrent.ai、DeepAIT、广目科技、识加科技等。

做过的项目涵盖CV、NLP领域的图像和音频数据的规划、采集、清洗、标注、转录、建模以及小部分DM的单子。

参与过996.5和白夜两班倒的全职活计，也体验了007的“痛并快乐”的苦逼创业生涯。（网上有个段子，说招聘25岁，20年经验的程序员。有时候我想，也许以后可以把我在AI训练上的工龄再翻上一番写出来，似乎也说得过去。笑:）

职业生涯中，我做过采集标注员，也做过所谓的采标管理岗；完成过不少上游合作方的项目，也当过甲方去分发任务；做过全职，也为自己的想法去创业奋斗。向很多AI大佬孜孜不倦地请教AI的前世今生，也跟志同道合的前后辈畅谈AI训练的未来走向。

在算法、算力、数据这三个AI行业必不可少的核心竞争力中。算法，可能是之后较长一段时间里最难取得突破性创新的一环。

随着近年来AI产业的蓬勃发展以及国家相关政策的大力扶持助推，AI公司，或者说打着AI旗号的公司如雨后春笋崛起，而19年的经济动荡，虽造成了不少企业单位的亏垮，但也大浪淘沙，淘去了很多“披着狼皮的羊”，加上AI行业内如火如荼的激烈竞争，使得目前能够落地盈利的AI类产品基本定了向。这也意味着支持相关方向产品的算法一个个脱颖而出，造就出了“主流”，从而也使企业间的竞技舞台逐步、更加清晰地定位到某一特定垂直细分市场之下。

换言之——“当下主流的DLAI算法主要还是[运算智能]层面的推荐算法，[感知智能]层面CV、NLP、ASR和TTS等技术的高精识别和语义分析以及 //传说中的(笑:)// [认知智能]层面的诸如NLU和NLG等算法。主要应用在：个推、BI、智能交互、人脸识别、物/场识别、智能医疗、无人驾驶、智能机器人等等场景中。”它们从众多创意和流派中脱颖而出，已然形成了各自足够强大和足够吸金的强壮“体魄”，在下一个浪潮袭来之前，恐怕不会有能够动摇其地位的算法了。同时由于它们本身的大限度使用和开发，也使得“百尺竿头再进一步”变得尤为艰难。

再说算力，暂时主要还是看硬件技术水平。算力的境况和算法类似，目前想要取得大的突破很难，但稳步研发，可行。

最后是数据。这是我长时间浸淫的一块领域，也是我认为当前最能拉大各司AI产品差距的一环。

在AI行业做AI产品，数据是必备的支持力。尤其是随着DL的迅步发展，就必须由数据来“教会”机器很多东西。可以说，数据如同喂给AI婴儿的奶粉，它的质量决定了这个初见世间的宝宝是否能够健康、健全的成长。

早期，AI大部分技术还处于实验阶段，诸如ImageNet（当时从1000+到3000+类）这种开源的数据集受到广泛青睐，但更多的是用作研究和测试，在实际的商业落地场景中，使用“开源”数据集的同时也意味着放弃很大一部分商业竞争力，更别提开源集本身的准确率问题了。

而由于AI产业在多种横向或纵向维度上的产品需求差异，以及数据因种种原因（底层算法导致的采标规则分歧、产品定位不同以及人力行为等因素）难以达成共用或者说复用，使得各司模型训练难以完善，导致数据集在一定程度上是十分稀缺的，同时数据的稀缺又让大多企业对其进行“封闭式保护”，更加难以实现本身具有通用属性的模型在别处也能得到复用的情况。陷入了一个恶性循环。（我自己曾不止一次在聊项目经理职位时被问到手上是否留有数据）

当前解决这一问题的方法，常见的一种是利用迁移学习来提高复用性，或者加入联邦机器学习的高保密训练“阵营”；还有一种就是依然“闭关锁国”，但在内部采标团队投入更大的成本，亦或寻找一个靠谱的第三方团队登录内网操作，又或者直接使用定制化的三方数据服务…

而这个需求无疑给出了一个行业机会，就是提供第三方的专业数据支持。当然这并不容易。

早些时候，很多DL工程师的采标需求都得自己完成，所以很多会以兼职的形式挂到网上，但随着这个兼职的曝光度增加，吸引了越来越多投机的第三方小团体和个人，他们的特点是没有基础、经验，浮躁，不稳定。或许偶尔能在网络这个虚拟世界遇到负责，闭环的兼职人员，最后也不会选择长期支持。

因此，从11年左右，或者更早，也是踩着DL的活跃浪潮，数据采标人员的需求在各AI公司开始出现，14年更是明确定性了这一职业，在各大招聘网站上频频出现，当然，当时给出的待遇基本大多是一般实习生的水平。毕竟绝大多数人都认为这是个没有门槛的职业，最终数据就算不太理想也拿去让工程师自己加工处理，采标员只用干活儿就完事儿。

再后来，众包的概念开始在互联网行业风靡，它从很大程度上提高了兼职人员的利用率，而且不用甲方企业付出占有资源的成本，可以说大大缓解了AI数据采标兼职人员管理的一个难题。

但也仅仅只是人员管理上的帮助显著。由于众包平台不只做AI数据的生意，涉足传统兼职的代理也有很多，因此并不会把足够的精力放到AI这边，然而，AI数据，尤其是要用来建模的数据，对精准的需求其实是很高的。众包平台能够管理人员，但并不能很好的协调上下游方对采标标准的理解。这一问题到如今仍然没能得到完美的解决。

而AI数据领域走到今天，采标人员和大多做AI数据的公司普遍“被看轻”、“被边缘化”、“被低容忍”…而不平衡的对待导致了更多“负”情绪的滋生，使得下游团队很多自己都不会认真去做采标，最后终于成了“反正我都xxxxxx”的混子、油条。。

Google Brain的负责人Jeff Dean曾下过一句非常经典的断言——随着数据规模的的扩大，DL算法的精度会不断提升。

而我所看到的，似乎很多AI数据训练团队以及数据需求方负责人都曲解了这句话的含义，认为只要堆人，冲量，利用这个“国有优势”，就能做出更牛逼的模型，完成更牛逼的AI产品。实际上当今的现状也是如此，互联网领域的领头羊们，更多的也只是把海量数据承包给大型人力资源或者大型外包公司转型的数据标注第三方团队，中小型公司对接大型集团的接口被这些公司填满，竞标也完全处于劣势。（但我曾亲身去过这样两个大型第三方公司，采标质量以及采标人员对训练模型标准的理解…站在我的角度，可以说惨不忍睹。）

就我看来，这样的情况或许目前属大流，但一定会被今后的竞争所淘汰。价格战的时期终要过去，那时候人们所认为的“性价比”不会再以“价”为重心。最终的第三方AI数据训练团队，竞争点一定会落在准确率（对训练标准的理解），或者说质量上，而非“人多力量大，亩产一万八”。同时，在数据服务的精细化、定制化和以质量为首要标准的效率化上苦下功夫，不断摸索、迭代：成本、安全与流程的协同优劣，也会为第三方公司们对即将到来的竞争起到正向的帮助。

而大型的、有实力的AI互联网巨头，则会在满足自身AI数据训练需求的情况下，也将自己的团队、或者分流部分团队出来作为AI数据第三方供应商投入战场，不说最后能拿到多少数据，但实现对内降本对外创收还是有的。不过除非几大巨头自己整出个排行出来，或者更惨烈的一家独大出现，否则2020仍然是专业做第三方AI数据供应公司们的主战场。

【p.s.前段时间就有不止一个人问我，刚突然想到，在此顺便提醒各位看官：至少2020年以前，没有所谓的“自动标注工具”！！！！！！】