【标注猿杂谈】泛标注和场景化标注的讨论及个人信息数据资产化的设想

本文链接：https://blog.csdn.net/xinyi818/article/details/111376659

小伙伴们年终福利送书啦！！！

重点：免邮、有签名

首先跟小伙伴们汇报一下最近的情况，因为参与的几个项目最近几周比较忙所以一直没有更新，小伙伴们也有很多留言没有来得及回复，还请谅解。最近主要在忙三个方面的项目，目前进行比较顺利，如果有小伙伴也在做类似的项目欢迎交流合作：

基础数据人才培养在几个地市推进落地。
产学院的推进，已经和多家公司（包含一家世界500强公司）及学校达成合作意向。
基础数据处理结合行业（农业供应链金融），参与到央企项目的落地。

言归正传，最近看到了一些关于行业内不同公司发展方向的信息，感觉非常有意思，不论是从数据基础设施建设的角度、还是从产教融合的角度、乃至于扶贫促就业的角度等等，都说明行业该到了一个分道扬镳的时候了，就像当初说的那样，标注行业会是一个很好的切入口，作为一个和人工智能挂钩的行业，即可以定义为人工智能或数字经济相关，又能有不错的现金流，多么好的项目。但目前也到了必须分道扬镳的时候了，毕竟投资人大概率不会愿意去投一个重运营的劳动密集型项目，就好比资本会去投美团，但绝对不会去投一个外卖城市运营商吧。所以今天这篇文章想就目前行业发展的情况，聊聊我个人的想法，仅供参考，会从以下几个方面进行讨论：

大规模、集中化、2B的场景化数据标注业务是现阶段人工智能的妥协。
场景化标注和泛标注的讨论。
基于泛标注的个人信息数据资产化的设想

一.基于场景的数据标注是现阶段人工智能的妥协

对于这个观点本文不做重点讨论。在这里我有做一个简单类比，例如有一个直角三角形，我们已知两个直角边长度，需要计算斜边长度？如果知道勾股定理的话就会直接计算出来斜边长度，但是我们现阶段不知道有一个基础公式可以计算得出结果，我们只能通过测量的方式得出来，而目前的人工智能就是这样，就需要积累很多不同形式下、不同场景下、不同表现形式的直角三角形数据进行积累，尽可能的做数据上的覆盖。其核心的原因主要还是没有找到可靠可控的基石理论。

但是在特定的应用场景上我们可以通过“题海战术”的方式，尽可能的覆盖概率事件，这样就可以实现价值，而只要可以产生价值，同时投入产出比可控并真正能实现价值那么就可以做。商业上绝对不是最求技术的精益求精，而是逐利的。

那么这里就存在一个投入产出比的问题。这里我列举3个相对比较典型的公司类型，这三类公司也都是真实接触过的：

一次会议上谈数据标注的合作，对方负责人很清楚的表示我们的业务场景很简单，不需要大规模的标注，我们内部标注就可以解决掉。

一家做司法审判场景的公司
一家做虚拟人场景的公司

这家公司合作了大概2年多点的时间，目前几乎不需要在新增标注数据，基本上也可以满足他们场景的应用。
一家做自动驾驶的公司

国内自动驾驶的公司还是很多的，目前自动驾驶相关标注是我了解到需求时间最长，需求量最大的行业，其实也不难理解，毕竟人命关天，大意不得。

那么问题来了：

有哪些场景对于准确率的要求非常高且严格呢？
在存量需求中，实际应用场景必须要在理论上避免极小概率发生的AI应用？这部分的需求会是一个长尾需求，对于不是这类的项目需求就一定会存在一个投入产出比的问题。
在增量需求中，场景化解决方案的提出，没有办法由传统公司自己提出，那么这部分需求会由什么公司进行激发？

二.泛标注和场景化标注的讨论

首先对于泛标注进行一个定义，人们在生活生产过程中产生并被记录下来的一次有结果的行为都可以称为一次有效标注，至于标注结果的有效性决定了此次标注的价值。

为什么要提出一个泛标注的概念，首先我们要知道数据本身没有意义，但是如果标注后的数据就可以被使用，有助于决策，那么数据就会有价值了，例如：你浏览点击淘宝等商品信息，本身浏览行为的数据没有意义，但是通过后面的决策推荐算法可以给你的浏览行为打上标签，你的浏览行为触发了标签生效，那么推荐算法就可以为你进行同类等不同维度进行商品推荐来更精准的达成交易。其实这也是进行了一次泛标注。

而现阶段的很多人工智能应用更多的是对现实生产生活的映射到深入优化，还无法真正创新，所以场景化标注在短时间为了达到应用效果并实现商业化，就需要在可控的场景下达到可预期的结果解决更具象的问题，从而需要大规模集中化的数据标注来进行可控场景针对性问题标注结果的聚合。

那么问题来了：

几轮的大规模集中化标注之后呢？对于深耕场景的长尾问题的解决该如何解决呢？
对于长尾里面的问题，使用以一个行业来解决？还是更适合岗位来解决呢？

三.基于泛标注的个人信息数据资产化的设想

对于标注这件事个人认为我们能守住的底线应该是决策，而且我们每天其实有都在做泛标注的事情，那么产生的数据结果呢？被谁在利用？

我们先思考一下哪些数据应该是属于我们个人的呢？--姓名、电话、住址等等信息？还有呢？在此我们参考一下DCCI互联网数据中心创始人胡延平老师提出的《多维数据保护指引》中，对个人数据分为的四大维度：个人基本信息、个人行为数据、个人应用数据、个人持有数据。那么我们就不难理解，除了我们认知的我们基础个人信息之外还包含了行为、应用、持有等很多的数据。例如：我们浏览过网站及所产生的购买行为、我们现实生活中买房、买车等的行为数据、我们每天的运动数据等等。

那么接下来我们再思考一个问题，在我的生活当中，有哪些数据被无情的利用甚至有些被滥用的数据不仅没有给我们带来便利反而带来困扰呢？例如：我们买房之后很快就会有装修公司打电话过来询问装修需求、我们浏览过的网站会很快推给我们类似的商品等等，这些经过我们自身产生的泛标注数据是有价值的，这种价值不仅我们没有获利，反倒是成就了跟多商家，他们通过我们的泛标注数据作为推荐依据，通过广告、变卖等等形式进行获利。

那么请问经过我们同意了么？答案当然是没有，甚至也会有小伙伴认为本来就应该是这样吧。还有小伙伴可能就会提出这个需要政府立法来解决，其实我个人不这么认为，在某些程度上法律建立的前提可能是一些准则的明确，但准则的明确之前是需要在法律界定场景下已经可以清晰整理出一条可行性解决方案的前提下完成的。

数字经济或者是数据经济发展的核心应该是可控的数据使用规则，而数据使用规则核心的就应该是数据确权，在明细产权的基础之上所进行的有序交易才能更好数字或数据经济的开展，打破数据孤岛。

但在整个数据链条到目前为止为什么没有形成有效流的原因有哪些呢？从不同的角度可能都有解释，例如数据作为企业的核心资源，不可能被交易。也有可能某些企业本身的数据也存在数据所有权的问题等等。但个人认为其最核心的问题之一是作为产生数据核心元素--人，没有参与到整个数字化的流程里来，那么很多数据从根上的确权就是有问题的。

所以基于以上思考做如下设想：