ChatGPT时代：数据标注会成为一种人机交互“语言”么？

最新推荐文章于 2024-04-13 16:34:20 发布

AI数据标注猿

最新推荐文章于 2024-04-13 16:34:20 发布

阅读量347

点赞数

分类专栏：数据标注文章标签： chatgpt 人机交互人工智能数据标注

本文链接：https://blog.csdn.net/xinyi818/article/details/130965669

版权

数据标注专栏收录该内容

57 篇文章 44 订阅

订阅专栏

标注猿的第70篇原创
一个用数据视角看AI世界的标注猿

大家好，我是AI数据标注猿刘吉，一个用数据视角看AI世界的标注猿。

从去年的10月份到现在有半年的时间没有更新了，去年没有更新是疫情的原因，今年没有更新主要有两个原因一是因为在拼命的“活着”，二是变化太快了，有点懵状态。

到去年年底或许行业内有超过一半的标注供应商公司倒闭，不在从事相关业务了。当然也有一部分公司转型成功了，据我了解有一些转型做抖音的相关业务也有比较好的结果的。当然也有越做越大的小伙伴，非常令人佩服。

所以在年初的时候也跑了一些地方和一些行业内的大牛们聊了聊，本来在聊完之后想写一篇文章，但是聊完之后感觉没有写的意义了。

随后的一个多月里ChatGPT席卷全球，又看不懂了，感觉整个国内的人工智能行业都被打蒙了“1秒”。

最近又和一些小伙伴交流，也请教了一些大咖，关注一些行业的信息，也有了一些思考，决定还是回归数据视角看AI的本质，去写一些内容和大家分享交流。所以本文就从三个方面和大家聊聊：

数据标注业务的增量在哪？
GhatGPT的冲击
数据标注会成为一种人机交互“语言”么？

一.数据标注业务的增量在哪？

总所周知，数据标注行业的业务从数据类型上类区分是图片、音频、文本、视频，而目前行业主体的业务需求大多来源于图片类的，而图片类的大部分需求源于自动驾驶相关标注的业务。

年初的时候，看到一篇36氪发布的一篇文章，文章介绍了几个标注服务商公司的业务增长非常高，有的都已经达到了442%，而一些主机厂的数据标注的投入也从几十万、几百万增长到了数千万甚至大几千万的级别。

所以至少在3月底之前大家对于数据标注今年的市场增量还是信心满满，预期着自动驾驶厂商今年的投入有会有一个非常大规模化的增长。

但是能单纯的认为是数据标注行业的增量么？或许是否定的，单从自动驾驶标注业务来看，实际客户源是很有限的，国内能做的起自动驾驶的公司和主车厂是非常有限的，而愿意实打实花大资金重投的或许是更有限的。

源于自动驾驶业务带来的增量在数据量上的确有增加，但是如果客户数量没有增加的话就会促使内卷进一步加剧。所以从行业增量来说，我认为是没有增量的，毕竟客户总量几乎没有增加。

逻辑很简单，一个主机厂不会把“鸡蛋”放到一个篮子里，而能接主机厂的数据标注供应商大多是规模比较大（关系户）或者平台方，而一般至少也会找3家及以上，那么竞争就来了，或许你会在不同的平台看到同样的项目，价格却不一样。

而从目前来看已经到了5月份、6月份了，年初所预期的井喷式的任务却没有如期而至，是大环境不好预算减少了、还是技术方案调整了？我们还不得而知。

二.ChatGPT的冲击

ChatGPT从文本类再到多模态的表现的确给所有人来了很大的冲击，虽然也有人认为没什么突破，就是数据量大了。但的确让每个人、每个行业都或多或少可以利用这个工具为自己做一些事情。

甚至有些人在思考ChatGPT会不会取代人类，会不会导致很多人失业？我认为不会取代人类，会让一部分失业，但是最恐怖的一件事儿是未来会有一部分人慢慢会会被AI提供的信息所供养。

ChatGPT对我冲击最大的两点是：

有意思的是在ChatGPT出现以后，很多投资人很多公司疯狂的开始吹捧大模型，虽然不知道最终会留下几家，毕竟这种基础的大模型投入太大，而最终能站到“金字塔”尖会非常少。

但这个过程也发生了一些非常有意思的事儿，最先通过ChatGPT赚到钱的人却是一批教普通人使用ChatGPT的人。从如何注册到如何使用，甚至看到了教别人如何向ChatGTP提问才能得到更好的答案。

看到这点的时候，从数据的角度我突然意识到一个问题，“问题也是ChatGTP的一种数据”。

这种问题在标注里面我们通常称为“问题泛化”、“问题扩展”。但这种问题的泛化、扩展其实很难通过标注人员人为的处理。所以才会出现很多人问的问题也想要的答案有出入，但是如果换一种方式问，可能就会得到更贴切的答案。

那么在ChatGPT3.5到ChatGPT4对外开放的迭代时间用了大概半个多月的时间，或许从数据标注的角度来看，应该是更多的训练了一次在3.5开放之后问题的数据。

所以在无意间每个使用过ChatGPT的人都成为了ChatGPT标注员，帮助它进行了一次有一次的标注。
1. - ChatGPT数据的数量级
    
    国内的公司或许也不会拿出上百亿美元的资金去做研发，而还有一部分又要花费在数据标注这个“无底洞”上面。
  - 聚焦场景化解决方案和大模型
    
    从这几年国内一直看重的场景化解决方案，不太看好大模型的发展。而ChatGPT3.5和ChatGPT4打破了国内的很多认知。
    
    记得前几年的每年在参加很多地方举办的人工智能年度大会上，很多专家对大模型的不屑一顾，对场景化模型的吹捧还历历在目。