【标注小课堂】关于数据标注平台设计的几点思考

最近好多小伙伴留言问关于如果开发数据标注平台怎么做?需要注意哪些问题?有没有相关资料?但是目前开源的相关资料几乎没有,刚好之前工作也设计过几款数据平台以及数据处理平台的设计、研发、测试的工作,所以就想单独写一篇文章来做概要的介绍,给大家提供一个参考。

  1. 为什么要做数据标注平台?

  2. 基于解决“效率”问题的讨论

 

一.为什么要做数据标注平台?

首先目前行业是以服务为主,产品为辅的状态,也就是说大部分客户更关心的是服务质量、数据结果质量、结果格式等,至于过程使用什么工具处理不会太过要求,当然除了一些必须要单独工具处理的项目,如:自动驾驶部分的3D点云、医疗标注等,这类项目开源工具较少,除非客户自己有工具,否则就会要求服务方有工具。所以基于这一点,我们就要思考一个核心的问题,数据标注平台到底要解决什么问题?以及花钱做平台后的围绕着平台做的运营战略是什么?可以从以下几个方面去考虑:

  • 效率?

  • 工具?

    效率、工具很好理解的,这个是基础的需求部分,但凡是真的着手计划做平台的公司也是要解决的最基本需求。

  • 载体?

    个人认为这个行业是据有马太效应特点,也会容易产生规模效应,同时也具有灵活用工的特点,理论是应该会出现类似于“美团”、“滴滴”这样的分发平台公司,但是为什么现在还没有呢?本文不进行讨论,可以后面安排一篇文章单独讨论。

  • 安全?

    数据安全,是老生常谈的话题了,但是目前在标注行业大家更多的还是依靠企业的“契约精神”吧!

  • 通道?

    对于通道来讲,可以结合载体和安全来进行,对于数据标注这件事本身来讲,应该是一个数据流转过程中对数据进行不同处理的过程,至于是用机器来处理,还是人来处理都不重要,而这部分完全可以交给平台算法进行分发,但重要的是数据流经平台一圈回收的想要的数据结果。

  • ......

 

二.基于解决“效率”问题的讨论

应该还有其他方面,就不一一列举了,留言交流的小伙伴大部分都有一个特点不太懂技术,所以本文就重点从“效率”的角度去讨论作为数据标注平台的核心需求点,而对于上面讨论的方向性问题本文不做重点讨论,但是之所以放到前面提到,主要是表明一个逻辑关系,要想好要解决什么问题,再想怎么做的问题。这部分就基于以下几点和大家讨论:

基于目前的项目特点项目需求变化、周期变化有很大的不确定性,所以在项目培训这一块大部分公司都会花很多精力和时间来做重复的事情,无法达到更好的可复制。所以这部分可以通过工具平台的方式做积累主要方式有两种:

要达到至少两个目标:

 

  • 培训效率    

    • 资料库(包含需求文档、视频文档、案例、数据、易错等)

    • 认证考试(针对做过项目数据做提炼作为考试备用)

    • 对已有项目的理解

    • 把对需求理解变成一种可迁移学习的一种能力,使用在其他项目上

  • 项目管理效率

    • 人员日常管理结合项目管理

      对于人员管理每个公司都会用相应的工具,市面上也有很多免费的工具可以使用,但是这块要提出来的是,如何把人员的日常管理结合到项目管理中,例如:大到人员请假、小到短时间内的人员调动。

    • 人员项目中管理

      因为人员在项目中的工作量和时间完全成正相关,所以数据标注的项目是更需要精细化管理的,这部分可以通过工具平台很好的解决,员工使用率和效率监管等问题。

    • 沟通效率

      标注项目有一个天然的特点就是需求变化的不确定性,所以沟通的效率也非常重要,目前大部分的解决方式还是基于微信、qq等即时通讯软件进行,对需求的版本控制等等都没有很好的把控,会很大程度上造成信息不对称的情况,所以这也是需要用平台工具来解决的问题。

  • 工作效率

    • 数据分发

    • 数据标注

    • 数据质检

    • 数据回收

      工作效率这部分应该是整个平台的核心部分,包括了数据分发、数据标注过程的工具、预处理、质检、回收等环节,也是最应该用平台工具解决的核心需求点,其中需要着重提到的两点,数据标注工具的易用性和预处理,其实这两点都是需要一个权衡项目性价比和长期积累的过程。另外预处理个人认为目前很多公司提供的自研预处理解决方案无法解决核心问题,反而还画蛇添足了。如果某公司预处理的结果在某些项目上做的非常好,可以解决百分之九十的标注问题,那么个人认为都有理由怀疑利用其数据进行算法训练了,所以某些逻辑上预处理应该是一个伪命题,个人认为对于预处理这件事儿上应该找到更好的方案,例如:数据闭环等。

从投入产出比的角度来讲,平台一定是解决“效率”问题作为第一步解决的核心问题,毕竟解决了就可以创造价值。而从战略发展的角度,平台要作为一个运营载体就需要更广的战略设想了。但作为一个平台的形式存在不管是哪一点,都不会是一劳永逸的事情,这个是需要不断开发迭代的过程,并且在平台建设初期很容易遇到工具易用性不好的情况,核心功能不好用就无法对人员进行分析管理等,上面提到到的一些逻辑也就无法实现,就容易出现烂尾工程,所以建议投资需谨慎,一定要做好充分的准备。  

 

以上两部分是想从两个方面跟大家交流一下如何进行前期数据标注平台设计的构思,希望可以给小伙伴们一个参考,欢迎大家随时交流。

 


 

最后打一个小广告,参与编写的《数据标注实用教程》已经出版了,非常适用于小伙伴自学,或者中专高职本科类院校作为教材使用。(也可以关注公众号-联系我-标注猿小店  单独购买书)

 

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI数据标注猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值