在/离线数据标注孰强孰弱?【转自 彭瀚 的脉脉专栏】

我刚接触AI训练那段时间,是在一家创业公司。因为财力人力的缺陷,往往一个人就需要承担从数据规划到采集到清洗到标注甚至最后跑图调阈测试(验证集测试)的所有步骤。

多年后回忆起那段动辄996.5的时光,更多的还是对公司培养的感激以及对更合理安排工作时间的企业的追寻[笑]。

那时每个项目大概的工作流程是:我们训练员依据公司主要产品的所涉领域,以及相应用户画像,琢磨出训练所需数据的来源;接着判断这批数据是网络采集更合适还是现实采集更合适【如果是网络采集的话,如何细化数据分类以缩减不必要的采集时间成本和人工清洗、标注难度;如果是现实采集的话,还要去考虑训练集的获取难度和直接采集是否合规等因素】;数据采集完毕,批量预处理【如:删除音频中的不相干杂音或空白段落;截取/裁剪并放大/调清图片中所需标注的物件】以减少分类清洗所耗时间,当然这一步可以和研发讨要脚本工具批处理;然后分类清洗,尽量清洗到标注这一步全是无噪声的优质原数据为止;然后执行相应类型标注;然后上传搭建好的模型训练框架进行测试。

需要训练员对产品、研发、深度学习科学家们雨露均沾,频繁沟通需求和建议,频繁验证想法和思路……忙得飞起:不断学习,不断讨论,不断进步…连抱怨的时间都挤不出来。

AI训练师虽然"涉猎广泛",但究其职能的主要作用,还是在于快速提供足够准确的数据集。

说白了就是效率。

这是数据规划、采集所围绕的重点,是清洗的目的,也是标注的核心竞争力。

而我在创业公司时期,大多时候都是干活效率最高的那个人。

原因很简单,16、17年,绝大部分对AI数据集有所需求的、且自己内部创建标注团队的公司,基本用的开源工具或改进后的开源标注工具,只要自家不是主打的标注众包平台类产品。这也意味着它们研究所使用数据集,多半具有开源和离线的属性。

我单作为AI训练师,在当时最大的优势可能就是会用linux和读写批处理脚本。这一度令我手上的离线数据能更快地完成整理交付,也一度让我膨胀自认为高人一等…

后来…直至今日,我已经接触并完成过不下20个不同方向不同形式的AI数据训练项目,也见识并提供意见给多家企业"AI训练效率提升方案"。

装过逼,也被打过脸。

我现在仍然在思索构建"最强"的提升AI数据训练效率的方案。然而,在经过多方向多角度的思考推断,以及现实例子的测试反馈,我暂时的结论是——没有最强,只有最合适。

近年以来,更多AI公司开始注重数据集的独特性、与产品的贴合性和保密性。所以哪怕自己没有组建标注团队的实力,但在外包给标注团队的时候,更多也采用了批发账号让人登录内网工作的方式(不论坐班与否)。

同时由于标注人员门槛较低,素质良莠不齐(莠确实占多),且分工更加单一明确,因此往往在汇报时把AI数据训练效率低下的原因归结到——“熟能生巧以后就好”、“规划不合理但咱不敢说”、“采集/清洗的什么杰宝数据"和"这个工具我觉得好用的地方人不觉得,人觉得好用的地方我不觉得” ……等原因上。这样留给甲方的最简单的解决方式就是:改进工具。【工具的改进方向和要素,详见鄙人另一篇拙作《影响数据标注效率的表、里因素》】

改来改去……从最开始的开源工具功能,到标注工具兼容采集下载、清洗和上传功能;到终端和主机的数据集托管角色切换;再到时间、数量的监控和即时质检模块的加入等……工具愈发臃肿,但真实的数据训练效率却没有显著提升,最后大家比的又变回了"熟能生巧"……

那么,在线标注的"熟能生巧+工具进化"和离线标注的"自主操作性高",到底谁更有效率?

说离线的效率高吧,毕竟离线数据可以从采集到清洗到标注到建模一口气包圆了做,而标注员自己的脚本能力可以很大程度支持数据集快速建立。总体上为深度学习工程师/研发人员带去了极大便利,让他们可以花更多时间在自己的研究和项目上,也不用为到底是否要开发某个标注工具的功能而去跟产品及训练师们撕逼。

说在线效率高吧,毕竟会脚本的训练师真的少,而一个功能齐全的,统一化的,节省培训成本的标注工具,在标注团队人员规模较大、流动性较大的情况下真的能省不少事儿。数据安全还能有所保证,何乐而不为?

综上,提高AI数据训练效率,恐怕真的不是一个"统共"的方案能解决的问题,就像大家都做AI,却鲜有一个"统共"的通用数据集满足所有企业。需要以足够的经验来"对症下药",参考企业能力、产品类型、业务方向、技术框架等多重因素,综合性地实现数据训练需求的实现。

但,

也许还有更强的方法呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值