智能云说 | 基础数据服务,让AI拥有智能的关键

编者按:《智能云说》是刊登百度智能云管理层及产品、技术专家系列观点文章的专栏。在这些文章中,将逐步揭秘百度智能云对行业、市场、生态、技术、产品和解决方案的实践与思考。我们希望通过这样的方式,让您更加了解百度智能云,同时促进行业交流,更好地服务用户。本期访谈嘉宾为百度智能云数据众包业务负责人施佳樑。

百度智能云数据众包业务负责人施佳樑

如今,人工智能已经深入到日常生活中,春风化雨,喧闹归为平静,正在为人们带来便利。超市购物没带钱?没关系,刷脸就能付款。打电话人工坐席忙?没关系,智能客服24小时陪伴你。出国语言不通?没关系,翻译机现在连方言都能翻译了。

这让人不禁感叹,人工智能从概念到产品,再到日常生活的推广,太快了!迅速发展的背后是什么呢?是工程师燃烧的脑细胞,是快速发展的算法?都没错,但别忘了人工智能的基础——数据。

 

这一期智能云说,我们将揭秘百度智能云数据众包服务如何成为AI的基石,为其做好数据采集、标注及管理的。同时揭示这个众包团队是如何从零起步,逐步成为AI基础数据行业品牌第一、规模第一、技术第一的奥秘。

AI的发展,数据是基础

 

业内常说一句话,“人工智能,有多少人工,就有多少智能”,建造一个算法模型需要灌入海量标注好的数据去训练机器,让机器学习以达到“智能”的目的。而众包团队在做的业务“数据的采集与标注”正是为此服务。

 

数据标注就是在帮助机器学习认知数据的特征。举个例子来说,如果要开发一项人脸识别的产品,我们首先要让机器“认识”人脸,但直接给机器一个人脸的图片它是无法识别的,需要先对人脸图片标注,打上关于人脸特征的标签,当机器被灌入海量标注好的图片进行学习之后,我们再给机器一个人脸的图片,机器就能知道这是一个人脸了。

 

AI的发展,数据是基础。用施佳樑的话来说,“人工智能之初和婴儿是一样的”,AI的成长需要数据,就如同婴儿需要食物一样。但这些“食物”并不能供AI直接食用需要后期的加工。

众包团队在做的事就是帮助婴儿获取食物、加工食物。

百度智能云数据众包服务

多模式发展,规模业界第一

通常来说,众包平台的业务模式有两种,众包模式和外包模式。

众包模式的优点就是响应快。平台任务一经发布,马上有人响应接单,且没有中间商赚差价,成本较低。但众包模式有一个很明显的缺点,就是质量较难把控,培训不周的人员难免会有“乱标注”的可能。而外包模式是将标注任务外包给专门的数据标注团队,这种模式能保证较高的数据质量。但较众包模式来说,响应速度慢且成本较高。

单一的使用任何一种业务模式弊端都很明显,是不可行的。对此,众包团队一方面签约了大量的下游供应商,一方面建设自己的数据标注基地,培养专业的众包人员。两种模式兼用,保证了标注人员的活跃和标注质量。

目前,在众包团队平台上签约合同的下游供应商有500多家,可以说是业界第一。而众包团队整个众包服务现在有2000多万众包用户。其中专业的标注源范围在10-20万,这样的下游代理商能力,在行业里面规模最大,甚至业内很多竞品都是众包团队的下游。

另外,众包团队在山西建立了一个自己的标注基地,现在已经有1500人规模,年底能达到2000人,完全由众包团队自己管理,全程监督作业过程中的标注质量与效率。

庞大的众包团队与行业上游地位,让众包团队在性价比方面具有绝对优势。施佳樑说:“之所以性价比如此高,与内部的产品积累和发展规模是分不开的。除此之外,技术与管理也是关键,我们拥有一整套的线上管理系统,能够对用户进行合理调度,这样能确保我们的产品能够帮助客户压缩成本的同时,保证质量。”

技术加管理,质量与效率并重

当然,在性价比方面,给用户提供高价值的数据服务也是首要思考的问题。

对于众包团队的用户来说,都是AI领域企业,其发展主要依赖三方面的能力:算力、算法和数据,对于算力,整个市场基本无壁垒,所有的硬件都是通用的;对于算法,每家公司各不相同、各有利弊,但短时期内一个公司的算法产生质变,有极大地提高或转变是不可能的,这就使得数据成为每家公司竞争的关注点。获取更大规模、更高质量的数据就是众包团队带给客户的价值,这样就能最终做到提高AI应用的效果,提高它的准确率与召回率。

众包团队自身有一套产品机制确保数据服务的质量。在标注期间,众包团队全程监督,其自身研发的系统可以自动化的分析标注人员的行为,比如说一张照片在标注人脸时,系统会监控标注所有时间、每一次打点标注的时间间隔、鼠标的移动轨迹等细节,从而可以判断和预测出这张照片标注的是否正确,是否有遗漏等。

数据质量与后期的多重质检也是相关的,数据在标注后不是直接交给客户,需要经过两轮到三轮质检的手续,这中间要经过自动化抽检手续、自动化加人工抽验手续等,可以极大程度确保数据质量。

打通上下游,业务向纵深发展

当前业内还有一个疑问,如果随着AI逐渐成熟,对数据服务的需求量会不会逐渐降低?

“未来很长一段时间内,数据服务都是刚需。如众包团队今年的重点智能家具与无人驾驶两个领域,对数据服务的需求量一直是增长的。加之百度是一家人工智能公司,品牌的力量让众包团队在数据安全、数据隐私和项目交付时间等方面都给与了客户更大信心。”施佳樑说。

业务量有保证之后,众包团队将考虑进一步把事业向纵深发展,从偏人力密集型劳动数据标注往上下游延伸。往上游扩展就是数据的采集,尤其是车辆道路信息采集,百度作为全国为数不多具地图测绘资质的企业,相较其他头部互联网公司优势明显,“这一块市面上几乎只有百度能做”。而往下游延展,就是提供数据管理、数据模型训练、数据应用、数据迭代方面的软件和平台服务。

自2010年起步,众包团队专注如一,采集无序混乱的数据,进行清洗标注,支撑了无数精密智能产品的诞生,除了百度的内部业务,对外拓展了如华为、小米、蔚来汽车、Momenta等各行业标杆客户。

未来,百度智能云数据众包将打通AI数据服务的全生命周期,从数据获取、加工、模型训练等环节实现对AI商业化场景的一站式数据支持服务,帮助人工智能企业提升产品竞争力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值