数据采集典型案例,景联文科技如何助力企业搭建数据方案

数据在人工智能发展中尤为重要,是人工智能算法得以有效运营的关键环节。

景联文科技为企业提供专业数据方案设计,帮助企业快速搭建与自己算法模型匹配的数据方案,进行新业务领域的探索。

景联文科技是长三角地区规模最大的AI基础数据服务商,构建全国27个省市直辖市全球52个国家的数据采集资源网络,支持计算机视觉、语音工程、自然语言处理等多类型数据采集项目。凭借高质量采集数据服务与全球上百家大型科技企业、科研机构保持深度合作。

用户案例

1. 知名扫地机器人厂商 扫地机器人图像采集

一、需求:

10万张图像400个种类物体采集

二、项目难点:

1)采集数据量大,工期紧张。

2)扫地机器人采集种类多标签多,且对不同时段采集数据的差异性要求较高。

三、解决方案:

1)针对采集规则体系,配置专属商务、项目经理、标注员、质检员、技术人员。

2)针对不同时段采集时出现的数据差异性,和甲方技术部门反复多次协商,最后确定采集时段占比。

四、交付结果:

工期内足额完成交付,一次合格率98%。

 2. 自动驾驶图像采集项目

一、需求:

8辆车辆、28个种类驾驶员行为类型标注

二、项目难点:

1)数据总数46639段视频,235,598张图像,采集标注种类多(疲劳驾驶、着装规范、副驾驶及后排座椅、未系安全带、抽烟、吃喝、后挡风玻璃置物台、主驾驶防护栏、中控台、故意遮挡镜头、手持手机打电、未超载、中央扶手处、聊微信看视频等28),工期紧张。

2)视频抽帧、数据清洗较为耗时。

三、解决方案:

1)针对采集规则体系,安排专业的商务、项目、标注、质检、技术人员对项目背景及目的、规则、注意事项、难点、平台操作、项目要求(准确率、日产量)进行培训。

2)景联文标注平台连续帧预标注功能有效提高标注效率与质量

四、交付结果:

工期内足额完成交付,一次合格率98.5%。

此外,在计算机视觉领域,景联文科技在街景道路采集、车辆图片采集、人脸识别采集、手势采集、步态采集、3d人脸视频采集等项目上均有丰富的采集经验。

3. 知名车企 车载语音采集

一、需求:

车载场景下3w个id216w条语音采集

二、项目难点:

1)数据量大,工时短。

2)采集规则对地域口音多样性较高,需要在全国范围内建立采集渠道。

三、解决方案:

1)配备3年以上语音采集项目管理经验的项目经理和多人采集团队,严格控制关键时间节点。

2)针对不同地域采集人员要求,构建全国27个省市直辖市的数据采集资源网络,及时反馈采集过程遇到的问题并准备多个解决方案。

四、交付结果:

工期内足额完成交付,一次合格率98%。

 此外,在语音工程领域,景联文科技在语音识别ASR采集、语音合成TTS采集、小语种采集、多人对话采集等项目上均有丰富的采集经验。

4. 国家级实验室 文本采集

一、需求:

文本采集110万条,包含21国语种如阿拉伯语、波兰语、德语、俄语、法语、马来语、泰语、土耳其语、西班牙语、意大利语、英语等,每种语种包含天气、导航、视频、应用、系统相机、闹钟、日程、提醒、音乐、设置、页面控制、语音助手控制、翻译、打电话等30个意图。

二、项目难点:

1)采集内容涉猎广难度大,在限制多的情况下,要用不同的句式来表达同一个意思,比如,需要表达“今天天气怎么样”,所有的句子里都必须有“天气”这个词,然后使用1000种不同说法表达,因此对采集人员素质能力要求高,项目经理、采集人员及质检人员需要精通对应语种。

2)文本类型多、场景多、篇幅长、标签数量多。

3)准确率要求99%,工期紧张。

三、解决方案:

1)配备3年以上文本采集项目管理经验且精通多国语言的项目经理和采集团队。

2)安排采集团队对项目背景、目的、规则、注意事项、难点、平台操作、项目要求(准确率、日产量)进行培训和考核,考核淘汰40%,剩余60%人员进入正式任务。

3)根据项目采集要求进行项目结构分析,基于WBS原理将项目按照其内在结构和实施过程的顺序进行逐层分解成树状图,形成相对独立、易于管理和检查的项目各单元项目责任、进度等具体地落实到本项目每个参与者,确保标注质量。

四、交付结果:

工期内足额完成交付,一次合格率 99%。

此外,在自然语言处理领域,景联文科技在槽位提取、聊天记录、知识库、语句泛化、句子编写、情绪判断等项目上均有丰富的采集经验。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值