【BML全功能AI开发平台初体验】一小时轻松搞定文本数据集标注!

昨晚看到GT_老张发的一篇博客——BML全功能AI开发平台完成昆虫目标检测模型的全流程笔记,拜读全文之后,我发现老张用的BML(Baidu Machine Learning)平台是最近新出的平台,看起来功能很强大(实际上确实也很强大),当然要体验一下啦!

在这里插入图片描述

一、数据集介绍

我的数据集源自Kaggle,名称叫做Emotions dataset for NLP,是一个文本情绪分析的数据集,其数据格式是这样的:

data;label

就像下面这样,一共有20000条数据数据,其中有16000条训练数据、2000条测试数据和2000条验证数据:
在这里插入图片描述
为了使用BML平台的智能标注功能,我把训练集的标签删除了,保留验证集的标签用于数据标注。

需要注意的是:

  1. 数据集中已标注数据量超过600条
  2. 每个标注标签的数据量超过50条
  3. 未标注数据的数据量超过600条

二、文本智能标注原理

训练模型过程中,通常需要经历数据集准备(标注)、任务网络配置开发、模型的训练和部署等重要过程。很多时候,模型训练在数据准备阶段会遇到数据量不足的问题,使模型开发过程迟迟不能启动。

BML平台推出的文本智能标注功能,目标是通过少量的已标注数据样本,来获得大规模的智能标注数据,通过减少人工逐一校验的工作,使用智能标注数据来训练小型网络模型,以获得效果和性能更优的模型预测服务。

使用文本智能标注数据来训练模型的原理,有点像当前较为流行的模型蒸馏。

1.基于预训练模型生成「教师模型」

BML平台提供的文本智能标注,是使用了当前中文模型效果最好的预训练模型ERNIE2.0。

完成对少量人工标注数据学习后,可以对未标注数据进行预测,从而获得智能标注数据。

优化智能标注的过程中,系统会根据算法挑选出优先标注样本。用户对优先校验样本进行人工校验后,系统又会使用此部分样本重新训练模型,从而获得更精准的智能标注数据。

在使用上,一般重复这个过程1到2遍即可把全部数据给标注好。

2.将「教师模型」的能力教给「学生模型」

ERNIE完成对人工标注数据学习后,生成的模型称之为「教师模型」,通过预测的大规模无监督语料,把「教师模型」的泛化能力通过模型训练教给「学生模型」。如下图所示:

在这里插入图片描述
所以,可以使用智能标注数据,在训练任务配置中,不使用ERNIE预训练模型。通过选择小型的网络,即可训练出效果逼近「教师模型」ERNIE Large的模型。

三、启动智能标注获得智能标注数据

1.准备工作

智能标注任务,是对一个数据集中的未标注数据进行智能标注。点击左侧“数据总览”,在出来的界面中点击“创建数据集”,并上传一定量的已标注数据和未标注数据。

在这里插入图片描述
找到刚刚创建好的数据集,点击“导入”:在这里插入图片描述
我首先导入了16000条未标注的数据:
在这里插入图片描述
去重后,只有15969条数据,接着导入2000条已标注数据:
在这里插入图片描述
最终导入了1998条已标注数据,此时已标注与未标注数据的比例是1:10

2.创建文本智能标注任务

点击“标注”进入如下界面:
在这里插入图片描述
点击“开启智能标注”,此时平台将会根据已标注数据训练一个教师模型,然后用教师模型标注未标注数据。

此时可以在“智能标注”找到刚刚提交的标注任务:

在这里插入图片描述

  • 预学习阶段耗时约30-60分钟不等,根据数据集中已标注数据的量而定。
  • 智能标注阶段的耗时跟提交的未标注数据量正相关,即数据量越大,耗时将越长

我自己的数据集在做智能标注时花了大概半个小时的时间,这段时间可以去忙别的,喝口茶。(感觉就像是雇了一个机器员工,让它帮你标注数据,还不用给钱!)

注意:
在这里插入图片描述
如果已标注数据少于600条,或每个标注标签的数据量未超过50条,抑或是未标注数据的数据量未超过600条,则会出现错误提示

3.完成标注并查看标注数据

标注完成后,点击“查看结果”,即可看到智能标注的概况:

在这里插入图片描述
点击“立即查看”,跳转到如下界面,:
在这里插入图片描述
此时数据集被分为「无标注信息」、「有标注信息(人工)」和「有标注信息(智能)」三个标签。

完成智能标注的数据,将放置在「有标注信息(智能)」中, 可以对智能标注数据进行人工校验,完成校验的数据,将被转移到「有标注信息(人工)」,代表此样本确认无误。

也可以在「有标注信息(智能)」中,查看本次智能标注的准确率,以及智能标注数据的总样本数。

4.优化智能标注

如果对智能标注的准确率不满意,可以点击「优化智能标注效果」,来对全部的智能标注数据进行优化。
在这里插入图片描述
点击“开始校验”即可进入标注界面:
在这里插入图片描述

标注了超过100条数据以后,可以点击“启动效果提升
在这里插入图片描述
此时系统将会根据刚刚新标注的数据继续训练「教师模型」:
在这里插入图片描述

5.再次启动智能标注

此时,可以继续在此数据集下,增加「未标注」数据,并对新增的「未标注」数据进行智能标注。

在这里插入图片描述
点击“再次启动”即可再次开启智能标注。此时,智能标注的数据将比「优化智能标注」前质量更高。

最后,完成标注后可以查看数据集的各个标签以及每个标签的数据:
在这里插入图片描述
整个流程做下来只花了大概1个小时的时间,这个速度还是非常快的!把之前要人工连续干24小时的工作直接压缩到了1个小时,真的非常高效!

四、总结与升华

总的来说,智能标注这个功能我是非常喜欢的,毕竟可以把更多的时间用在模型开发而不是数据标注上(我不是很喜欢做重复的工作,数据标注真的费时又费力,标注一天,人都要傻了)。

使用BML平台的智能标注功能,只需要少量的标注数据,即可给大量的未标注数据做标注,准确且省时,我觉得这才是真正的人工智能!

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: 百度BML(Baidu Machine Learning)是一个人工智能AI开发平台,旨在为开发者和企业提供强大而全面的AI能力。BML集成了多种技术和工具,如自然语言处理(NLP)、图像识别、语音识别等,可用于构建各类AI应用。 首先,BML提供了丰富的开发工具和API接口,帮助开发者快速构建各种AI应用。无论是大规模的企业级项目还是小型个人应用,BML都有相应的解决方案。开发者可以使用BML提供的高质量模型和数据集,节省了繁琐的模型训练和调优的过程,加快了开发速度。 其次,BML具备强大的AI能力,可以实现多种复杂的任务。例如,开发者可以通过BML实现智能客服系统,使计算机可以理解和回答用户的问题,提升了用户体验。同时,开发者也可以利用BML的图像识别技术,实现物体识别、人脸识别等功能。这些功能使得开发者能够开发出更加智能化的应用。 此外,BML还具备高度可扩展性和灵活性。无论是基于云端还是边缘设备,BML都能提供支持。开发者可以根据自己的需求,选择适合自己的计算资源和部署方式。同时,BML还支持多种编程语言和开发环境,使得开发者能够轻松上手。 总的来说,百度BML作为一款AI开发平台,提供了丰富的工具和API接口,具备强大的AI能力,同时具有高度可扩展性和灵活性。这使得开发者能够更加便捷地构建各类AI应用,推动人工智能技术的发展。 ### 回答2: 百度BML(Baidu Mind Learning)是百度公司开发的一款人工智能AI开发平台BML旨在为开发者提供一个全方位的AI开发环境,使他们能够轻松构建和部署各种AI模型和应用。 首先,BML提供了丰富的AI模型和算法库,包括自然语言处理、机器学习、图像识别等领域的模型和算法。开发者可以根据自己的需求选择适合的模型,无需从头开始设计和实现,大大提高了开发效率。 其次,BML提供了一套完整的开发工具和接口,方便开发者进行模型训练、调优和测试。开发者可以使用BML的IDE(集成开发环境)进行代码编写和调试,还可以通过API接口与其他系统进行集成。BML支持多种编程语言,如Python和Java,方便不同开发者的使用。 另外,BML还提供了丰富的数据集标注工具,帮助开发者进行数据预处理和标注。这对于开发者来说非常重要,因为良好的数据集标注能够显著提高模型的性能和准确性。 最后,BML还提供了云端部署和管理功能,使开发者可以方便地将自己的AI模型部署到云端,实现大规模的应用和扩展。BML的云计算平台还可以实时监控和管理模型的运行情况,对模型进行更新和优化。 总之,百度BML是一款功能强大的AI开发平台,提供了丰富的模型和算法库、完整的开发工具和接口、丰富的数据集标注工具,以及云端部署和管理功能。开发者可以利用BML高效地构建和部署各种AI模型和应用,加速人工智能技术的发展和应用。 ### 回答3: 百度BML是一种AI开发平台,它帮助开发者快速构建和部署自然语言处理、计算机视觉和语音识别等人工智能模型的应用。BML提供了一系列丰富的API和工具,以帮助开发者将AI技术应用到自己的产品和服务中。 首先,BML提供了高效的自然语言处理API。开发者可以使用这些API构建智能对话系统、文本分析和情感分析等功能。通过BML的语言处理技术,开发者可以实现无缝对接用户输入和输出,并提供智能化的响应和建议。 其次,BML还提供了强大的计算机视觉API。开发者可以使用这些API实现图像识别、人脸识别和图像搜索等功能。通过BML的计算机视觉技术,开发者可以将图像和视频转化为结构化数据,并进行更进一步的处理和分析。 另外,BML还包括了先进的语音识别API。开发者可以使用这些API构建语音助手、语音转化为文本和声纹识别等功能。通过BML的语音识别技术,开发者可以将语音信息转化为可操作的文本数据,并与其他的业务逻辑进行结合。 总的来说,百度BML提供了丰富的AI开发接口和工具,帮助开发者快速构建和部署各种人工智能应用。通过利用BML的强大功能,开发者可以轻松实现自然语言处理、计算机视觉和语音识别等复杂的AI技术,并将其应用到自己的产品和服务中,提升用户体验和增加商业价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.郑先生_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值