数据标注是人工智能行业的基础,是机器感知现实世界的起点。在某种程度上,没有标注的数据是没有用的。加州科技大学校长秦志刚教授在接受《科技日报》采访时说,机器识别事物主要是通过物体的一些特征。识别出的对象需要用数据标注,让机器知道对象是什么。
几种常见的数据注释类型
1.分类标注:分类标注是我们常用的标注。一般从已建立的标签中选择与数据对应的标签,这是一个封闭集。一张图片可以有很多类别/标签:成人、女性、黄种人、长发等。对于单词,可以标记主语、谓语、宾语、名词动词等。
适用:文本、图像、语音和视频
应用:人脸年龄识别,情感识别,性别识别
2.帧标记:机器视觉中的帧标记,简单易懂,就是选择要检测的对象。比如人脸识别,首先要确定人脸的位置。比如行人识别等。
适用:图像
应用:人脸识别,物体识别
3.面积标注:面积标注比盒子标注更准确。边缘可以是柔性的。比如自动驾驶中的道路识别。
适用:图像
应用:自动驾驶
4.点标记:在一些对特征有详细要求的应用中,通常需要点标记。人脸识别,骨骼识别等。
适用:图像
应用:人脸识别,骨骼识别
5.其他注解:除了以上常见的注解类型,还有很多个性化的注解。根据不同的需求需要不同的标注。如自动摘要,需要标注文章要点,此时的标注严格来说不属于以上任何一项。(或者你也可以归类为分类,但是没有给要点贴标签的客观标准。如果是贴标签,苹果估计大部分人都有类似的贴标签结果。)
数据标注器可以说是AI在剔除了一部分工作之后创造的一种工作。在未来AI发展好的前提下,数据差距肯定是巨大的。可以预测