制作有效数据集的方法总结

前段时间接手了一个项目,本以为数据是成熟可用的,在多次训练尝试之后,让我怀疑数据有问题,因此从头开始关注每一张数据图片和每一个标签。真是不看不知道,一看吓一跳;数据问题非常大,只能开整了,数据集对于一个模型优劣的影响也是非常非常非常大的呀!!!看了一些文章,根据voc官方标注规则,整理总结一下,方便下次使用。<个人总结,如有问题,欢迎指教>
一、最重要的是要弄清楚,标记的对象是什么,标记范围和边界。
二、数据选择
1、从不同的背景中选择不同角度、方向的目标图像,并且数据集中,检测的对象必须至少有一个相似目标,包括但不限于形状相似、侧面相似、相对大小、旋转角度、倾斜、照明……
2、保证采集的数据的质量,数据集的大小最好与实际使用场景的大小接近,并且保证自然场景下数据的多样性。
3、数据集的数量尽可能的多(1000+/2000+),普遍来说,应该是有2000+,训练迭代2000+或更多。
4、数据集中既要包括想要检测的物体,也要包括不想检测的物体,但是只标注想要检测的物体。
5、多个类检测,各个目标检测的类在数据中出现的次数差不多,保证数据均衡。
三、标记说明
1、规则一致性,标记定义类别的所有对象,目标所被标记部分是按照希望如何被检测到的方式去标记(比如只检测一半、可重叠区域、比整个物体大一点……);
除非:
①不确定对象是什么;
②对象非常小;
③少于10~20%的对象是可见的;例如一辆车只见一个轮胎,不能被标记为车;但是脚和脸只能属于人;
④对象太多无法分别;
⑤如果标注的噪声太大或者标签边界太模糊(标注错误或者标注规则写的太松、太模糊,导致人都分不清某几类之间的区别),很可能会导致模型在这个数据集上无法收敛。
以上情况如有发生,则该图片不计入数据集。
2、确保要检测的每个对象在训练集中都被标记,标注时应将目标包括在内(选取的区域尽可能包含)
3、异常旋转的物体,也不应纳入数据中。
4、质量差的图像(例如过度的运动模糊)不应纳入数据中。但是,除非无法识别物体,否则照明不佳不算质量差的图像。
5、如果物体A被物体B遮挡,大于10~20%的A物体可见,则将遮挡的物体B视为A的一部分,标注物体A。
6、一般不标注镜子里反射的物体,容易造成误导,在这里个人将镜子里、倒影类的图片不计入数据集。
内容参考voc官方标注规则标注VOC、YOLO或者CoCo数据集工具的安装和使用,请参照另一篇文章图像标定工具labelImg的下载安装或者Win10+labelImg安装(无anaconda)
一次记录,一次学习,希望每次交流都能有进步~

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值