制作有效数据集的方法总结

最新推荐文章于 2024-05-29 14:41:48 发布

123小星星

最新推荐文章于 2024-05-29 14:41:48 发布

阅读量2.9k

点赞数 2

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44220689/article/details/127859573

版权

前段时间接手了一个项目，本以为数据是成熟可用的，在多次训练尝试之后，让我怀疑数据有问题，因此从头开始关注每一张数据图片和每一个标签。真是不看不知道，一看吓一跳；数据问题非常大，只能开整了，数据集对于一个模型优劣的影响也是非常非常非常大的呀！！！看了一些文章，根据voc官方标注规则，整理总结一下，方便下次使用。<个人总结,如有问题,欢迎指教>
一、最重要的是要弄清楚，标记的对象是什么，标记范围和边界。
二、数据选择
1、从不同的背景中选择不同角度、方向的目标图像，并且数据集中，检测的对象必须至少有一个相似目标，包括但不限于形状相似、侧面相似、相对大小、旋转角度、倾斜、照明……
2、保证采集的数据的质量，数据集的大小最好与实际使用场景的大小接近，并且保证自然场景下数据的多样性。
3、数据集的数量尽可能的多（1000+/2000+），普遍来说，应该是有2000+，训练迭代2000+或更多。
4、数据集中既要包括想要检测的物体，也要包括不想检测的物体，但是只标注想要检测的物体。
5、多个类检测，各个目标检测的类在数据中出现的次数差不多，保证数据均衡。
三、标记说明
1、规则一致性，标记定义类别的所有对象，目标所被标记部分是按照希望如何被检测到的方式去标记（比如只检测一半、可重叠区域、比整个物体大一点……）；
除非：
①不确定对象是什么；
②对象非常小；
③少于10~20%的对象是可见的；例如一辆车只见一个轮胎，不能被标记为车；但是脚和脸只能属于人；
④对象太多无法分别；
⑤如果标注的噪声太大或者标签边界太模糊（标注错误或者标注规则写的太松、太模糊，导致人都分不清某几类之间的区别），很可能会导致模型在这个数据集上无法收敛。
以上情况如有发生，则该图片不计入数据集。
2、确保要检测的每个对象在训练集中都被标记，标注时应将目标包括在内（选取的区域尽可能包含）
3、异常旋转的物体，也不应纳入数据中。
4、质量差的图像（例如过度的运动模糊）不应纳入数据中。但是，除非无法识别物体，否则照明不佳不算质量差的图像。
5、如果物体A被物体B遮挡，大于10~20%的A物体可见，则将遮挡的物体B视为A的一部分，标注物体A。
6、一般不标注镜子里反射的物体，容易造成误导，在这里个人将镜子里、倒影类的图片不计入数据集。
内容参考voc官方标注规则标注VOC、YOLO或者CoCo数据集工具的安装和使用，请参照另一篇文章图像标定工具labelImg的下载安装或者Win10+labelImg安装（无anaconda）。
一次记录，一次学习，希望每次交流都能有进步~