常用图像标注工具

最新推荐文章于 2025-03-24 15:17:20 发布

森森之火

最新推荐文章于 2025-03-24 15:17:20 发布

阅读量1.2k

点赞数

分类专栏：人工智能文章标签： labview 深度学习

本文链接：https://blog.csdn.net/yb546822612/article/details/133825250

版权

人工智能专栏收录该内容

8 篇文章

订阅专栏

本文介绍了多种开源的图像和视频标注工具，如LabelImg、Labelme、Labelbox、RectLabel、CVAT、VIA和PPOCRLabel，涵盖了目标检测、分类、分割等功能，并详细讲述了它们的安装、使用和特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. LabelImg
1）LabelImg 是一款开源的图像标注工具，标签可用于分类和目标检测，它是用 Python 编写的，并使用Qt作为其图形界面，简单好用。注释以 PASCAL VOC 格式保存为 XML 文件，这是 ImageNet 使用的格式。此外，它还支持 COCO 数据集格式。

2）安装方法：

前置条件：安装Python3以上版本，安装pyqt5 第一步：下载安装包第二步：使用Pycharm打开项目，运行labelImg.py文件；或直接运行labelImg.py文件

pip install labelImg -i https://pypi.douban.com/simple
3）使用流程:

打开软件: 在命令行输入labelImg

设置图像文件所在目录, 以及标注文件保存目录.

标注图像, 保存.

4）常见错误处理：

① 报错：ModuleNotFoundError: No module named 'libs.resources'

处理方式：
将python下scripts添加到环境变量path中
在labelImg目录下执行命令：pyrcc5 -o resources.py resources.qrc
将生成的resources.py拷贝到labelImg/libs/下
执行labelImg.py程序
GitHub地址：https://github.com/tzutalin/labelImg

2. Labelme
labelme 是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于 MIT 开源的一款标注工具 Labelme。Labelme具有的特点是：

支持图像的标注的组件有：矩形框，多边形，圆，线，点（rectangle, polygons, circle, lines, points）
支持视频标注
GUI 自定义
支持导出 VOC 格式用于 semantic/instance segmentation
支出导出 COCO 格式用于 instance segmentation
使用三步走：

conda activate paddle_env
cd /d E:\4-viev_find\Image_annotation\img
labelme

3. Labelbox
Labelbox 是一家为机器学习应用程序创建、管理和维护数据集的服务提供商，其中包含一款部分免费的数据标签工具，包含图像分类和分割，文本，音频和视频注释的接口，其中图像视频标注具有的功能如下：

可用于标注的组件有：矩形框，多边形，线，点，画笔，超像素等（bounding box, polygons, lines, points，brush, subpixels）
标签可用于分类，分割，目标检测等
以 JSON / CSV / WKT / COCO / Pascal VOC 等格式导出数据
支持 Tiled Imagery (Maps)
支持视频标注（快要更新）

4. RectLabel
RectLabel 是一款在线免费图像标注工具，标签可用于目标检测、分割和分类。具有的功能或特点：

可用的组件：矩形框，多边形，三次贝塞尔曲线，直线和点，画笔，超像素
可只标记整张图像而不绘制
可使用画笔和超像素
导出为YOLO，KITTI，COCO JSON和CSV格式
以PASCAL VOC XML格式读写
使用Core ML模型自动标记图像
将视频转换为图像帧

5. CVAT
CVAT 是一款开源的基于网络的交互式视频/图像标注工具，是对加州视频标注工具（Video Annotation Tool）项目的重新设计和实现。OpenCV团队正在使用该工具来标注不同属性的数百万个对象，许多 UI 和 UX 的决策都基于专业数据标注团队的反馈。具有的功能

关键帧之间的边界框插值
自动标注（使用TensorFlow OD API 和 Intel OpenVINO IR格式的深度学习模型）

6. VIA
VGG Image Annotator（VIA）是一款简单独立的手动注释软件，适用于图像，音频和视频。 VIA 在 Web 浏览器中运行，不需要任何安装或设置。页面可在大多数现代Web浏览器中作为离线应用程序运行。

支持标注的区域组件有：矩形，圆形，椭圆形，多边形，点和折线