深度学习
文章平均质量分 70
月夜竹清
与思想同行,与时间为伴
展开
-
paddleocr自定义数据集标注图片 识别部分的图片自动裁剪
1.问题PaddleOCR大体分为两部分,文本检测和文本识别。由于是自定义的数据集,因此不得不对样本图片进行标注。去年楼主采用的的是labelme,然后把labelme标注的json格式转化为paddle文本检测需要的标注格式。下面是去年的帖子:https://blog.csdn.net/weixin_44996884/article/details/107781747**今年发现paddleocr2.0增加了好多功能,开发出了半自动标注工具,可以直接转化为txt,就省去了之间的步骤。瞬间感觉对开原创 2021-04-08 14:41:48 · 2275 阅读 · 3 评论 -
图像增广——图片旋转任意角度(python实现)
1.背景因为数据集很少,项目还需要进行图像的识别,因此利用图像增广技术产生相似但是又不同的样本,扩大数据集的规模,从而降低模型对某些属性的依赖,从而提高模型的泛化能力。常见的图像增广技术有:翻转和剪切,变换颜色等。接下来介绍的这种是图像的旋转2.实现方法import cv2from math import *import osdef remote(img, degree): height, width = img.shape[:2] radians = float(degre原创 2021-03-17 15:24:53 · 3037 阅读 · 1 评论 -
paddle训练出现的Error:Blocking queue is killed bacause the data reader raises an exception
前几天用paddle训练模型的时候遇到如下错误:于是自己就努力排查问题,最后发现是标注的文件不符合paddle规定的格式。paddle训练时的标注文件格式:1.第一次错误是因为自己整理标注文件格式时,没有注意标注的points对应的是文本框的四个点的坐标(x, y),x,y是整数而不是字符串。2.第二处错误是因为transcription 表示文本框的文字中本来就含有",例如这样"MA"SA",这是就需要我们提前把"进行转义,这样paddle_reader在读取数据的时候才不会报错。后记:将j原创 2020-08-05 14:00:03 · 5845 阅读 · 0 评论 -
paddle:手把手教你训练自己的验证码识别模型
1、使用环境:window10,6GGPU,NADIA GTX 1660SUPER,CUDA10.0.130,cudnn-10.02、使用代码:官方提供的ocr模型代码https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition3、生成自己的数据集import randomimport osfrom PIL import Image, ImageDraw, ImageFontchar_set =原创 2020-08-05 10:30:11 · 4446 阅读 · 30 评论 -
labelme标注的json文件转为paddleOCR提供的标注文件格式
1.数据集的准备在用paddleocr训练自定义的数据集时,我们需要使用自己标注的数据,楼主发现paddle提供的标注文件格式为:其中json.dumps编码前的图像标注信息是包含多个字典的list,字典中的 points 表示文本框的四个点的坐标(x, y),从左上角的点开始顺时针排列。 transcription 表示当前文本框的文字。所以楼主采用了labelme标注软件来进行标注。标注的结果如下:{ "version": "4.5.6", "flags": {}, "shape原创 2020-08-04 11:26:47 · 3610 阅读 · 2 评论