![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
OCR
文章平均质量分 78
猛男技术控
苦心钻研!
勇于实践!
不负韶华!
展开
-
目标检测之空间变形网络(STN)
目标检测之空间变形网络(STN)一、STN定义STN:是一个可以放置在CNN前面,或嵌入到CNN其中的某一环节的模块(空间变形器),是Google旗下 DeepMind 公司的研究成果。该论文提出空间变换网络STN,分为参数预测、坐标映射、像素采集三大部分,可以插入到现有的CNN模型中。通过对数据进行反向空间变换来消除图片上目标的变形,从而使得分类网络的识别更加简单高效。二、CNN的平移不变性普通的CNN能够显示的学习平移不变性,以及隐式的学习旋转不变性,所以图像上的目标物体就算是做了平移或者旋转,原创 2021-04-22 14:21:43 · 3478 阅读 · 0 评论 -
文本检测-EAST方法概述
《EAST: An Efficient and Accurate Scene Text Detector》特点概述:在这篇文章中,提出了一个快速且精确的场景文本检测方法,该方法取消了一些不必要的步骤(如:候选区域的聚合和词的分割),且它只包含两个阶段,可以在整幅图像中检测任意形状和方向的单词或文本行。方法概述:该方法利用一个全连接模型去直接预测单词或文本行,然后将预测的框进行Non-Maximum Suppression操作得到最后的结果。(生成的预测框可以是旋转的矩形或四边形)贡献:提出了场景文原创 2021-04-20 15:23:00 · 2076 阅读 · 0 评论 -
maskrcnn学习笔记
机器视觉领域的核心问题之一就是目标检测(objectdetection),它的任务是找出图像当中所有感兴趣的目标,并确定其位置和大小。作为经典的目标检测框架FasterR-CNN至今仍然是许多目标检测算法的基础,这在飞速发展的深度学习领域十分难得。而在Faster R-CNN的基础上改进的MaskR-CNN可以应用到人体姿势识别,并且在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。因此,百度深度学习框架PaddlePaddle开源了用于目标检测的RCNN模型,从而可以快速构建强大的应.原创 2021-04-20 12:08:54 · 769 阅读 · 0 评论 -
SSD目标检测
一、简介SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法,是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO又有明显的mAP优势。SSD主要用来解决目标检测的问题(定位+分类),即输入一张待测图像,输出多个box的位置信息和类别信息;测试时,输入一张图像到SSD中,网络输出一个下tensor(多维矩阵),对该矩阵进行非极大值抑制(NMS)就能得到每个目标的位置和label信息SSD具有如下原创 2021-04-20 12:08:05 · 8527 阅读 · 4 评论 -
目标检测基础入门
目标检测基础入门一、概述(1)背景目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于诸多领域,有重要的意义。由于深度学习的广泛运用,目标检测算法得到了较为快速的发展。(2)目标检测别研究方法主要分为两类。①基于传统图像处理和机器学习算法的目标检测主要可以表示为:目标特征提取→目标识别→目标定位。这里所用到的特征都是认为设计的,通过这些特征对目标进行识别,然后再结合相应的策略对目标进行定位。②基于深度学习的目标检测主要可以表示为:图像的深度特征提取→基于深度神经网络的目标识别与定位原创 2021-04-20 12:06:58 · 2791 阅读 · 1 评论 -
StarNet模型
StarNet模型1.背景民以食为天,如何提升超大规模配送网络的整体配送效率,改善数亿消费者在”吃“方面的体验,是一项极具挑战的技术难题。面向未来,美团正在积极研发无人配送机器人,建立无人配送开放平台,与产学研各方共建无人配送创新生态,希望能在一个场景相对简单、操作高度重复的物流配送中,提高物流配送效率。在此过程中,美团无人配送团队也取得了一些技术层面的突破,比如基于神经网络StarNet的行人轨迹交互预测算法,论文已发表在IROS 2019。IROS 的全称是IEEE/RSJ Internationa原创 2021-04-20 12:05:57 · 2060 阅读 · 0 评论 -
Rosetta模型
Rosetta模型1.介绍从头预测,来源于拉丁文ab initio或de novo,严格的讲,这两者是有区别的,前者ab initio意思是from tlIe beginning,指基于第一性原则(6rst principles)而不依靠同源序列、数据库、二级结构等其它信息,仅靠一条蛋白质序列产生三维结构。后者de novo意思是from the new,是一个更宽泛的含义,指不需要PDB中的同源模板而是依靠对其他结构的观察来预测。生物分子演化出了令人惊叹的本领,那就是它们可以由化学序列指导折叠成唯一原创 2021-04-20 12:04:30 · 1923 阅读 · 0 评论 -
SRN模型
SRN模型场景文本图像包含两个级别的内容:视觉纹理和语义信息。尽管过去的几年中场景文本识别方法取得了长足的进步,但是挖掘语义信息以辅助文本识别的研究却很少受到关注,仅探索类RNN的结构来隐式地建模语义信息。但是,我们发现基于RNN的方法存在一些明显的缺点,如时间依赖的解码方式和语义上下文的单向串行传输,这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制,我们提出了一种新颖的端到端可训练框架,该框架称为语义推理网络(SRN),用于准确的场景文本识别,其中引入了全局语义推理模块(GSRM),以通过多路并原创 2021-04-20 12:01:26 · 3990 阅读 · 0 评论 -
RARE模型
介绍:RARE(Robust text recognizer with Automatic Rectification,具有自动校正功能的鲁棒性文本识别器)是由**空间变形网络(STN)和序列识别网络(SRN)**组成。在测试中,首先通过predicted Thin-Plate-Spline(TPS)对图像进行校正,为后续的SRN(通过序列识别方法识别文本)生成更“可读”的图像。RARE模型在识别变形的图像文本时效果很好。如下图所示,模型预测过程中,输入图像首先要被送到一个空间变换网络中做处理,矫正过的图原创 2021-04-19 13:37:18 · 2662 阅读 · 2 评论 -
CRNN模型
介绍:是目前较为流行的图文识别模型,可识别较长的文本序列, 它利用BLSTM和CTC部件学习字符图像中的上下文关系, 从而有效提升文本识别准确率,使得模型更加鲁棒。 CRNN是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。 文章认为文字识别是对序列的预测方法,所以采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果。说白了就是CNN+RNN+CTC的结构。CRNN 全称为 Convolution原创 2021-04-19 13:36:45 · 4127 阅读 · 1 评论 -
OCR文本检测-RRPN
RRPN,Rotation Region Proposal Networks,旋转区域候选框网络。通过其命名就可以看出,他是为了解决目标检测中的检测区域具有旋转角度的情况而产生的。其论文最初提出的应用场景,是为了解决自然场景下的文本检测问题而提出的,在自然场景中,由于视角的原因,获得图片中的文字常常都是带有旋转角度的,而之前的文字检测方法都是基于水平框的检测,如下图所示, 在本文中,我们开发了一个基于旋转的方法和一个端到原创 2021-04-18 09:40:39 · 1229 阅读 · 0 评论 -
OCR文本检测算法-CTPN模型
介绍:CTPN是在ECCV 2016提出的一种文字检测算法,是目前流传最广、影响最大的开源文本检测模型,可以检测水平或微斜的文本行。CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,效果如图:关键idea采用垂直anchor回归机制,检测小尺度的文本候选框文本检测的难点在于文本的长度是不固定,可以是很长的文本,也可以是很短的文本.如果采用通用目标检测的方法,将会面临一个问题:**如何生成好的text proposal**.针对上述问题,作者提出了一个vertical an原创 2021-04-18 09:29:55 · 1664 阅读 · 0 评论 -
ocr优化
ocr优化相关问题(一)提高OCR准确度方法1.检查图像质量:我们首先要确保原始图像是可见的,以便它们可以获得更好的结果。2.选择最好的OCR模型:OCR主要负责理解给定图像中的文本,因此有必要选择能够更好的检测和识别的模型,来处理图像3.将图像缩放到合适的大小:我们尝试将图像缩放到大约300 dpi的标准尺寸,低于此尺寸的图像都会产生不清晰的结果,而高于600 dpi的图像会使输出文件变大而质量不高。4.消除图像中的噪音:如果图像中存在背景或前景噪声,我们要将其删除,以便获得高质量的数据原创 2021-04-17 17:28:12 · 1869 阅读 · 0 评论 -
Python 按坐标进行文字剪裁
如图,若给出每个文本框的坐标,而我们想将其剪裁下来,可以使用如下方法。import numpy as npimport cv2def shot(img, dt_boxes,image_file):#通过dt_boxes中获得的四个坐标点,裁剪出图像 dt_boxes = dt_boxes.tolist() #将np转换为列表 boxes_len = len(dt_boxes) for num in range(boxes_len): box = dt_bo原创 2021-04-17 16:05:33 · 362 阅读 · 0 评论 -
CRNN——卷积循环神经网络结构
简介CRNN 全称为 Convolutional Recurrent Neural Network,是一种卷积循环神经网络结构,主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。CRNN(Convolutional Recurrent Neural Network)是目前较为流行的图文识别模型,可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。 它利用BLSTM和CTC原创 2021-04-17 15:32:04 · 18993 阅读 · 1 评论 -
OCR常见问题(4)
7、错误汇总遇到了一个问题,模型是上面的我的数据的新模型,数据是从生成数据中截留的一点测试数据在官方的infer中执行结果:但是我train的时候准确率是高达0.99的,所以我用train修改了一个可以输出测试结果的代码发现,问题出现在这一步indexes = prune(np.array(result[0]).flatten(), 0, 1)由于我的输出当中全部都是数字,所以生成的结果通过0和1缩短一下以后就不成数据了。错误原因:SHAPE的大小不对我在的图片是32300的,但是shap原创 2021-04-17 11:03:21 · 570 阅读 · 0 评论 -
paddleocr常见问题(3)
将“检测”训练模型转化为推理模型确定配置文件路径打开program.py脚本,找到class ArgsParser构造函数,修改为如下形式(注意相对路径填写正确):然后将图中箭头指向的那一行,光标处添加一句代码default = “D:\PO\configs\det\det_mv3_db_v1.1.yml”,注意文件路径根据自己的电脑填写正确。注意相对路径填写规则 “./ ”表示同级目录, “…/”表示上级目录, “…/…/”表示上上级目录, (以运行的.py文件为当前路径)将“识别”训原创 2021-04-17 11:03:07 · 869 阅读 · 0 评论 -
paddleOCR常见问题(2)
1.win10下anconda中,执行paddleocr的GPU训练或总是报错cudnn版本不匹配在百度上看了许多大佬的解答,都是说让下载新的或者装什么后来根据查看三个目录:D:\Anaconda3\Library\bin、D:\Anaconda3\Library\lib、D:\Anaconda3\Library\include将cudnn替换到这些目录下,就解决了这个问题。2.win10下,有的电脑训练时train.py调用不了1.终端路径问题,路径缺失造成无法调用2.版本问题,很多都是原创 2021-04-17 11:02:49 · 1116 阅读 · 0 评论 -
OCR训练常见问题(1)
报错图片数量太少Exception: The number of the whole data (800) is smaller than the batch_size * devices_num * num_workers (2048)----------------------Error Message Summary:----------------------FatalError: Blocking queue is killed because the data reader rais原创 2021-04-17 11:02:36 · 1597 阅读 · 2 评论