- 博客(13)
- 收藏
- 关注
原创 文本识别——Rosetta阅读笔记
本文提出构建可扩展OCR系统Rosetta的体系结构方法。通过全面的评估,展示了在规模和处理时间方面实现高效率与模型准确性之间的权衡。Rosetta被部署到生产中,每天处理上传到Facebook和Instagram上的图像。
2024-01-25 16:37:16 2133
原创 文本识别——STAR-Net阅读笔记
提出了一种新的空间注意残留网络(STAR-Net),用于识别具有严重畸变的场景文本。STAR-Net中的空间注意机制旨在消除自然图像中文本的扭曲,并产生紧密边界的文本图像,使得后续的特征提取器可以专注于修正后的文本区域,而不会被扭曲所干扰;特征提取器建立在残差卷积块之上的,具有非常深的卷积层和一个循环层BLSTM;在连接时间分类CTC的非参数化监督下进行优化。将空间注意机制与残馀卷积块相结合,我们的STAR-Net是用于场景文本识别的最深的端到端可训练神经网络。
2024-01-24 15:23:06 1772 1
原创 文本识别——CRNN阅读笔记
提出了一种新的神经网络架构——卷积递归神经网络(CRNN),融合了卷积神经网络和递归神经网络的优点。CRNN能够接受不同维度的输入图像,并产生不同长度的预测。它直接运行在粗糙的标签上,在训练阶段不需要对每个单独的元素进行详细的注释。此外,由于CRNN放弃了传统神经网络中使用的全连接层,它产生了一个更紧凑和高效的模型。所有这些特性使CRNN成为基于图像的序列识别的一种优秀方法。在场景文本识别基准上的实验表明,与传统方法以及其他基于CNN和RNN的算法相比,CRNN取得了优越或极具竞争力的性能。
2024-01-23 14:27:33 1014 1
原创 CRNN文本识别算法
基于CTC的算法CRNN ,特征提取部分使用主流的卷积结构,常用ResNet、MobileNet、VGG等。由于文本识别任务的特殊性,输入数据中存在大量的上下文信息,卷积神经网络缺乏长依赖的建模能力,因此CRNN文本识别算法引入了双向LSTM用来增强上下文建模。最终将输出的特征序列输入到CTC模块,直接解码序列结果。为避免合并本身存在的重复字符,CTC引入了一个blank字符插入在重复字符之间。
2023-12-18 16:40:34 622
原创 文本识别——ViTSTR阅读笔记
创新点:在关于STR的工作中,重点一直放在准确性上,很少关注速度和计算要求。在准确率与速度、参数数量和计算负载(FLOPS)之间进行权衡,本文提出一种基于计算和参数高效视觉转换器(ViT)构建的简单单级模型架构的STR。
2023-12-11 09:35:01 601 1
原创 文本识别——SVTR阅读笔记
创新点:主流的场景文本识别模型通常包含两个构建块,用于特征提取的视觉模型和用于文本转录的序列模型。本文提出了一种场景文本识别的单一视觉模型,引入了局部和全局混合块,分别用于提取类似笔画的特征和字符间的依赖关系,结合多尺度骨干网络,形成了多粒度的特征描述。
2023-12-08 11:34:18 1806
原创 文本检测——DB++阅读笔记
不同于直接融合多尺度特征图来提高分割网络尺度鲁棒性的方法,本文提出了一种自适应尺度融合模块ASF自适应融合多尺度特征图,进一步增强分割模型的尺度鲁棒性,同时不会造成明显的效率损失。不同尺度的特征具有不同的感知和接受域,侧重于描述不同尺度的文本实例。例如,浅特征或大尺寸特征可以感知小文本实例的细节,但不能捕捉大文本实例的全局视图,而深特征或小尺寸特征则相反。与大多数通过简单的级联或汇总来融合不同尺度特征的语义分割方法不同,自适应尺度融合是为了动态地融合不同尺度的特征。这是基于分割的场景文本检测器的常见限制。
2023-12-07 16:20:18 600 2
原创 文本检测——DBNet阅读笔记
然而,大多数基于分段的方法都需要复杂的后处理,将分割方法产生的概率图转换为文本的边界框/区域,导致推理过程中的时间成本相当大。该公式借鉴了 sigmod 函数的形式(sigmod 函数本身就是将输入映射到0~1之间),所以将概率值P与阈值T之间的差值作为 sigmod 函数的输入,然后再经过放大系数k,将其输出无限逼近两个极端0或者1。对于一张图片P,设定像素点(i,j)的阈值为T(i,j),若像素值P(i,j)>阈值T(i,j),则二值化为一个接近1的数,不然二值化为一个接近0的数。
2023-12-07 09:40:45 408 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人