查小小小米-CSDN博客

原创 [论文翻译]An End-to-End Video Text Detector with Online Tracking

一种端到端在线跟踪视频文本检测器摘要由于视频文本检测的两个挑战难点：1）视频场景带来的难题，即移动模糊，照明变化，和遮挡；2）文本特性包含不同字体，语言，和方向及形状，所以它被认为是文档分析中最难任务之一。大多数现存方法尝试通过与视频文本追踪合作来增强视频文本检测的性能，但是又分别对待两个任务。本工作中，我们提出了一个端到端在线追踪的视频文本检测模型来解决这两个挑战。具体地，在检测分支，我们采用ConvLSTM来捕捉空间结构信息和移动记忆，在追踪分支，我们将追踪问题转变成文本实例联系，并且提出了一个带有

2021-09-09 10:17:34 324

原创 [论文翻译]YOLOX: Exceeding YOLO Series in 2021

YOLOX：2021超越YOLO系列摘要本报告中，我们对YOLO系列进行了一些有经验的改进，构成了一个新的高性能检测器——YOLOX。我们将YOLO检测器变成无锚模式，并实施了一些其他先进检测技术，即，一个解耦头和引导标签分配策略SimOTA在大尺度范围模型中达到SOTA结果：对于仅有0.91M参数和1.08FLOPs的YOLONano，我们在COCO上达到25.3%AP，超越NanoDet1.8%AP。对于YOLOv3，工业上使用最广泛的检测器之一，我们在COCO上将其提升到47.3%AP，比当前最佳

2021-08-20 17:00:16 1316 9

原创 [论文翻译]Scene text recognition from two-dimensional perspective

二维视角下场景文字识别摘要受到语音识别的启发，最近最先进算法认为场景文字识别是一个序列预测问题。尽管达到极好的性能，这些方法通常忽视了一个重要的事实，图像中的文本实际上分布在二维空间。这是一种与语音截然不同的性质，语音本质是一维信号。原则上，直接把文本特征压缩成一维形式可能会失去有用信息和引入额外噪声。文本中，我们从二维角度来处理场景文本识别。一个简单但有效的模型，Character Attention Fully Convolutional Network（CA-FCN），被设计用于识别不同形态的文本

2021-08-10 17:44:52 720

原创 [论文翻译]Semantic-Aware Video Text Detection

语义感知视频文本检测摘要现存大多数视频文本检测方法使用外观特征跟踪文本，这非常容易受到角度和光照的影响。与外观特征相比，语义特征对于匹配文本实例更加具有鲁棒性。本文中，我们提出了一个新字符中心分割分支来提取编码了字符类别和位置的语义特征。首先，我们提出了一个新外观-语义描述符来追踪文本实例，其中语义特征能够改善外观变化的鲁棒性。为了克服字符级标注的缺失，我们提出了一个新弱监督字符中心检测模块，该模块仅使用单词级标注的真实图片类产生字符级标签。提出的方法在3个视频文本基准ICDAR 2013 Video，

2021-08-06 16:25:12 908

原创 [论文翻译]Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Sparse R-CNN：具有可学习提案的端到端目标检测摘要我们提出稀疏R-CNN，一个纯稀疏检测图像物体的方法。现有目标检测的工作严重依赖于密集候选对象，比如在H×WH×WH×W大小的图像特征图的所有网格预定义kkk个锚框。但在我们的方法中，一个固定稀疏的可学习目标提案集合，总长为NNN，供给目标石鳖头来分类和定位。通过消除HWkHWkHWk个（多达数十万）手动设计的候选对象到N个（如100）可学习提案，稀疏R-CNN彻底避免了所有与候选目标设计和多对一标签分配的工作。更重要的是，最终预测直接输出，并

2021-07-26 17:33:09 608

原创 [论文翻译]MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

MOST: 一个带有定位细化的多方向文本检测器摘要过去几年，场景文本检测领域已有急速进步，现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例。为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量。特别提出了一个TFAM（Text Feature Alignment Module）基于初始原始检测动态地调整特征感受野：一个PA-NMS（Position-Aware Non-Maximu

2021-07-16 16:40:32 997

原创第六章变换与观察 -华科

导学：左手系，右手系。均是四指从x握向y。但是哪些坐标系是左手，哪些是右手呢？建模坐标系→(模型变换)→世界坐标系→(视图变换)→观察坐标系→(投影变换)→观察坐标系→(屏幕映射)→屏幕坐标系几何变换指对图形的几何信息经过平移、比例、旋转等变换后产生新的图形。[以下均以二维为例]平移是一种不产生变形而移动物体的刚体变换（Rigid-body transformation）比例对象相对于某一参考系，沿x方向缩放SxS_xSx，沿y方向缩放SyS_ySy。旋转对象相对于参考系，旋转θ\t

2021-07-08 17:19:41 197

原创第五章造型技术 -华科

造型技术：研究如何在计算机中建立恰当的模型表示不同图形对象的技术。不规则对象：不能用欧氏几何加以描述的对象。大多采用过程式模拟，即一个简单模型以及少量的易于调节的参数来表示一类对象。基本图形元素：体-面-环-边-顶点的层次记录信息。实体的性质：刚性：必须具有一定型状维数的一致性：三维空间中，一个物体的各部分均应是三维的。占据有限的空间：体积有限边界的确定性：根据物体的边界能够区别出物体的内部及外部封闭性：经过一系列刚体运动及任意序列的集合运算之后，仍然是有效地物体。物体表面性质：

2021-07-08 15:40:38 897

原创 [论文阅读]PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text

PAN++ 支持任意形状文本的高效和精确的端到端探查摘要在过去的几年中，场景文本检测和识别得到了很好的研究。尽管取得了进展，但高效、准确地端到端识别任意形状的文本仍然具有挑战性。在这项工作中，我们提出了一个端到端的文本探查框架，称为PAN++，它可以有效地检测和识别自然场景中任意形状的文本。PAN++基于内核表示，它将文本行重新表示为由外围像素包围的文本内核(中心区域)。通过与现有场景文本表示的系统比较，我们表明我们的核表示不仅能描述任意形状的文本，而且能很好地区分相邻文本。此外，作为基于像素的表示，核

2021-06-24 10:22:25 2471

原创 [论文翻译] Primitive Representation Learning for Scene Text Recognition

场景文本识别的原始表征学习摘要因为自然场景中文本实例的多样性，场景文本识别是一个有挑战性的工作。基于CNN-RNN-CTC或者带有注意力机制的编码器-解码器的常见方法也许不能完全研究出多方向场景文本的稳定有效的特征表示。本文中，我们提出了一个原始表征学习方法，目的是开发场景文本图像固有表达方式。我们将特征图中的元素建模为无向图的节点。提出了一种汇集聚合器和一种加权聚合器来学习j原始表示，通过图形卷积网络将基础表示转化为高级可视文本表示。构建了一个原始表征学习网络（PREN），使用可视文本表示进行并行解码

2021-06-23 20:03:01 686

原创第四章图形思维的起点-朴素的软光栅 - 华科

软光栅：图元到像素点转换，不借助硬件提供的API，直接用应用程序进行计算。本章学习最基本的图形扫描转换算法：点直线圆椭圆多边形约定像素点阵的坐标系，左下角为原点。直线扫描转换算法数值微分算法—Digital Differential Analyzer, DDA直接从直线微分方程生成直线的方法。是一种增量算法。通过给定直线的两端点坐标P0(x0,y0)P_0(x_0,y_0)P0(x0,y0)和P1(x1,y1)P_1(x_1,y_1)P

2021-06-08 16:21:03 162

原创第三章可编程渲染管线 -华科

固定功能渲染流水线：图形API提供了对硬件进行操作的标准接口，各种绘制图元或属性的请求都采用固定的方式。⬇️ hooks钩函数可编程渲染流水线。渲染管线的主要功能：决定在给定虚拟相机，三维物体，光源，照明模式，以及纹理等诸多条件的情况下生成或绘制一幅二维图像的过程。流水线的三个概念阶段：应用阶段，几何阶段，光栅化阶段。应用阶段：在屏幕上显示绘制的几何体，即绘制面元—点/线/矩形等输入到绘制管线的下一阶段。具体包括图元的顶点数据摄像机位置光照纹理等。几何阶段：将顶点数据进行屏幕映射。包括

2021-06-01 14:46:35 138

原创 VS2019+OpenGL（GLAD+GLFW）

Step 1 下载GLUT（OpenGL Utility Toolkit）—- OpenGL库文件下载 https://www.opengl.org/resources/libraries/glut/glutdlls37beta.zip解压后有5个文件。接着只要把文件放入对应的文件夹即可。（MSVC下有文件夹14.29.30037为版本号）glut.h → ...\VC\Tools\MSVC\14.29.30037\include\gl glut.lib, glut32.lib → ..

2021-06-01 11:41:13 335 1

原创第一章欢迎来到图形世界 - 华科

图形标准：OpenGL，DirectX图形学前沿研究：几何造型，表情与动作精细化，真实感渲染（光线跟踪，物理渲染），管线优化（延迟渲染）。

2021-05-30 10:50:58 70

原创理论体系 - 华科

基础篇1、欢迎来到图形世界2、浅析图形系统3、可编程渲染管线第一个程序：三角形绘制应用程序阶段4、图形思维的起点：朴素的软光栅5、探秘造型技术球的绘制几何阶段6、变换与观察7、投影变换8、剪裁与屏幕映射立方体旋转光栅化阶段9、奇妙的真实感：片元着色10：有趣的测试与合并：片元操作Phong模型颜色纹理法线贴图阴影透明物体高级话题10、高级渲染扩展实验：粒子系统延迟渲染...

2021-05-30 10:44:08 89

原创 PaddlePaddle+RTX3060+CUDA11.0

Ubuntu18.04下安装paddlepaddle2.0.2如果官网没有找到对应的cuda版本安装指令，打开https://paddlepaddle.org.cn/whl/stable.html找到对应cuda版本的语句。本环境中为pip install paddlepaddle-gpu==2.0.2.post110 -f https://paddlepaddle.org.cn/whl/stable.html...

2021-05-27 10:27:03 1599

原创 C/C++ 指针地址变化与类型-真题

unsigned char *p1; unsigned long *p2; p1=(unsigned char *)0x801000; p2=(unsigned long *)0x810000; 问： p1+5=？ p2+5=?p1+5=801000 p2+5=810014解析：char每次移动1个字节；short移动2个字节；int , long ,float移动4个字节；double移动8个字节;p1+5=p1+51=p1+5sizeof(unsigned char)=

2021-05-26 21:09:44 724

weixin_44403853的博客