[论文解读]|PAN:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

本文介绍了PAN(Pixel Aggregation Network),一种旨在解决场景文本检测中速度与准确性问题的模型。PAN由FPEM(Fast Pyramid Encoding Module)和FFM(Feature Fusion Module)组成,能有效处理变化形状的文本。FPEM提供不同尺度的特征,FFM则对这些特征进行融合。模型通过Pixel Aggregation策略处理可能重叠的文本像素,并用损失函数确保文字区域、文本核及其相似向量的准确预测。实验结果显示,PAN在多个数据集上表现出色。
摘要由CSDN通过智能技术生成

题目:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
作者:Wenhai Wang, Enze Xie,Xiaoge Song, Yuhang Zang, Wenjia Wang, Tong Luy, Gang Yu, and Chunhua Shen

Motivation:
作者认为目前场景文字检测难点在于速度和效果间的差异,及变化形状的文字检测。作者在考虑速度与效果兼得的前提下提出PAN模型。

Method
在这里插入图片描述
作者提出如上图的pipeline的PAN方法。
在这里插入图片描述
PAN模型包括FPEM和FFM网络
**FPEM:**是一个可变大小的计算速度快的网络,以获得大小特征图的信息。
在这里插入图片描述
**FFM(特征整合模型)😗*对上面多个FPEM网络进行融合
在这里插入图片描述
最后通过上采样将它们Concatenate到一起。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值