An Efficientand Accurate Scene Text Detector 论文阅读

论文的整体思路:

  1. 通过一个现有的分类网络去提取图片的高级特征(feature map);
  2. 通过训练一个新的网络计算每个像素的特征;
  3. 通过每个像素点的特征计算它的文本区域;
  4. 通过非极大值抑制的办法取合并并确定最终的区域;

论文一些实现细节:

  1. 确定输出的特征,我们选择 RBOX 和 Score Map 的组合;其中 Score Map 如 图(b) 所示,用来描述该像素点在不在文本区;RBOX 如 图(c) (d) (e),用来描述像素点到文本框的距离和角度。也就是说,我们何以根据输出的特征计算出每个点的文本区域;
  2. 数据标记,我们根据给定的数据集把每张图片都标记成我们的输出格式,实现细节,我们的网络对图片的输入大小是右要求的,比如我们选定的图片大小是 (512*512),  我们必须通过一定的方案把训练集的图片和其给定的坐标都尽可能准确的对应到一张 (521*512) 的图片上,我们可以选择首先用黑色来讲图片填充成一个正方形,然后再通过一定的比例来把图片进行缩放, 这样的话,数据集的标签就可以简单的进行缩放就可以完成标记。
  3. 基础网络,我们选择 VGG16 或 VGG19 。

训练 LOSS 设计

  1. 对于 Score Map  

  2. 对于 RBOX

     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值