恒源云(GPUSHARE)_【ECCV 2020】RobustScanner 论文学习笔记

本文介绍了ECCV 2020论文《RobustScanner》中的方法,针对语义信息不足的文本识别问题,提出了位置增强分支和动态融合模块,以增强解码器的位置信息,提高识别准确性。尽管在某些语义丰富的场景下可能效果不如基于语义的解码器,但在随机字符和弱语义文本中表现优秀。
摘要由CSDN通过智能技术生成

文章来源 | 恒源云(专注人工智能/深度学习GPU云服务器免费租用平台,官方体验网址:https://gpushare.com

原文地址 | 【ECCV 2020】RobustScanner 论文学习笔记(学霸季奖励计划)

背景

通常STR识别论文中的实验数据集来自真实街景图片,其中包含大量语义信息。那么在decode时利用attention机制的decoder往往可以很好地利用这些语义信息,从而避免将apple预测成0pple的情况。然而实际项目中并不一定都是语义信息丰富的文本图片,遇到随机字符的组合或者弱语义文本识别,经典识别方法可能出现错误的预测结果。

通常对于这种情况,我的习惯是使用CTC解码器。而今天介绍一篇来自商汤团队ECCV2020的文本识别论文《RobustScanner- Dynamically Enhancing Positional Clues for Robust Text Recognition》,提出了一种增强位置信息的方法,来解决这一问题。

动机

作者发现目前的STR识别模型对于没有语义信息或者弱语义信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值