文章来源 | 恒源云(专注人工智能/深度学习GPU云服务器免费租用平台,官方体验网址:https://gpushare.com)
原文地址 | 【ECCV 2020】RobustScanner 论文学习笔记(学霸季奖励计划)
背景
通常STR识别论文中的实验数据集来自真实街景图片,其中包含大量语义信息。那么在decode时利用attention机制的decoder往往可以很好地利用这些语义信息,从而避免将apple预测成0pple的情况。然而实际项目中并不一定都是语义信息丰富的文本图片,遇到随机字符的组合或者弱语义文本识别,经典识别方法可能出现错误的预测结果。
通常对于这种情况,我的习惯是使用CTC解码器。而今天介绍一篇来自商汤团队ECCV2020的文本识别论文《RobustScanner- Dynamically Enhancing Positional Clues for Robust Text Recognition》,提出了一种增强位置信息的方法,来解决这一问题。
动机
作者发现目前的STR识别模型对于没有语义信息或者弱语义信息