【无标题】OCR手写数据集

SCUT-EPT

SCUT-EPT 数据集包含 50,000 个文本行图像,其中 40,000 个用于训练,10,000 个用于测试,选自 2,986 名志愿者的试卷。除了 HCTR 中的常见问题,Dataset SCUT-EPT 在试卷中也遇到了新的挑战,包括字符擦除、文本行补充、字符/短语切换、噪声背景、字长不均匀和文本长度不平衡,如图 4所示. 字符擦除,也称为划线,通常伴随划线来删除字符; 文本行补充出现在正常文本行下方或上方出现的附加文本行补充; 字符/短语切换是作家为了更好地理解而添加特殊符号以切换相关书面字符或短语的现象; 噪声背景是指字符下方的下划线,字符之间的密集网格等,与大多数背景非常干净的手写数据集相反; 字长不均匀是指字符的字长不均匀,尤其是汉字与数字、字母、符号比较时; 不平衡的文本长度通常来自不同类型的问题,导致试卷中答案的长度不同。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值