SCUT-EPT
SCUT-EPT 数据集包含 50,000 个文本行图像,其中 40,000 个用于训练,10,000 个用于测试,选自 2,986 名志愿者的试卷。除了 HCTR 中的常见问题,Dataset SCUT-EPT 在试卷中也遇到了新的挑战,包括字符擦除、文本行补充、字符/短语切换、噪声背景、字长不均匀和文本长度不平衡,如图 4所示. 字符擦除,也称为划线,通常伴随划线来删除字符; 文本行补充出现在正常文本行下方或上方出现的附加文本行补充; 字符/短语切换是作家为了更好地理解而添加特殊符号以切换相关书面字符或短语的现象; 噪声背景是指字符下方的下划线,字符之间的密集网格等,与大多数背景非常干净的手写数据集相反; 字长不均匀是指字符的字长不均匀,尤其是汉字与数字、字母、符号比较时; 不平衡的文本长度通常来自不同类型的问题,导致试卷中答案的长度不同。