关于Chinese traineddata有至少如下几个:
-
chi_sim
-
chi_sim_vert
-
chi_tra
它们之间的区别如何?
chi_sim 包含了简化的常用的汉语和英文字符。
chi_tra 包含了繁体的常用汉语和英文字符。
chi_sim_vert是简体的常用汉语和英文字符,但是书写方向是从上到下。
可以参考https://github.com/tesseract-ocr/tessdata/issues/72,这里面对日语的解释同样适用于汉语,而且本人也实践证明了。