闲来无事,想编辑一下大学俄语教材的文字内容。网上找到的只有图片的PDF版本,不能编辑。因此找来一个OCR识别软件,希望能处理。
OCR软件有多语言的识别。所以选中了俄语。但识别出来的结果,是它把汉字都当成俄语来识别了,结果就是一些无意义的俄语字母。为了得到正确的汉字,又将这文本以英汉双语的识别模式再来一次,这次的结果刚好相反:汉字正确了,但俄语部分又成了不可知的乱码。所以要以一个结果为基础,将另一个识别结果中正确的东西拷贝下来,粘贴到另一个结果中。当然,在操作的过程中还需要不时地与原文进行对比。
这个过程复杂又累人。