最简单的解决办法:如果原书是英文的,找朋友借微信读书账号,然后看自动翻译。。。。没开玩笑,我花了两天得出来的这个结论。。。。
那么有没有什么其他办法呢?
有一个很简洁的软件,可以处理横竖排转换,但繁体字识别偶尔有问题。反正,凑合看。
github链接:https://github.com/hiroi-sora/Umi-OCR?tab=readme-ov-file#star-history
不需要任何前置代码知识,用蓝奏云下载下来就是能用的软件。
简繁随便找个在线网站处理就行,我找的是:
https://h.markbuild.com/doc/chinese_conversion.html
行不通的办法:
关键问题在于,pdf转epub只会得到全都是图片的epub,这和pdf转png是没有本质区别的。网上很多pdf转epub转png的在线网站……但是……唉……
但如果本来就是epub,那也不需要ocr,其实硬提取字就好了吧……网上也有很多epub转word或txt……就算是竖排的字转出来全都乱了,按规则写个代码处理一下又如何……
但既然尝试这么久,同样罗列一下:
1.国内古籍ocr。我搜了一下有好几个,没试,感觉好像都要收费。
2.可以全部用命令行处理的python程序。kaggle运行不了,临时下载了一个python3.8(临时下载建议3.9,不然要改一点代码文件)记得用镜像不然很难下。。记得环境变量是python和scripts都要设置。。
github链接:https://github.com/yihong0618/epubhv
简单看看github上的教程:
繁体转简体是--convert t2s,traditional to simplified
竖排转横排是--h,horizontal
我的命令行输入如下,仅供参考:
cd C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Scripts #如果懒得设环境变量。。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple epubhv #镜像
epubhv C:\Users\Administrator\Desktop\111.epub --h --convert t2s -d C:\Users\Administrator\Desktop #指定文件生成位置
但是,嗯,这个是只能处理epub的。
3.可以简繁横竖排转换的一个电子书阅读软件,但是没有ocr功能,所以和上面的方法一样,还是,用不上。
原网页链接:https://calibre-ebook.com/zh_CN/download_windows
如果原网页下载失败可以在国内找资源。
总结:
这个问题可以拆解为:繁体,竖排,pdf。
pdf是最麻烦的,目前的繁体字ocr做得都不是很好,所以pdf文件很难处理。
竖排epub很好解决,只是繁体字也很好解决。
如果不能解决,可以干脆绕开问题找其他替代方式。例如看机翻英文,或者用镜像和在国内网站找资源。