想看的书是繁体竖排pdf，怎么办？

最新推荐文章于 2025-04-29 23:08:31 发布

yandezenmele

最新推荐文章于 2025-04-29 23:08:31 发布

阅读量1k

点赞数 4

文章标签： ocr pdf

本文链接：https://blog.csdn.net/yandezenmele/article/details/139497095

版权

最简单的解决办法：如果原书是英文的，找朋友借微信读书账号，然后看自动翻译。。。。没开玩笑，我花了两天得出来的这个结论。。。。

那么有没有什么其他办法呢？
有一个很简洁的软件，可以处理横竖排转换，但繁体字识别偶尔有问题。反正，凑合看。
github链接：https://github.com/hiroi-sora/Umi-OCR?tab=readme-ov-file#star-history
不需要任何前置代码知识，用蓝奏云下载下来就是能用的软件。
简繁随便找个在线网站处理就行，我找的是：
https://h.markbuild.com/doc/chinese_conversion.html

行不通的办法：
关键问题在于，pdf转epub只会得到全都是图片的epub，这和pdf转png是没有本质区别的。网上很多pdf转epub转png的在线网站……但是……唉……
但如果本来就是epub，那也不需要ocr，其实硬提取字就好了吧……网上也有很多epub转word或txt……就算是竖排的字转出来全都乱了，按规则写个代码处理一下又如何……
但既然尝试这么久，同样罗列一下：
1.国内古籍ocr。我搜了一下有好几个，没试，感觉好像都要收费。
2.可以全部用命令行处理的python程序。kaggle运行不了，临时下载了一个python3.8（临时下载建议3.9，不然要改一点代码文件）记得用镜像不然很难下。。记得环境变量是python和scripts都要设置。。
github链接：https://github.com/yihong0618/epubhv
简单看看github上的教程：
繁体转简体是--convert t2s，traditional to simplified
竖排转横排是--h，horizontal
我的命令行输入如下，仅供参考：

cd C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Scripts  #如果懒得设环境变量。。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple epubhv  #镜像
epubhv C:\Users\Administrator\Desktop\111.epub --h --convert t2s -d C:\Users\Administrator\Desktop  #指定文件生成位置

但是，嗯，这个是只能处理epub的。
3.可以简繁横竖排转换的一个电子书阅读软件，但是没有ocr功能，所以和上面的方法一样，还是，用不上。
原网页链接：https://calibre-ebook.com/zh_CN/download_windows
如果原网页下载失败可以在国内找资源。

总结：
这个问题可以拆解为：繁体，竖排，pdf。
pdf是最麻烦的，目前的繁体字ocr做得都不是很好，所以pdf文件很难处理。
竖排epub很好解决，只是繁体字也很好解决。
如果不能解决，可以干脆绕开问题找其他替代方式。例如看机翻英文，或者用镜像和在国内网站找资源。