PDF书签制作
- 平时经常使用pdf格式的工具书,一本想看的书可以找到已经是万幸,并不奢求它还能自带书签,但是至少动辄2,3百页的电子书没有书签属实吃不消,今天突发奇想是不是可以自己制作书签呢?答案确实是可以。
- 本篇文章将介绍我看了一些文章之后总结下来的一套流程,包括,非扫描版和扫描版的流程。很感谢这些文章的作者,他们让我能看上有书签的电子书
使用工具
必要:
- PDFPatcher
- PdgCntEditor
辅助:
- Word
- Excle
- Adobe Acrobat
PS:辅助的意思是这些工具可以用其他同类型的代替,比如使用Acrobat只是使用它的OCR功能,你也可以用其他的OCR工具代替。
非扫描版pdf书签制作----流程
- 非扫描版一般是体积很小的pdf文件,里面的文字都是可以直接编辑的。这种处理起来非常省事,但是很难遇见。非扫描版的pdf电子书只需要用到PDFPatcher,它自动生成书签,直接搞定
打开PDFPatcher
点击自带生成书签
pdf信息文件哪里,随便新建一个txt文件给它放上去就行了。成功之后会生成一个和这个txt文件名字一样的XML文件
返回开始页面,点击修改pdf文件
打开后,将刚才的XML文件拖到下方列表内
拖入后
点击旁边保存,书签就做好了
- 可以看到自动生成的书签标题有重复,乱七八糟的,有时候会出现这种情况。可以用浏览器打开刚才的XML文件,在里面将书签标题修改一下。
扫描版pdf----流程
-
扫描版是最经常碰见的情况,扫描版不能直接编辑,读不到文本信息,所以自动生成书签自然是不行的。
-
制作扫描版pdf书签的主要是需要自己制作目录,然后把目录导入PDFPatcher中向上述那样完成书签制作
-
我会以《数据结构》这本书为例进行介绍
1 目录制作
方法1
在实体书电商网站上找到该本书,在下面的介绍页中一般都有这本书的目录,复制下来。下面是我经常用的网站。
- 京东
- 当当
- 淘宝
在下面介绍找
这本书京东的目录全,所以就用京东了
复制下来粘贴到Excel
现在要制作对应页号
可以使用
- 手打大法(页数不多还是很快的)
- OCR书目录的页号(不建议整页ocr扫描,不容易将里面的页号复制,建议只截取只有页号的那一列然后再ocr)
这里需要注意!!!
pdf书中在内容之前会有封面,前言等页,这些是不算进目录中指的页中的,但是我们制作书签需要考虑全部的页数
例如
这里目录是第1页,但是确实pdf的第9页,我们制作书签的索引是按这个第9页为依据的,所以在写进Excel之前需要将目录里面的页号都加一个偏移量8
结果
可以看到到第一页现在变为了9
这样目录就做完了,现在已经成功90%了!!!
方法2
如果在网站上都没有找到书的目录,那就自己OCR制作吧
使用Acrobat
- 将书中目录那几页导出成word
- 在word中修饰
- 最后还是像方法1那样制作到Excel中(在Excel里面在复制格式比较干净)
这是word提取出来的,乍一看效果不错,但好多杂质,这还是Acrobat转换的,但Acrobat是我目前用过效果最好的了,毕竟pdf标准就是Adobe指定的。
这两种方法各选其一就行了,千万别忘了最后要加一个偏移量
2 将目录制作成书签
复制上一步得到的Excel表中内容
只选中有信息的两列复制
将其粘贴到PdgCntEditor
PdgCntEditor,主要作用是把目录的格式更加规范,它可以识别前面的标题号让目录变得有层级关系。
全选,然后点击 选定区域自动缩进
点击后
现在已经有层级关系了
然后还需要全选中,点击自带切分页码
这样在PdgCntEditor中的处理就做完了,接下来需要将其全部选择复制到PDFPatcher中
复制之后将需要制作书签pdf导入
点击隔壁保存,完成
最后成果
有着很帮的还有层级的书签