首先,我要说word排版是指PDF转Word后的word排版,当然学会了也可以调论文格式等。既然是PDF转Word排版,那肯定就涉及到PDF和word两个软件了。PDF是原文档,word是目标文档,中间有个转换的过程,还需要用到一个软件就是OCR识别软件——ABBYY。
要想学word排版,首先要了解上面所说的三个软件:
Adobe Acrobat DC[1]
Microsoft Word[2]
ABBYY FineReader
当然也不是全部的都需要用到识别软件,因为PDF原文档有的是清晰可编辑的,基本上直接转出来就可以用,有的则是模糊不清并且不可编辑的,那就需要手动识别,然后复制到word上来做。直接转出来的不做过多叙述,后续会专门说一下这个。今天就来说说通过识别PDF来进行排版的步骤。
主要是分析,识别,排版三个步骤:
1.分析:就是对PDF的布局做一个了解,先看页眉页脚是否统一,是否分节;再看页面布局,页面方向是否一致;最后看内容,内容包含目录,正文,表格和图片。
分析PDF
2.识别
自上而下,一部分一部分识别,一个页面,画完识别区域再识别。
页眉页脚:相同的页眉页脚,只需在第一次出现的时候识别即可
正文:文本绘制文本识别区域进行识别。
表格:绘制表格区域识别,然后进行分析,没有分析好的要自己进行处理。
图片:有需要翻译的内容,用文本识别,没有的话不用处理。
画完全部页面后,进行识别。
识别完后要对内容进行检查修改。
3.排版
- 清除格式——清除不必要的的格式
- 清除tag符——影响翻译
- 全选,设置整个文档的页边距
- 全选,设置整个文档的字体字号
- 全选,设置整个文档的段落格式(对齐方式、首行缩进、段前段后以及行距)
- 全选表格——需要用到宏命令
- 全选表格,设置表格字体字号
- 全选表格,设置表格段落
- 细节排版
- 页眉页脚(注意分节)
- 标题格式(包括正文标题、图表题以及表标题)
- 表格细节(对齐方式、加粗等格式)
- 图片袭击(确认是否有需要翻译的内容等)
- 目录——最后一步,自动生成