PDF 文件如何转换从可以编辑的文本和word

最新推荐文章于 2024-09-15 17:04:49 发布

杰克2022

最新推荐文章于 2024-09-15 17:04:49 发布

阅读量2.2k

点赞数

分类专栏：杂项文章标签： microsoft office 破解文档 adobe rtf

杂项专栏收录该内容

3 篇文章 0 订阅

订阅专栏

-- PDF文件格式转换心得
世事无绝对，首先解密方面，试过几种软件，最好用的还是Passware_Acrobat Key，其次是Adult PDF Password Recovery v2.2.0和PDF Password Remover v2.2，再次，至于图像扫描的文本转换，中文的话，比较麻烦，将图片存为不压缩的TIF格式，用清华TH-OCR 9.0版或者汉王文本王进行识别转换，如只是部分识别也可以不存图片，用文通慧视小灵鼠进行屏幕捕获识别，上面这3个OCR软件可以在VeryCD.Com上面下载，如果是文本格式可用Solid Converter PDF转换成Word编辑翻译，不过，Solid Converter PDF支持的语言较多，英文和繁体中文应该也没问题，至于英文方面，文本格式的PDF可以通过ABBYY PDF Transformer 1.0进行文本转换，格式为RTF可以在Word中编辑，图像格式可以使用最近刚推出的OCR软件_IRIS Readiris Pro v10.0，速度效果都还不错，最后翻译软件方面就看大家自己的喜好了。以上是个人的小小心得，仅供各位参考！
最近更新的Recosoft PDF2Office Personal v2.0软件也可以将PDF文件转换成DOC格式，也支持中文，如果有专业版就更好了。IRIS Readiris Pro v10.0也有亚洲语言支持包OCR，如果可以下载到带Keygen的最新版本就可以转换中文了！目前看来只有再等等看了！
部分软件可以在eastgame.net的ISO和0day下载到，也可以去Verycd.com找不到部分！

如果是英文就太简单了，
Abbyy.FineReader.v7.0.Professional可以直接将图片形式的PDF转化为DOC，
而且文字和图表的格式都基本不变，
可惜的是FineReader连祖鲁语都支持，
就是不支持中文。

abbyy 下载地址

http://www.russky.net/down/list.asp?id=296

所以中文稍微复杂一些，
先用Adobe Acrobat 5.0/6.0将PDF另存为JPG，
然后想怎么OCR就怎么OCR了，
Ken推荐的汉王6.0不错，
我用过的所有中文OCR软件中最好的。
看清楚，
是Adobe Acrobat，
不是Acrobat Reader哈！

简介：
OCR是英文Optical Character Recognition的缩写，意思为光学字符识别，通称为文字识别，它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码，并按通用格式存储在文本文件中，由此可以看出，OCR实际上是让计算机认字，实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

工具：
1，清华文通Th-OCR 9.0
TH-OCR是清华大学自1985年就开始研发的，TH是TsingHua（清华）的缩写，TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下，持续了十多年的科研成果，从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别，在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性，新增了东方文字（简繁汉、日文、韩文）识别功能，对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平，在国内、外产生了重大的影响，并连续3年被中国软件行业协会评为优秀软件产品，成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域，成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别，它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。

TH-OCR的突出特点：
◇ 汉英双语同时混排，识别率最高，居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像，可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能，所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能，识别率98%以上。

TH-OCR的六大优势：

1. 是唯一可以识别２万多汉字的多体文字识别系统，汉字识别国内最优。

2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。

3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试，识别正确率超过99.5％，代表了目前印刷体文字识别的最高水平。

4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码，可以用于 WINDOWS NT和WINDOWS 98/2000/XP，适合全球各个地区使用。TH-OCR还具有自学习功能，不论什么生僻字，都可以通过键盘输入进行学习，大大拓宽了OCR系统的识别字符集。

5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。

原版地址： http://www.downxp.com/soft/4839.htm
破解下载： http://www.ihdown.com/soft/2252.htm 选择第三个链接下载即可
说明：把下载的winocr.exe文件放到安装的目录里面,运行即可winocr.exe即可,不要删除和运行winocr32.exe.如果你以前安装过其他的破解补丁,请卸载软件重新安装原始版本.因为程序有自校检功能所以不要把winocr32.exe文件删除和修改.运行补丁包的winocr.exe文件即可.修改快捷方式指向winocr.exe即可(原来指向winocr32.exe)没有字体限制,没有扫描限制,没有通用错误警告,完美破解
这是最新的破解版，据说没有任何限制了，我试了一下，在批量导出为RTF格式时仍会出错。
汉王和紫光各有千秋，喜欢紫光的就去下吧。

2，汉王文豪5800
文豪5800除了具备文本王经典版的各项功能，诸如操作简单快捷、一键即可实现扫描识别输出到Word文档外，它还能准确识别各种表格和图像，并新增加了批量工程处理、表格拼接、ACDSee图文索引和摘抄高手等人性化的功能设计。它配备了一台光学分辨率为1200dpi×2400dpi、48位色彩增强技术、USB2.0接口的超薄高速扫描仪，对印刷文稿的识别率能达到99.5%以上，能够轻松识别百余种印刷字体和各种图文混排格式的文本。

   对于有批量录入需求的用户来说，文豪5800的“工程文件”能够解决批量录入中的很多问题，它能将工作进度自动进行保存，用户再次打开此项工程的时候它就能自动指向工作的断点，免去了重复查找、识别、校对的麻烦。

   要提醒用户的是：如果想将扫描的文字或者表格直接转换为doc、rtf、txt等格式保存的话，一定要注意印刷品的放置方向，如果方向反了的话，识别出来的文字会全部都是乱码，虽然在扫描仪上有印刷品放置方向的提示，但是若非实际使用，用户很难把握怎样放置才能得到正确的扫描输出结果——这也在一定程度上反应出产品细节设计的不足。

   总体而言，汉王文本王文豪5800在识别印刷品的时候识别率高，识别速度也比较快，对于有大量文字录入需求以及需要将传统印刷品转换为电子档的用户来说，汉王文本王文豪5800是一个非常不错的选择。不过整体来看，文豪5800的配套软件设计得还不够精致，界面不够美观，风格也不够统一，很多细微的地方应该加以改进。和汉王名片通的配套管理软件比较起来，汉王文本王文豪5800的配套软件显然要逊色得多。

   汉王文本王文豪5800的使用比较简单，其配套的印刷版使用手册图文并茂，对硬件安装和软件使用进行了非常详尽的介绍；电子帮助文档比较简单。

简单描述:文稿表格快速录入
一键扫入
WORD输出
省去了传统扫描录入时的灰度调整
倾斜校正等很多步骤
可实现1000页稿件的批量识别录入
最高速度可达6000字/分钟
文表图只需按一键就"复印"入WORD!

下载地址：
汉王文豪5800： http://www.piaodown.com/down/soft/12609.htm
汉王文豪5300：http://www.ddooo.com/softdown/28133.htm
汉王OCR2.5：ftp://software@211.147.168.80/pic/hwdoc.rar

汉王OCR2.5安装说明：
下载的压缩包解压后应该有三个文件：hwdocSetup文件夹、HWDOC 升级2.5.exe、汉王文本王2.5扫描仪破解程序_crk.exe。
安装顺序：
1，先安装hwdocSetup文件夹中的汉王2.3主程序
2，运行“HWDOC 升级2.5.exe”进行升级
3，运行“汉王文本王2.5扫描仪破解程序_crk.exe”进行破解
一切OK！！！

虽然汉王巳出了5300、5800、6800，但真正完全破解的只有汉王OCR2.5。我喜欢用汉王，5300和5800的OCR核心似乎相同，破解也是相同的，据说是完全破解，但批量处理时仍会出错，所以我还是用2.5的。

3，ABBYY FineReader OCR Professional 7.0
ABBYY FineReader 7.0专业版是最新、最准确的ABBYY OCR软件版本。它可以为用户提供最高级别识字精确率，是一个非常节省时间的好方案。FineReader允许你将各种纸张和电子文件转换、编辑以及重新使用，包括：杂志、报纸、传真、复制和PDF文件。
下载地址： http://www.onlinedown.net/soft/24081.htm

慧视小灵鼠
   屏幕文字识别系统，可以从数码相机等各种设备摄取的图片中识别文字信息；联机手写文字识别系统，可以脱离手写板的限制，任意书写文字。慧视-小灵鼠（包括屏幕取字和鼠标手写输入等新技术）
   将Disk1.rar至Disk6.rar下载后，解压缩到统一文件夹内，然后运行Disk1目录下的Setup.exe
下载地址：
http://www.wintone.com.cn/html/service/downlist.asp?channelid=12&catid=21&id=341
下载地址1： http://www.wintone.com.cn/html/service/download/disk1.rar
下载地址2： http://www.wintone.com.cn/html/service/download/disk2.rar
下载地址3： http://www.wintone.com.cn/html/service/download/disk3.rar
下载地址4： http://www.wintone.com.cn/html/service/download/disk4.rar
下载地址5： http://www.wintone.com.cn/html/service/download/disk5.rar
下载地址6： http://www.wintone.com.cn/html/service/download/disk6.rar

我试用了一下，很好用，用于摘抄非常方便，对于那些不能直接COPY的文字，用“慧视”是最方便不过了，省去了文字的输入过程。但美中不足的是不能用于批量识别，校对也不是太方便。要用于批量文件识别，还是汉王好。

其它还有：尚书OCR、汉王OCR、蒙怡OCR、丹青OCR等。

OCR软件使用方法
请参见：
http://www.pconline.com.cn/pcedu/soft/gj/photo/10205/62741.html
http://www.enet.com.cn/eschool/inforcenter/A20040412301679_2.html

如何将PDF文件转为文本？

此问题需分为两部分来解决：
一、如果PDF文档本身由WORD转成：
网上巳有很多这方面的论述，请参阅：
http://www.knowsky.com/4419.html
也可用其它PDF转Word工具，如：“PDF转Word工具”
http://www.cqforest.com/soft/12136.htm
二、如果PDF文档本身由扫描文件转成，用上面的方法就无效了。那就需要分几步来完成：
1，先将PDF转为图片：
可用：“Galcott PDF Converter”软件将PDF转为图片格式
http://www.jfdown.com/SoftView/SoftView_17738.html
2，再用OCR软件识别、校对：
推荐使用“汉王OCR2.5”
ftp://software@211.147.168.80/pic/hwdoc.rar
虽然汉王巳出了5300、5800、6800，但真正完全破解的只有汉王OCR2.5，用它的批文件处理模式可进行自动识别，然后再校对。
3，输出到文本：
完成识别校对后，可用我先前发的“OCR助手”软件
http://www.czzyy.com/personal/wyx/download/OCRPlus.exe
删除多余的换行符并合并导出为单个文本文件。
4，在WORD中作最后的修饰。

如何将PDG（超星格式）文件转为文本？

   最简单的办法就是用超星自带的OCR进行文字识别了，不过效果和效率嘛.........
推荐的方法：
   总的原理就是先把PDG转为图片，再用专业软件识别、校对，最后输出为文本。
1，将PDG转为图片
   首先安装抓图软件“SnagIt”
http://www.xyzdown.com/soft/2617.htm
   让你安装此软件，不是要你用它来抓超星的图的~~~，我们需要的是它的“虚拟打印”功能（安装时一定要选中安装虚拟打印）。
   使用方法：在“超星”中打开需要进行格式转换的书，然后“打印”，在弹出的窗口中选择打印机时，选择“SnagIt”即可，并设置输出图片为“黑白”（如为“彩色”，那输出的文件大的可怕。），等打印结束后自动弹出SnagIt程序主界面，保存即可。
2，文字识别和校对
3，...........
4.............
   请参阅上面的说明。
   通过学习如何将PDF或PDG文件转换为文本文件，我们可以发现，关键是如何将源文件转换为图象格式，然后再进行文字识别，本人推荐使用SnagIt和汉王OCR，通用、快捷、方便。
   如果以后遇到中国期刊网的CAJ文件、国图的NLC文件......等等等等，就不用我再.......

其它说明：
   如果是要OCR PDF文件，似乎文件的大小不应成为障碍，因为我们会将PDF文件的每一页输出为一个图象文件（只要你的磁盘空间允许即可）。
   如果一本书就是一个PDF文件，那操作起来会方便得多；反之，如果一本书由多个PDF文件组成，就需要进行重复的操作了。
   如果你只是想要OCR其中的一部分内容，可用“打印”的方法（请参阅 http://www.cntcm.org/cgi-bin/topic.cgi?forum=6&topic=289&show=0 ），并在打印时选择相应的页码即可以了。
   如果你要分割或合并PDF文件，可以用PDF Split-Merge 软件，下载地址：
http://count.skycn.com/s0ftdownlOad.php?url=http://xj-http.skycn.net:8080/down/HB-PDFSM11-fxj.ZIP
   另外：PDF Converter 1.4的Serial: 3861794

Office2003实现PDF文件转Word文档

经过本人尝试，发现可以利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转WORD文档，也就是说利用WORD来完成该任务。方法如下：
用Adobe Reader打开想转换的PDF文件，接下来选择“文件→打印”菜单，在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document Image Writer”，确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Microsoft Office Document Image Writer”项，使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件，选中“Office 工具 Microsoft DRAW转换器”。
然后，运行“Microsoft Office Document Imaging”，并利用它来打开刚才保存的MDI文件，选择“工具→将文本发送到Word”菜单，在弹出的窗口中选中“在输出时保持图片版式不变”，确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”，不管它，确认即可。
注:对PDF转DOC的识别率不是特别完美，转换后会丢失原来的排版格式，所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用，其他版本没有Microsoft Office Document Image Writer。