关于文字的提取

一,PDF转换WORD篇
如何提取PDF中的文字,图片等特效

我们日常工作学习中有关的学术论文或学术报告或者课程教材等等都以pdf格式保存,如何把它们转换成可编辑的word文档或者提取相应的重要信息。网上有不少 pdf 到 word 的转换软件或插件,可是大都对英文等识别姣好,一些繁体的软件又不适合我们,我们可以利用office2003的组件microsoft office Document Imaging可以实现从PDF中任意提取任何页面的文字和图像等功能。

先来介绍一下最简单的提取方法吧,打开PDF的文件资料,利用本身的文本提取工具可以完全提取了,但是有的PDF是增加了128位秘钥的,想要提取是不会那么简单的,即使用软件或者简单复制的时候,出来的效果却是乱码之类的东西。
而且单纯的用文本工具只能把PDF中的文字提取出来,其他的特效:图片等是无法显示出来的,首先看一例文本提取:
我想提取下图的文字:具有SAP的企业系统。


直接在ADOBE READER 的“工具”选项那就轻松可以实现:

或者直接利用快捷方式中的图形直接提取就可以了:

直接提取的效果就是我们通常所说的“复制”到“粘贴”,文字东西少还是可以,如果有300页的PDF我怕只有“傻瓜”才会那么做吧!呵呵!玩笑!下面的图片我们怎么办(举个例子)如果是报表的数据图呢?如何人、放到WORD里呢?

所以只有求助office2003的组件microsoft office Document Imaging的功能了,即使它不是最好的,在ADOBE READER 那有一个“打印机”的图标,进入后来到如下的画面,在名称那选择“microsoft office Document Imaging”,下面还有设置的打印范围,可以选择所有的PDF文件或者选择想要提取的页面也可以,或者指定多少页到多少页都是可以实现的,页面处理功能就是保持页面的大小或者根据你要打印的纸张的大小选择就可以了,页数就是处理后的页数。

根据需要我最后进行了选择,什么都保持原来的大小和清晰度等,然后我们确认就可以了:

之后会出现“保存”的对话框,注意下面的文件名,可以更改或者改变的,但是下面的保存类型千万不要变,保持MDI格式就可以了:

之后会出现所预览的页面,也就是你上面选择参数后的结果,这时候的图片和PDF还是一样的:

之后在[color[red]“工具”这个选项上选择“将文本发送到WROD”这个选项:

然后出现一个可选择的对话框,选择的时候要注意选择“输出时候保持文件不变”,然后保存到想要的位置:

如果机器之前设置了OCR擦件选项,需要更新的,不过不要紧的,系统会自动给你安装的,选择确定就可以,时间也不会很久的,我的机器3秒OK了:

然后安装开始:

之后就是安装的进度条了,很快安装OVER,功能可以用了:

最后呈现在你面前的就是转换后的文字了,其实应该是黑色字体,5号字的大小的,我从新给调整了和以前的模式,是不是一样的呢?
图片的实现和文字的实现是一样的,不过WORD一定要支持图片模版的,2003版本的可以,2000没尝试,经过很多的使用,可以说95%的文字都是可以清晰的提取出来的,这点没问题的!呵呵!

二、图片中文字的提取

      微软在Microsoft Office 2003中的工具组件中有一个“Microsoft Office Document Imaging”的组件包,它可以直接执行光学字符识别(OCR),下面笔者就为大家介绍利用Office 2003新增的OCR功能从图片中提取文字的方法。

   第一步 我们需要安装“Microsoft Office Document Imaging”的组件,点“开始→程序”,在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行。

          第二步 打开带有文字的图片或电子书籍等,找到你希望提取的页面,按下键盘上的打印屏幕键(PrintScreen)进行屏幕取图。

   第三步 打开Microsoft Office Word 2003 ,将刚才的屏幕截图粘贴进去;点击“文件”菜单中的“打印”,在安装Microsoft Office Document Imaging组件后,系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。如图2所示,在“打印机”下拉列表框中选择“Microsoft Office Document Imaging Writer”打印机,其他选项无须额外设置,点击“确定”按钮后,设定好文件输出的路径及文件名(缺省使用源文件名),然后很快就可以自动生成一个MDI格式的文档了。打开刚才保存的MDI类型文件(如图3所示),根据你的需要用鼠标选择文字内容(被选中的内容在红色的框内),然后单击鼠标右键,在弹出的快捷菜单中选择“将文本发送到Word”,即可将图片内容自动转换为一个新的Word文档,然后你就可以在Word文档中随心所欲地进行编辑了。

提示:如果你不想将转换的内容输入到一个新的Word 文档中,而是希望粘贴到一个已经打开的Word 文档,只需在上面的操作中点击右键菜单的“复制”,然后再到指定文档中执行粘贴即可。
 (抓图小帮手 1.2

使用这套软件,您可以截取屏幕上任何大小的图片并且保存下来。它具备了所有基本的抓图
www.onlinedown.net/soft/1202.htm

三、提取PPT文件中的文字转换成WORD文档的小工具-ppt Convert to doc(只有76K)



本程序可以将PPT文件的所有文字内容(包括幻灯片和备注)提取成WORD文档,该文件保存于PPT文件所在目录,若PPT文件名为“XXX.ppt”,则转换获得的WORD文档的文件名将是“XXX.ppt.Convertor.doc”。本程序转换后的WORD文档中文字顺序排列,并未排版,因此尚需用户自行调整。
    本程序无需安装,直接运行。最好将之前运行的 WORD 和 POWERPOINT 程序均关闭。将欲操作的PPT文件拖入程序,按程序界面中的“开始”按钮即可。操作过程中幻灯片和Word文档自行活动,不必担心。转换时间视幻灯片文字多少而定,一般1至2分钟搞定。转换结束后程序自动退出。
    转换前可以选择获是否在得的Word文档中添加分隔标志文字。若选择添加,则分隔标志文字的格式为:Page No.X:表明其后的文字源于第X张幻灯片;WordsFromSlide:表明其后的文字源于幻灯片页面;WordsFromNotePage:表明其后的文字源于备注页面。

四、提取视频中的文字

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值