通过XPDF读取PDF内容并转化为txt格式
地址:http://www.xpdfreader.com/pdftotext-man.html
下载这三个压缩包
直接运行.run文件,记得加x权限
解压语言包到当前目录
我的为/usr/xpdf/下,等会配置文件需要这个路径
语言包解压后解压命令行工具包,进入该文件夹结构大致如下
还是根据你的系统选择bin64或者32
我这里只需要pdf内容转txt格式的,所以将pdftotext放到xpdf文件夹下即可
然后进入该文夹里的doc,将sample-xpdfrc放到xpdf文件夹下并改名xpdfrc
至此xpdf文件夹内目录结构如下
编辑xpdfrc添加如下内容:
textEncoding UTF-8
textPageBreaks no
#launchCommand viewer-script
#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 /usr/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN /usr/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN /usr/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK /usr/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 /usr/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir /usr/xpdf/xpdf-chinese-simplified/CMap
#fontFileCC Adobe-GB1 /usr/..../NotoSansCJKsc-Regular.otf
#----- end Chinese Simplified support package
执行./pdftotext xxx.pdf xxx.txt 如果不加xxx.txt将使用原文件名
记得给文件相应的权限如执行权等