ubuntu10.04下python相关问题

(1)apt-get install tk-dev

(2)apt-get install python-gtk2-dev

(3)apt-get install python-imaging

(4)tesseract-ocr ubuntu 安装使用

tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我的安装步骤
其实官方文档上说的很细,下面列出其中的命令,
sudo apt-get install autoconf automake libtool  
sudo apt-get install libpng12-dev  
sudo apt-get install libjpeg62-dev  
sudo apt-get install libtiff4-dev  
sudo apt-get install zlib1g-dev  
注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,
sudo apt-get install libleptonica-dev  
下载源文件包解压(目前是3.0),进入目录
./runautoconf  
./configure  
make  
sudo make install  
下载语言数据包解压:你可以在这找到更多的语言包
gzip -d eng.traineddata.gz  
移动到数据包安装目录下,默认为 /usr/local/share/tessdata
mv eng.traineddata /usr/local/share/tessdata   
export TESSDATA_PREFIX=/usr/local/share/  
安装图片格式转换工具,因为tesseract只识别tif格式的图片。
apt-get install imagemagick  
你可以使用下面的命令转换图片
convert a.jpg a.tif  
好了,测试一下吧
tesseract <image> <outputbasename> [-l lang] [configs]  
tesseract a.tif a  
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
tesseract a.tif a -l chi_sim  
cat a.txt  
你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,
对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,
如果你遇到 lib **.so 找不到请运行 
sudo ldconfig  
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值