弹性云服务器部署文字识别Tesseract项目
实验目标与基本要求
Tesseract (是OCR中的一种实现方式)是一个光学字符识别引擎,支持多种操作系统。本实验将在华为云鲲鹏弹性云服务器CentOS系统的实例上,安装Tesseract;体验通过源码在鲲鹏云服务器上安装软件,并使用Tesseract识别图片中的文字。
基本要求:
- 熟练使用Linux基本操作命令;
- 了解Tesseract的基本原理;
实验摘要
- 1.部署开始
- 2.配置Tesseract
- 3.下载语言包
- 4.下载kunpeng文字图片进行demo测试
##试验操作
1.部署开始
双击“终端”打开Terminal输入以下命令回车,登陆ECS服务器:
操作说明:
①用复制ECS的弹性IP替换命令中的EIP,回车;
②接受秘钥输入“yes”,回车;
③输入密码,回车(输入密码时,命令行窗口不会显示密码,输完之后直接回车即可)
LANG=en_us.UTF-8 ssh root@EIP
连接成功,如下图所示(实验过程中请勿关闭该Terminal,否则需重复此步骤重建连接)。
1.2 安装依赖的基础组件
配置Tesseract所依赖的环境
yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel -y
1.3.下载Leptonica源码包
下载Tesseract依赖的图像处理库Leptonica源码包,利用Leptonica源码包中这些库可实现开源Tesseract字符识别库的静态编译。
执行以下命令下载: