Airtest是一款 基于图像识别原理 的跨平台UI自动化测试框架,它能够根据大量的 特征点 来识别一个截图在当前画面中的位置,但是它并不能识别出截图中具体包含了什么文字。
而在自动化测试的过程中,我们会经常遇到需要进行文字识别的场景,比如 识别验证码 、 识别截图中的文字 、 读取截图中的数值 等等,遇到这些情况时我们可以如何处理呢?
今天教大家用一款免费的开源图像OCR文字识别软件 – Tesseract-OCR 来处理上述情况。
1.安装Tesseract-OCR.exe
自动化软件测试交流群:1140267353,领取最新软件测试资料大厂面试和Python自动化学习资料!一起学习交流
在网上搜索“Tesseract”,我们可以找到很多Tesseract-OCR的下载链接和安装教程,大家可以选择其中一个版本下载到本地即可。
下载完成后双击进入安装,需要特别注意的是,在选择安装的组件时,我们需要把 Additional language data(download) 这一选项勾上,目的是 安装各个版本的语言包 ,后续我们就不用手动下载语言包来安装了。
还有一点要注意的是,记住我们选择的软件安装路径,因为我们需要把这个路径添加到 系统环境变量 的 path 中:
另外一个要新增的环境变量是 TESSDATA_PREFIX ,如下图所示,未设置在识别过程中会报 Please make sure the TESSDATA