Tesseract 使用中文语言包出错
Error 详情
Error opening data file D:\software\Tesseract-OCR\tessdata/tessdata/chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.
Failed loading language ‘tessdata/chi_sim’
Tesseract couldn’t load any languages!
Could not initialize tesseract.
显然上面提示已经说明了需要配置字库环境变量
设置环境变量
TESSDATA_PREFIX
安装地址\Tesseract-OCR\tessdata
设置好环境变量后,语言包的选择只需要直接输入语言包名称即可-l chi_sim
tesseract test.png result -l chi_sim
测试图片
输出结果
摘 要 ; 为 高 效 精 砥 地 提 取 存 代 于 五 联 网 中 的 灿 宠 主 题 网 页 文 本 信 息 , 引 人 本 余义 , 提 出 一 种 新 的 烟 害 主 题 秀 蚊
策 略 。 绑 出 本 体 语义 支 挂 的 灿 宠 主 题 爬 虫 概 架 和 诗 程 , 改 进 本 体 概 念 语 义相 作 度 计 算 方 法 , 利 用 语 义 相 余 度 计 算
主 题 语 义吊 量 , 通 过 HTML 位 霓 加 权 获 朔 网 页 文 本 特 征 向 量 , 并 选 行 主 题 相 关 度 计 算 。 设 计 URL 铸 文 本 主 题 相 关
度 计 算 方 法 , 分 析 URL 链 接 任 兆 度 , 优 化 爬 行 队 列 。 选 取 地震 灿 宠 和 氖 象 灾 害 2 个 主 题 送 行 测 试 与 分 枪 , 实 验 维 素
表 明 , 该 答 畦 能 有 效 提 高 穗 定 性 和 爬 淅 宏 。
关 辐 词 ; 主 题 爬 虱 ; 本 仰 ; 诱 义 林似 度 ; 向 最 空 间 模 垣 ; 林关 度 计 算 ; 铸 文 本
```