Python软件设计基础 第八节-Tesseract-Ocr视频字幕提取

本文介绍了使用Tesseract OCR进行视频字幕提取的方法,包括Tesseract的介绍、安装配置,以及字幕提取的实现原理和代码示例。通过调整截图位置和处理方式,可以提高字幕识别的准确度。
摘要由CSDN通过智能技术生成

目录

一、Tesseract-Ocr概述与环境配置

(一)Tesseract-Ocr介绍

(二)Tesseract-Ocr安装

1、程序下载及安装

2、配置环境变量

3、语言配置与程序测试

二、视频字幕提取实现

(一)实现原理

(二)代码实现

三、总结


一、Tesseract-Ocr概述与环境配置

(一)Tesseract-Ocr介绍

Tesseract是一款由HP实验室开发、由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引   擎。Tesseract可以处理很多自然语言,如英语、葡萄牙语等。截止到2015年为止,它可以支持超过100种书面语言,并且可以通过训练学习轻松掌握其他语言。

(二)Tesseract-Ocr安装

1、程序下载及安装

官方网站:https://github.com/tesseract-ocr/tesseract
官方文档:https://github.com/tesseract-ocr/tessdoc
语言包地址:https://github.com/tesseract-ocr/tessdata
下载地址:https://digi.bib.uni-mannheim.de/tesseract/

进入下载页面后,下载正式稳定版本,文件名为“tesseract-ocr-w64-setup-v5.0.0.20190623.exe”。

下载完成后,在PC上进行安装。安装时要注意路径中不要有中文,避免出现问题。

安装过程可以选择要安装的语言包,如简体中文。但速度较慢,建议通过其他途径下载语言包,并在本地进行安装。

2、配置环境变量

在电脑上按“Win+R”打开命令行,输入“sysdm.cpl”打开设置Path的窗口。

 依次选择“高级”-“环境变量”。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值