狂揽16.9k star！Umi-OCR文字识别太火了，解决了多少人的痛点！

最新推荐文章于 2025-04-14 11:00:48 发布

孜孜孜孜不倦

最新推荐文章于 2025-04-14 11:00:48 发布

阅读量2.4k

点赞数 30

文章标签： ocr 自然语言处理开源

本文链接：https://blog.csdn.net/z_ipython/article/details/135844279

版权

本文介绍了Umi-OCR，一款基于百度PaddleOCR的开源OCR工具，支持离线使用，功能包括截图OCR、批量OCR、二维码识别等，且免费且无需网络，是Windows用户寻找高质量OCR解决方案的理想选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

想必大家对文字识别（OCR）并不陌生，可能很多朋友使用还很频繁，在微信、QQ甚至小程序上经常性的使用，不论大家是看到一句很富有哲理的话还是很棒的台词甚至诗意浓浓的诗句，但是它们不是纯粹的文字，而是存在图片这个载体之上。

所以需要借助 OCR 对图片上的文字进行识别并拷贝下来。毕竟如何自己一个个字打还是很麻烦且浪费时间的，手机端 OCR 工具是很丰富的，但是电脑端好像真正能免费无限制使用的OCR工具真的很难找。

本文，就为大家介绍一款最近爆火的PC端开源OCR工具 Umi-OCR。该工具功能齐全，支持离线使用，在GitHub上更是斩获 16.9k star量，让人不得不琢磨体验一番。

Umi-OCR 项目介绍

Umi-OCR 是一款基于百度自研的PaddleOCR框架开源的 OCR 项目源、免费的离线OCR软件。

该工具开源至今，一直再对功能进行更新支持，截屏/粘贴/批量导入图片、段落排版/去除水印、扫描/生成二维码等功能都已支持，不可畏不强大！

最重要的是免费、离线！

功能特点：

免费：所有代码开源，完全免费。
方便：解压即用，离线运行，无需网络。
高效：自带高效率离线OCR引擎。只要电脑性能足够，可以比在线OCR服务更快。
灵活：支持命令行、HTTP接口等多种调用方式。
功能：截图OCR / 批量OCR / 二维码 / 数学公式识别

该工具很有很多优化的功能，还有体验上的优化，比如：兼容windows7系统、支持多国语言切换、字体/背景更换、系统托盘/快捷键等等诸多优化。

下载与使用

下载

作者提供了多种下载方式，可供我们自行选择最方便的一种：

GitHub: https://github.com/hiroi-sora/Umi-OCR/releases/latest
蓝奏云: https://hiroi-sora.lanzoul.com/s/umi-ocr
Source Forge: https://sourceforge.net/projects/umi-ocr

然后我们只需下载 .7z格式的压缩包或 .7z.exe 自执行文件。

最后直接执行 .exe 的文件就可以。也不需要我们去安装该工具即可运行Umi-OCR。

使用

1、第一次打开界面，切记如果不是中文语言，需到 全局设置→语言/Language->简体中文 进行设置。

2、接下来就是 Umi-OCR V2版本的优化了，标签页的显示，把截图OCR、批量OCR、二维码识别等功能分标签展示，就跟浏览器一样，可以说很人性化了。

3、截图OCR的功能预览

点击截图OCR标签后，就可以用快捷键唤起截图，识别图中的文字。

左侧的图片预览栏，可直接用鼠标划选复制。
右侧的识别记录栏，可以编辑文字，允许划选多个记录复制。
支持在别处复制图片，粘贴到Umi-OCR进行识别。

这部分功能最惊喜的还是针对 OCR文本后的处理，也就是段落的合并：

单行：合并同一行的文字，适合绝大部分情景。
多行-自然段：智能识别、合并属于同一段落的文字，适合绝大部分情景，如上图所示。
多行-代码段：尽可能还原原始排版的缩进与空格。适合识别代码片段，或需要保留空格的场景。
竖排：适合竖排排版。需要与同样支持竖排识别的模型库配合使用。

4、批量OCR的功能预览

字面意思也很好理解，就是可以选择多个图片同时进行识别，比如同时选择5中截图图片，批量识别。

识别内容可以保存为 txt / jsonl / md / csv(Excel) 等多种格式。
支持文本后处理技术，能识别属于同一自然段的文字，并将其合并。还支持代码段、竖排文本等多种处理方案。
没有数量上限，可一次性导入几百张图片进行任务。
支持任务完成后自动关机/待机。

而且批量OCR中还有一种特殊功能，可以自主排除图片中的不想要的文字。是不是更加人性化，考虑周到了。

在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方样例，图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰。
按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。

5、二维码的功能预览

这个功能就不过多展开说了，就是支持二维码的信息识别和根据文字、链接、图片等信息生成自己的二维码。

6、全局设置的功能预览

全局设置就是该工具的系统设置界面，可以调整工具的全局参数，设置自己喜欢的样式。

一键添加快捷方式或设置开机自启。
更改界面语言。Umi支持繁中、英语、日语等语言。
切换界面主题。Umi拥有多个亮/暗主题。
调整界面文字的大小和字体。
切换OCR插件。
渲染器：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况，请调整界面和外观 → 渲染器，尝试切换到不同渲染方案，或关闭硬件加速。

作者的展望

当然作者近期还会PDF识别和图片的翻译功能进行开发。我想大家对PDF识别的需求可能也会很大吧！

而且作者也对未来的新增功能做出了以下的计划：

基于GPU的离线OCR。
离线翻译。
插件系统。
固定区域识别。
识别表格图片，输出为Excel。
根据系统的深/浅模式，自动切换主题。
历史记录系统。
兼容 MacOS / Ubuntu 等平台。

总结

Umi-OCR 这款开源工具至少是小编遇到的Windows版本中功能最全、最实用、最人性化的一款OCR工具。大家值得一试。