Umi-OCR：基于 Python 开发的开源、免费且完全离线的文字识别（OCR）工具，支持截图、批量图片、PDF文档及二维码识别

摘要

Umi-OCR 是一款基于 Python 开发的开源、免费且完全离线的文字识别（OCR）工具，支持截图、批量图片、PDF文档及二维码识别，并提供排版解析与外部接口调用功能。

开源与离线：采用 MIT 开源协议，解压即用，内置高效率离线 OCR 引擎（兼容 Rapid-OCR 与 Paddle-OCR），无需网络连接。
截图与排版解析：支持快捷键唤起截图识别，内置文本后处理模块，可自动识别多栏/单栏布局，支持按自然段换行或保留代码缩进。
批量处理与忽略区域：支持无上限批量导入多种图片格式，可导出 txt、jsonl、md、csv；特有“忽略区域”功能，可通过绘制矩形框排除水印或 LOGO 的干扰。
文档识别：支持 PDF、XPS、EPUB 等格式的文本提取与扫描件 OCR，可输出为双层可搜索 PDF，并支持排除页眉页脚。
二维码/条形码：支持 19 种协议的二维码与条形码的读取（支持一图多码）及生成（可调纠错等级）。
外部调用支持：提供命令行（CLI）和 HTTP 接口，便于开发者进行外部调用和系统集成。
多语言与个性化：支持 Windows7 x64 和 Linux x64 系统；内置多国语言 UI（根据系统自动切换或手动设置），支持亮/暗主题及字体调整。
项目热度：该项目在 GitHub 上拥有超 4.2 万 Stars，由社区（Weblate）协作维护多语言翻译，最新版本为 v2.1.5。

渲染兼容性问题：默认开启显卡加速渲染，在部分机器上可能导致截屏闪烁或 UI 错位，需用户手动切换渲染方案或关闭硬件加速。
平台支持局限：当前主要适用于 Windows 和 Linux x64，对 MacOS / Ubuntu 等平台的兼容仍处于远期开发计划中。
部分高级功能尚未实现：基于 GPU 的离线 OCR、独立的数学公式识别、表格识别输出 Excel、图片/离线翻译等功能目前仍处于远期计划阶段，尚未落地。
竖排识别限制：虽然排版解析方案支持竖排（从右到左），但前提是所选用的 OCR 引擎本身必须支持竖排识别。

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。