OCRmyPDF：PDF OCR 与可检索化工具

摘要

1) 一句话总结 OCRmyPDF 是一个基于 Python 的开源命令行工具，它利用 Tesseract 引擎为扫描版 PDF 文件添加准确的 OCR 文本层，使其支持搜索和复制，并默认生成适合长期归档的 PDF/A 格式文件。

2) 关键要点

核心功能：为扫描版 PDF（或图像）添加隐藏的 OCR 文本层，文本精准对齐图像以便于复制粘贴，同时尽可能进行无损操作。
底层引擎：依赖 Tesseract OCR 引擎（支持 v4.1.1 及以上版本），通过安装相应的语言包可支持超过 100 种语言。
图像与排版优化：保持原始嵌入图像的精确分辨率，支持自动纠偏（deskew）、修正页面旋转，并能优化图像以减小最终文件体积。
输出标准：默认生成标准化的 PDF/A 格式文件，并在处理前后对输入和输出文件进行有效性验证。
性能与扩展：默认利用所有可用的 CPU 核心进行并行处理，能够稳定扩展并处理包含数千页的大型 PDF 文件。
跨平台与安装：支持 Linux、Windows、macOS 和 FreeBSD，提供 x64 和 ARM 架构的 Docker 镜像，可通过 apt、brew、dnf 等主流包管理器快速安装。
项目热度：采用 Mozilla Public License 2.0 开源协议，社区高度活跃（超 3.2 万 Stars），最新版本为 v17.3.0。

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched