MinerU：文档解析与结构化提取工具

摘要

1) 一句话总结 MinerU 是一个基于 Python 的开源文档分析工具，能够将复杂的 PDF 文档（包含公式、表格等）高精度地转换为适用于大语言模型（LLM）和智能体工作流的 Markdown 或 JSON 格式。

2) 关键要点

核心功能：支持将 PDF 转换为机器可读格式，保留原文档结构（标题、段落、列表），并按人类阅读顺序输出文本，适应单栏、多栏及复杂排版。
多模态与元素提取：能够自动提取图像、图表描述、表格及脚注，并将文档中的公式自动转换为 LaTeX 格式，表格转换为 HTML 格式。
OCR 与多语言支持：自动检测扫描版和乱码 PDF 并启用 OCR 功能，支持高达 109 种语言的文本检测与识别。
智能清洗：自动去除页眉、页脚、脚注和页码等干扰元素，确保提取文本的语义连贯性。
跨平台与硬件加速：兼容 Windows、Linux 和 Mac 平台，支持纯 CPU 运行，同时支持 GPU (CUDA)、NPU (CANN)、MPS 加速。
国产算力全面适配：最新版本（2.7.6）已广泛适配昇腾、海光、燧原、摩尔线程、寒武纪、昆仑芯等十余种主流国产计算平台和芯片架构。
混合后端引擎（Hybrid Backend）：2.7.0 版本引入并默认使用 hybrid-auto-engine 后端，结合了 pipeline 和 vlm 的优势，原生支持文本 PDF 的多语言识别，并大幅减少解析幻觉。
开源与社区影响力：采用 GNU AGPL v3.0 协议开源，在 GitHub 上拥有超 5.4 万 Stars；该项目源自 InternLM 预训练过程，专注于解决科学文献中的符号转换问题。

3) 风险与不足

产品成熟度差距：官方明确指出，与知名商业产品相比 MinerU 仍然年轻，解析结果可能存在不符合预期的情况（官方文档中列有“已知问题”清单）。
依赖项安全风险（已修复）：历史版本中存在第三方依赖项安全漏洞，官方在 2.7.1 版本中通过更新 pdfminer.six 依赖版本修复了 CVE-2025-64512 漏洞。

Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.