dots.ocr：多语言文档布局与视觉语言解析模型

摘要

dots.ocr 是由小红书开源的 3B 参数视觉语言模型，专注于多语言文档布局解析、OCR 提取及视觉元素结构化（如 SVG 生成），在同等规模模型中达到了当前最优（SOTA）性能。

开源与背景：由小红书（rednote-hilab）开发，采用 MIT 开源协议，主要基于 Python。
核心能力：支持复杂文档数字化（多列、表格、公式）、网页界面解析、自然场景文本识别以及通用视觉问答。
结构化图形转换：最新版本支持将图表、化学公式、Logo 等密集视觉元素直接解析并生成结构化的 SVG 代码。
小参数高性能：仅 3B 参数规模，在 olmOCR-Bench 等基准测试中超越同级别专业 OCR 模型（如 GLM-OCR、MinerU），部分指标媲美闭源大模型（如 Gemini 3 Pro）。
多版本矩阵：提供基础版（base）、标准版、全能版（1.5）以及专门针对图像解析强化的版本（1.5-svg）。
部署方案：强烈推荐使用 vLLM 进行部署（自 v0.11.0 版本起已官方集成），同时支持 HuggingFace 原生接口推理。
环境与获取：支持 Conda/pip 源码安装，提供官方 Docker 镜像，模型权重可通过 HuggingFace 或 ModelScope 下载。

路径命名限制：下载模型权重时，保存路径的文件夹名称不能包含句号（例如需使用 DotsOCR_1_5 而非 dots.ocr-1.5），这是目前的临时变通方案。
vLLM 版本性能差异：使用 vLLM 0.11.0 版本时存在轻微的性能下降问题（官方正在修复，其基准评估基于 vLLM 0.9.1）。
模型容量限制：受限于 3B 参数规模，dots.ocr-1.5 在复杂 SVG 生成任务上可能不够完美，强图像解析需求需切换至专用的 dots.ocr-1.5-svg 模型。

dots.ocr 是一个专注于多语言文档布局解析和 OCR 任务的视觉语言模型（VLM）。该项目旨在实现通用无障碍访问，具备识别几乎所有人类文字和符号的能力。在同等规模（3B 参数）的模型中，其多语言文档解析性能达到了当前最优（SOTA）水平。

多语言文档解析：支持极高精度的文档内容提取，在 olmOCR-Bench、OmniDocBench 等主流基准测试中表现优异。
视觉语言解析（SVG 生成）：最新版本能够将密集的视觉知识（如图表、图形）直接解析并输出为结构化的 SVG 代码。
通用视觉任务支持：除了标准文档，模型能力已扩展至全面的图像解析和通用视觉问答任务。
多版本模型矩阵：提供基础版（dots.ocr.base）、标准版（dots.ocr）、全能版（dots.ocr-1.5）以及专门针对图像解析强化的版本（dots.ocr-1.5-svg）。

单一模型多任务：在一个视觉语言模型中统一了文档解析、网页解析、场景文本识别和代码生成能力。
小参数高性能：以 3B 的参数规模，在多项评测中超越了同级别的专业 OCR 模型（如 PaddleOCR-VL、GLM-OCR、MinerU），部分指标甚至可媲美或超越闭源大模型（如 Gemini 3 Pro）。

环境安装：支持通过 Conda/pip 源码安装，官方也提供了 Docker 镜像以简化环境配置。
模型下载：可通过官方提供的脚本从 HuggingFace 或 ModelScope 下载模型权重。
部署与推理：
- 强烈推荐使用 vLLM 进行部署（自 v0.11.0 版本起，Dots OCR 已被官方集成到 vLLM 中）。
- 支持通过 HuggingFace 原生接口进行推理。
- 官方提供了多种 Prompt 模式（如文档解析、网页解析、场景识别、SVG 生成等）的演示脚本，以帮助获取最佳输出质量。

路径命名限制：下载模型权重时，保存路径的文件夹名称不能包含句号（例如需使用 DotsOCR_1_5 而非 dots.ocr-1.5），这是在与 Transformers 完全集成前的一个临时变通方案。
vLLM 版本性能差异：官方指出在使用 vLLM 0.11.0 版本时存在轻微的性能下降问题，目前正在修复中（其基准评估结果基于 vLLM 0.9.1）。
模型容量限制：受限于 3B 参数规模，dots.ocr-1.5 在某些复杂的 SVG 生成任务上可能还不够完美。对于强图像解析需求，建议使用专门强化的 dots.ocr-1.5-svg 模型。