摘要
一句话总结
dots.ocr 是由小红书开源的 3B 参数视觉语言模型,专注于多语言文档布局解析、OCR 提取及视觉元素结构化(如 SVG 生成),在同等规模模型中达到了当前最优(SOTA)性能。
核心要点
- 开源与背景:由小红书(rednote-hilab)开发,采用 MIT 开源协议,主要基于 Python。
- 核心能力:支持复杂文档数字化(多列、表格、公式)、网页界面解析、自然场景文本识别以及通用视觉问答。
- 结构化图形转换:最新版本支持将图表、化学公式、Logo 等密集视觉元素直接解析并生成结构化的 SVG 代码。
- 小参数高性能:仅 3B 参数规模,在 olmOCR-Bench 等基准测试中超越同级别专业 OCR 模型(如 GLM-OCR、MinerU),部分指标媲美闭源大模型(如 Gemini 3 Pro)。
- 多版本矩阵:提供基础版(base)、标准版、全能版(1.5)以及专门针对图像解析强化的版本(1.5-svg)。
- 部署方案:强烈推荐使用 vLLM 进行部署(自 v0.11.0 版本起已官方集成),同时支持 HuggingFace 原生接口推理。
- 环境与获取:支持 Conda/pip 源码安装,提供官方 Docker 镜像,模型权重可通过 HuggingFace 或 ModelScope 下载。
风险与不足
- 路径命名限制:下载模型权重时,保存路径的文件夹名称不能包含句号(例如需使用
DotsOCR_1_5而非dots.ocr-1.5),这是目前的临时变通方案。 - vLLM 版本性能差异:使用 vLLM 0.11.0 版本时存在轻微的性能下降问题(官方正在修复,其基准评估基于 vLLM 0.9.1)。
- 模型容量限制:受限于 3B 参数规模,
dots.ocr-1.5在复杂 SVG 生成任务上可能不够完美,强图像解析需求需切换至专用的dots.ocr-1.5-svg模型。
功能与定位
dots.ocr 是一个专注于多语言文档布局解析和 OCR 任务的视觉语言模型(VLM)。该项目旨在实现通用无障碍访问,具备识别几乎所有人类文字和符号的能力。在同等规模(3B 参数)的模型中,其多语言文档解析性能达到了当前最优(SOTA)水平。
典型使用场景
- 复杂文档数字化:解析包含多列排版、表格、页眉页脚、微小文本及数学公式的扫描件或 PDF 文档。
- 结构化图形转换:将图表、化学公式、Logo 等视觉元素直接转换为可编辑的 SVG 代码。
- 屏幕与场景分析:解析网页界面(Web parsing)以及识别自然场景中的文本(Scene spotting)。
- 通用视觉问答:基于图像内容进行推理、计数和问答。
核心功能
- 多语言文档解析:支持极高精度的文档内容提取,在 olmOCR-Bench、OmniDocBench 等主流基准测试中表现优异。
- 视觉语言解析(SVG 生成):最新版本能够将密集的视觉知识(如图表、图形)直接解析并输出为结构化的 SVG 代码。
- 通用视觉任务支持:除了标准文档,模型能力已扩展至全面的图像解析和通用视觉问答任务。
- 多版本模型矩阵:提供基础版(
dots.ocr.base)、标准版(dots.ocr)、全能版(dots.ocr-1.5)以及专门针对图像解析强化的版本(dots.ocr-1.5-svg)。
特色与差异点
- 单一模型多任务:在一个视觉语言模型中统一了文档解析、网页解析、场景文本识别和代码生成能力。
- 小参数高性能:以 3B 的参数规模,在多项评测中超越了同级别的专业 OCR 模型(如 PaddleOCR-VL、GLM-OCR、MinerU),部分指标甚至可媲美或超越闭源大模型(如 Gemini 3 Pro)。
使用方式概览
- 环境安装:支持通过 Conda/pip 源码安装,官方也提供了 Docker 镜像以简化环境配置。
- 模型下载:可通过官方提供的脚本从 HuggingFace 或 ModelScope 下载模型权重。
- 部署与推理:
- 强烈推荐使用 vLLM 进行部署(自 v0.11.0 版本起,Dots OCR 已被官方集成到 vLLM 中)。
- 支持通过 HuggingFace 原生接口进行推理。
- 官方提供了多种 Prompt 模式(如文档解析、网页解析、场景识别、SVG 生成等)的演示脚本,以帮助获取最佳输出质量。
限制与注意事项
- 路径命名限制:下载模型权重时,保存路径的文件夹名称不能包含句号(例如需使用
DotsOCR_1_5而非dots.ocr-1.5),这是在与 Transformers 完全集成前的一个临时变通方案。 - vLLM 版本性能差异:官方指出在使用 vLLM 0.11.0 版本时存在轻微的性能下降问题,目前正在修复中(其基准评估结果基于 vLLM 0.9.1)。
- 模型容量限制:受限于 3B 参数规模,
dots.ocr-1.5在某些复杂的 SVG 生成任务上可能还不够完美。对于强图像解析需求,建议使用专门强化的dots.ocr-1.5-svg模型。