摘要

一句话总结

dots.ocr 是由小红书开源的 3B 参数视觉语言模型,专注于多语言文档布局解析、OCR 提取及视觉元素结构化(如 SVG 生成),在同等规模模型中达到了当前最优(SOTA)性能。

核心要点

  • 开源与背景:由小红书(rednote-hilab)开发,采用 MIT 开源协议,主要基于 Python。
  • 核心能力:支持复杂文档数字化(多列、表格、公式)、网页界面解析、自然场景文本识别以及通用视觉问答。
  • 结构化图形转换:最新版本支持将图表、化学公式、Logo 等密集视觉元素直接解析并生成结构化的 SVG 代码。
  • 小参数高性能:仅 3B 参数规模,在 olmOCR-Bench 等基准测试中超越同级别专业 OCR 模型(如 GLM-OCR、MinerU),部分指标媲美闭源大模型(如 Gemini 3 Pro)。
  • 多版本矩阵:提供基础版(base)、标准版、全能版(1.5)以及专门针对图像解析强化的版本(1.5-svg)。
  • 部署方案:强烈推荐使用 vLLM 进行部署(自 v0.11.0 版本起已官方集成),同时支持 HuggingFace 原生接口推理。
  • 环境与获取:支持 Conda/pip 源码安装,提供官方 Docker 镜像,模型权重可通过 HuggingFace 或 ModelScope 下载。

风险与不足

  • 路径命名限制:下载模型权重时,保存路径的文件夹名称不能包含句号(例如需使用 DotsOCR_1_5 而非 dots.ocr-1.5),这是目前的临时变通方案。
  • vLLM 版本性能差异:使用 vLLM 0.11.0 版本时存在轻微的性能下降问题(官方正在修复,其基准评估基于 vLLM 0.9.1)。
  • 模型容量限制:受限于 3B 参数规模,dots.ocr-1.5 在复杂 SVG 生成任务上可能不够完美,强图像解析需求需切换至专用的 dots.ocr-1.5-svg 模型。

功能与定位

dots.ocr 是一个专注于多语言文档布局解析和 OCR 任务的视觉语言模型(VLM)。该项目旨在实现通用无障碍访问,具备识别几乎所有人类文字和符号的能力。在同等规模(3B 参数)的模型中,其多语言文档解析性能达到了当前最优(SOTA)水平。

典型使用场景

  • 复杂文档数字化:解析包含多列排版、表格、页眉页脚、微小文本及数学公式的扫描件或 PDF 文档。
  • 结构化图形转换:将图表、化学公式、Logo 等视觉元素直接转换为可编辑的 SVG 代码。
  • 屏幕与场景分析:解析网页界面(Web parsing)以及识别自然场景中的文本(Scene spotting)。
  • 通用视觉问答:基于图像内容进行推理、计数和问答。

核心功能

  • 多语言文档解析:支持极高精度的文档内容提取,在 olmOCR-Bench、OmniDocBench 等主流基准测试中表现优异。
  • 视觉语言解析(SVG 生成):最新版本能够将密集的视觉知识(如图表、图形)直接解析并输出为结构化的 SVG 代码。
  • 通用视觉任务支持:除了标准文档,模型能力已扩展至全面的图像解析和通用视觉问答任务。
  • 多版本模型矩阵:提供基础版(dots.ocr.base)、标准版(dots.ocr)、全能版(dots.ocr-1.5)以及专门针对图像解析强化的版本(dots.ocr-1.5-svg)。

特色与差异点

  • 单一模型多任务:在一个视觉语言模型中统一了文档解析、网页解析、场景文本识别和代码生成能力。
  • 小参数高性能:以 3B 的参数规模,在多项评测中超越了同级别的专业 OCR 模型(如 PaddleOCR-VL、GLM-OCR、MinerU),部分指标甚至可媲美或超越闭源大模型(如 Gemini 3 Pro)。

使用方式概览

  • 环境安装:支持通过 Conda/pip 源码安装,官方也提供了 Docker 镜像以简化环境配置。
  • 模型下载:可通过官方提供的脚本从 HuggingFace 或 ModelScope 下载模型权重。
  • 部署与推理
    • 强烈推荐使用 vLLM 进行部署(自 v0.11.0 版本起,Dots OCR 已被官方集成到 vLLM 中)。
    • 支持通过 HuggingFace 原生接口进行推理。
    • 官方提供了多种 Prompt 模式(如文档解析、网页解析、场景识别、SVG 生成等)的演示脚本,以帮助获取最佳输出质量。

限制与注意事项

  • 路径命名限制:下载模型权重时,保存路径的文件夹名称不能包含句号(例如需使用 DotsOCR_1_5 而非 dots.ocr-1.5),这是在与 Transformers 完全集成前的一个临时变通方案。
  • vLLM 版本性能差异:官方指出在使用 vLLM 0.11.0 版本时存在轻微的性能下降问题,目前正在修复中(其基准评估结果基于 vLLM 0.9.1)。
  • 模型容量限制:受限于 3B 参数规模,dots.ocr-1.5 在某些复杂的 SVG 生成任务上可能还不够完美。对于强图像解析需求,建议使用专门强化的 dots.ocr-1.5-svg 模型。

链接

关联主题