DeepSeek-OCR：基于 MIT 协议开源的视觉-文本压缩与光学字符识别模型，旨在从以大语言模型（LLM）为中心的视角探索视觉编码器的作用与边界

摘要

1) 一句话总结 DeepSeek-OCR 是一个基于 MIT 协议开源的视觉-文本压缩与光学字符识别模型，旨在从以大语言模型（LLM）为中心的视角探索视觉编码器的作用与边界。

2) 关键要点

项目热度与协议：项目主要使用 Python 开发，采用 MIT 开源协议，已获得超过 2.2 万 Stars 和 2000+ Forks。
推理框架支持：全面支持 vLLM 和 Transformers 推理，且已在 vLLM 上游获得官方支持。
vLLM 推理性能：支持图像流式输出和基准测试批量评估，在 A100-40G 显卡上处理 PDF 的并发速度可达约 2500 tokens/s。
原生分辨率模式：支持四种固定分辨率输入，包括 Tiny（512×512，64个视觉token）、Small（640×640，100个）、Base（1024×1024，256个）和 Large（1280×1280，400个）。
动态分辨率模式：支持 Gundam 动态分辨率模式（n×640×640 + 1×1024×1024）。
环境与依赖：推荐运行环境为 CUDA 11.8+、PyTorch 2.6.0 和 Python 3.12.9，Transformers 推理需依赖 Flash Attention 2 和 bfloat16 精度。
多场景 Prompt 模板：内置多种提示词模板，支持文档转 Markdown、无排版纯文本 OCR、图表解析、图像详细描述及目标定位（Grounding）等任务。
后续演进：官方已于 2026 年 1 月 27 日推出了下一代模型 DeepSeek-OCR2。

Contexts Optical Compression