wsl-docs

❯

❯

ocr

2026年3月11日1分钟阅读

定义

ocr 指光学字符识别（Optical Character Recognition），用于把图片或扫描文档中的文字转为可检索文本。它常作为文档数字化与后续语义处理链路的前置环节。

核心内涵

识别对象通常包括图片、扫描件与扫描版 PDF。
常见输出包括纯文本、带位置信息的文本块，或带隐藏文本层的可检索 PDF。
在 AI 工作流中，ocr 常作为上游步骤，把非结构化视觉内容转成可用于检索、分析与生成的文本输入。

相关词条

multimodal
markdown
data-pipeline
llm

关联主题

AI
multimodal
data-pipeline
llm
markdown

关系图谱

定义
核心内涵
相关词条
关联主题

反向链接

multimodal
关系图谱
Claude Multimodal Cookbook 实战手册
尝试向 Google Photos 提问的 9 个有趣问题
Nemotron Labs：AI 智能体如何将文档转化为实时的商业智能
云知声 Unisound U1-OCR 发布：迈向 OCR 3.0 的工业级文档模型
太初元碁完成40+大模型即发即适配，加速国产算力高效落地
太初元碁完成40+大模型适配：软硬协同破局国产算力生态
学术插图新神器：西湖大学推出万字材料秒出SVG的AutoFigure
ChatGPT Agent System Prompt
Manus 的护城河在哪里？
OpenAI Operator System Prompt
OpenAI Operator 系统提示词中文翻译
What You Need Is Not an AI Agent, But an AI-Friendly Workflow
一些“小模型”的使用案例
你需要的不是智能体，而是一个适合 AI 的工作流
大语言模型高考数学拿高分靠强化学习，那文科考高分得靠什么？
我是如何高效翻译 65 页 Google 官方提示工程白皮书 PDF 文件的
翻译 GPT 的提示词更新和优化
微软开源！80.6K星工具 MarkItDown，一键转换20+文件格式
paperless-ngx：基于 Python 的开源文档管理系统，旨在将实体纸质文档扫描、索引并归档为可搜索的在线存储库
zerox：视觉模型驱动的文档 OCR 与抽取工具
DeepSeek-OCR：基于 MIT 协议开源的视觉-文本压缩与光学字符识别模型，旨在从以大语言模型（LLM）为中心的视角探索视觉编码器的作用与边界
Docling：开源文档解析工具与结构化转换
MinerU：文档解析与结构化提取工具
MonkeyOCR：轻量文档解析多模态模型
OmniParser：通用界面解析与元素识别模型
PaddleOCR：开源 OCR 与文档解析工具库
docling：Get your documents ready for gen AI
olmocr：AllenAI 开源 OCR 模型项目
tesseract：Tesseract Open Source OCR Engine (main repository)
llama_index：LlamaIndex is the leading document agent and OCR platform
ninehills/blog 技术 issue 提及文档索引
LunaTranslator：视觉小说翻译器 - Visual Novel Transla 开发工具
MaaAssistantArknights：明日方舟自动化任务工具
MarkItDown：多格式内容转 Markdown 的 Python 工具
OCRmyPDF：PDF OCR 与可检索化工具
PDF Craft：PDF 结构化解析与阅读工具
Stirling-PDF：自托管 PDF 工具箱
Umi-OCR：基于 Python 开发的开源、免费且完全离线的文字识别（OCR）工具，支持截图、批量图片、PDF文档及二维码识别
doompdf：在 PDF 中运行 Doom 的实验项目
ebook2audiobook：基于 Python 的开源工具，支持 1158 种语言和声音克隆
marker：Convert PDF to markdown + JSON quickly with high accuracy
pot-desktop：划词翻译与 OCR 桌面工具
思源笔记：本地优先的知识管理系统

Created with Quartz v4.5.2 © 2026

GitHub