定义

ocr 指光学字符识别(Optical Character Recognition),用于把图片或扫描文档中的文字转为可检索文本。它常作为文档数字化与后续语义处理链路的前置环节。

核心内涵

  • 识别对象通常包括图片、扫描件与扫描版 PDF。
  • 常见输出包括纯文本、带位置信息的文本块,或带隐藏文本层的可检索 PDF。
  • 在 AI 工作流中,ocr 常作为上游步骤,把非结构化视觉内容转成可用于检索、分析与生成的文本输入。

相关词条

关联主题