摘要
一句话总结 NVIDIA Nemotron 开源模型和 GPU 加速库通过结合 AI 智能体与检索增强生成(RAG)技术,帮助企业将包含复杂排版和多模态内容的文档转化为实时的商业智能。
关键要点
- 业务痛点:传统的手动审查和基础 OCR 工具难以从海量且格式复杂的文档(如 PDF、电子表格、图表)中高效、准确地提取有价值的洞察。
- 技术方案:智能文档处理(IDP)利用 AI 智能体和 RAG 技术,能够自动解析文档中的表格、图表、图像和多语言文本,并提供精确的答案来源引用以确保可审计性。
- 核心组件:NVIDIA 文档智能管道包含四大核心功能:提取(多模态内容转结构化数据)、嵌入(向量化表示)、重排(评估候选段落以减少大模型幻觉)和解析(精准定位和阅读流提取)。
- 基准成绩:Nemotron 模型在 MTEB、MMTEB 和 ViDoRe V3 等多语言和多模态检索基准测试排行榜上均取得优异成绩。
- 应用案例(金融):Justt.ai 利用 Nemotron Parse 自动处理拒付争议生命周期,从非结构化数据中组装证据并优化响应,从而挽回商户收入损失。
- 应用案例(法务/商业):Docusign 正在评估使用 Nemotron Parse 从复杂合同中高保真地提取表格、文本和元数据,以推动合同搜索和 AI 驱动的协议管理工作流。
- 应用案例(科研):Edison Scientific 将 Nemotron Parse 集成到其 PaperQA 管道中,准确提取科学文献中的方程式和图表,加速文献回顾和假设生成。
- 部署与优化:这些功能以 NVIDIA NIM 微服务形式提供,支持在云端或本地数据中心安全部署;企业可通过 LLM 路由器混合使用前沿模型与开源模型,以平衡系统性能与计算成本。
正文
编者按:本文是 Nemotron Labs 博客系列的一部分,该系列探讨了最新的开源模型、数据集和训练技术如何帮助企业在 NVIDIA 平台上构建专业的 AI 系统和应用。本文将重点介绍如何使用开源技术栈在生产环境中创造价值——从透明的研究助手到可扩展的 AI 智能体。
当今企业面临着一个巨大挑战:如何从海量且种类繁多的文档(如报告、演示文稿、PDF、网页和电子表格)中挖掘有价值的洞察。
通常,团队需要通过手动审查文件、将数据复制到电子表格、构建仪表板以及使用基础的搜索或基于模板的光学字符识别(OCR)工具来拼凑信息。然而,这些传统方法往往会遗漏复杂媒体中的重要细节。
智能文档处理(Intelligent Document Processing)是一种由 AI 驱动的工作流,能够自动阅读、理解并从文档中提取洞察。它利用 AI 智能体和检索增强生成(RAG)等技术,解析文档中丰富的格式(包括表格、图表、图像和文本),将多模态内容转化为其他多智能体系统和人类可以轻松使用的商业智能。
借助 NVIDIA Nemotron 开源模型和 GPU 加速库,企业可以为科学研究、金融服务、法律工作流等领域构建由 AI 驱动的文档智能系统。这些开源模型、数据集和训练方法在 MTEB、MMTEB 和 ViDoRe V3(用于评估多语言和多模态检索模型的基准测试)等排行榜上均取得了优异的成绩。团队可以从中选择最适合搜索和问答等任务的模型。
文档处理如何简化商业智能
在高度复杂的环境中,能够从复杂排版中提取含义、扩展至庞大文件库并准确指出答案来源的文档智能系统极其有用。这些系统能够:
- 深入理解丰富的文档内容: 超越简单的文本抓取,从图表、表格、图形和多语言页面中捕获信息,像人类一样通过识别结构、关系和上下文来处理文档。
- 处理海量动态数据: 并行摄取和处理庞大的文档集合,并保持知识库的持续更新。
- 精准定位用户需求: 帮助 AI 智能体精确定位与查询最相关的段落或表格,从而做出准确无误的响应。
- 提供答案的证据支持: 通过提供特定页面或图表的引用来实现透明度和可审计性,这在受监管的行业中至关重要。
其结果是实现了从静态文档归档到动态知识系统的转变,直接赋能商业智能、客户体验和运营工作流。
文档智能的实际应用
基于 NVIDIA Nemotron RAG 模型、Nemotron Parse 和加速计算构建的智能文档处理系统,正在重塑各行各业从文档中获取洞察的方式。
Justt:AI 原生的拒付管理与争议优化 在金融服务领域,支付争议给商户带来了巨大的收入损失和运营复杂性,因为处理这些争议所需的证据通常存在于非结构化格式中。交易日志、客户沟通记录和政策文档往往分散在各个系统中,难以大规模处理,导致争议处理过程缓慢、依赖人工且成本高昂。
Justt.ai 提供了一个由 AI 驱动的平台,可大规模自动处理整个拒付(Chargeback)生命周期。该平台直接连接支付服务提供商和商户数据源,摄取交易数据、客户互动和政策,然后自动组装符合发卡行要求的特定争议证据。该平台的 AI 争议优化功能由 Nemotron Parse 提供支持,应用预测分析来决定哪些拒付需要抗辩或接受,并优化每次响应以实现最大净回收率。通过将以文档为中心的智能与决策自动化相结合,商户可以挽回大量因非法拒付而损失的收入,同时减少人工审查工作。
Docusign:扩展协议智能 Docusign 是智能协议管理领域的全球领导者,每天为超过 180 万客户和 10 亿用户处理数百万笔交易。
协议是商业的基础,但其中的关键信息往往被埋没在海量文档中。为了提取这些信息,Docusign 需要从 PDF 等复杂文档中高保真地提取表格、文本和元数据,以便企业能够更快地理解并应对义务、风险和机遇。
Docusign 正在评估使用 Nemotron Parse 来大规模深化对合同的理解。该模型在 NVIDIA GPU 上运行,结合了高级 AI、布局检测和 OCR 技术。系统能够可靠地解释并重建包含所需信息的复杂表格。这减少了人工纠错的需求,并确保即使是最复杂的合同也能以客户期望的速度和准确性得到处理。在此基础上,Docusign 将把协议库转化为结构化数据,从而推动合同搜索、分析和 AI 驱动的工作流。
Edison Scientific:海量文献规模的科学研究 Edison Scientific 的 Kosmos AI 科学家帮助研究人员在复杂的科学领域中进行导航,以综合文献、发现联系并提供证据。
Edison 需要一种能够快速、准确地从大量 PDF 中提取结构化信息(包括传统信息解析方法经常处理不当的方程式、表格和图形)的方法。通过将 NVIDIA Nemotron Parse 模型集成到其 PaperQA 管道中,Edison 能够分解研究论文、索引关键概念,并将回答建立在特定段落的基础上,从而提高了科学家的处理吞吐量和回答质量。这种方法将庞大的研究语料库变成了一个交互式、可查询的知识引擎,加速了假设的生成和文献回顾。
使用 NVIDIA 技术设计智能文档处理应用
构建强大、特定领域的文档智能管道需要能够处理数据提取、嵌入和重排的技术,同时保持数据的安全性和合规性。
- 提取 (Extraction): Nemotron 提取和 OCR 模型快速摄取多模态 PDF、文本、表格、图表和图像,将其转换为结构化的机器可读内容,同时保留布局和语义。
- 嵌入 (Embedding): Nemotron 嵌入模型将段落、实体和视觉元素转换为专为文档检索优化的向量表示,实现语义精准的搜索。
- 重排 (Reranking): Nemotron 重排模型评估候选段落,确保为大语言模型 (LLM) 提供最相关的内容作为上下文,提高答案保真度并减少幻觉。
- 解析 (Parsing): Nemotron Parse 模型破译文档语义,以精确的空间定位和正确的阅读流提取文本和表格。它们克服了布局的差异性,将非结构化文档转化为可操作的数据,从而提高 LLM 和智能体工作流的准确性。
这些功能被打包为 NVIDIA NIM 微服务和基础模型,在 NVIDIA GPU 上高效运行,允许团队从概念验证无缝扩展到生产环境,同时将敏感数据保留在他们选择的云或数据中心环境中。
最有效的 AI 系统通常混合使用前沿模型和像 NVIDIA Nemotron 这样的开源模型,通过 LLM 路由器分析每个任务并自动选择最合适的模型。这种方法在保持强大性能的同时,有效管理了计算成本并提高了效率。
开始使用 NVIDIA Nemotron
开发者可以访问相关教程,了解如何构建具有 RAG 功能的文档处理管道,并探索 Nemotron RAG 如何为不同行业量身定制专业智能体。
此外,您可以在 GitHub 和 Hugging Face 上体验 Nemotron RAG 模型和 NVIDIA NeMo Retriever 开源库,以及 Nemotron Parse 模型。欢迎加入使用 NVIDIA 企业级 RAG 蓝图(NVIDIA Blueprint for Enterprise RAG)的开发者社区,该蓝图已获得众多行业领先的 AI 数据平台提供商的信任,现已在 build.nvidia.com、GitHub 和 NGC 目录中提供。