LangExtract：Python 库非结构化文本结构化提取

摘要

1) 一句话总结 LangExtract 是谷歌开源的一个 Python 库，旨在利用大语言模型（LLM）从非结构化文本中提取结构化信息，并提供精确的源文本溯源与交互式可视化功能。

2) 关键要点

核心功能：基于用户定义的指令和少样本（few-shot）示例，从临床笔记、报告等非结构化文本中提取并组织关键细节，无需微调模型。
精确溯源与可视化：将提取的数据精确映射到源文本的具体位置，并支持一键生成独立的交互式 HTML 文件，以便在原始上下文中高亮和审查提取的实体。
长文档优化：采用文本分块（chunking）、并行处理和多轮处理策略，以提高召回率，解决长文档提取中的“大海捞针”难题。
多模型支持：支持云端 LLM（如 Google Gemini 家族、OpenAI 模型）以及通过 Ollama 接口调用的本地开源模型。
推荐配置：默认推荐使用 gemini-2.5-flash 以平衡速度、成本和质量；对于需要深度推理的复杂任务，推荐使用 gemini-2.5-pro。
项目数据：采用 Apache License 2.0 协议，社区热度极高（超 3.3 万 Stars，2200+ Forks），最新版本为 v1.1.1。

3) 风险/不足（源文档明确提及）

提示词对齐警告（Prompt alignment warnings）：示例中的提取文本应尽量逐字来自源文本（避免改写），否则系统默认会抛出对齐警告，影响最终提取效果。
API 速率限制风险：在大规模或生产环境中使用云端模型时，可能会遇到速率限制，官方建议申请 Tier 2 Gemini 配额以提高吞吐量。
模型生命周期限制：Gemini 等云端模型具有明确的退役日期，用户必须持续关注官方文档以跟进最新的稳定版或遗留版本。
准确性依赖：提取信息的准确性及对任务规范的遵循程度，受限于所选 LLM 的能力、任务复杂度、提示指令的清晰度以及示例的质量。

A Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.