论智能体框架与智能体可观测性

摘要

1) 一句话总结 本文阐述了智能体框架随大模型能力提升而经历的三代演进，并强调了独立于特定框架的智能体可观测性工具（如 LangSmith）在测试、调试和生产落地中的核心作用。

2) 关键要点

框架的持续价值： 智能体框架依然重要，其核心价值在于编码最佳实践、减少样板代码、统一团队标准并加速生产落地，前提是其演进速度需匹配模型的发展。
三代模式演进： 智能体构建模式经历了从“链式调用”、到“工作流编排”、再到结合文件系统和记忆的“循环工具调用”三个阶段。
LangChain（链式调用）： 2023年推出，作为连接基础模型与数据的快捷方式，已于2025年被重写以变得更加精简。
LangGraph（编排与运行时）： 提供更底层、灵活的运行时，支持持久化和状态管理，是实现“人机协作”和“多智能体协作”的关键基础。
DeepAgents（智能体脚手架）： 最新推出的开箱即用、模型无关的智能体脚手架，支持长周期任务规划、循环工具调用及子智能体编排。
LangSmith 的独立性： LangSmith 被设计为独立于 LangChain 开源生态的可观测性平台，支持任何框架或完全不使用框架构建的智能体。
广泛的生态兼容： LangSmith 支持基于 OpenTelemetry (OTEL) 的追踪，并开箱即用地集成了 AutoGen、CrewAI、OpenAI Agents、Vercel AI SDK 等多种第三方框架。
追踪（Traces）的核心地位： 智能体的应用逻辑记录在追踪数据而非代码中，追踪是理解智能体行为、调试和评估的基础。

3) 风险与不足

生产环境质量壁垒： “质量”是将智能体推向生产环境时面临的最大障碍。
系统非确定性风险： 智能体属于非确定性系统，在发布前无法完全预知其会遇到何种输入或产生何种输出。
标准缺失与迭代风险： AI 领域发展极快，难以形成固定的标准；如果框架演进速度不够快，其早期版本会迅速面目全非。
过度工程风险： 对于简单的单一 LLM 请求，引入智能体框架可能会显得过于笨重。

正文

每次大语言模型（LLM）取得进步时，总会伴随着同一个问题：“我们还需要智能体（Agent）框架吗？”这是一个很合理的问题。随着模型性能的提升和演进，构建智能体的最佳方式也在发生变化。但从根本上说，智能体是围绕模型构建的系统，因此它们不会消失——它们只是同样需要演进。

我们目前已经构建了三代智能体框架，每一代都与上一代截然不同。基于这些经验，我们坚信以下两点：

智能体框架依然有用，前提是它们的演进速度必须与模型一样快。
智能体可观测性应该适用于任何构建方式。这就是为什么即使你不使用我们的开源框架（LangChain 或 LangGraph），LangSmith 依然能够发挥作用。

本文将深入探讨这两个核心观点。

为什么智能体框架在2026年依然重要

智能体的模式已经从“链式调用（Chaining）”发展到“工作流编排（Workflow orchestration）”，再到结合文件系统和记忆的“循环工具调用（Tool-calling-in-a-loop）”。我们为所有这些模式都构建了相应的框架，并认为它们在不同的用例中都有其用武之地。以下是它们的演进历程：

链式调用（Chaining）

最初的 LangChain 在 2023 年大受欢迎，因为当时很少有人知道如何将 LLM 投入实际应用。该框架提供了一套集成和核心抽象，是将基础模型连接到你的数据或 API 的最简单方法之一。可以说，它在初期带有较强的“主观倾向性（opinionated）”——它更像是一个用于学习提示词工程（Prompting）和 RAG 的“快捷按钮”，而不是一个生产级工具。到了当年夏天，随着第一波生成式 AI 热潮开始平息，关于“智能体框架毫无意义”的批评声越来越大。

我们听到了这些批评，但这与我们在实际使用中观察到的情况很难吻合。绝大多数构建 LLM 应用的团队需要一种方法来加快开发速度，而不是完全从零开始单打独斗。优秀的框架能够做到：

将最佳实践编码到框架本身中
减少样板代码
更容易达到更高的质量水平
在大型团队中建立标准并提高代码可读性
铺平通往生产环境的道路

因此，我们加倍投入，但转向了一个不同的框架。

编排与运行时（Orchestration and run-time）

LangGraph 更加底层且更具灵活性。它包含一个支持持久化和状态管理的运行时（runtime），事实证明，这对于“人机协作”和“多智能体协作”至关重要。它解决了人们对 LangChain 提出的许多关于控制力的担忧。最终，我们在 2025 年重写了最初的 LangChain，使其更加精简，但我们也认识到：不同的问题需要不同的工具。

智能体脚手架（Harness）

最近，我们构建了 DeepAgents：一个“开箱即用”的智能体脚手架，它性能更强、更灵活。它支持长周期任务的规划、循环工具调用、将上下文卸载到文件系统以及子智能体编排。这种智能体脚手架在当下之所以可行，是因为 LLM 的推理能力正在变得越来越好，你可以将更多的决策权交给 LLM，而不是硬编码大量的编排模式。在概念上，它最接近 Claude Agent SDK，但它是模型无关的。据我们所知，这是唯一一个不绑定任何特定 LLM 或应用技术栈的智能体脚手架。

今天，我们建议针对不同的用例使用这些不同的框架。LangChain 和 DeepAgents 都是构建在 LangGraph 的运行时之上的，以支持长时间运行的执行任务。

听起来可能有些夸张，但我们在三年内见证了三代智能体的演进：从最初的 RAG 变成了智能体工作流，随后又演变成更加自主的循环工具调用智能体。

对框架最大的批评在于，AI 领域发展太快，难以形成标准。这确实有一定道理。但我们也认为，在 AI 浪潮中袖手旁观、等待尘埃落定是一种注定失败的策略。框架能帮助你迅速投入、加快构建速度并提高成功的几率。即使知道工具会不断变化，这一点依然成立。当然，你也不需要为所有事情都使用框架。如果只是一个简单的 LLM 请求，引入框架可能就显得过于笨重了。

为什么 LangSmith 独立于 LangChain 开源生态

在早期，我们就认识到“质量”是将智能体推向生产环境的最大障碍。我们过去和现在都坚信，专门为智能体构建的可观测性和评估工具是工具箱中必不可少的一部分。

我们将其命名为 LangSmith，因为我们有一种直觉：未来不会只有一种智能体框架。即使出现了一个占据主导地位的框架，它的演进速度也会让其早期版本变得面目全非。我们承认并非所有人都会使用我们的框架，但我们希望他们依然能够使用这个平台。

因此，我们构建的 LangSmith 无论你是否使用 LangChain、我们的其他框架，甚至不使用任何框架，都能正常工作。在当时，这并不是一个显而易见的决定。我们从 Vercel 等公司汲取了灵感，Vercel 除了支持自家的 Next.js 之外，也支持许多其他的前端框架。

今天，LangSmith 开箱即用地集成了众多框架——包括 AutoGen、Claude Agent SDK、CrewAI、Mastra、OpenAI Agents、PydanticAI、Vercel AI SDK 等等。它支持基于 OpenTelemetry 的追踪，因此任何符合 OTEL 规范的数据都可以被 LangSmith 接收。同时，它也完全适用于不使用任何框架构建的智能体。许多 LangSmith 的客户（包括 Clay、Harvey 和 Vanta）并没有使用我们的开源框架，但依然依赖 LangSmith 来进行可观测性和评估。

智能体工程中构建与测试的融合

无论你使用哪种智能体框架，追踪（Traces）对于理解智能体行为都至关重要。我们一直在强调智能体追踪的重要性，因为它是智能体调试、监控、评估等工作的基础。对于智能体而言，你的应用逻辑记录在追踪数据中，而不是代码中。

构建智能体仅仅是第一步。智能体是非确定性系统，在发布之前，你根本不知道会遇到什么样的输入或产生什么样的输出。这就是为什么调试、测试和监控是智能体工程以及整个构建过程中至关重要的组成部分。

因此，如果你没有使用我们的开源框架，我们很想听听原因！但是，不要让这成为你使用 LangSmith 来找出智能体失败原因的阻碍。

wsl-docs

探索

论智能体框架与智能体可观测性

摘要

正文

为什么智能体框架在2026年依然重要

链式调用（Chaining）

编排与运行时（Orchestration and run-time）

智能体脚手架（Harness）

为什么 LangSmith 独立于 LangChain 开源生态

智能体工程中构建与测试的融合

相关文档

关联主题

关系图谱

目录

反向链接