定义
Observability(可观测性)指通过日志、指标、链路追踪与事件上下文,理解系统内部状态并快速定位问题的能力。
核心内涵
可观测性超越了传统的被动监控,强调系统在设计之初就具备暴露内部运行逻辑的机制。它不仅关注系统“是否发生故障”,更致力于解答“为什么发生故障”以及“故障的根本原因是什么”。在复杂分布式架构中,高可观测性是保障系统透明度、可靠性与持续优化的核心基石。
实践要点
- 对 AI/Agent 系统,观测对象不仅包括服务状态,还包括提示词、工具调用和评测结果。
- 建立统一的遥测数据标准,确保跨服务、跨组件的链路追踪能够无缝衔接。
- 避免过度采集无用数据,应聚焦于高价值的业务指标与关键路径的上下文信息。
- 以服务级目标(如 SLI/SLO)连接指标与告警,形成“发现异常-定位根因-复盘改进”的闭环。
- 可观测性与告警、回归测试和故障复盘共同构成生产稳定性的基础。