myWiki/concepts/agent-observability.md

---
title: "Agent Observability（Agent 可观测性）"
created: 2026-05-30
updated: 2026-05-30
type: concept
tags: [agent, observability, monitoring, tracing, production]
sources: [[agent-harness-engineering-survey]]
confidence: high
---

# Agent Observability

> ETCLOVG 的 O 层：对 Agent 行为进行监控、调试和生产级可靠性管理的独立架构层。

## 核心定义

Agent 可观测性是 ETCLOVG 七层分类法中的第五层（O），从 Lifecycle Hooks 中独立出来作为第一等架构问题。它涵盖 Agent 系统的**结构化追踪、成本归因、可靠性工程和统一观测**四个方面。

## 为什么 O 层需要独立

论文将 Observability 从 Lifecycle 的附属品提升为独立层，理由是：
- O 层拥有**专属平台生态**：Langfuse、Arize Phoenix、OpenLLMetry 等
- 在生产线部署中由**不同团队**负责（SRE vs Agent 开发）
- O 层的工程实践与编排逻辑有本质区别

## 四大子系统

### 1. 追踪与监控
- **Langfuse / Opik / Arize Phoenix / MLflow**：交互式 trace tree，延迟火焰图，token 分解
- **OpenTelemetry (OTel)**：成为 Agent 观测的事实标准
- **语义约定**：定义 span 属性（模型名、温度、token 数、延迟）

### 2. Agent 专用运维平台
- AgentOps、RagaAI Catalyst、Laminar、Watson、AgentLens
- 提供 Agent 特有的调试和回溯功能

### 3. 成本追踪与优化
- TensorZero、Helicone：成本归因和网关
- FrugalGPT、GPTCache：成本节省策略
- Dual-Pool Routing：模型路由优化

### 4. 可靠性工程
- Anthropic 的 Effective Harnesses 和 Harness Design
- AgentErrorTaxonomy：错误分类
- SentinelAgent / AgentFixer：故障检测和修复
- 核心命题："基础设施噪声"可度量地改变 benchmark 分数

## 相关概念
- [[etclovg-taxonomy]] — 七层分类体系
- [[lifecycle-orchestration]] — 编排层（O 层从中独立）
- [[open-telemetry|OpenTelemetry (OTel)]] — 事实标准
- [[logfire|Logfire]] — Pydantic 生态的 OTel 可观测平台，4 行代码接入，SQL 查询 trace
- [[drift-detection|漂移检测]] — 在"第 47 次报错"前看到"第 32 次开始不对劲"
- [[agent-harness-engineering]] — 总体框架
- [[cost-quality-speed-trilemma]] — 成本维度
- [[pydantic-three-piece-suite|Pydantic 三件套]] — 从校验到可观测到 Agent 类型安全