This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,52 @@
---
title: "Agent ObservabilityAgent 可观测性)"
created: 2026-05-30
updated: 2026-05-30
type: concept
tags: [agent, observability, monitoring, tracing, production]
sources: [[agent-harness-engineering-survey]]
confidence: high
---
# Agent Observability
> ETCLOVG 的 O 层:对 Agent 行为进行监控、调试和生产级可靠性管理的独立架构层。
## 核心定义
Agent 可观测性是 ETCLOVG 七层分类法中的第五层O从 Lifecycle Hooks 中独立出来作为第一等架构问题。它涵盖 Agent 系统的**结构化追踪、成本归因、可靠性工程和统一观测**四个方面。
## 为什么 O 层需要独立
论文将 Observability 从 Lifecycle 的附属品提升为独立层,理由是:
- O 层拥有**专属平台生态**Langfuse、Arize Phoenix、OpenLLMetry 等
- 在生产线部署中由**不同团队**负责SRE vs Agent 开发)
- O 层的工程实践与编排逻辑有本质区别
## 四大子系统
### 1. 追踪与监控
- **Langfuse / Opik / Arize Phoenix / MLflow**:交互式 trace tree延迟火焰图token 分解
- **OpenTelemetry (OTel)**:成为 Agent 观测的事实标准
- **语义约定**:定义 span 属性模型名、温度、token 数、延迟)
### 2. Agent 专用运维平台
- AgentOps、RagaAI Catalyst、Laminar、Watson、AgentLens
- 提供 Agent 特有的调试和回溯功能
### 3. 成本追踪与优化
- TensorZero、Helicone成本归因和网关
- FrugalGPT、GPTCache成本节省策略
- Dual-Pool Routing模型路由优化
### 4. 可靠性工程
- Anthropic 的 Effective Harnesses 和 Harness Design
- AgentErrorTaxonomy错误分类
- SentinelAgent / AgentFixer故障检测和修复
- 核心命题:"基础设施噪声"可度量地改变 benchmark 分数
## 相关概念
- [[etclovg-taxonomy]] — 七层分类体系
- [[lifecycle-orchestration]] — 编排层O 层从中独立)
- [[agent-harness-engineering]] — 总体框架
- [[cost-quality-speed-trilemma]] — 成本维度