57 lines
2.3 KiB
Markdown
57 lines
2.3 KiB
Markdown
---
|
||
title: "Agent Observability(Agent 可观测性)"
|
||
created: 2026-05-30
|
||
updated: 2026-05-30
|
||
type: concept
|
||
tags: [agent, observability, monitoring, tracing, production]
|
||
sources: [[agent-harness-engineering-survey]]
|
||
confidence: high
|
||
---
|
||
|
||
# Agent Observability
|
||
|
||
> ETCLOVG 的 O 层:对 Agent 行为进行监控、调试和生产级可靠性管理的独立架构层。
|
||
|
||
## 核心定义
|
||
|
||
Agent 可观测性是 ETCLOVG 七层分类法中的第五层(O),从 Lifecycle Hooks 中独立出来作为第一等架构问题。它涵盖 Agent 系统的**结构化追踪、成本归因、可靠性工程和统一观测**四个方面。
|
||
|
||
## 为什么 O 层需要独立
|
||
|
||
论文将 Observability 从 Lifecycle 的附属品提升为独立层,理由是:
|
||
- O 层拥有**专属平台生态**:Langfuse、Arize Phoenix、OpenLLMetry 等
|
||
- 在生产线部署中由**不同团队**负责(SRE vs Agent 开发)
|
||
- O 层的工程实践与编排逻辑有本质区别
|
||
|
||
## 四大子系统
|
||
|
||
### 1. 追踪与监控
|
||
- **Langfuse / Opik / Arize Phoenix / MLflow**:交互式 trace tree,延迟火焰图,token 分解
|
||
- **OpenTelemetry (OTel)**:成为 Agent 观测的事实标准
|
||
- **语义约定**:定义 span 属性(模型名、温度、token 数、延迟)
|
||
|
||
### 2. Agent 专用运维平台
|
||
- AgentOps、RagaAI Catalyst、Laminar、Watson、AgentLens
|
||
- 提供 Agent 特有的调试和回溯功能
|
||
|
||
### 3. 成本追踪与优化
|
||
- TensorZero、Helicone:成本归因和网关
|
||
- FrugalGPT、GPTCache:成本节省策略
|
||
- Dual-Pool Routing:模型路由优化
|
||
|
||
### 4. 可靠性工程
|
||
- Anthropic 的 Effective Harnesses 和 Harness Design
|
||
- AgentErrorTaxonomy:错误分类
|
||
- SentinelAgent / AgentFixer:故障检测和修复
|
||
- 核心命题:"基础设施噪声"可度量地改变 benchmark 分数
|
||
|
||
## 相关概念
|
||
- [[etclovg-taxonomy]] — 七层分类体系
|
||
- [[lifecycle-orchestration]] — 编排层(O 层从中独立)
|
||
- [[open-telemetry|OpenTelemetry (OTel)]] — 事实标准
|
||
- [[logfire|Logfire]] — Pydantic 生态的 OTel 可观测平台,4 行代码接入,SQL 查询 trace
|
||
- [[drift-detection|漂移检测]] — 在"第 47 次报错"前看到"第 32 次开始不对劲"
|
||
- [[agent-harness-engineering]] — 总体框架
|
||
- [[cost-quality-speed-trilemma]] — 成本维度
|
||
- [[pydantic-three-piece-suite|Pydantic 三件套]] — 从校验到可观测到 Agent 类型安全
|