Files
myWiki/concepts/agent-observability.md
2026-06-01 10:46:01 +08:00

53 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent ObservabilityAgent 可观测性)"
created: 2026-05-30
updated: 2026-05-30
type: concept
tags: [agent, observability, monitoring, tracing, production]
sources: [[agent-harness-engineering-survey]]
confidence: high
---
# Agent Observability
> ETCLOVG 的 O 层:对 Agent 行为进行监控、调试和生产级可靠性管理的独立架构层。
## 核心定义
Agent 可观测性是 ETCLOVG 七层分类法中的第五层O从 Lifecycle Hooks 中独立出来作为第一等架构问题。它涵盖 Agent 系统的**结构化追踪、成本归因、可靠性工程和统一观测**四个方面。
## 为什么 O 层需要独立
论文将 Observability 从 Lifecycle 的附属品提升为独立层,理由是:
- O 层拥有**专属平台生态**Langfuse、Arize Phoenix、OpenLLMetry 等
- 在生产线部署中由**不同团队**负责SRE vs Agent 开发)
- O 层的工程实践与编排逻辑有本质区别
## 四大子系统
### 1. 追踪与监控
- **Langfuse / Opik / Arize Phoenix / MLflow**:交互式 trace tree延迟火焰图token 分解
- **OpenTelemetry (OTel)**:成为 Agent 观测的事实标准
- **语义约定**:定义 span 属性模型名、温度、token 数、延迟)
### 2. Agent 专用运维平台
- AgentOps、RagaAI Catalyst、Laminar、Watson、AgentLens
- 提供 Agent 特有的调试和回溯功能
### 3. 成本追踪与优化
- TensorZero、Helicone成本归因和网关
- FrugalGPT、GPTCache成本节省策略
- Dual-Pool Routing模型路由优化
### 4. 可靠性工程
- Anthropic 的 Effective Harnesses 和 Harness Design
- AgentErrorTaxonomy错误分类
- SentinelAgent / AgentFixer故障检测和修复
- 核心命题:"基础设施噪声"可度量地改变 benchmark 分数
## 相关概念
- [[etclovg-taxonomy]] — 七层分类体系
- [[lifecycle-orchestration]] — 编排层O 层从中独立)
- [[agent-harness-engineering]] — 总体框架
- [[cost-quality-speed-trilemma]] — 成本维度