Files
myWiki/concepts/agent-observability.md

2.3 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent ObservabilityAgent 可观测性) 2026-05-30 2026-05-30 concept
agent
observability
monitoring
tracing
production
agent-harness-engineering-survey
high

Agent Observability

ETCLOVG 的 O 层:对 Agent 行为进行监控、调试和生产级可靠性管理的独立架构层。

核心定义

Agent 可观测性是 ETCLOVG 七层分类法中的第五层O从 Lifecycle Hooks 中独立出来作为第一等架构问题。它涵盖 Agent 系统的结构化追踪、成本归因、可靠性工程和统一观测四个方面。

为什么 O 层需要独立

论文将 Observability 从 Lifecycle 的附属品提升为独立层,理由是:

  • O 层拥有专属平台生态Langfuse、Arize Phoenix、OpenLLMetry 等
  • 在生产线部署中由不同团队负责SRE vs Agent 开发)
  • O 层的工程实践与编排逻辑有本质区别

四大子系统

1. 追踪与监控

  • Langfuse / Opik / Arize Phoenix / MLflow:交互式 trace tree延迟火焰图token 分解
  • OpenTelemetry (OTel):成为 Agent 观测的事实标准
  • 语义约定:定义 span 属性模型名、温度、token 数、延迟)

2. Agent 专用运维平台

  • AgentOps、RagaAI Catalyst、Laminar、Watson、AgentLens
  • 提供 Agent 特有的调试和回溯功能

3. 成本追踪与优化

  • TensorZero、Helicone成本归因和网关
  • FrugalGPT、GPTCache成本节省策略
  • Dual-Pool Routing模型路由优化

4. 可靠性工程

  • Anthropic 的 Effective Harnesses 和 Harness Design
  • AgentErrorTaxonomy错误分类
  • SentinelAgent / AgentFixer故障检测和修复
  • 核心命题:"基础设施噪声"可度量地改变 benchmark 分数

相关概念