--- title: "Prompt Caching 架构工程手册" created: 2026-05-11 updated: 2026-05-11 type: article tags: [prompt-caching, agent-architecture, system-design, ai-engineering] sources: ["https://mp.weixin.qq.com/s/gyd4cqxadv3YW5Fe09r95g"] --- # Prompt Caching 架构工程手册 (Volume I) ## 概述 本文系统阐述了 **Prompt Caching** 在大规模 AI Agent 系统中的工程实践,以高频交易系统 [[meta-jctrader]] 为案例。Prompt Caching 不仅是降低延迟和成本的财务工具,更是系统稳健性与推理确定性的架构基石。 ## 核心问题 在大规模 Agent 系统中,动态变化的 System Prompt 和工具定义导致缓存频繁失效([[cache-invalidation|缓存失效]]),使模型丧失"热启动"能力,造成不可控的延迟和成本。 ## 方法论贡献 ### 四层架构分层 构建 **Global → Project → Session → Dynamic** 的 [[prompt-layering|提示分层]] 堆栈,将不可变静态前缀与高频动态数据严格分离。 ### Stub 模式 引入 [[stub-pattern|Stub 模式]] 和 [[tool-registry|ToolRegistry]] 统一接口,在 System Prompt 中仅保留最小化工具占位符,避免工具定义变更触发 [[cache-invalidation|缓存失效]]。 ### Cache-Safe Forking 实现 [[cache-safe-forking|缓存安全分叉]],在 [[context-compression|上下文压缩]] 时复用父会话的完整前缀,将总结成本降低一个数量级。 ### 状态管理工具化 规避 [[system-message-abuse|System Message 滥用]],将状态切换从 System Message 迁移到消息化标签或工具调用。 ### 可观测性体系 建立以 [[cache-hit-ratio|缓存命中率]] (CHR) 为核心的 [[cache-health-observability|缓存健康度指标]] 系统,包含失效点识别和成本效率评分。 ## 与现有 Wiki 的关联 - [[prompt-caching|提示缓存]] 作为 Agent 基础设施的核心组件 - 与 [[agentic-systems|Agent 系统设计]] 中的状态管理与成本优化形成互补 - [[meta-jctrader]] 作为 [[reinforcement-learning-trading|强化学习交易]] 的工程实践案例