47 lines
2.0 KiB
Markdown
47 lines
2.0 KiB
Markdown
---
|
|
title: "Prompt Caching 架构工程手册"
|
|
created: 2026-05-11
|
|
updated: 2026-05-11
|
|
type: article
|
|
tags: [prompt-caching, agent-architecture, system-design, ai-engineering]
|
|
sources: ["https://mp.weixin.qq.com/s/gyd4cqxadv3YW5Fe09r95g"]
|
|
---
|
|
|
|
# Prompt Caching 架构工程手册 (Volume I)
|
|
|
|
## 概述
|
|
|
|
本文系统阐述了 **Prompt Caching** 在大规模 AI Agent 系统中的工程实践,以高频交易系统 [[meta-jctrader]] 为案例。Prompt Caching 不仅是降低延迟和成本的财务工具,更是系统稳健性与推理确定性的架构基石。
|
|
|
|
## 核心问题
|
|
|
|
在大规模 Agent 系统中,动态变化的 System Prompt 和工具定义导致缓存频繁失效([[cache-invalidation|缓存失效]]),使模型丧失"热启动"能力,造成不可控的延迟和成本。
|
|
|
|
## 方法论贡献
|
|
|
|
### 四层架构分层
|
|
|
|
构建 **Global → Project → Session → Dynamic** 的 [[prompt-layering|提示分层]] 堆栈,将不可变静态前缀与高频动态数据严格分离。
|
|
|
|
### Stub 模式
|
|
|
|
引入 [[stub-pattern|Stub 模式]] 和 [[tool-registry|ToolRegistry]] 统一接口,在 System Prompt 中仅保留最小化工具占位符,避免工具定义变更触发 [[cache-invalidation|缓存失效]]。
|
|
|
|
### Cache-Safe Forking
|
|
|
|
实现 [[cache-safe-forking|缓存安全分叉]],在 [[context-compression|上下文压缩]] 时复用父会话的完整前缀,将总结成本降低一个数量级。
|
|
|
|
### 状态管理工具化
|
|
|
|
规避 [[system-message-abuse|System Message 滥用]],将状态切换从 System Message 迁移到消息化标签或工具调用。
|
|
|
|
### 可观测性体系
|
|
|
|
建立以 [[cache-hit-ratio|缓存命中率]] (CHR) 为核心的 [[cache-health-observability|缓存健康度指标]] 系统,包含失效点识别和成本效率评分。
|
|
|
|
## 与现有 Wiki 的关联
|
|
|
|
- [[prompt-caching|提示缓存]] 作为 Agent 基础设施的核心组件
|
|
- 与 [[agentic-systems|Agent 系统设计]] 中的状态管理与成本优化形成互补
|
|
- [[meta-jctrader]] 作为 [[reinforcement-learning-trading|强化学习交易]] 的工程实践案例
|