SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.4 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Prompt Caching

2026-05-11

2026-05-11

concept

agent-architecture

cache

prompt-engineering

prompt-caching-architecture

Prompt Caching（提示缓存）

定义

Prompt Caching 是一种基于 prefix-matching 的确定性计算优化技术。在 LLM API 调用中，通过对请求 Token 序列的前缀进行持久化哈希存储，使后续相同前缀的请求跳过重复推理，直接复用缓存结果。

核心机制

前缀匹配：API 层将请求前 N 个 Token 哈希后持久化；后续请求前缀相同时命中缓存
cache_control 断点：显式标注缓存边界，控制哪些 Token 进入缓存
雪崩式失效：前缀的任何微小更改都会导致整个 cache-invalidation

工程意义

延迟降低：跳过前缀 Token 的重复推理，实现毫秒级响应
成本优化：不重复计费缓存的 Token
推理一致性：模型从"热启动"状态开始，保持对系统指令的稳定理解

架构约束

要求prompt-layering 设计中静态前缀的不可变性，以及与 stub-pattern 的配合使用。

相关概念