title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Shadow Calling (影子调用) |
2026-05-29 |
2026-05-29 |
concept |
| distributed-systems |
| caching |
| optimization |
| LLM |
|
|
Shadow Calling (影子调用)
Shadow Calling 是 active-cache-warmup 的核心机制:向目标 LLM 节点发送一个特殊的"预热请求",其目的不是获取推理结果,而是让 LLM 服务端为指定的前缀上下文提前开辟内存缓存区。
三个严苛的工程特征
max_tokens=1:告诉模型不需要生成长篇大论,只需消化前缀并吐出 1 个 Token
- 显式
cache_control:在预热断点处强行打上缓存标记
- 零输出下游拦截:返回结果直接在网络层丢弃(Drop),不触发任何业务状态流转
与普通 API 调用的区别
| 特性 |
普通调用 |
Shadow Calling |
| 目的 |
获取推理结果 |
填充缓存 |
| max_tokens |
正常值(如 4096) |
1 |
| 结果处理 |
注入业务逻辑 |
直接丢弃 |
| 触发时机 |
按需 |
预测性提前触发 |
效果
影子调用成功后,目标节点在真实请求到达时,其前缀已 100% 处于热态,响应延迟从秒级降至百毫秒级。
相关