1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Context Pruning (上下文剪枝) | 2026-05-29 | 2026-05-29 | concept |
|
|
Context Pruning (上下文剪枝)
Context Pruning 是分布式 Agent 系统在遭遇网络分区或 cache-cold-start 时的紧急降级策略:主动将长历史上下文切除,仅保留最核心的 System Prompt 与最近几轮对话(通常不超过 8k Token)。
触发条件
- 分布式路由表查询超时(毫秒级硬上限)
- 跨机主动预热流水线失败
- Redis 骨干网连接丢失
降级流程
- 切断跨机预热:立即停用 active-cache-warmup
- 本地孤岛模式:会话降级为单机运行
- 内存剪枝:切除长历史上下文,保留 System Prompt + 最近三轮对话
- 硬控制延迟:将冷启动延迟硬控制在阈值以内
权衡
- 牺牲推理深度:裁剪后上下文信息减少,可能降低决策质量
- 保证可达性:风控平仓等关键指令的绝对可达性优先于推理深度
在混沌工程中的角色
Context Pruning 是分布式缓存系统的最后一道防线——当所有优化机制(预热、路由、一致性)都失败时,确保系统仍能完成核心功能。
相关
- cache-cold-start — Pruning 应对的问题
- active-cache-warmup — Pruning 的"上游"机制(优先使用)
- distributed-prompt-caching — 分布式缓存体系