20260601
This commit is contained in:
40
concepts/context-pruning.md
Normal file
40
concepts/context-pruning.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "Context Pruning (上下文剪枝)"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["distributed-systems", "resilience", "LLM", "degradation"]
|
||||
sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"]
|
||||
---
|
||||
|
||||
# Context Pruning (上下文剪枝)
|
||||
|
||||
**Context Pruning** 是分布式 Agent 系统在遭遇网络分区或 [[cache-cold-start]] 时的紧急降级策略:主动将长历史上下文切除,仅保留最核心的 System Prompt 与最近几轮对话(通常不超过 8k Token)。
|
||||
|
||||
## 触发条件
|
||||
|
||||
- 分布式路由表查询超时(毫秒级硬上限)
|
||||
- 跨机主动预热流水线失败
|
||||
- Redis 骨干网连接丢失
|
||||
|
||||
## 降级流程
|
||||
|
||||
1. **切断跨机预热**:立即停用 [[active-cache-warmup]]
|
||||
2. **本地孤岛模式**:会话降级为单机运行
|
||||
3. **内存剪枝**:切除长历史上下文,保留 System Prompt + 最近三轮对话
|
||||
4. **硬控制延迟**:将冷启动延迟硬控制在阈值以内
|
||||
|
||||
## 权衡
|
||||
|
||||
- **牺牲推理深度**:裁剪后上下文信息减少,可能降低决策质量
|
||||
- **保证可达性**:风控平仓等关键指令的绝对可达性优先于推理深度
|
||||
|
||||
## 在混沌工程中的角色
|
||||
|
||||
Context Pruning 是分布式缓存系统的最后一道防线——当所有优化机制(预热、路由、一致性)都失败时,确保系统仍能完成核心功能。
|
||||
|
||||
## 相关
|
||||
|
||||
- [[cache-cold-start]] — Pruning 应对的问题
|
||||
- [[active-cache-warmup]] — Pruning 的"上游"机制(优先使用)
|
||||
- [[distributed-prompt-caching]] — 分布式缓存体系
|
||||
Reference in New Issue
Block a user