SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

经验蒸馏 (Experience Distillation)

2026-06-14

2026-06-14

concept

agent

experience-reuse

compression

gene

raw/papers/procedural-skills-to-strategy-genes-2026.md

经验蒸馏 (Experience Distillation)

Wang et al. (2026) 中隐含的核心操作：将丰富的源经验（技能包、轨迹）压缩为紧凑的控制导向表示。

蒸馏映射

形式化：给定源经验 z（技能 s、轨迹集 H、或已验证的 Capsule C）：

g = psi(z),    g in G

其中 psi 提取紧凑的控制导向表示。蒸馏不是简单的截断或摘要——它是对经验的重新抽象。

为什么蒸馏必要

过程技能包含大量文档导向材料（overview, API notes, examples, scripts），其中仅约 10-15% 提供有意义的控制价值。其余部分在推理时构成信息过载。

经验蒸馏的目标：

提高信号密度（每 token 的控制相关性）
明确适用范围边界（何时适用、何时不适用）
增强失败显著性（明确标注 AVOID 项）

关键证据

Skill-Workflow (+1.5pp) 是技能包中唯一明确有用的部分——这恰好是最接近 Gene 策略层的内容
Skill-Overview (-4.7pp) 是纯文档材料，强烈有害
匹配预算 Skill 片段改善但仍低于 Gene——蒸馏不只是压缩
失败警告仅 (54.4%, +4.6pp) 超过所有混合条件——蒸馏应选择性而非加性

实践启示

蒸馏应从过程性内容（workflow/strategy）而非描述性内容开始
AVOID 项（失败感知线索）是信号密度最高的信息
朴素追加更多历史不会改善控制——选择性压缩才有
蒸馏应保持结构化可编辑性，而非展平为散文

参考

procedural-skills-to-strategy-genes — 蒸馏的实证基础
strategy-gene — 蒸馏的目标产物
gene-evolution-protocol — 蒸馏的协议化框架
procedural-skill — 蒸馏的源材料