Files
myWiki/concepts/experience-distillation.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
经验蒸馏 (Experience Distillation) 2026-06-14 2026-06-14 concept
agent
experience-reuse
compression
gene
raw/papers/procedural-skills-to-strategy-genes-2026.md

经验蒸馏 (Experience Distillation)

Wang et al. (2026) 中隐含的核心操作:将丰富的源经验(技能包、轨迹)压缩为紧凑的控制导向表示。

蒸馏映射

形式化:给定源经验 z技能 s、轨迹集 H、或已验证的 Capsule C

g = psi(z),    g in G

其中 psi 提取紧凑的控制导向表示。蒸馏不是简单的截断或摘要——它是对经验的重新抽象

为什么蒸馏必要

过程技能包含大量文档导向材料overview, API notes, examples, scripts其中仅约 10-15% 提供有意义的控制价值。其余部分在推理时构成信息过载

经验蒸馏的目标:

  • 提高信号密度(每 token 的控制相关性)
  • 明确适用范围边界(何时适用、何时不适用)
  • 增强失败显著性(明确标注 AVOID 项)

关键证据

  1. Skill-Workflow (+1.5pp) 是技能包中唯一明确有用的部分——这恰好是最接近 Gene 策略层的内容
  2. Skill-Overview (-4.7pp) 是纯文档材料,强烈有害
  3. 匹配预算 Skill 片段改善但仍低于 Gene——蒸馏不只是压缩
  4. 失败警告仅 (54.4%, +4.6pp) 超过所有混合条件——蒸馏应选择性而非加性

实践启示

  • 蒸馏应从过程性内容workflow/strategy而非描述性内容开始
  • AVOID 项(失败感知线索)是信号密度最高的信息
  • 朴素追加更多历史不会改善控制——选择性压缩才有
  • 蒸馏应保持结构化可编辑性,而非展平为散文

参考