20260617:目前有914 页
This commit is contained in:
53
concepts/experience-representation.md
Normal file
53
concepts/experience-representation.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "经验表示 (Experience Representation)"
|
||||
created: 2026-06-14
|
||||
updated: 2026-06-14
|
||||
type: concept
|
||||
tags: [agent, experience-reuse, representation, formalism]
|
||||
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
|
||||
---
|
||||
|
||||
# 经验表示 (Experience Representation)
|
||||
|
||||
Wang et al. (2026) 将可复用经验视为**经验表示**:从先前问题解决中派生并在测试时重新引入以影响模型行为的外部化对象。
|
||||
|
||||
## 形式化
|
||||
|
||||
设 H = {tau_i} 为先前问题解决轨迹集。可复用经验表示为:
|
||||
|
||||
```
|
||||
r = phi(H), r in R
|
||||
```
|
||||
|
||||
其中 phi 将先前经验抽象到可复用表示空间 R。给定新任务 x,固定模型产生:
|
||||
|
||||
```
|
||||
y ~ p_theta(y | x, r)
|
||||
```
|
||||
|
||||
## 两种表示范式的对比
|
||||
|
||||
| 维度 | 过程技能 (Skill) | 策略基因 (Gene) |
|
||||
|------|-----------------|----------------|
|
||||
| 范式 | 文档导向 | 控制导向 |
|
||||
| 优化目标 | 可读性、完整性、可维护性 | 信号密度、适用范围、失败显著性 |
|
||||
| 典型规模 | ~2,500 tokens | ~230 tokens |
|
||||
| 核心功能 | 教学、审查、传递 | 推理时行为控制 |
|
||||
| 控制效应 | -1.1pp vs 基线 | +3.0pp vs 基线 |
|
||||
|
||||
## 表示作为一阶因素
|
||||
|
||||
即使底层经验内容大致相同,**如何包装、结构化和暴露经验给模型**仍会产生实质性差异:
|
||||
- 技能包的控制价值约 10x 稀释(2,500 → 230 tokens 的可用信号)
|
||||
- Gene 在匹配预算下仍优于缩短的 Skill 片段
|
||||
- 重新添加文档材料到 Gene 通常降低性能
|
||||
|
||||
这表明**经验复用问题的核心不是"提供更多经验",而是"如何编码经验"**。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 核心对比
|
||||
- [[strategy-gene|策略基因]] — 控制导向表示
|
||||
- [[procedural-skill|过程技能]] — 文档导向表示
|
||||
- [[test-time-control|测试时控制]] — 表示的预期功能
|
||||
- [[experience-distillation|经验蒸馏]] — 从丰富源到紧凑表示的过程
|
||||
Reference in New Issue
Block a user