20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/heuristic-learning.md
+++ b/concepts/heuristic-learning.md
@@ -0,0 +1,54 @@
+---
+title: "Heuristic Learning (启发式学习)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["learning-paradigm", "code-evolution", "agent", "optimization"]
+sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"]
+---
+
+# Heuristic Learning (启发式学习)
+
+**Heuristic Learning (HL)** 是由 OpenAI 翁家翌提出的一种新学习范式：**替代传统梯度下降优化模型参数的学习模式**，将优化主体从 Model 参数扩展到 Agent 整体（Model + Harness 代码）。
+
+## 核心循环
+
+```
+Agent 运行 → 产生反馈 → 分析并修改代码 → 再次运行
+```
+
+与传统梯度下降的对比：
+
+| 维度 | 梯度下降 (GD) | 启发式学习 (HL) |
+|------|:---:|:---:|
+| 优化对象 | 神经网络参数 θ | Agent 整体代码 |
+| 反馈信号 | ∂L/∂θ | 环境交互 + 结构化反馈 |
+| 优化器 | Adam/AdamW | LLM (作为 gradient-free optimizer) |
+| 可解释性 | 无（矩阵乘法） | 高（可读代码） |
+
+## 三大优势
+
+### 1. 缓解灾难性遗忘
+旧能力被封装在回归测试中，新代码必须通过旧测试才能部署——从工程上规避了参数被覆盖。
+
+### 2. 可解释性 AI
+决策逻辑是一行行可读的代码，而非矩阵权重。为 AI 决策提供完整审计追踪。
+
+### 3. 样本效率
+借助 LLM 的先验知识和代码理解能力，迭代更快。Atari 57 中位表现已与 PPO 持平，且环境交互步数更少。
+
+## 与 AutoHarness 的关系
+
+两者理念如出一辙，但定位不同：
+- **AutoHarness**：聚焦特定任务（游戏）的约束代码合成
+- **Heuristic Learning**：定位为**通用学习范式**，替代梯度下降
+
+## 核心意义
+
+HL 将 [[harness-engineering|Harness Engineering]] 提升到了学习范式的高度：**经验或知识不仅可以被"训练"到参数里，还可以被"编程"为可维护、可进化的软件系统。**
+
+## 相关
+
+- [[autoharness]] — DeepMind 的实践先例
+- [[harness-engineering]] — 支撑 HL 的工程学科
+- [[model-harness-relationship]] — HL 隐含的架构哲学