55 lines
2.0 KiB
Markdown
55 lines
2.0 KiB
Markdown
---
|
||
title: "Heuristic Learning (启发式学习)"
|
||
created: 2026-05-29
|
||
updated: 2026-05-29
|
||
type: concept
|
||
tags: ["learning-paradigm", "code-evolution", "agent", "optimization"]
|
||
sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"]
|
||
---
|
||
|
||
# Heuristic Learning (启发式学习)
|
||
|
||
**Heuristic Learning (HL)** 是由 OpenAI 翁家翌提出的一种新学习范式:**替代传统梯度下降优化模型参数的学习模式**,将优化主体从 Model 参数扩展到 Agent 整体(Model + Harness 代码)。
|
||
|
||
## 核心循环
|
||
|
||
```
|
||
Agent 运行 → 产生反馈 → 分析并修改代码 → 再次运行
|
||
```
|
||
|
||
与传统梯度下降的对比:
|
||
|
||
| 维度 | 梯度下降 (GD) | 启发式学习 (HL) |
|
||
|------|:---:|:---:|
|
||
| 优化对象 | 神经网络参数 θ | Agent 整体代码 |
|
||
| 反馈信号 | ∂L/∂θ | 环境交互 + 结构化反馈 |
|
||
| 优化器 | Adam/AdamW | LLM (作为 gradient-free optimizer) |
|
||
| 可解释性 | 无(矩阵乘法) | 高(可读代码) |
|
||
|
||
## 三大优势
|
||
|
||
### 1. 缓解灾难性遗忘
|
||
旧能力被封装在回归测试中,新代码必须通过旧测试才能部署——从工程上规避了参数被覆盖。
|
||
|
||
### 2. 可解释性 AI
|
||
决策逻辑是一行行可读的代码,而非矩阵权重。为 AI 决策提供完整审计追踪。
|
||
|
||
### 3. 样本效率
|
||
借助 LLM 的先验知识和代码理解能力,迭代更快。Atari 57 中位表现已与 PPO 持平,且环境交互步数更少。
|
||
|
||
## 与 AutoHarness 的关系
|
||
|
||
两者理念如出一辙,但定位不同:
|
||
- **AutoHarness**:聚焦特定任务(游戏)的约束代码合成
|
||
- **Heuristic Learning**:定位为**通用学习范式**,替代梯度下降
|
||
|
||
## 核心意义
|
||
|
||
HL 将 [[harness-engineering|Harness Engineering]] 提升到了学习范式的高度:**经验或知识不仅可以被"训练"到参数里,还可以被"编程"为可维护、可进化的软件系统。**
|
||
|
||
## 相关
|
||
|
||
- [[autoharness]] — DeepMind 的实践先例
|
||
- [[harness-engineering]] — 支撑 HL 的工程学科
|
||
- [[model-harness-relationship]] — HL 隐含的架构哲学
|