Files
myWiki/concepts/heuristic-learning.md
2026-06-01 10:46:01 +08:00

55 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Heuristic Learning (启发式学习)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["learning-paradigm", "code-evolution", "agent", "optimization"]
sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"]
---
# Heuristic Learning (启发式学习)
**Heuristic Learning (HL)** 是由 OpenAI 翁家翌提出的一种新学习范式:**替代传统梯度下降优化模型参数的学习模式**,将优化主体从 Model 参数扩展到 Agent 整体Model + Harness 代码)。
## 核心循环
```
Agent 运行 → 产生反馈 → 分析并修改代码 → 再次运行
```
与传统梯度下降的对比:
| 维度 | 梯度下降 (GD) | 启发式学习 (HL) |
|------|:---:|:---:|
| 优化对象 | 神经网络参数 θ | Agent 整体代码 |
| 反馈信号 | ∂L/∂θ | 环境交互 + 结构化反馈 |
| 优化器 | Adam/AdamW | LLM (作为 gradient-free optimizer) |
| 可解释性 | 无(矩阵乘法) | 高(可读代码) |
## 三大优势
### 1. 缓解灾难性遗忘
旧能力被封装在回归测试中,新代码必须通过旧测试才能部署——从工程上规避了参数被覆盖。
### 2. 可解释性 AI
决策逻辑是一行行可读的代码,而非矩阵权重。为 AI 决策提供完整审计追踪。
### 3. 样本效率
借助 LLM 的先验知识和代码理解能力迭代更快。Atari 57 中位表现已与 PPO 持平,且环境交互步数更少。
## 与 AutoHarness 的关系
两者理念如出一辙,但定位不同:
- **AutoHarness**:聚焦特定任务(游戏)的约束代码合成
- **Heuristic Learning**:定位为**通用学习范式**,替代梯度下降
## 核心意义
HL 将 [[harness-engineering|Harness Engineering]] 提升到了学习范式的高度:**经验或知识不仅可以被"训练"到参数里,还可以被"编程"为可维护、可进化的软件系统。**
## 相关
- [[autoharness]] — DeepMind 的实践先例
- [[harness-engineering]] — 支撑 HL 的工程学科
- [[model-harness-relationship]] — HL 隐含的架构哲学