Files
myWiki/concepts/heuristic-learning.md
2026-06-01 10:46:01 +08:00

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Heuristic Learning (启发式学习) 2026-05-29 2026-05-29 concept
learning-paradigm
code-evolution
agent
optimization
https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g

Heuristic Learning (启发式学习)

Heuristic Learning (HL) 是由 OpenAI 翁家翌提出的一种新学习范式:替代传统梯度下降优化模型参数的学习模式,将优化主体从 Model 参数扩展到 Agent 整体Model + Harness 代码)。

核心循环

Agent 运行 → 产生反馈 → 分析并修改代码 → 再次运行

与传统梯度下降的对比:

维度 梯度下降 (GD) 启发式学习 (HL)
优化对象 神经网络参数 θ Agent 整体代码
反馈信号 ∂L/∂θ 环境交互 + 结构化反馈
优化器 Adam/AdamW LLM (作为 gradient-free optimizer)
可解释性 无(矩阵乘法) 高(可读代码)

三大优势

1. 缓解灾难性遗忘

旧能力被封装在回归测试中,新代码必须通过旧测试才能部署——从工程上规避了参数被覆盖。

2. 可解释性 AI

决策逻辑是一行行可读的代码,而非矩阵权重。为 AI 决策提供完整审计追踪。

3. 样本效率

借助 LLM 的先验知识和代码理解能力迭代更快。Atari 57 中位表现已与 PPO 持平,且环境交互步数更少。

与 AutoHarness 的关系

两者理念如出一辙,但定位不同:

  • AutoHarness:聚焦特定任务(游戏)的约束代码合成
  • Heuristic Learning:定位为通用学习范式,替代梯度下降

核心意义

HL 将 harness-engineering 提升到了学习范式的高度:经验或知识不仅可以被"训练"到参数里,还可以被"编程"为可维护、可进化的软件系统。

相关