Heuristic Learning (启发式学习)

Heuristic Learning (HL) 是由 OpenAI 翁家翌提出的一种新学习范式：替代传统梯度下降优化模型参数的学习模式，将优化主体从 Model 参数扩展到 Agent 整体（Model + Harness 代码）。

核心循环

Agent 运行 → 产生反馈 → 分析并修改代码 → 再次运行

与传统梯度下降的对比：

维度	梯度下降 (GD)	启发式学习 (HL)
优化对象	神经网络参数 θ	Agent 整体代码
反馈信号	∂L/∂θ	环境交互 + 结构化反馈
优化器	Adam/AdamW	LLM (作为 gradient-free optimizer)
可解释性	无（矩阵乘法）	高（可读代码）

旧能力被封装在回归测试中，新代码必须通过旧测试才能部署——从工程上规避了参数被覆盖。

决策逻辑是一行行可读的代码，而非矩阵权重。为 AI 决策提供完整审计追踪。

借助 LLM 的先验知识和代码理解能力，迭代更快。Atari 57 中位表现已与 PPO 持平，且环境交互步数更少。

两者理念如出一辙，但定位不同：

HL 将 harness-engineering 提升到了学习范式的高度：经验或知识不仅可以被"训练"到参数里，还可以被"编程"为可维护、可进化的软件系统。