20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/articles/lyu-model-harness-evolution-2026.md
+++ b/articles/lyu-model-harness-evolution-2026.md
@@ -0,0 +1,73 @@
+---
+title: "Model与Harness的关系演进：从AutoHarness到Heuristic Learning"
+created: 2026-05-29
+updated: 2026-05-29
+type: article
+author: "吕明"
+source: "微信公众号"
+url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"
+tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"]
+---
+
+# Model与Harness的关系演进
+
+> **作者**: 吕明 | **来源**: 微信公众号 | **收录**: 2026-05-29
+
+## 核心命题
+
+随着 [[autoharness|AutoHarness]] 等工作的出现，**Model 与 Harness 之间的边界正在发生根本性演进**——"策略算法"与"工程约束"不再是两个独立世界，而是正在融合为一个紧密依赖、难以割裂的共同体。
+
+## 三大支柱：GenAI 区别于前几次 AI 浪潮的本质
+
+作者从第一性原理出发，提炼出 GenAI 的三个关键判别要素：
+
+| 支柱 | 含义 | 体现 |
+|------|------|------|
+| **生成式 Generative** | 推理模式分布的巨大灵活性 | CoT、Prompt Engineering、Harness 工程化落地 |
+| **通用性 General** | Scaling law 驱动的泛化能力 | 跨任务迁移、零样本推理 |
+| **统一性 Unification** | 策略算法与工程约束的统一 | 形式化规则编译 + 策略空间 tokenlized 融合 |
+
+参见 [[generative-general-unification]]
+
+## AutoHarness 深度解读
+
+文章详细剖析了 [[autoharness|AutoHarness]] 的三种 Harness 模式：
+
+1. **Harness-as-Action-Filter**：代码枚举合法动作集合 → LLM 排序选择
+2. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]**（核心模式）：LLM 自由提议 → 代码验证 → 非法重试
+3. **[[harness-as-policy|Harness-as-Policy]]**（极限模式）：纯代码决策，零 LLM 推理
+
+核心机制：**多代码假设树 + Thompson 采样 + Refiner-Critic 环**
+
+关键数据：145 个游戏 100% 合法率，Flash+Harness 对 Pro 胜率 56.3% vs 38.2%
+
+## Heuristic Learning：超越梯度下降
+
+文章引入 OpenAI 翁家翌提出的 [[heuristic-learning|Heuristic Learning]]（启发式学习），定位为**替代传统梯度下降的新学习范式**：
+
+- 优化主体从 Model 参数 → Agent 整体（Model + Harness 代码）
+- 循环：智能体运行 → 反馈 → 分析并修改代码 → 再次运行
+- 三大优势：缓解灾难性遗忘（回归测试）、可解释性（可读代码）、样本效率
+
+## 关键洞察
+
+> **"性能提升不只能依赖于模型参数规模，也应关注 Agent Architecture 的 Harness 层"**
+
+> **"经验或知识不仅可以被'训练'到参数里，还可以被'编程'为可维护、可进化的软件系统"**
+
+> **"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"**
+
+## 引述：Demis Hassabis 观点
+
+- "当前范式不会突然变成死路，但上面还要补一到两个大想法：连续学习、长期推理、记忆、系统稳定性"
+- "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率，而不是只做演示"
+- "未来的通用系统会调用 AlphaFold 这类专用系统，而不是把所有蛋白质知识塞进一个巨型大脑"
+
+## 概念网络
+
+- [[model-harness-relationship]] — Model-Harness 关系演进
+- [[harness-engineering]] — Harness Engineering 作为独立工程学科
+- [[heuristic-learning]] — 启发式学习新范式
+- [[strategy-engineering-unification]] — 策略与工程的统一
+- [[compiled-ai-paradigm]] — 编译型 AI
+- [[generative-general-unification]] — GenAI 三支柱