Files
myWiki/articles/lyu-model-harness-evolution-2026.md
2026-06-01 10:46:01 +08:00

74 lines
3.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Model与Harness的关系演进从AutoHarness到Heuristic Learning"
created: 2026-05-29
updated: 2026-05-29
type: article
author: "吕明"
source: "微信公众号"
url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"
tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"]
---
# Model与Harness的关系演进
> **作者**: 吕明 | **来源**: 微信公众号 | **收录**: 2026-05-29
## 核心命题
随着 [[autoharness|AutoHarness]] 等工作的出现,**Model 与 Harness 之间的边界正在发生根本性演进**——"策略算法"与"工程约束"不再是两个独立世界,而是正在融合为一个紧密依赖、难以割裂的共同体。
## 三大支柱GenAI 区别于前几次 AI 浪潮的本质
作者从第一性原理出发,提炼出 GenAI 的三个关键判别要素:
| 支柱 | 含义 | 体现 |
|------|------|------|
| **生成式 Generative** | 推理模式分布的巨大灵活性 | CoT、Prompt Engineering、Harness 工程化落地 |
| **通用性 General** | Scaling law 驱动的泛化能力 | 跨任务迁移、零样本推理 |
| **统一性 Unification** | 策略算法与工程约束的统一 | 形式化规则编译 + 策略空间 tokenlized 融合 |
参见 [[generative-general-unification]]
## AutoHarness 深度解读
文章详细剖析了 [[autoharness|AutoHarness]] 的三种 Harness 模式:
1. **Harness-as-Action-Filter**:代码枚举合法动作集合 → LLM 排序选择
2. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]**核心模式LLM 自由提议 → 代码验证 → 非法重试
3. **[[harness-as-policy|Harness-as-Policy]]**(极限模式):纯代码决策,零 LLM 推理
核心机制:**多代码假设树 + Thompson 采样 + Refiner-Critic 环**
关键数据145 个游戏 100% 合法率Flash+Harness 对 Pro 胜率 56.3% vs 38.2%
## Heuristic Learning超越梯度下降
文章引入 OpenAI 翁家翌提出的 [[heuristic-learning|Heuristic Learning]](启发式学习),定位为**替代传统梯度下降的新学习范式**
- 优化主体从 Model 参数 → Agent 整体Model + Harness 代码)
- 循环:智能体运行 → 反馈 → 分析并修改代码 → 再次运行
- 三大优势:缓解灾难性遗忘(回归测试)、可解释性(可读代码)、样本效率
## 关键洞察
> **"性能提升不只能依赖于模型参数规模,也应关注 Agent Architecture 的 Harness 层"**
> **"经验或知识不仅可以被'训练'到参数里,还可以被'编程'为可维护、可进化的软件系统"**
> **"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"**
## 引述Demis Hassabis 观点
- "当前范式不会突然变成死路,但上面还要补一到两个大想法:连续学习、长期推理、记忆、系统稳定性"
- "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率,而不是只做演示"
- "未来的通用系统会调用 AlphaFold 这类专用系统,而不是把所有蛋白质知识塞进一个巨型大脑"
## 概念网络
- [[model-harness-relationship]] — Model-Harness 关系演进
- [[harness-engineering]] — Harness Engineering 作为独立工程学科
- [[heuristic-learning]] — 启发式学习新范式
- [[strategy-engineering-unification]] — 策略与工程的统一
- [[compiled-ai-paradigm]] — 编译型 AI
- [[generative-general-unification]] — GenAI 三支柱