Files
myWiki/articles/lyu-model-harness-evolution-2026.md
2026-06-01 10:46:01 +08:00

3.4 KiB
Raw Permalink Blame History

title, created, updated, type, author, source, url, tags
title created updated type author source url tags
Model与Harness的关系演进从AutoHarness到Heuristic Learning 2026-05-29 2026-05-29 article 吕明 微信公众号 https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g
model
harness
agent
genai
heuristic-learning
autoharness

Model与Harness的关系演进

作者: 吕明 | 来源: 微信公众号 | 收录: 2026-05-29

核心命题

随着 autoharness 等工作的出现,Model 与 Harness 之间的边界正在发生根本性演进——"策略算法"与"工程约束"不再是两个独立世界,而是正在融合为一个紧密依赖、难以割裂的共同体。

三大支柱GenAI 区别于前几次 AI 浪潮的本质

作者从第一性原理出发,提炼出 GenAI 的三个关键判别要素:

支柱 含义 体现
生成式 Generative 推理模式分布的巨大灵活性 CoT、Prompt Engineering、Harness 工程化落地
通用性 General Scaling law 驱动的泛化能力 跨任务迁移、零样本推理
统一性 Unification 策略算法与工程约束的统一 形式化规则编译 + 策略空间 tokenlized 融合

参见 generative-general-unification

AutoHarness 深度解读

文章详细剖析了 autoharness 的三种 Harness 模式:

  1. Harness-as-Action-Filter:代码枚举合法动作集合 → LLM 排序选择
  2. harness-as-action-verifier核心模式LLM 自由提议 → 代码验证 → 非法重试
  3. harness-as-policy(极限模式):纯代码决策,零 LLM 推理

核心机制:多代码假设树 + Thompson 采样 + Refiner-Critic 环

关键数据145 个游戏 100% 合法率Flash+Harness 对 Pro 胜率 56.3% vs 38.2%

Heuristic Learning超越梯度下降

文章引入 OpenAI 翁家翌提出的 heuristic-learning(启发式学习),定位为替代传统梯度下降的新学习范式

  • 优化主体从 Model 参数 → Agent 整体Model + Harness 代码)
  • 循环:智能体运行 → 反馈 → 分析并修改代码 → 再次运行
  • 三大优势:缓解灾难性遗忘(回归测试)、可解释性(可读代码)、样本效率

关键洞察

"性能提升不只能依赖于模型参数规模,也应关注 Agent Architecture 的 Harness 层"

"经验或知识不仅可以被'训练'到参数里,还可以被'编程'为可维护、可进化的软件系统"

"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"

引述Demis Hassabis 观点

  • "当前范式不会突然变成死路,但上面还要补一到两个大想法:连续学习、长期推理、记忆、系统稳定性"
  • "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率,而不是只做演示"
  • "未来的通用系统会调用 AlphaFold 这类专用系统,而不是把所有蛋白质知识塞进一个巨型大脑"

概念网络