52 lines
1.8 KiB
Markdown
52 lines
1.8 KiB
Markdown
---
|
||
title: "Compiled AI Paradigm (编译型 AI 范式)"
|
||
created: 2026-05-29
|
||
updated: 2026-05-29
|
||
type: concept
|
||
tags: ["ai-paradigm", "compilation", "code-synthesis", "deployment"]
|
||
sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"]
|
||
---
|
||
|
||
# Compiled AI Paradigm (编译型 AI 范式)
|
||
|
||
**Compiled AI Paradigm** 是一种新兴的 AI 部署范式:LLM 在**编译阶段**生成可执行代码,**执行阶段**确定性运行——完全不调用 LLM。[[autoharness|AutoHarness]] 的 Harness-as-Policy 模式是其典型实例。
|
||
|
||
## 与传统 AI 部署的对比
|
||
|
||
| 阶段 | 传统部署 | 编译型 AI |
|
||
|------|----------|-----------|
|
||
| 训练 | Fine-tuning / RLHF | 代码搜索 + 迭代精炼 |
|
||
| 编译 | 模型量化/导出 | LLM 生成 + 环境验证 |
|
||
| 推理 | GPU 上的矩阵乘法 | CPU 上的 Python/编译代码 |
|
||
| 成本 | 高昂(GPU 算力) | 趋近于零 |
|
||
| 可解释性 | 无 | 完整源码审计 |
|
||
|
||
## 核心思想
|
||
|
||
LLM 的"智能"被**蒸馏编译**为可执行程序:
|
||
- 训练阶段:LLM 通过环境反馈学习策略
|
||
- 编译阶段:策略被抽象为确定性代码
|
||
- 推理阶段:代码直接运行,无需 LLM
|
||
|
||
## 实例
|
||
|
||
- **Harness-as-Policy**:Gemini-2.5-Flash 训练 → Python 代码策略 → 16 个游戏平均 reward 0.870
|
||
- **成本对比**:编译型 ~$0 vs GPT-5.2 ~$640
|
||
|
||
## 适用条件
|
||
|
||
- 任务规则可形式化(如棋盘游戏)
|
||
- 策略空间可被代码穷举或近似
|
||
- 环境反馈明确(合法/非法、reward)
|
||
|
||
## 局限
|
||
|
||
- 复杂博弈推理(2P 游戏)需要 MCTS 等搜索算法
|
||
- 模糊约束环境(物理交互、社会规范)难以形式化
|
||
|
||
## 相关
|
||
|
||
- [[harness-as-policy]] — 编译型 AI 的典型实现
|
||
- [[heuristic-learning]] — 编译型 AI 的学习范式基础
|
||
- [[harness-engineering]] — 编译型 AI 的工程支撑
|