2.5 KiB
2.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 目标驱动AI (Objective-Driven AI) | 2026-06-08 | 2026-06-08 | concept |
|
|
目标驱动AI (Objective-Driven AI)
LeCun 提出的替代 LLM 的 Agent 架构范式。核心思想:系统的行为不是通过"预测下一个词元"驱动,而是通过**"寻找能够满足目标的行动序列"**驱动。
核心理念
"从构造上就无法违反。" — LeCun
安全不是靠"训练之后祈祷它不要做坏事"实现的,而是靠"在行动之前,规划过程已经排除了所有违反安全约束的行动"实现的。
工作流程
- 接收用户目标 → 翻译为代价函数 + 约束条件
- world-model-lecun 模拟候选行动序列的后果
- 优化过程寻找最小化代价函数的行动序列
- 筛选:丢弃违反安全约束的选项
- 若不存在同时满足目标和约束的行动 → 不行动或请求人类介入
与现有对齐方案的本质区别
| 维度 | RLHF/宪法AI(事后约束) | 目标驱动AI(事前规划) |
|---|---|---|
| 安全机制 | 概率性降低危险输出 | 架构层面排除危险行动 |
| 分布外 | 越狱攻击可逃逸 | "从构造上无法违反" |
| 失败模式 | 黑箱,无法定位根因 | 可调试(代价函数/世界模型可独立验证) |
| 安全保证 | "不太可能"(概率) | "不可能"(架构硬约束) |
与 JEPA 的内在关联
- JEPA 的代价函数已是目标驱动的雏形:以期望表征状态而非像素重建为目标
- 目标驱动AI将这种约束从表征层延伸到行动规划层
- 共同点:以最小化明确目标函数驱动系统行为,而非依赖外部监督信号事后纠正
失败模式(诚实承认)
- 代价函数不准确:系统会"高效地"完成错误的目标
- 世界模型不准确:行动后果预测出错
但与 LLM 不同:这些失败模式是可调试、可验证的——你可以检查代价函数是否准确,测试世界模型的预测误差。
工程实践: See, Plan, Rewind
CVPR 2026 最佳论文提名:将任务分解为细粒度空间子任务规划,执行中持续监控进度,检测偏离自动回溯——"用世界模型预测后果"的工程化实现。