Files
myWiki/concepts/objective-driven-ai.md

60 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "目标驱动AI (Objective-Driven AI)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [AI-safety, LeCun, world-model, planning, agent-architecture]
sources: [raw/articles/lecun-llm-boundary-future-2026.md]
---
# 目标驱动AI (Objective-Driven AI)
LeCun 提出的替代 LLM 的 Agent 架构范式。核心思想:系统的行为不是通过"预测下一个词元"驱动,而是通过**"寻找能够满足目标的行动序列"**驱动。
## 核心理念
> "从构造上就无法违反。" — LeCun
安全不是靠"训练之后祈祷它不要做坏事"实现的,而是靠"在行动之前,规划过程已经排除了所有违反安全约束的行动"实现的。
## 工作流程
1. 接收用户目标 → 翻译为代价函数 + 约束条件
2. [[world-model-lecun|世界模型]] 模拟候选行动序列的后果
3. 优化过程寻找最小化代价函数的行动序列
4. **筛选**:丢弃违反安全约束的选项
5. 若不存在同时满足目标和约束的行动 → **不行动或请求人类介入**
## 与现有对齐方案的本质区别
| 维度 | RLHF/宪法AI事后约束 | 目标驱动AI事前规划 |
|------|------------------------|---------------------|
| 安全机制 | 概率性降低危险输出 | 架构层面排除危险行动 |
| 分布外 | 越狱攻击可逃逸 | "从构造上无法违反" |
| 失败模式 | 黑箱,无法定位根因 | 可调试(代价函数/世界模型可独立验证) |
| 安全保证 | "不太可能"(概率) | "不可能"(架构硬约束) |
## 与 JEPA 的内在关联
- JEPA 的代价函数已是目标驱动的雏形:以期望表征状态而非像素重建为目标
- 目标驱动AI将这种约束从**表征层**延伸到**行动规划层**
- 共同点:以最小化明确目标函数驱动系统行为,而非依赖外部监督信号事后纠正
## 失败模式(诚实承认)
1. **代价函数不准确**:系统会"高效地"完成错误的目标
2. **世界模型不准确**:行动后果预测出错
但与 LLM 不同:这些失败模式是**可调试、可验证**的——你可以检查代价函数是否准确,测试世界模型的预测误差。
## 工程实践: See, Plan, Rewind
CVPR 2026 最佳论文提名:将任务分解为细粒度空间子任务规划,执行中持续监控进度,检测偏离自动回溯——"用世界模型预测后果"的工程化实现。
## 来源
- [[lecun-llm-boundary-future|Datawhale 系统梳理]]
- [[jepa|JEPA]]
- [[world-model-lecun|LeCun 世界模型]]
- [[vla-vision-language-action|VLA]]