20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/objective-driven-ai.md
+++ b/concepts/objective-driven-ai.md
@@ -0,0 +1,59 @@
+---
+title: "目标驱动AI (Objective-Driven AI)"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [AI-safety, LeCun, world-model, planning, agent-architecture]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md]
+---
+
+# 目标驱动AI (Objective-Driven AI)
+
+LeCun 提出的替代 LLM 的 Agent 架构范式。核心思想：系统的行为不是通过"预测下一个词元"驱动，而是通过**"寻找能够满足目标的行动序列"**驱动。
+
+## 核心理念
+
+> "从构造上就无法违反。" — LeCun
+
+安全不是靠"训练之后祈祷它不要做坏事"实现的，而是靠"在行动之前，规划过程已经排除了所有违反安全约束的行动"实现的。
+
+## 工作流程
+
+1. 接收用户目标 → 翻译为代价函数 + 约束条件
+2. [[world-model-lecun|世界模型]] 模拟候选行动序列的后果
+3. 优化过程寻找最小化代价函数的行动序列
+4. **筛选**：丢弃违反安全约束的选项
+5. 若不存在同时满足目标和约束的行动 → **不行动或请求人类介入**
+
+## 与现有对齐方案的本质区别
+
+| 维度 | RLHF/宪法AI（事后约束） | 目标驱动AI（事前规划） |
+|------|------------------------|---------------------|
+| 安全机制 | 概率性降低危险输出 | 架构层面排除危险行动 |
+| 分布外 | 越狱攻击可逃逸 | "从构造上无法违反" |
+| 失败模式 | 黑箱，无法定位根因 | 可调试（代价函数/世界模型可独立验证） |
+| 安全保证 | "不太可能"（概率） | "不可能"（架构硬约束） |
+
+## 与 JEPA 的内在关联
+
+- JEPA 的代价函数已是目标驱动的雏形：以期望表征状态而非像素重建为目标
+- 目标驱动AI将这种约束从**表征层**延伸到**行动规划层**
+- 共同点：以最小化明确目标函数驱动系统行为，而非依赖外部监督信号事后纠正
+
+## 失败模式（诚实承认）
+
+1. **代价函数不准确**：系统会"高效地"完成错误的目标
+2. **世界模型不准确**：行动后果预测出错
+
+但与 LLM 不同：这些失败模式是**可调试、可验证**的——你可以检查代价函数是否准确，测试世界模型的预测误差。
+
+## 工程实践: See, Plan, Rewind
+
+CVPR 2026 最佳论文提名：将任务分解为细粒度空间子任务规划，执行中持续监控进度，检测偏离自动回溯——"用世界模型预测后果"的工程化实现。
+
+## 来源
+
+- [[lecun-llm-boundary-future|Datawhale 系统梳理]]
+- [[jepa|JEPA]]
+- [[world-model-lecun|LeCun 世界模型]]
+- [[vla-vision-language-action|VLA]]