SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

目标驱动AI (Objective-Driven AI)

2026-06-08

2026-06-08

concept

AI-safety

LeCun

world-model

planning

agent-architecture

raw/articles/lecun-llm-boundary-future-2026.md

目标驱动AI (Objective-Driven AI)

LeCun 提出的替代 LLM 的 Agent 架构范式。核心思想：系统的行为不是通过"预测下一个词元"驱动，而是通过**"寻找能够满足目标的行动序列"**驱动。

核心理念

"从构造上就无法违反。" — LeCun

安全不是靠"训练之后祈祷它不要做坏事"实现的，而是靠"在行动之前，规划过程已经排除了所有违反安全约束的行动"实现的。

工作流程

接收用户目标 → 翻译为代价函数 + 约束条件
world-model-lecun 模拟候选行动序列的后果
优化过程寻找最小化代价函数的行动序列
筛选：丢弃违反安全约束的选项
若不存在同时满足目标和约束的行动 → 不行动或请求人类介入

与现有对齐方案的本质区别

维度	RLHF/宪法AI（事后约束）	目标驱动AI（事前规划）
安全机制	概率性降低危险输出	架构层面排除危险行动
分布外	越狱攻击可逃逸	"从构造上无法违反"
失败模式	黑箱，无法定位根因	可调试（代价函数/世界模型可独立验证）
安全保证	"不太可能"（概率）	"不可能"（架构硬约束）

与 JEPA 的内在关联

JEPA 的代价函数已是目标驱动的雏形：以期望表征状态而非像素重建为目标
目标驱动AI将这种约束从表征层延伸到行动规划层
共同点：以最小化明确目标函数驱动系统行为，而非依赖外部监督信号事后纠正

失败模式（诚实承认）

代价函数不准确：系统会"高效地"完成错误的目标
世界模型不准确：行动后果预测出错

但与 LLM 不同：这些失败模式是可调试、可验证的——你可以检查代价函数是否准确，测试世界模型的预测误差。

工程实践: See, Plan, Rewind

CVPR 2026 最佳论文提名：将任务分解为细粒度空间子任务规划，执行中持续监控进度，检测偏离自动回溯——"用世界模型预测后果"的工程化实现。

来源