20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/action-applicability.md
+++ b/concepts/action-applicability.md
@@ -0,0 +1,45 @@
+---
+title: "Action Applicability (动作合法性判定)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["agent", "planning", "game-ai", "verification"]
+sources: ["https://arxiv.org/abs/2603.03329"]
+---
+
+# Action Applicability (动作合法性判定)
+
+**Action Applicability** 是 AI Agent 和规划领域中的一个基本问题：在给定状态下，哪些动作是**合法**的（能被环境接受执行）？
+
+## 问题定义
+
+给定当前状态 s 和候选动作 a，判定 a 是否在环境允许的动作空间中：
+$$\text{legal}(s, a) \in \{\text{True}, \text{False}\}$$
+
+## 在 LLM Agent 中的尖锐表现
+
+LLM 的 planning 能力在严格结构环境中尤为脆弱：
+- Kaggle GameArena 象棋：Gemini-2.5-Flash **78%** 的失利源于非法走子
+- 不是策略性失误——是**根本违反规则**
+
+## 为什么 LLM 会失败
+
+1. **内部世界模型不完整**：LLM 的 next-token prediction 训练目标不保证学到的状态转移函数与实际环境一致
+2. **幻觉合法转移**：模型可能"自信地"断言一个非法动作是合法的
+3. **Tree of Thoughts 等方法的局限**：搜索依赖 LLM 的内部模拟，合法转移可能被 hallucinate
+
+## 解决方案
+
+- **外部验证器**（如 [[autoharness|AutoHarness]]）：将合法判定 offload 到可验证的代码
+- **Fine-tuning on game trajectories**：昂贵且损害通用能力
+- **手写 harness**：脆弱且不可扩展
+
+## AI 规划领域的关联
+
+Action applicability 在 AI 规划社区（Kokel et al., 2025）中有长期研究历史，但在 LLM Agent 兴起后变得尤为紧迫——LLM 的通用能力与结构环境中的可靠性之间存在根本张力。
+
+## 相关
+
+- [[autoharness]] — 解决此问题的方法
+- [[harness-as-action-verifier]] — Verifier 模式直接针对此问题
+- [[lou-autoharness-2026]] — 原始论文