20260601
This commit is contained in:
45
concepts/action-applicability.md
Normal file
45
concepts/action-applicability.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "Action Applicability (动作合法性判定)"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["agent", "planning", "game-ai", "verification"]
|
||||
sources: ["https://arxiv.org/abs/2603.03329"]
|
||||
---
|
||||
|
||||
# Action Applicability (动作合法性判定)
|
||||
|
||||
**Action Applicability** 是 AI Agent 和规划领域中的一个基本问题:在给定状态下,哪些动作是**合法**的(能被环境接受执行)?
|
||||
|
||||
## 问题定义
|
||||
|
||||
给定当前状态 s 和候选动作 a,判定 a 是否在环境允许的动作空间中:
|
||||
$$\text{legal}(s, a) \in \{\text{True}, \text{False}\}$$
|
||||
|
||||
## 在 LLM Agent 中的尖锐表现
|
||||
|
||||
LLM 的 planning 能力在严格结构环境中尤为脆弱:
|
||||
- Kaggle GameArena 象棋:Gemini-2.5-Flash **78%** 的失利源于非法走子
|
||||
- 不是策略性失误——是**根本违反规则**
|
||||
|
||||
## 为什么 LLM 会失败
|
||||
|
||||
1. **内部世界模型不完整**:LLM 的 next-token prediction 训练目标不保证学到的状态转移函数与实际环境一致
|
||||
2. **幻觉合法转移**:模型可能"自信地"断言一个非法动作是合法的
|
||||
3. **Tree of Thoughts 等方法的局限**:搜索依赖 LLM 的内部模拟,合法转移可能被 hallucinate
|
||||
|
||||
## 解决方案
|
||||
|
||||
- **外部验证器**(如 [[autoharness|AutoHarness]]):将合法判定 offload 到可验证的代码
|
||||
- **Fine-tuning on game trajectories**:昂贵且损害通用能力
|
||||
- **手写 harness**:脆弱且不可扩展
|
||||
|
||||
## AI 规划领域的关联
|
||||
|
||||
Action applicability 在 AI 规划社区(Kokel et al., 2025)中有长期研究历史,但在 LLM Agent 兴起后变得尤为紧迫——LLM 的通用能力与结构环境中的可靠性之间存在根本张力。
|
||||
|
||||
## 相关
|
||||
|
||||
- [[autoharness]] — 解决此问题的方法
|
||||
- [[harness-as-action-verifier]] — Verifier 模式直接针对此问题
|
||||
- [[lou-autoharness-2026]] — 原始论文
|
||||
Reference in New Issue
Block a user