Files
myWiki/concepts/action-applicability.md
2026-06-01 10:46:01 +08:00

46 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Action Applicability (动作合法性判定)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["agent", "planning", "game-ai", "verification"]
sources: ["https://arxiv.org/abs/2603.03329"]
---
# Action Applicability (动作合法性判定)
**Action Applicability** 是 AI Agent 和规划领域中的一个基本问题:在给定状态下,哪些动作是**合法**的(能被环境接受执行)?
## 问题定义
给定当前状态 s 和候选动作 a判定 a 是否在环境允许的动作空间中:
$$\text{legal}(s, a) \in \{\text{True}, \text{False}\}$$
## 在 LLM Agent 中的尖锐表现
LLM 的 planning 能力在严格结构环境中尤为脆弱:
- Kaggle GameArena 象棋Gemini-2.5-Flash **78%** 的失利源于非法走子
- 不是策略性失误——是**根本违反规则**
## 为什么 LLM 会失败
1. **内部世界模型不完整**LLM 的 next-token prediction 训练目标不保证学到的状态转移函数与实际环境一致
2. **幻觉合法转移**:模型可能"自信地"断言一个非法动作是合法的
3. **Tree of Thoughts 等方法的局限**:搜索依赖 LLM 的内部模拟,合法转移可能被 hallucinate
## 解决方案
- **外部验证器**(如 [[autoharness|AutoHarness]]):将合法判定 offload 到可验证的代码
- **Fine-tuning on game trajectories**:昂贵且损害通用能力
- **手写 harness**:脆弱且不可扩展
## AI 规划领域的关联
Action applicability 在 AI 规划社区Kokel et al., 2025中有长期研究历史但在 LLM Agent 兴起后变得尤为紧迫——LLM 的通用能力与结构环境中的可靠性之间存在根本张力。
## 相关
- [[autoharness]] — 解决此问题的方法
- [[harness-as-action-verifier]] — Verifier 模式直接针对此问题
- [[lou-autoharness-2026]] — 原始论文