Files
myWiki/concepts/action-applicability.md
2026-06-01 10:46:01 +08:00

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Action Applicability (动作合法性判定) 2026-05-29 2026-05-29 concept
agent
planning
game-ai
verification
https://arxiv.org/abs/2603.03329

Action Applicability (动作合法性判定)

Action Applicability 是 AI Agent 和规划领域中的一个基本问题:在给定状态下,哪些动作是合法的(能被环境接受执行)?

问题定义

给定当前状态 s 和候选动作 a判定 a 是否在环境允许的动作空间中:

\text{legal}(s, a) \in \{\text{True}, \text{False}\}

在 LLM Agent 中的尖锐表现

LLM 的 planning 能力在严格结构环境中尤为脆弱:

  • Kaggle GameArena 象棋Gemini-2.5-Flash 78% 的失利源于非法走子
  • 不是策略性失误——是根本违反规则

为什么 LLM 会失败

  1. 内部世界模型不完整LLM 的 next-token prediction 训练目标不保证学到的状态转移函数与实际环境一致
  2. 幻觉合法转移:模型可能"自信地"断言一个非法动作是合法的
  3. Tree of Thoughts 等方法的局限:搜索依赖 LLM 的内部模拟,合法转移可能被 hallucinate

解决方案

  • 外部验证器(如 autoharness):将合法判定 offload 到可验证的代码
  • Fine-tuning on game trajectories:昂贵且损害通用能力
  • 手写 harness:脆弱且不可扩展

AI 规划领域的关联

Action applicability 在 AI 规划社区Kokel et al., 2025中有长期研究历史但在 LLM Agent 兴起后变得尤为紧迫——LLM 的通用能力与结构环境中的可靠性之间存在根本张力。

相关