20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/gui-tool-hybrid-action-space.md
+++ b/concepts/gui-tool-hybrid-action-space.md
@@ -0,0 +1,42 @@
+---
+title: "GUI-Tool Hybrid Action Space"
+created: 2026-05-31
+type: concept
+tags: [agents, gui, tool-calling, action-space]
+---
+
+# GUI-Tool 混合动作空间
+
+**GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间：
+
+- **$A_{\text{GUI}}$**：原子级 GUI 操作（坐标点击、键盘输入、滚动等）
+- **$A_{\text{Tool}}$**：高层结构化工具调用（API 操作文件、设置应用参数、执行命令等）
+
+形式化定义：$A = A_{\text{GUI}} \cup A_{\text{Tool}}$
+
+## 互补性
+
+| 维度 | GUI 动作 | 工具调用 |
+|------|---------|---------|
+| **泛化能力** | 广泛（任何可见元素） | 受限（受工具覆盖范围约束） |
+| **效率** | 低（多步完成简单操作） | 高（单次调用替代多次 GUI） |
+| **可靠性** | 低（坐标依赖，易出错） | 高（确定性 API） |
+| **灵活性** | 高（处理未定义场景） | 低（仅限 predefined APIs） |
+
+## 核心困境
+
+**直接暴露混合空间 ≠ 自动获得混合能力**。
+
+[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明，所有基线模型在混合动作空间下的表现**都下降**了：
+- EvoCUA-32B: 52.6% → 40.5% (-12.1%)
+- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
+- Qwen3VL-8B: 29.0% → 28.2% (-0.8%)
+
+原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。
+
+## 解决方案
+
+[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练：
+1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]]
+2. [[tool-bootstrapped-rft|工具引导的强化微调]]
+3. [[tool-efficient-path-reward|在线 Agentic RL]]