Files
myWiki/concepts/interleaved-gui-tool-trajectory-scaling.md
2026-06-01 10:46:01 +08:00

46 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Interleaved GUI-Tool Trajectory Scaling Pipeline"
created: 2026-05-31
type: concept
tags: [data-synthesis, gui-tool, trajectory-scaling, tool-synthesis]
---
# Interleaved GUI-Tool Trajectory Scaling Pipeline
**Interleaved GUI-Tool Trajectory Scaling Pipeline** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文提出的数据扩展流水线,用于从**已有的纯 GUI 轨迹语料库**合成**大规模 GUI-Tool 交错轨迹数据**。
## 核心思想
> Repurpose重利用现有纯 GUI 轨迹 + MLLM 合成工具库 → 无需人工标注即可大规模生成 GUI-Tool 交错数据
## 四步流程
### 1. Trajectory Filtering & Balancing
- 从开放数据集按执行质量、任务长度、应用覆盖筛选
- 跨领域平衡分布,提供稳定的合成源
### 2. Trajectory-Aware Synthetic Tool Library Construction
- **MLLM**(如 Kimi-K2.5、Claude-4.5-Sonnet分析每条 GUI 轨迹
- 从观察到的 GUI 过程**抽象出可调用的高层操作**
- 每个工具包含:函数签名、自然语言描述、参数语义
- 支持多粒度:从单步包装(`chrome_open_settings`)到多步组合(`chrome_open_language_settings`
### 3. Tool Trajectory Generation with Next-State Grounding
- 用合成工具库生成等效的"纯工具"轨迹
- **[[next-state-grounding|Next-State Grounding]]**:将工具步骤锚定到原始 GUI 轨迹的对应截图上,验证执行效果一致性
- **Bottom-up Merging**:将相邻细粒度步骤逐步合并为更高层的复合工具调用
### 4. Interleaved GUI-Tool Trajectory Generation
- 随机选取部分工具调用,替换为原始 GUI 操作序列
- 同时从工具库中移除被替换的工具 → 构建"部分工具可用"的上下文
- 生成多样化的交错变体($\mathcal{D}_{\text{all}}$
- 每次替换自然暴露两类切换边界($\mathcal{D}_{\text{critical}}$GUI→Tool 和 Tool→GUI
## 三维扩展
| 维度 | 扩展内容 |
|------|---------|
| **Tool Functionality** | 跨应用域的工具功能覆盖 |
| **Tool Granularity** | 从原子工具到复合技能 |
| **Switching Context** | 覆盖工具更有益/更无益的场景 |