36 lines
1.6 KiB
Markdown
36 lines
1.6 KiB
Markdown
---
|
||
title: "Next-State Grounding"
|
||
created: 2026-05-31
|
||
type: concept
|
||
tags: [data-synthesis, grounding, gui-tool, tool-trajectory]
|
||
---
|
||
|
||
# Next-State Grounding(下一状态锚定)
|
||
|
||
**Next-State Grounding** 是 [[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 中的关键验证机制,用于确保合成工具轨迹与原始 GUI 轨迹的语义一致性。
|
||
|
||
## 定义
|
||
|
||
在将 GUI 轨迹转化为工具轨迹时,每个工具步骤的**预期执行效果**必须与原始轨迹中对应的**实际 GUI 截图状态**保持一致——即"将工具步骤锚定到原始轨迹的下一状态截图上"。
|
||
|
||
## 实现方式
|
||
|
||
1. **生成纯工具轨迹**:MLLM 从合成工具库中选择工具,为每个步骤生成 CoT 理由和预期响应
|
||
2. **状态锚定**:MLLM 将工具步骤的预期效果与原始 GUI 轨迹中的对应截图进行比对
|
||
3. **一致性验证**:检验预测的执行效果是否与实际 GUI 状态匹配
|
||
|
||
## 为什么重要?
|
||
|
||
合成工具轨迹面临的核心风险是**幻觉**:
|
||
- 工具可能被错误调用
|
||
- 参数可能不合理
|
||
- 执行结果可能与预期不符
|
||
|
||
Next-State Grounding 通过**利用原始 GUI 轨迹中已有的真实截图作为 ground truth**,在合成过程中就过滤掉不一致的轨迹,确保数据质量。
|
||
|
||
## 与其他概念的关联
|
||
|
||
- [[interleaved-gui-tool-trajectory-scaling]]:本机制所属的更大流水线
|
||
- [[toolcua-optimal-gui-tool-orchestration|ToolCUA]]:使用此机制确保合成数据质量
|
||
- [[agentic-systems]]:grounding 在 agent 系统中作为连接推理和现实的桥梁
|