Files
myWiki/concepts/next-state-grounding.md
2026-06-01 10:46:01 +08:00

36 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Next-State Grounding"
created: 2026-05-31
type: concept
tags: [data-synthesis, grounding, gui-tool, tool-trajectory]
---
# Next-State Grounding下一状态锚定
**Next-State Grounding** 是 [[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 中的关键验证机制,用于确保合成工具轨迹与原始 GUI 轨迹的语义一致性。
## 定义
在将 GUI 轨迹转化为工具轨迹时,每个工具步骤的**预期执行效果**必须与原始轨迹中对应的**实际 GUI 截图状态**保持一致——即"将工具步骤锚定到原始轨迹的下一状态截图上"。
## 实现方式
1. **生成纯工具轨迹**MLLM 从合成工具库中选择工具,为每个步骤生成 CoT 理由和预期响应
2. **状态锚定**MLLM 将工具步骤的预期效果与原始 GUI 轨迹中的对应截图进行比对
3. **一致性验证**:检验预测的执行效果是否与实际 GUI 状态匹配
## 为什么重要?
合成工具轨迹面临的核心风险是**幻觉**
- 工具可能被错误调用
- 参数可能不合理
- 执行结果可能与预期不符
Next-State Grounding 通过**利用原始 GUI 轨迹中已有的真实截图作为 ground truth**,在合成过程中就过滤掉不一致的轨迹,确保数据质量。
## 与其他概念的关联
- [[interleaved-gui-tool-trajectory-scaling]]:本机制所属的更大流水线
- [[toolcua-optimal-gui-tool-orchestration|ToolCUA]]:使用此机制确保合成数据质量
- [[agentic-systems]]grounding 在 agent 系统中作为连接推理和现实的桥梁