1.6 KiB
1.6 KiB
title, created, type, tags
| title | created | type | tags | ||||
|---|---|---|---|---|---|---|---|
| Next-State Grounding | 2026-05-31 | concept |
|
Next-State Grounding(下一状态锚定)
Next-State Grounding 是 interleaved-gui-tool-trajectory-scaling 中的关键验证机制,用于确保合成工具轨迹与原始 GUI 轨迹的语义一致性。
定义
在将 GUI 轨迹转化为工具轨迹时,每个工具步骤的预期执行效果必须与原始轨迹中对应的实际 GUI 截图状态保持一致——即"将工具步骤锚定到原始轨迹的下一状态截图上"。
实现方式
- 生成纯工具轨迹:MLLM 从合成工具库中选择工具,为每个步骤生成 CoT 理由和预期响应
- 状态锚定:MLLM 将工具步骤的预期效果与原始 GUI 轨迹中的对应截图进行比对
- 一致性验证:检验预测的执行效果是否与实际 GUI 状态匹配
为什么重要?
合成工具轨迹面临的核心风险是幻觉:
- 工具可能被错误调用
- 参数可能不合理
- 执行结果可能与预期不符
Next-State Grounding 通过利用原始 GUI 轨迹中已有的真实截图作为 ground truth,在合成过程中就过滤掉不一致的轨迹,确保数据质量。
与其他概念的关联
- interleaved-gui-tool-trajectory-scaling:本机制所属的更大流水线
- toolcua-optimal-gui-tool-orchestration:使用此机制确保合成数据质量
- agentic-systems:grounding 在 agent 系统中作为连接推理和现实的桥梁