--- title: "迷宫导航 (Maze Navigation)" domain: "Multimodal AI / Topological Reasoning" tags: [maze, navigation, topological-reasoning, visual-primitives, dfs] sources: [[thinking-with-visual-primitives]] --- # 迷宫导航 (Maze Navigation) > 利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。 ## 任务定义 给定一张迷宫图像(标记起点和终点),模型需要: 1. 判断是否存在可行路径 2. 如果可解,输出经过验证的具体路径(坐标序列) 3. 最终给出 `True`/`False` 判断 ## 为什么需要视觉原语 纯语言 CoT 在迷宫导航中几乎不可能: - 无法用语言精确描述不规则形状的路径 - 需要空间连续性判断(这堵墙是否完全阻挡了通路?) - 需要回溯(「此路不通→返回上一个岔路口」) [[visual-primitives|视觉原语]](点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。 ## 数据构造 - **生成算法**:DFS、Prim、Kruskal → 生成非平凡迷宫 - **拓扑类型**:矩形网格、圆形同心环、六边形蜂巢 - **不可解迷宫**:在可行路径中段添加墙壁,断开连通性 - **难度控制**:网格大小(推理步数)→ Easy 到 Nightmare - **视觉多样性**:渐变墙、不同背景、多种标记、随机旋转 - **冷启动规模**:**460,000** 样本 ## 奖励模型设计 [[specialized-rl|专项强化学习]] 阶段的迷宫 Accuracy RM: - 因果探索进度(遇墙违规 → 截断后续) - 探索完整性(不可解迷宫需穷举可达区域) - 墙违规惩罚 - 最终路径有效性 - 答案正确性 ## 相关概念 - [[path-tracing|路径追踪]] — 互补的拓扑推理任务 - [[visual-primitives|视觉原语]] — 点原语 - [[bidirectional-trajectory-evaluation|双向轨迹评估]] — 路径评估方法