Files
myWiki/concepts/maze-navigation.md

1.9 KiB
Raw Blame History

title, domain, tags, sources
title domain tags sources
迷宫导航 (Maze Navigation) Multimodal AI / Topological Reasoning
maze
navigation
topological-reasoning
visual-primitives
dfs
thinking-with-visual-primitives

迷宫导航 (Maze Navigation)

利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。

任务定义

给定一张迷宫图像(标记起点和终点),模型需要:

  1. 判断是否存在可行路径
  2. 如果可解,输出经过验证的具体路径(坐标序列)
  3. 最终给出 True/False 判断

为什么需要视觉原语

纯语言 CoT 在迷宫导航中几乎不可能:

  • 无法用语言精确描述不规则形状的路径
  • 需要空间连续性判断(这堵墙是否完全阻挡了通路?)
  • 需要回溯(「此路不通→返回上一个岔路口」)

visual-primitives(点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。

数据构造

  • 生成算法DFS、Prim、Kruskal → 生成非平凡迷宫
  • 拓扑类型:矩形网格、圆形同心环、六边形蜂巢
  • 不可解迷宫:在可行路径中段添加墙壁,断开连通性
  • 难度控制:网格大小(推理步数)→ Easy 到 Nightmare
  • 视觉多样性:渐变墙、不同背景、多种标记、随机旋转
  • 冷启动规模460,000 样本

奖励模型设计

specialized-rl 阶段的迷宫 Accuracy RM

  • 因果探索进度(遇墙违规 → 截断后续)
  • 探索完整性(不可解迷宫需穷举可达区域)
  • 墙违规惩罚
  • 最终路径有效性
  • 答案正确性

相关概念