myWiki/maze-navigation.md at 2faf4bb002f59361c0913d96dc778b39c65a953f - myWiki - SZ CodeSpace

SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.9 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

迷宫导航 (Maze Navigation)

Multimodal AI / Topological Reasoning

maze

navigation

topological-reasoning

visual-primitives

dfs

thinking-with-visual-primitives

利用点视觉原语进行拓扑推理的典型任务：判断迷宫是否可解，探索并输出验证路径。

任务定义

给定一张迷宫图像（标记起点和终点），模型需要：

判断是否存在可行路径
如果可解，输出经过验证的具体路径（坐标序列）
最终给出 True/False 判断

为什么需要视觉原语

纯语言 CoT 在迷宫导航中几乎不可能：

无法用语言精确描述不规则形状的路径
需要空间连续性判断（这堵墙是否完全阻挡了通路？）
需要回溯（「此路不通→返回上一个岔路口」）

visual-primitives（点）天然适合：每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。

数据构造

生成算法：DFS、Prim、Kruskal → 生成非平凡迷宫
拓扑类型：矩形网格、圆形同心环、六边形蜂巢
不可解迷宫：在可行路径中段添加墙壁，断开连通性
难度控制：网格大小（推理步数）→ Easy 到 Nightmare
视觉多样性：渐变墙、不同背景、多种标记、随机旋转
冷启动规模：460,000 样本

奖励模型设计

specialized-rl 阶段的迷宫 Accuracy RM：

因果探索进度（遇墙违规 → 截断后续）
探索完整性（不可解迷宫需穷举可达区域）
墙违规惩罚
最终路径有效性
答案正确性

相关概念

path-tracing — 互补的拓扑推理任务
visual-primitives — 点原语
bidirectional-trajectory-evaluation — 路径评估方法