Files
myWiki/concepts/maze-navigation.md

50 lines
1.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "迷宫导航 (Maze Navigation)"
domain: "Multimodal AI / Topological Reasoning"
tags: [maze, navigation, topological-reasoning, visual-primitives, dfs]
sources: [[thinking-with-visual-primitives]]
---
# 迷宫导航 (Maze Navigation)
> 利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。
## 任务定义
给定一张迷宫图像(标记起点和终点),模型需要:
1. 判断是否存在可行路径
2. 如果可解,输出经过验证的具体路径(坐标序列)
3. 最终给出 `True`/`False` 判断
## 为什么需要视觉原语
纯语言 CoT 在迷宫导航中几乎不可能:
- 无法用语言精确描述不规则形状的路径
- 需要空间连续性判断(这堵墙是否完全阻挡了通路?)
- 需要回溯(「此路不通→返回上一个岔路口」)
[[visual-primitives|视觉原语]](点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。
## 数据构造
- **生成算法**DFS、Prim、Kruskal → 生成非平凡迷宫
- **拓扑类型**:矩形网格、圆形同心环、六边形蜂巢
- **不可解迷宫**:在可行路径中段添加墙壁,断开连通性
- **难度控制**:网格大小(推理步数)→ Easy 到 Nightmare
- **视觉多样性**:渐变墙、不同背景、多种标记、随机旋转
- **冷启动规模****460,000** 样本
## 奖励模型设计
[[specialized-rl|专项强化学习]] 阶段的迷宫 Accuracy RM
- 因果探索进度(遇墙违规 → 截断后续)
- 探索完整性(不可解迷宫需穷举可达区域)
- 墙违规惩罚
- 最终路径有效性
- 答案正确性
## 相关概念
- [[path-tracing|路径追踪]] — 互补的拓扑推理任务
- [[visual-primitives|视觉原语]] — 点原语
- [[bidirectional-trajectory-evaluation|双向轨迹评估]] — 路径评估方法