20260514:增加新内容
This commit is contained in:
50
concepts/maze-navigation.md
Normal file
50
concepts/maze-navigation.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "迷宫导航 (Maze Navigation)"
|
||||
domain: "Multimodal AI / Topological Reasoning"
|
||||
tags: [maze, navigation, topological-reasoning, visual-primitives, dfs]
|
||||
sources: [[thinking-with-visual-primitives]]
|
||||
---
|
||||
|
||||
# 迷宫导航 (Maze Navigation)
|
||||
|
||||
> 利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。
|
||||
|
||||
## 任务定义
|
||||
|
||||
给定一张迷宫图像(标记起点和终点),模型需要:
|
||||
1. 判断是否存在可行路径
|
||||
2. 如果可解,输出经过验证的具体路径(坐标序列)
|
||||
3. 最终给出 `True`/`False` 判断
|
||||
|
||||
## 为什么需要视觉原语
|
||||
|
||||
纯语言 CoT 在迷宫导航中几乎不可能:
|
||||
- 无法用语言精确描述不规则形状的路径
|
||||
- 需要空间连续性判断(这堵墙是否完全阻挡了通路?)
|
||||
- 需要回溯(「此路不通→返回上一个岔路口」)
|
||||
|
||||
[[visual-primitives|视觉原语]](点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。
|
||||
|
||||
## 数据构造
|
||||
|
||||
- **生成算法**:DFS、Prim、Kruskal → 生成非平凡迷宫
|
||||
- **拓扑类型**:矩形网格、圆形同心环、六边形蜂巢
|
||||
- **不可解迷宫**:在可行路径中段添加墙壁,断开连通性
|
||||
- **难度控制**:网格大小(推理步数)→ Easy 到 Nightmare
|
||||
- **视觉多样性**:渐变墙、不同背景、多种标记、随机旋转
|
||||
- **冷启动规模**:**460,000** 样本
|
||||
|
||||
## 奖励模型设计
|
||||
|
||||
[[specialized-rl|专项强化学习]] 阶段的迷宫 Accuracy RM:
|
||||
- 因果探索进度(遇墙违规 → 截断后续)
|
||||
- 探索完整性(不可解迷宫需穷举可达区域)
|
||||
- 墙违规惩罚
|
||||
- 最终路径有效性
|
||||
- 答案正确性
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[path-tracing|路径追踪]] — 互补的拓扑推理任务
|
||||
- [[visual-primitives|视觉原语]] — 点原语
|
||||
- [[bidirectional-trajectory-evaluation|双向轨迹评估]] — 路径评估方法
|
||||
Reference in New Issue
Block a user