20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,50 @@
---
title: "迷宫导航 (Maze Navigation)"
domain: "Multimodal AI / Topological Reasoning"
tags: [maze, navigation, topological-reasoning, visual-primitives, dfs]
sources: [[thinking-with-visual-primitives]]
---
# 迷宫导航 (Maze Navigation)
> 利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。
## 任务定义
给定一张迷宫图像(标记起点和终点),模型需要:
1. 判断是否存在可行路径
2. 如果可解,输出经过验证的具体路径(坐标序列)
3. 最终给出 `True`/`False` 判断
## 为什么需要视觉原语
纯语言 CoT 在迷宫导航中几乎不可能:
- 无法用语言精确描述不规则形状的路径
- 需要空间连续性判断(这堵墙是否完全阻挡了通路?)
- 需要回溯(「此路不通→返回上一个岔路口」)
[[visual-primitives|视觉原语]](点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。
## 数据构造
- **生成算法**DFS、Prim、Kruskal → 生成非平凡迷宫
- **拓扑类型**:矩形网格、圆形同心环、六边形蜂巢
- **不可解迷宫**:在可行路径中段添加墙壁,断开连通性
- **难度控制**:网格大小(推理步数)→ Easy 到 Nightmare
- **视觉多样性**:渐变墙、不同背景、多种标记、随机旋转
- **冷启动规模****460,000** 样本
## 奖励模型设计
[[specialized-rl|专项强化学习]] 阶段的迷宫 Accuracy RM
- 因果探索进度(遇墙违规 → 截断后续)
- 探索完整性(不可解迷宫需穷举可达区域)
- 墙违规惩罚
- 最终路径有效性
- 答案正确性
## 相关概念
- [[path-tracing|路径追踪]] — 互补的拓扑推理任务
- [[visual-primitives|视觉原语]] — 点原语
- [[bidirectional-trajectory-evaluation|双向轨迹评估]] — 路径评估方法