1.9 KiB
1.9 KiB
title, domain, tags, sources
| title | domain | tags | sources | |||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 迷宫导航 (Maze Navigation) | Multimodal AI / Topological Reasoning |
|
|
迷宫导航 (Maze Navigation)
利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。
任务定义
给定一张迷宫图像(标记起点和终点),模型需要:
- 判断是否存在可行路径
- 如果可解,输出经过验证的具体路径(坐标序列)
- 最终给出
True/False判断
为什么需要视觉原语
纯语言 CoT 在迷宫导航中几乎不可能:
- 无法用语言精确描述不规则形状的路径
- 需要空间连续性判断(这堵墙是否完全阻挡了通路?)
- 需要回溯(「此路不通→返回上一个岔路口」)
visual-primitives(点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。
数据构造
- 生成算法:DFS、Prim、Kruskal → 生成非平凡迷宫
- 拓扑类型:矩形网格、圆形同心环、六边形蜂巢
- 不可解迷宫:在可行路径中段添加墙壁,断开连通性
- 难度控制:网格大小(推理步数)→ Easy 到 Nightmare
- 视觉多样性:渐变墙、不同背景、多种标记、随机旋转
- 冷启动规模:460,000 样本
奖励模型设计
specialized-rl 阶段的迷宫 Accuracy RM:
- 因果探索进度(遇墙违规 → 截断后续)
- 探索完整性(不可解迷宫需穷举可达区域)
- 墙违规惩罚
- 最终路径有效性
- 答案正确性
相关概念
- path-tracing — 互补的拓扑推理任务
- visual-primitives — 点原语
- bidirectional-trajectory-evaluation — 路径评估方法