1.9 KiB
1.9 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 路径追踪 (Path Tracing) | Multimodal AI / Visual Reasoning |
|
|
路径追踪 (Path Tracing)
利用点视觉原语在纠缠曲线中追踪目标路径,识别端点——测试模型「线连续性判断」的原语能力。
任务定义
给定一张包含多条 Bézier 曲线的图像(每条连接一个标记起点到一个标记终点),模型需要:
- 从指定起点出发
- 沿着曲线追踪(处理与其他曲线的交叉点)
- 识别到达的端点
核心挑战:交叉点消歧
在曲线交叉处,模型必须调用局部几何连续性判断来决定哪条分支是目标曲线的延续。这要求模型具备真正的「路径追踪原语」,而非靠颜色匹配。
- 统一风格模式(uniform-style mode):所有线颜色和粗细相同,消除颜色捷径
难度控制
- 曲线数量 + 曲率振幅
- Easy:少量平缓曲线,交叉稀疏
- Hard:大量紧密卷曲曲线,密集交叉点
思维内容格式
<|point|>[[x1,y1],[x2,y2],...[xn,yn]]<|/point|>
- 坐标密度自适应局部几何:直段稀疏,弯曲/交叉区域密集
- 模拟人类在复杂区域的「慢下来仔细观察」策略
奖励模型设计
bidirectional-trajectory-evaluation 是核心:
- 前向偏差:预测点到真实曲线的最小距离(惩罚偏离)
- 反向覆盖率:真实曲线点被预测覆盖的程度(惩罚遗漏)
- 端点精度 + 连续性惩罚 + 答案正确性
冷启动规模:125,000 样本
相关概念
- maze-navigation — 互补的拓扑推理任务
- bidirectional-trajectory-evaluation — 核心评估方法
- visual-primitives — 点原语