38 lines
1.5 KiB
Markdown
38 lines
1.5 KiB
Markdown
---
|
||
title: "思维链 (Chain-of-Thought, CoT)"
|
||
domain: "AI / Reasoning"
|
||
tags: [chain-of-thought, reasoning, prompt-engineering]
|
||
sources: [[thinking-with-visual-primitives]]
|
||
---
|
||
|
||
# 思维链 (Chain-of-Thought, CoT)
|
||
|
||
> 一种通过显式生成中间推理步骤来增强大语言模型复杂推理能力的技术。
|
||
|
||
## 定义
|
||
|
||
Chain-of-Thought (CoT) 是让模型在给出最终答案前,先生成一系列中间推理步骤的方法。这些步骤模拟人类的「出声思考」过程,显著提升算术、逻辑、常识推理等任务的准确率。
|
||
|
||
## 多模态 CoT 的局限
|
||
|
||
在 [[multimodal-large-language-model|多模态大语言模型]] 中,传统 CoT 的推理链**完全局限在语言空间**:
|
||
- 语言描述空间关系天然模糊(「在 A 左边的右边那个…」)
|
||
- 无法精确指代密集场景中的特定实例
|
||
- 推理链可能脱离视觉证据,产生级联幻觉
|
||
|
||
## 视觉原语增强的 CoT
|
||
|
||
[[visual-primitives|视觉原语]] 框架将 CoT 从纯语言空间扩展到语言+视觉混合空间:
|
||
|
||
```
|
||
传统 CoT: "左边有 3 个球,右边有 2 个球,一共 5 个"
|
||
视觉 CoT: "<|box|>[[x1,y1,x2,y2],...]<|/box|> 左边 3 个,右边 2 个,一共 5 个"
|
||
```
|
||
|
||
通过直接输出归一化坐标,视觉原语使 CoT 的每一步推理都有对应的、可验证的空间锚点。
|
||
|
||
## 相关概念
|
||
|
||
- [[visual-primitives|视觉原语]] — CoT 的视觉扩展
|
||
- [[reference-gap|引用鸿沟]] — 纯语言 CoT 的根本局限
|
||
- [[system-2-thinking|System-2 思维]] — CoT 的理论基础 |