---
title: "思维链 (Chain-of-Thought, CoT)"
domain: "AI / Reasoning"
tags: [chain-of-thought, reasoning, prompt-engineering]
sources: [[thinking-with-visual-primitives]]
---

# 思维链 (Chain-of-Thought, CoT)

> 一种通过显式生成中间推理步骤来增强大语言模型复杂推理能力的技术。

## 定义

Chain-of-Thought (CoT) 是让模型在给出最终答案前，先生成一系列中间推理步骤的方法。这些步骤模拟人类的「出声思考」过程，显著提升算术、逻辑、常识推理等任务的准确率。

## 多模态 CoT 的局限

在 [[multimodal-large-language-model|多模态大语言模型]] 中，传统 CoT 的推理链**完全局限在语言空间**：
- 语言描述空间关系天然模糊（「在 A 左边的右边那个…」）
- 无法精确指代密集场景中的特定实例
- 推理链可能脱离视觉证据，产生级联幻觉

## 视觉原语增强的 CoT

[[visual-primitives|视觉原语]] 框架将 CoT 从纯语言空间扩展到语言+视觉混合空间：

```
传统 CoT:  "左边有 3 个球，右边有 2 个球，一共 5 个"
视觉 CoT:  "<|box|>[[x1,y1,x2,y2],...]<|/box|> 左边 3 个，右边 2 个，一共 5 个"
```

通过直接输出归一化坐标，视觉原语使 CoT 的每一步推理都有对应的、可验证的空间锚点。

## 推荐系统中的 CoT

[[recommendation-cot|推荐 CoT]] 将思维链范式引入 [[generative-recommendation|生成式推荐]] 领域，面临独特的挑战：item token 本身不携带语言语义，且推荐是 [[abductive-reasoning-recommendation|溯因推理]]（从行为反推隐含兴趣）而非演绎推理。[[onereason|OneReason]] 提出三层 CoT 结构（Derivation → Evolution → Recommendation）来解决这一问题。

## 相关概念

- [[visual-primitives|视觉原语]] — CoT 的视觉扩展
- [[reference-gap|引用鸿沟]] — 纯语言 CoT 的根本局限
- [[system-2-thinking|System-2 思维]] — CoT 的理论基础
- [[recommendation-cot|推荐 CoT]] — CoT 在推荐系统中的特化