Files
myWiki/concepts/chain-of-thought.md

2.0 KiB
Raw Blame History

title, domain, tags, sources
title domain tags sources
思维链 (Chain-of-Thought, CoT) AI / Reasoning
chain-of-thought
reasoning
prompt-engineering
thinking-with-visual-primitives

思维链 (Chain-of-Thought, CoT)

一种通过显式生成中间推理步骤来增强大语言模型复杂推理能力的技术。

定义

Chain-of-Thought (CoT) 是让模型在给出最终答案前,先生成一系列中间推理步骤的方法。这些步骤模拟人类的「出声思考」过程,显著提升算术、逻辑、常识推理等任务的准确率。

多模态 CoT 的局限

multimodal-large-language-model 中,传统 CoT 的推理链完全局限在语言空间

  • 语言描述空间关系天然模糊(「在 A 左边的右边那个…」)
  • 无法精确指代密集场景中的特定实例
  • 推理链可能脱离视觉证据,产生级联幻觉

视觉原语增强的 CoT

visual-primitives 框架将 CoT 从纯语言空间扩展到语言+视觉混合空间:

传统 CoT:  "左边有 3 个球,右边有 2 个球,一共 5 个"
视觉 CoT:  "<|box|>[[x1,y1,x2,y2],...]<|/box|> 左边 3 个,右边 2 个,一共 5 个"

通过直接输出归一化坐标,视觉原语使 CoT 的每一步推理都有对应的、可验证的空间锚点。

推荐系统中的 CoT

recommendation-cot 将思维链范式引入 generative-recommendation 领域面临独特的挑战item token 本身不携带语言语义,且推荐是 abductive-reasoning-recommendation(从行为反推隐含兴趣)而非演绎推理。onereason 提出三层 CoT 结构Derivation → Evolution → Recommendation来解决这一问题。

相关概念