SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.0 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

思维链 (Chain-of-Thought, CoT)

AI / Reasoning

chain-of-thought

reasoning

prompt-engineering

thinking-with-visual-primitives

思维链 (Chain-of-Thought, CoT)

一种通过显式生成中间推理步骤来增强大语言模型复杂推理能力的技术。

定义

Chain-of-Thought (CoT) 是让模型在给出最终答案前，先生成一系列中间推理步骤的方法。这些步骤模拟人类的「出声思考」过程，显著提升算术、逻辑、常识推理等任务的准确率。

多模态 CoT 的局限

在 multimodal-large-language-model 中，传统 CoT 的推理链完全局限在语言空间：

语言描述空间关系天然模糊（「在 A 左边的右边那个…」）
无法精确指代密集场景中的特定实例
推理链可能脱离视觉证据，产生级联幻觉

视觉原语增强的 CoT

visual-primitives 框架将 CoT 从纯语言空间扩展到语言+视觉混合空间：

传统 CoT:  "左边有 3 个球，右边有 2 个球，一共 5 个"
视觉 CoT:  "<|box|>[[x1,y1,x2,y2],...]<|/box|> 左边 3 个，右边 2 个，一共 5 个"

通过直接输出归一化坐标，视觉原语使 CoT 的每一步推理都有对应的、可验证的空间锚点。

推荐系统中的 CoT

recommendation-cot 将思维链范式引入 generative-recommendation 领域，面临独特的挑战：item token 本身不携带语言语义，且推荐是 abductive-reasoning-recommendation（从行为反推隐含兴趣）而非演绎推理。onereason 提出三层 CoT 结构（Derivation → Evolution → Recommendation）来解决这一问题。

相关概念

visual-primitives — CoT 的视觉扩展
reference-gap — 纯语言 CoT 的根本局限
system-2-thinking — CoT 的理论基础
recommendation-cot — CoT 在推荐系统中的特化