SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.6 KiB

Raw Blame History

title, created, type, tags

title

created

type

tags

OneReason Review — 生成式推荐的推理能力解锁

2026-06-10

review

review

onereason

recommendation

reasoning

OneReason Review — 生成式推荐的推理能力解锁

arXiv:2606.06260 | OneRec Team (Kuaishou) | 2026-06-10 集成

📌 基本信息

论文: OneReason Technical Report
作者: OneRec Team (Kuaishou, 40+ 作者)
领域: 推荐系统 × LLM 推理 | cs.IR, cs.AI, cs.CL
特色: 工业级生成式推荐推理模型，快手多业务线部署验证

🎯 核心概念

Perception-Cognition 双支柱 — 推荐推理需要感知（itemic token 语义 grounding）+ 认知（结构化 CoT），缺一不可
R0-R3 四层推理 — Perception → Derivation → Evolution → Recommendation，从语义锚定到综合推荐决策
Specialize-then-Unify RL — 先单域专项 RL 释放 thinking 优势，再跨域统一，逆向于 LLM 的「先广泛后专项」
溯因推理 (Abduction) — 推荐推理本质是溯因不是演绎，从行为反推不可观测的用户意图
Thinking Supervision Transfer — CoT 监督数据可提升 non-thinking mode，但机制未明（压缩？推理？交互？）

🔗 概念网络

核心连接：

onereason ↔ onerec ↔ generative-recommendation ↔ itemic-tokens
onereason ↔ perception-cognition-recommendation ↔ recommendation-reasoning
onereason ↔ recommendation-cot ↔ chain-of-thought
onereason ↔ specialize-then-unify-rl ↔ {rejection-sampling-fine-tuning, multi-teacher-on-policy-distillation}

扩展网络：连接了 13 个全新概念 + 更新 1 个已有概念 (chain-of-thought)，建立了推荐推理与 LLM 推理的跨域桥接。

📚 Wiki 集成

新增页面：14 个（1 论文 + 13 概念）
更新页面：1 个（chain-of-thought 追加推荐 CoT 段落）
链接完整性：✅ 100% 无断链
总规模：666 → 680 页

💡 关键洞察

推荐推理的独特性被系统性论证 — OneReason 不仅是工程报告，更是对「推荐为何需要自己的推理范式」的理论回答：纯 itemic token 无语义（需要 Perception）、推荐无单一正确答案且意图不可观测（需要 Abduction）、多域下 thinking 优势脆弱（需要 Specialize-then-Unify）。
工业实践与学术研究的罕见对齐 — 快手在短视频/直播/广告/电商四个真实业务线验证了 CoT 对推荐的价值，且将开源 8B 和 0.8B 模型。这种「工业验证 + 学术系统化 + 开源」的组合在推荐领域极为稀有。