OneReason: 生成式推荐中的推理能力解锁

arXiv:2606.06260 | OneRec Team (Kuaishou) | 2026-06-04 从「缩放优势」到「推理优势」——让生成式推荐模型真正学会「先思考再推荐」

核心问题

onerec 系列生成式推荐模型在工业界（快手短视频、直播、广告、电商）已广泛部署，但这些模型只能享受 Scaling 红利，推理能力难以激活——因为纯 itemic-tokens 序列无法构造有意义的 chain-of-thought。

初步探索（OneRec-Think、OpenOneRec）虽成功将「think before answer」范式推广到推荐任务，却出现意外现象：thinking mode 并不优于 non-thinking mode。

借鉴多模态 LLM 中 CoT 鲁棒性的研究，本文提出推荐推理的两大支柱：

perception-cognition-recommendation：将 itemic token 深度对齐到其底层语言语义，使其成为可指称、可组合的语义单元
perception-cognition-recommendation：设计推荐专用的三层 CoT 结构来支撑审慎推理

基于此提出 OneReason，包含三个技术阶段：

Specialize-then-Unify：多域混合 RL 下 thinking mode 仍落后于 non-thinking mode，但单域 RL 下 consistently 超越。因此先做域内专项 RL，再通过 rejection-sampling-fine-tuning 或 multi-teacher-on-policy-distillation 做跨域平衡
thinking-supervision-transfer：用 CoT 监督数据替换 unCoT 数据可提升 non-thinking mode 性能——CoT 监督信号可能迁移到直接解码
abductive-reasoning-recommendation：推荐推理是溯因而非演绎——从行为序列反推隐含兴趣点