Files
myWiki/papers/onereason.md

2.8 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
OneReason: 生成式推荐中的推理能力解锁 2026-06-10 2026-06-10 paper
recommendation
reasoning
chain-of-thought
generative-model
rl
raw/papers/onereason-team-onereason-2026.md
high

OneReason: 生成式推荐中的推理能力解锁

arXiv:2606.06260 | OneRec Team (Kuaishou) | 2026-06-04 从「缩放优势」到「推理优势」——让生成式推荐模型真正学会「先思考再推荐」

核心问题

onerec 系列生成式推荐模型在工业界(快手短视频、直播、广告、电商)已广泛部署,但这些模型只能享受 Scaling 红利,推理能力难以激活——因为纯 itemic-tokens 序列无法构造有意义的 chain-of-thought

初步探索OneRec-Think、OpenOneRec虽成功将「think before answer」范式推广到推荐任务却出现意外现象thinking mode 并不优于 non-thinking mode

方法论贡献

借鉴多模态 LLM 中 CoT 鲁棒性的研究,本文提出推荐推理的两大支柱:

  1. perception-cognition-recommendation:将 itemic token 深度对齐到其底层语言语义,使其成为可指称、可组合的语义单元
  2. perception-cognition-recommendation:设计推荐专用的三层 CoT 结构来支撑审慎推理

基于此提出 OneReason,包含三个技术阶段:

阶段 技术 目标
Pre-training 强化 [[itemic-text-alignment itemic-text 对齐]]
SFT 三层 [[recommendation-cot cognition-enhanced CoT]]
RL [[specialize-then-unify-rl specialize-then-unify]]

关键发现

评估体系

onereason-bench 按 R0→R3 四层递进评估推荐推理能力。

开源

OneReason-8B 和 OneReason-0.8B 模型将开源。

参考