2.8 KiB
2.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| OneReason: 生成式推荐中的推理能力解锁 | 2026-06-10 | 2026-06-10 | paper |
|
|
high |
OneReason: 生成式推荐中的推理能力解锁
arXiv:2606.06260 | OneRec Team (Kuaishou) | 2026-06-04 从「缩放优势」到「推理优势」——让生成式推荐模型真正学会「先思考再推荐」
核心问题
onerec 系列生成式推荐模型在工业界(快手短视频、直播、广告、电商)已广泛部署,但这些模型只能享受 Scaling 红利,推理能力难以激活——因为纯 itemic-tokens 序列无法构造有意义的 chain-of-thought。
初步探索(OneRec-Think、OpenOneRec)虽成功将「think before answer」范式推广到推荐任务,却出现意外现象:thinking mode 并不优于 non-thinking mode。
方法论贡献
借鉴多模态 LLM 中 CoT 鲁棒性的研究,本文提出推荐推理的两大支柱:
- perception-cognition-recommendation:将 itemic token 深度对齐到其底层语言语义,使其成为可指称、可组合的语义单元
- perception-cognition-recommendation:设计推荐专用的三层 CoT 结构来支撑审慎推理
基于此提出 OneReason,包含三个技术阶段:
| 阶段 | 技术 | 目标 |
|---|---|---|
| Pre-training | 强化 [[itemic-text-alignment | itemic-text 对齐]] |
| SFT | 三层 [[recommendation-cot | cognition-enhanced CoT]] |
| RL | [[specialize-then-unify-rl | specialize-then-unify]] |
关键发现
- Specialize-then-Unify:多域混合 RL 下 thinking mode 仍落后于 non-thinking mode,但单域 RL 下 consistently 超越。因此先做域内专项 RL,再通过 rejection-sampling-fine-tuning 或 multi-teacher-on-policy-distillation 做跨域平衡
- thinking-supervision-transfer:用 CoT 监督数据替换 unCoT 数据可提升 non-thinking mode 性能——CoT 监督信号可能迁移到直接解码
- abductive-reasoning-recommendation:推荐推理是溯因而非演绎——从行为序列反推隐含兴趣点
评估体系
onereason-bench 按 R0→R3 四层递进评估推荐推理能力。
开源
OneReason-8B 和 OneReason-0.8B 模型将开源。