OneReason-Bench

OneReason 提出的推荐推理评测基准，按 R0-R3 四层递进评估生成式推荐模型的推理能力。

设计动机

RecIF-Bench (OpenOneRec) 虽然拓宽了推荐基础模型的评估范围，但其推理评估仍是粗粒度的、不够诊断性。OneReason-Bench 将其扩展为多层次推理评测。

层次	任务类型	核心指标
R0: Perception	Item Understanding, Pattern Grounding, Item QA	LLM-as-a-Judge, Pass@K, Accuracy
R1: Derivation	Item2Item 关联	Accuracy
R2: Evolution	演化行为选择/主题生成/链生成	F1, Action-Logic Score
R3: Recommendation	单域/跨域推荐	Pass@K, Recall@K

所有任务形式化为序列生成 Y = F(X)：

OneReason-Bench 不仅是排行榜，更是测量协议——在每个开发阶段为设计决策提供依据、监控和验证。