3.6 KiB
3.6 KiB
title, created, type, paper
| title | created | type | paper |
|---|---|---|---|
| Review: One-Pass to Reason — 多轮推理的高效单遍微调 | 2026-06-02 | review | goru-one-pass-to-reason-2025 |
Review: One-Pass to Reason
📌 将多轮推理训练的 N 遍前向传播压缩为单遍——Token 复制 + 分块稀疏注意力 → O(N³) → O(N²)
基本信息
- 论文: One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
- 作者: Ritesh Goru, Shanay Mehta, Prateek Jain (DevRev)
- 发表: ICML 2025 Workshop — 3rd Workshop on Efficient Systems for Foundational Models
- arXiv: 2504.18246
- 代码: github.com/devrev/One-Pass-to-Reason
- 数据集: MathChatSync Reasoning
- 添加时间: 2026-06-02
核心概念
- one-pass-fine-tuning — 通过 token 复制 + 自定义掩码实现单遍处理,Theorem 2.1 证明 loss 与 N-Pass 完全等价
- token-duplication — 将 response token 复制为 ri_in(上下文,不看推理)和 ri_out(生成,看推理)
- block-sparse-attention — 为不同 token 类型定制可见性规则的分块掩码
- multi-turn-reasoning — 区别于传统多轮对话的独特训练挑战
- visibility-constraint — 推理 token 对当前轮可见、对后续轮不可见的条件性可见需求
- position-id-discrepancy — 回复 token 在生成与上下文两种场景中的位置不一致问题
- k-pass-training — N-Pass 与 1-Pass 之间的灵活连续统
- mathchatsync-reasoning — 首个公开多轮推理数据集
概念网络
核心连接(论文直接贡献的概念链):
One-Pass Fine-Tuning
├── Token Duplication ──── Block-Sparse Attention Mask
│ └── FlexAttention
├── Visibility Constraint ─ Position ID Discrepancy
├── K-Pass Training (速度-内存权衡)
└── Multi-Turn Reasoning Training
└── MathChatSync Reasoning (数据集)
扩展网络(桥接已有知识库):
- → goru-one-pass-to-reason-2025
- → flex-attention(后端)
- → flash-attention(基线)
- → sequence-packing(叠加优化)
- → deepseek-r1(推理模型代表)
- → llama-factory(实现框架)
- → qlora(微调方法)
- → lora
- → position-encoding
6 个占位符概念已创建并入网。
Wiki 集成
- 新增页面: 15 个(1 raw + 1 论文 + 8 核心概念 + 6 占位符)
- 链接密度: 核心概念平均 4-6 个双向链接
- 网络完整: 100% 无断链
- 总规模: 546 → 561 页
关键洞察
-
空间换时间的优雅实例:多存一份 response(+33% 内存)换来 O(N) 量级的加速。这在工程实践中是极好的 trade-off。
-
问题本身比解法更值得关注:多轮推理训练的"可见性约束 + 位置 ID 偏差"这一对偶挑战,是在推理模型普及后才暴露出来的真实痛点——此前没人认真对待,因为根本没有多轮推理数据集。
-
K-Pass 提供了工程灵活性:不是非黑即白的 1-Pass vs N-Pass,而是一个连续统。对于生产环境,K=2(+21% 内存,+37% 加速)可能是最实用的配置。