20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/reviews/one-pass-to-reason-review-20260602.md
+++ b/reviews/one-pass-to-reason-review-20260602.md
@@ -0,0 +1,72 @@
+---
+title: "Review: One-Pass to Reason — 多轮推理的高效单遍微调"
+created: 2026-06-02
+type: review
+paper: "[[goru-one-pass-to-reason-2025]]"
+---
+
+# Review: One-Pass to Reason
+
+> 📌 将多轮推理训练的 N 遍前向传播压缩为单遍——Token 复制 + 分块稀疏注意力 → O(N³) → O(N²)
+
+## 基本信息
+
+- **论文**: One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
+- **作者**: Ritesh Goru, Shanay Mehta, Prateek Jain (DevRev)
+- **发表**: ICML 2025 Workshop — 3rd Workshop on Efficient Systems for Foundational Models
+- **arXiv**: 2504.18246
+- **代码**: [github.com/devrev/One-Pass-to-Reason](https://github.com/devrev/One-Pass-to-Reason)
+- **数据集**: [MathChatSync Reasoning](https://huggingface.co/datasets/devrev-research/MathChatSync-reasoning)
+- **添加时间**: 2026-06-02
+
+## 核心概念
+
+1. **[[one-pass-fine-tuning|One-Pass Fine-Tuning]]** — 通过 token 复制 + 自定义掩码实现单遍处理，Theorem 2.1 证明 loss 与 N-Pass 完全等价
+2. **[[token-duplication|Token Duplication]]** — 将 response token 复制为 ri_in（上下文，不看推理）和 ri_out（生成，看推理）
+3. **[[block-sparse-attention|Block-Sparse Attention Mask]]** — 为不同 token 类型定制可见性规则的分块掩码
+4. **[[multi-turn-reasoning|Multi-Turn Reasoning Training]]** — 区别于传统多轮对话的独特训练挑战
+5. **[[visibility-constraint|Visibility Constraint]]** — 推理 token 对当前轮可见、对后续轮不可见的条件性可见需求
+6. **[[position-id-discrepancy|Position ID Discrepancy]]** — 回复 token 在生成与上下文两种场景中的位置不一致问题
+7. **[[k-pass-training|K-Pass Training]]** — N-Pass 与 1-Pass 之间的灵活连续统
+8. **[[mathchatsync-reasoning|MathChatSync Reasoning]]** — 首个公开多轮推理数据集
+
+## 概念网络
+
+**核心连接**（论文直接贡献的概念链）：
+```
+One-Pass Fine-Tuning
+├── Token Duplication ──── Block-Sparse Attention Mask
+│                              └── FlexAttention
+├── Visibility Constraint ─ Position ID Discrepancy
+├── K-Pass Training (速度-内存权衡)
+└── Multi-Turn Reasoning Training
+       └── MathChatSync Reasoning (数据集)
+```
+
+**扩展网络**（桥接已有知识库）：
+- → [[goru-one-pass-to-reason-2025|One-Pass to Reason]]
+- → [[flex-attention|FlexAttention]]（后端）
+- → [[flash-attention|FlashAttention-2]]（基线）
+- → [[sequence-packing|Sequence Packing]]（叠加优化）
+- → [[deepseek-r1|DeepSeek-R1]]（推理模型代表）
+- → [[llama-factory|LLaMA-Factory]]（实现框架）
+- → [[qlora|QLoRA]]（微调方法）
+- → [[lora|LoRA]]
+- → [[position-encoding|Position Encoding]]
+
+6 个占位符概念已创建并入网。
+
+## Wiki 集成
+
+- **新增页面**: 15 个（1 raw + 1 论文 + 8 核心概念 + 6 占位符）
+- **链接密度**: 核心概念平均 4-6 个双向链接
+- **网络完整**: 100% 无断链
+- **总规模**: 546 → 561 页
+
+## 关键洞察
+
+1. **空间换时间的优雅实例**：多存一份 response（+33% 内存）换来 O(N) 量级的加速。这在工程实践中是极好的 trade-off。
+
+2. **问题本身比解法更值得关注**：多轮推理训练的"可见性约束 + 位置 ID 偏差"这一对偶挑战，是在推理模型普及后才暴露出来的真实痛点——此前没人认真对待，因为根本没有多轮推理数据集。
+
+3. **K-Pass 提供了工程灵活性**：不是非黑即白的 1-Pass vs N-Pass，而是一个连续统。对于生产环境，K=2（+21% 内存，+37% 加速）可能是最实用的配置。