20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/reinforcement-learning.md
+++ b/concepts/reinforcement-learning.md
@@ -0,0 +1,61 @@
+---
+title: "强化学习 (Reinforcement Learning)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [reinforcement-learning, training, fundamental]
+sources: [raw/papers/zhang-tarpo-2026.md]
+confidence: high
+---
+
+# 强化学习 (Reinforcement Learning)
+
+强化学习（RL）是一种通过**试错和奖励信号**学习最优策略的机器学习范式。在 LLM 时代，RL 已成为后训练（post-training）的核心方法论。
+
+## 基本框架
+
+- **智能体**（Agent）：在环境中采取行动
+- **状态**（State）：环境的当前描述
+- **动作**（Action）：智能体的可选项
+- **奖励**（Reward）：环境对动作的反馈信号
+- **策略**（Policy）：从状态到动作的映射 `π(a|s)`
+
+目标：最大化累积期望奖励。
+
+## LLM 中的 RL
+
+在 LLM 训练中，RL 主要用于**对齐和推理能力增强**：
+
+### 策略梯度方法
+- **[[grpo|GRPO]]**（Group Relative Policy Optimization）：基于组内相对优势的策略优化，DeepSeek-R1 和许多推理模型的核心训练方法
+- **[[group-relative-policy-optimization]]**：GRPO 的通用形式
+- **PPO**（Proximal Policy Optimization）：ChatGPT/InstructGPT 的训练方法
+- **REINFORCE**：最基础的策略梯度方法
+
+### 奖励设计
+- **[[reward-model|Reward Model]]**：学习预测人类偏好的模型
+- **[[rlhf|RLHF]]**（RL from Human Feedback）：通过人类偏好训练
+- **Outcome Reward**：基于最终答案正确性的奖励（如数学题）
+- **Process Reward**：基于推理过程的奖励
+
+### 应用场景
+- **推理 RL**：[[tarpo|TARPO]]、DeepSeek-R1 等，使用 RL 增强推理能力
+- **对齐 RL**：使模型行为符合人类价值观
+- **潜在推理 RL**：[[latent-reasoning|潜在推理]] 中的 RL 应用
+
+## 在 TARPO 中的角色
+
+[[tarpo|TARPO]] 使用 RL 同时优化两个组件：
+1. **LLM 骨干**：优化 token 生成策略（标准 RL）
+2. **[[action-head-router|动作头路由器]]**：优化推理模式选择的策略（扩展 RL）
+
+两者共享同一个 group-relative advantage 信号。
+
+## 参考
+
+- [[grpo|GRPO]]
+- [[group-relative-policy-optimization]]
+- [[rlhf|RLHF]]
+- [[reward-model|Reward Model]]
+- [[latent-reasoning|潜在推理]]
+- [[tarpo|TARPO]]