---
title: "强化学习 (Reinforcement Learning)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, training, fundamental]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---

# 强化学习 (Reinforcement Learning)

强化学习（RL）是一种通过**试错和奖励信号**学习最优策略的机器学习范式。在 LLM 时代，RL 已成为后训练（post-training）的核心方法论。

## 基本框架

- **智能体**（Agent）：在环境中采取行动
- **状态**（State）：环境的当前描述
- **动作**（Action）：智能体的可选项
- **奖励**（Reward）：环境对动作的反馈信号
- **策略**（Policy）：从状态到动作的映射 `π(a|s)`

目标：最大化累积期望奖励。

## LLM 中的 RL

在 LLM 训练中，RL 主要用于**对齐和推理能力增强**：

### 策略梯度方法
- **[[grpo|GRPO]]**（Group Relative Policy Optimization）：基于组内相对优势的策略优化，DeepSeek-R1 和许多推理模型的核心训练方法
- **[[group-relative-policy-optimization]]**：GRPO 的通用形式
- **PPO**（Proximal Policy Optimization）：ChatGPT/InstructGPT 的训练方法
- **REINFORCE**：最基础的策略梯度方法

### 奖励设计
- **[[reward-model|Reward Model]]**：学习预测人类偏好的模型
- **[[rlhf|RLHF]]**（RL from Human Feedback）：通过人类偏好训练
- **Outcome Reward**：基于最终答案正确性的奖励（如数学题）
- **Process Reward**：基于推理过程的奖励

### 应用场景
- **推理 RL**：[[tarpo|TARPO]]、DeepSeek-R1 等，使用 RL 增强推理能力
- **对齐 RL**：使模型行为符合人类价值观
- **潜在推理 RL**：[[latent-reasoning|潜在推理]] 中的 RL 应用

## 在 TARPO 中的角色

[[tarpo|TARPO]] 使用 RL 同时优化两个组件：
1. **LLM 骨干**：优化 token 生成策略（标准 RL）
2. **[[action-head-router|动作头路由器]]**：优化推理模式选择的策略（扩展 RL）

两者共享同一个 group-relative advantage 信号。

## 参考

- [[grpo|GRPO]]
- [[group-relative-policy-optimization]]
- [[rlhf|RLHF]]
- [[reward-model|Reward Model]]
- [[latent-reasoning|潜在推理]]
- [[tarpo|TARPO]]