62 lines
2.2 KiB
Markdown
62 lines
2.2 KiB
Markdown
---
|
||
title: "强化学习 (Reinforcement Learning)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [reinforcement-learning, training, fundamental]
|
||
sources: [raw/papers/zhang-tarpo-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 强化学习 (Reinforcement Learning)
|
||
|
||
强化学习(RL)是一种通过**试错和奖励信号**学习最优策略的机器学习范式。在 LLM 时代,RL 已成为后训练(post-training)的核心方法论。
|
||
|
||
## 基本框架
|
||
|
||
- **智能体**(Agent):在环境中采取行动
|
||
- **状态**(State):环境的当前描述
|
||
- **动作**(Action):智能体的可选项
|
||
- **奖励**(Reward):环境对动作的反馈信号
|
||
- **策略**(Policy):从状态到动作的映射 `π(a|s)`
|
||
|
||
目标:最大化累积期望奖励。
|
||
|
||
## LLM 中的 RL
|
||
|
||
在 LLM 训练中,RL 主要用于**对齐和推理能力增强**:
|
||
|
||
### 策略梯度方法
|
||
- **[[grpo|GRPO]]**(Group Relative Policy Optimization):基于组内相对优势的策略优化,DeepSeek-R1 和许多推理模型的核心训练方法
|
||
- **[[group-relative-policy-optimization]]**:GRPO 的通用形式
|
||
- **PPO**(Proximal Policy Optimization):ChatGPT/InstructGPT 的训练方法
|
||
- **REINFORCE**:最基础的策略梯度方法
|
||
|
||
### 奖励设计
|
||
- **[[reward-model|Reward Model]]**:学习预测人类偏好的模型
|
||
- **[[rlhf|RLHF]]**(RL from Human Feedback):通过人类偏好训练
|
||
- **Outcome Reward**:基于最终答案正确性的奖励(如数学题)
|
||
- **Process Reward**:基于推理过程的奖励
|
||
|
||
### 应用场景
|
||
- **推理 RL**:[[tarpo|TARPO]]、DeepSeek-R1 等,使用 RL 增强推理能力
|
||
- **对齐 RL**:使模型行为符合人类价值观
|
||
- **潜在推理 RL**:[[latent-reasoning|潜在推理]] 中的 RL 应用
|
||
|
||
## 在 TARPO 中的角色
|
||
|
||
[[tarpo|TARPO]] 使用 RL 同时优化两个组件:
|
||
1. **LLM 骨干**:优化 token 生成策略(标准 RL)
|
||
2. **[[action-head-router|动作头路由器]]**:优化推理模式选择的策略(扩展 RL)
|
||
|
||
两者共享同一个 group-relative advantage 信号。
|
||
|
||
## 参考
|
||
|
||
- [[grpo|GRPO]]
|
||
- [[group-relative-policy-optimization]]
|
||
- [[rlhf|RLHF]]
|
||
- [[reward-model|Reward Model]]
|
||
- [[latent-reasoning|潜在推理]]
|
||
- [[tarpo|TARPO]]
|