20260617:目前有914 页
This commit is contained in:
61
concepts/reinforcement-learning.md
Normal file
61
concepts/reinforcement-learning.md
Normal file
@@ -0,0 +1,61 @@
|
||||
---
|
||||
title: "强化学习 (Reinforcement Learning)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [reinforcement-learning, training, fundamental]
|
||||
sources: [raw/papers/zhang-tarpo-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 强化学习 (Reinforcement Learning)
|
||||
|
||||
强化学习(RL)是一种通过**试错和奖励信号**学习最优策略的机器学习范式。在 LLM 时代,RL 已成为后训练(post-training)的核心方法论。
|
||||
|
||||
## 基本框架
|
||||
|
||||
- **智能体**(Agent):在环境中采取行动
|
||||
- **状态**(State):环境的当前描述
|
||||
- **动作**(Action):智能体的可选项
|
||||
- **奖励**(Reward):环境对动作的反馈信号
|
||||
- **策略**(Policy):从状态到动作的映射 `π(a|s)`
|
||||
|
||||
目标:最大化累积期望奖励。
|
||||
|
||||
## LLM 中的 RL
|
||||
|
||||
在 LLM 训练中,RL 主要用于**对齐和推理能力增强**:
|
||||
|
||||
### 策略梯度方法
|
||||
- **[[grpo|GRPO]]**(Group Relative Policy Optimization):基于组内相对优势的策略优化,DeepSeek-R1 和许多推理模型的核心训练方法
|
||||
- **[[group-relative-policy-optimization]]**:GRPO 的通用形式
|
||||
- **PPO**(Proximal Policy Optimization):ChatGPT/InstructGPT 的训练方法
|
||||
- **REINFORCE**:最基础的策略梯度方法
|
||||
|
||||
### 奖励设计
|
||||
- **[[reward-model|Reward Model]]**:学习预测人类偏好的模型
|
||||
- **[[rlhf|RLHF]]**(RL from Human Feedback):通过人类偏好训练
|
||||
- **Outcome Reward**:基于最终答案正确性的奖励(如数学题)
|
||||
- **Process Reward**:基于推理过程的奖励
|
||||
|
||||
### 应用场景
|
||||
- **推理 RL**:[[tarpo|TARPO]]、DeepSeek-R1 等,使用 RL 增强推理能力
|
||||
- **对齐 RL**:使模型行为符合人类价值观
|
||||
- **潜在推理 RL**:[[latent-reasoning|潜在推理]] 中的 RL 应用
|
||||
|
||||
## 在 TARPO 中的角色
|
||||
|
||||
[[tarpo|TARPO]] 使用 RL 同时优化两个组件:
|
||||
1. **LLM 骨干**:优化 token 生成策略(标准 RL)
|
||||
2. **[[action-head-router|动作头路由器]]**:优化推理模式选择的策略(扩展 RL)
|
||||
|
||||
两者共享同一个 group-relative advantage 信号。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[grpo|GRPO]]
|
||||
- [[group-relative-policy-optimization]]
|
||||
- [[rlhf|RLHF]]
|
||||
- [[reward-model|Reward Model]]
|
||||
- [[latent-reasoning|潜在推理]]
|
||||
- [[tarpo|TARPO]]
|
||||
Reference in New Issue
Block a user