2.2 KiB
2.2 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 强化学习 (Reinforcement Learning) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
强化学习 (Reinforcement Learning)
强化学习(RL)是一种通过试错和奖励信号学习最优策略的机器学习范式。在 LLM 时代,RL 已成为后训练(post-training)的核心方法论。
基本框架
- 智能体(Agent):在环境中采取行动
- 状态(State):环境的当前描述
- 动作(Action):智能体的可选项
- 奖励(Reward):环境对动作的反馈信号
- 策略(Policy):从状态到动作的映射
π(a|s)
目标:最大化累积期望奖励。
LLM 中的 RL
在 LLM 训练中,RL 主要用于对齐和推理能力增强:
策略梯度方法
- grpo(Group Relative Policy Optimization):基于组内相对优势的策略优化,DeepSeek-R1 和许多推理模型的核心训练方法
- group-relative-policy-optimization:GRPO 的通用形式
- PPO(Proximal Policy Optimization):ChatGPT/InstructGPT 的训练方法
- REINFORCE:最基础的策略梯度方法
奖励设计
- reward-model:学习预测人类偏好的模型
- rlhf(RL from Human Feedback):通过人类偏好训练
- Outcome Reward:基于最终答案正确性的奖励(如数学题)
- Process Reward:基于推理过程的奖励
应用场景
- 推理 RL:tarpo、DeepSeek-R1 等,使用 RL 增强推理能力
- 对齐 RL:使模型行为符合人类价值观
- 潜在推理 RL:latent-reasoning 中的 RL 应用
在 TARPO 中的角色
tarpo 使用 RL 同时优化两个组件:
- LLM 骨干:优化 token 生成策略(标准 RL)
- action-head-router:优化推理模式选择的策略(扩展 RL)
两者共享同一个 group-relative advantage 信号。