--- title: "强化学习 (Reinforcement Learning)" created: 2026-06-17 updated: 2026-06-17 type: concept tags: [reinforcement-learning, training, fundamental] sources: [raw/papers/zhang-tarpo-2026.md] confidence: high --- # 强化学习 (Reinforcement Learning) 强化学习(RL)是一种通过**试错和奖励信号**学习最优策略的机器学习范式。在 LLM 时代,RL 已成为后训练(post-training)的核心方法论。 ## 基本框架 - **智能体**(Agent):在环境中采取行动 - **状态**(State):环境的当前描述 - **动作**(Action):智能体的可选项 - **奖励**(Reward):环境对动作的反馈信号 - **策略**(Policy):从状态到动作的映射 `π(a|s)` 目标:最大化累积期望奖励。 ## LLM 中的 RL 在 LLM 训练中,RL 主要用于**对齐和推理能力增强**: ### 策略梯度方法 - **[[grpo|GRPO]]**(Group Relative Policy Optimization):基于组内相对优势的策略优化,DeepSeek-R1 和许多推理模型的核心训练方法 - **[[group-relative-policy-optimization]]**:GRPO 的通用形式 - **PPO**(Proximal Policy Optimization):ChatGPT/InstructGPT 的训练方法 - **REINFORCE**:最基础的策略梯度方法 ### 奖励设计 - **[[reward-model|Reward Model]]**:学习预测人类偏好的模型 - **[[rlhf|RLHF]]**(RL from Human Feedback):通过人类偏好训练 - **Outcome Reward**:基于最终答案正确性的奖励(如数学题) - **Process Reward**:基于推理过程的奖励 ### 应用场景 - **推理 RL**:[[tarpo|TARPO]]、DeepSeek-R1 等,使用 RL 增强推理能力 - **对齐 RL**:使模型行为符合人类价值观 - **潜在推理 RL**:[[latent-reasoning|潜在推理]] 中的 RL 应用 ## 在 TARPO 中的角色 [[tarpo|TARPO]] 使用 RL 同时优化两个组件: 1. **LLM 骨干**:优化 token 生成策略(标准 RL) 2. **[[action-head-router|动作头路由器]]**:优化推理模式选择的策略(扩展 RL) 两者共享同一个 group-relative advantage 信号。 ## 参考 - [[grpo|GRPO]] - [[group-relative-policy-optimization]] - [[rlhf|RLHF]] - [[reward-model|Reward Model]] - [[latent-reasoning|潜在推理]] - [[tarpo|TARPO]]