Files
myWiki/concepts/reinforcement-learning.md

2.2 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
强化学习 (Reinforcement Learning) 2026-06-17 2026-06-17 concept
reinforcement-learning
training
fundamental
raw/papers/zhang-tarpo-2026.md
high

强化学习 (Reinforcement Learning)

强化学习RL是一种通过试错和奖励信号学习最优策略的机器学习范式。在 LLM 时代RL 已成为后训练post-training的核心方法论。

基本框架

  • 智能体Agent在环境中采取行动
  • 状态State环境的当前描述
  • 动作Action智能体的可选项
  • 奖励Reward环境对动作的反馈信号
  • 策略Policy从状态到动作的映射 π(a|s)

目标:最大化累积期望奖励。

LLM 中的 RL

在 LLM 训练中RL 主要用于对齐和推理能力增强

策略梯度方法

  • grpoGroup Relative Policy Optimization基于组内相对优势的策略优化DeepSeek-R1 和许多推理模型的核心训练方法
  • group-relative-policy-optimizationGRPO 的通用形式
  • PPOProximal Policy OptimizationChatGPT/InstructGPT 的训练方法
  • REINFORCE:最基础的策略梯度方法

奖励设计

  • reward-model:学习预测人类偏好的模型
  • rlhfRL from Human Feedback通过人类偏好训练
  • Outcome Reward:基于最终答案正确性的奖励(如数学题)
  • Process Reward:基于推理过程的奖励

应用场景

  • 推理 RLtarpo、DeepSeek-R1 等,使用 RL 增强推理能力
  • 对齐 RL:使模型行为符合人类价值观
  • 潜在推理 RLlatent-reasoning 中的 RL 应用

在 TARPO 中的角色

tarpo 使用 RL 同时优化两个组件:

  1. LLM 骨干:优化 token 生成策略(标准 RL
  2. action-head-router:优化推理模式选择的策略(扩展 RL

两者共享同一个 group-relative advantage 信号。

参考