SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.2 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

强化学习 (Reinforcement Learning)

2026-06-17

2026-06-17

concept

reinforcement-learning

training

fundamental

raw/papers/zhang-tarpo-2026.md

high

强化学习 (Reinforcement Learning)

强化学习（RL）是一种通过试错和奖励信号学习最优策略的机器学习范式。在 LLM 时代，RL 已成为后训练（post-training）的核心方法论。

基本框架

智能体（Agent）：在环境中采取行动
状态（State）：环境的当前描述
动作（Action）：智能体的可选项
奖励（Reward）：环境对动作的反馈信号
策略（Policy）：从状态到动作的映射 π(a|s)

目标：最大化累积期望奖励。

LLM 中的 RL

在 LLM 训练中，RL 主要用于对齐和推理能力增强：

策略梯度方法

grpo（Group Relative Policy Optimization）：基于组内相对优势的策略优化，DeepSeek-R1 和许多推理模型的核心训练方法
group-relative-policy-optimization：GRPO 的通用形式
PPO（Proximal Policy Optimization）：ChatGPT/InstructGPT 的训练方法
REINFORCE：最基础的策略梯度方法

奖励设计

reward-model：学习预测人类偏好的模型
rlhf（RL from Human Feedback）：通过人类偏好训练
Outcome Reward：基于最终答案正确性的奖励（如数学题）
Process Reward：基于推理过程的奖励

应用场景

推理 RL：tarpo、DeepSeek-R1 等，使用 RL 增强推理能力
对齐 RL：使模型行为符合人类价值观
潜在推理 RL：latent-reasoning 中的 RL 应用

在 TARPO 中的角色

tarpo 使用 RL 同时优化两个组件：

LLM 骨干：优化 token 生成策略（标准 RL）
action-head-router：优化推理模式选择的策略（扩展 RL）

两者共享同一个 group-relative advantage 信号。

参考