20260601
This commit is contained in:
31
concepts/shared-parameter-influence.md
Normal file
31
concepts/shared-parameter-influence.md
Normal file
@@ -0,0 +1,31 @@
|
||||
---
|
||||
title: "Shared Parameter Influence"
|
||||
created: 2026-05-18
|
||||
type: concept
|
||||
tags: ["optimization", "LLM", "theory"]
|
||||
sources: ["https://arxiv.org/abs/2604.14142"]
|
||||
---
|
||||
|
||||
# Shared Parameter Influence(共享参数影响)
|
||||
|
||||
## 定义
|
||||
|
||||
PreRL 理论框架的基本前提:LLM 的参数 θ **同时控制**边际分布 P_θ(y) 和条件分布 P_θ(y|x)。因此,对 P(y) 的更新会"泄露"到 P(y|x),反之亦然。
|
||||
|
||||
## 理论意义
|
||||
|
||||
共享参数影响是 [[gradient-alignment|梯度对齐]] 的前提条件:
|
||||
- 如果 θ 独立地参数化 P(y) 和 P(y|x)(如两个独立模型),则 PreRL 无效
|
||||
- 由于 LLM 的自回归架构,在预测 y_t 时,参数已通过 attention 机制耦合了上下文信息(包括 x),因此修改 log P(y_t|y_{<t}) 的参数自然影响 log P(y_t|x, y_{<t})
|
||||
|
||||
## 与传统视角的区别
|
||||
|
||||
| 视角 | 假设 |
|
||||
|------|------|
|
||||
| 传统 ML | P(y) 和 P(y|x) 是不同分布 |
|
||||
| 共享参数 | θ 同时参数化两者,边际和条件分布通过参数"桥接" |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[gradient-alignment|梯度对齐]] — 共享参数的直接推论
|
||||
- [[pre-train-space-reinforcement-learning|PreRL]]
|
||||
Reference in New Issue
Block a user