Files
myWiki/concepts/shared-parameter-influence.md
2026-06-01 10:46:01 +08:00

32 lines
1.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Shared Parameter Influence"
created: 2026-05-18
type: concept
tags: ["optimization", "LLM", "theory"]
sources: ["https://arxiv.org/abs/2604.14142"]
---
# Shared Parameter Influence共享参数影响
## 定义
PreRL 理论框架的基本前提LLM 的参数 θ **同时控制**边际分布 P_θ(y) 和条件分布 P_θ(y|x)。因此,对 P(y) 的更新会"泄露"到 P(y|x),反之亦然。
## 理论意义
共享参数影响是 [[gradient-alignment|梯度对齐]] 的前提条件:
- 如果 θ 独立地参数化 P(y) 和 P(y|x)(如两个独立模型),则 PreRL 无效
- 由于 LLM 的自回归架构,在预测 y_t 时,参数已通过 attention 机制耦合了上下文信息(包括 x因此修改 log P(y_t|y_{<t}) 的参数自然影响 log P(y_t|x, y_{<t})
## 与传统视角的区别
| 视角 | 假设 |
|------|------|
| 传统 ML | P(y) P(y|x) 是不同分布 |
| 共享参数 | θ 同时参数化两者边际和条件分布通过参数"桥接" |
## 相关概念
- [[gradient-alignment|梯度对齐]] 共享参数的直接推论
- [[pre-train-space-reinforcement-learning|PreRL]]