20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/shared-parameter-influence.md
+++ b/concepts/shared-parameter-influence.md
@@ -0,0 +1,31 @@
+---
+title: "Shared Parameter Influence"
+created: 2026-05-18
+type: concept
+tags: ["optimization", "LLM", "theory"]
+sources: ["https://arxiv.org/abs/2604.14142"]
+---
+
+# Shared Parameter Influence（共享参数影响）
+
+## 定义
+
+PreRL 理论框架的基本前提：LLM 的参数 θ **同时控制**边际分布 P_θ(y) 和条件分布 P_θ(y|x)。因此，对 P(y) 的更新会"泄露"到 P(y|x)，反之亦然。
+
+## 理论意义
+
+共享参数影响是 [[gradient-alignment|梯度对齐]] 的前提条件：
+- 如果 θ 独立地参数化 P(y) 和 P(y|x)（如两个独立模型），则 PreRL 无效
+- 由于 LLM 的自回归架构，在预测 y_t 时，参数已通过 attention 机制耦合了上下文信息（包括 x），因此修改 log P(y_t|y_{<t}) 的参数自然影响 log P(y_t|x, y_{<t})
+
+## 与传统视角的区别
+
+| 视角 | 假设 |
+|------|------|
+| 传统 ML | P(y) 和 P(y|x) 是不同分布 |
+| 共享参数 | θ 同时参数化两者，边际和条件分布通过参数"桥接" |
+
+## 相关概念
+
+- [[gradient-alignment|梯度对齐]] — 共享参数的直接推论
+- [[pre-train-space-reinforcement-learning|PreRL]]