Files
myWiki/concepts/shared-parameter-influence.md
2026-06-01 10:46:01 +08:00

1.1 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Shared Parameter Influence 2026-05-18 concept
optimization
LLM
theory
https://arxiv.org/abs/2604.14142

Shared Parameter Influence共享参数影响

定义

PreRL 理论框架的基本前提LLM 的参数 θ 同时控制边际分布 P_θ(y) 和条件分布 P_θ(y|x)。因此,对 P(y) 的更新会"泄露"到 P(y|x),反之亦然。

理论意义

共享参数影响是 gradient-alignment 的前提条件:

  • 如果 θ 独立地参数化 P(y) 和 P(y|x)(如两个独立模型),则 PreRL 无效
  • 由于 LLM 的自回归架构,在预测 y_t 时,参数已通过 attention 机制耦合了上下文信息(包括 x因此修改 log P(y_t|y_{<t}) 的参数自然影响 log P(y_t|x, y_{<t})

与传统视角的区别

视角 假设
传统 ML P(y) 和 P(y
共享参数 θ 同时参数化两者,边际和条件分布通过参数"桥接"

相关概念