45 lines
1.8 KiB
Markdown
45 lines
1.8 KiB
Markdown
---
|
||
title: "Inward-Only Gradient Flow (内向梯度流)"
|
||
created: 2026-06-23
|
||
updated: 2026-06-23
|
||
type: concept
|
||
tags: ["gradient-interference", "architecture", "representation-learning", "world-modeling"]
|
||
sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
|
||
---
|
||
|
||
# Inward-Only Gradient Flow (内向梯度流)
|
||
|
||
**Inward-only gradient flow** 是 [[dcgwm|DCGWM]] 的核心分离机制:外部接地源的梯度**仅流向其指定的潜在子空间**,绝不跨越到其他子空间或回流到建模引擎的任意部分。
|
||
|
||
## 定义
|
||
|
||
对于分区潜在空间 Z = Z_p ⊕ Z_b:
|
||
|
||
- PGC 的梯度 ∂L_PGC/∂θ 仅在 W_p 上非零
|
||
- SBGC 的梯度 ∂L_SBGC/∂θ 仅在 W_b 上非零
|
||
- 任何从 Z_p 到 Z_b(或反向)的梯度路径被架构阻断
|
||
|
||
## 实现机制
|
||
|
||
三种互补实现手段:
|
||
|
||
1. **梯度掩码**:将接地损失梯度限制到指定权重组——优化器仅对 W_p(或 W_b)有写权限
|
||
2. **Stop-Gradient**:在非目标子空间的所有接地损失计算中应用 sg(z_b)(或 sg(z_p))
|
||
3. **参数排除**:GRL 参数完全排除在 PGC/SBGC 优化器之外
|
||
|
||
## 为什么必要
|
||
|
||
仅用梯度投影(如 GradOPS 的正交投影)处理已有的梯度——而如果梯度已经在共享空间中交互,投影不能恢复已丢失的信息。内向约束**完全阻止**非指定子空间的梯度到达,而非在梯度到达后处理。
|
||
|
||
类比:投影 = 混在一起再过滤;内向 = 根本不混。
|
||
|
||
## 与 Domain Expansion 的区别
|
||
|
||
Domain Expansion 将已有梯度投影到正交子空间。DCGWM 的内向约束施加在**梯度流拓扑**层面——它定义了梯度**可以流经**的路径,而非流经后如何处理。
|
||
|
||
## 参考
|
||
|
||
- [[dcgwm|DCGWM]]
|
||
- [[objective-interference-collapse|OIC]]
|
||
- [[hazare-dcgwm-2026|DCGWM 论文]]
|