DCGWM: Dual-Channel Grounded World Modeling

Akshay Hazare · arXiv:2606.18688 · 2026 · Position paper (experimental validation ongoing)

核心问题

jepa 是世界模型表示学习的前沿方法。但当一个 JEPA 需要同时接地两个定性不同的外部信号时——物理动力学（稀疏、高幅值、满足约束的梯度修正）和社交行为动力学（弥散、分布匹配的梯度修正）——会发生什么？

Hazare 识别出这一设定下的一种新失效模式：objective-interference-collapse——在共享潜在空间中联合学习时，主导通道系统性地坍缩从属通道的表示子空间。损失权重无法解决此问题，因为冲突是几何的而非量级的。

方法论贡献

1. OIC 的形式化

物理梯度 g_p 是低熵的（集中在特定维度，高幅值），行为梯度 g_b 是高熵的（弥散在多个维度，低幅值）。联合更新 ∝ g_p + g_b 导致：

物理主导时 → Z → Z_p*，物理损失 → 0
行为梯度在 Z_p* 处非零 → 行为更新扰动物理子空间
下一轮物理修正覆盖行为结构 → 行为子空间永远无法形成稳定满秩

标量重加权（α·g_p + β·g_b）改变幅度但不改变冲突的几何结构。

2. DCGWM 架构

核心设计：分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流

物理测量 → PGC [内向∇] → Z_p ┐
                              ├→ LWME → detach() → GRL → 用户
社交模拟 → SBGC [内向∇] → Z_b ┘

四个架构不变量：

Inv1: Z_p 和 Z_b 无共享参数，无直接梯度路径
Inv2: PGC 梯度仅更新 W_p；SBGC 梯度仅更新 W_b
Inv3: 接口模块不传播跨子空间梯度
Inv4: GRL 接收 detach() 的潜在表示，生成损失不回流

物理接地通道 (PGC)：通过 vicreg 风格对齐将物理测量映射到 Z_p，使用方差/协方差正则化维持子空间满秩。

行为接地通道 (SBGC)：将紧急性多智能体模拟的输出作为外部接地信号注入 Z_b——行为分布来自 N 个交互智能体的群体级紧急性轨迹，不可约化为单模型预测。

接口模块：通过一致性 + 解耦的双目标（无跨子空间梯度）捕获物理-行为相关性。

3. Asymmetric Grounding Adherence Loss (L_AGA)

rollout-drift 是多步潜在预测累积误差导致轨迹偏离接地流形的失效模式。asymmetric-grounding-adherence-loss 是首个针对异质接地源、具有不兼容容忍结构的 drift 防止损失：

物理 Adherence：平方铰链惩罚 max(0, d_p − ε_p)²——物理定律是硬约束，超过容忍阈值即范畴错误
行为 Adherence：软 KL 散度 KL(q_b ∥ p_b)——行为随机性是预期的，与分布距离成比例的连续惩罚

不对称性不是任意设计选择——它反映并强化了物理和行为接地统计量的结构性不兼容。

4. Isolation Necessity Theorem

isolation-necessity-theorem：设 L_gen 为任何奖励保留高频感知统计的生成目标，L_pred 为奖励丢弃不可预测高频内容的 JEPA 预测目标。若 LWME 在 L_pred 下有唯一最优点 Z*，且 Z* 位于 L_gen 在高频子空间中的鞍点，则对任何 α > 0，梯度优化将驱动 Z 偏离 Z*。

→ 唯一解决方案是架构隔离（α = 0）：GRL 在 LWME 参数冻结的单独优化阶段训练。

5. 对 LLM 世界建模的结构性批判

DCGWM 不仅是新架构提议——它阐明了一个关于 LLM 作为世界模型的结构性论证：

NTP 诱导的子空间坍缩（Zhao et al., 2024）：NTP 隐式求解秩约束优化，相同下一 token 支持集的上下文表示收敛到近共线方向
RLHF 复合而非修复：RLHF 在已坍缩的表示上操作，进一步压缩有效秩
缩放使问题更严重：更大模型更完全地最小化 NTP 损失 → 更完全地坍缩

DCGWM 通过用 JEPA 掩码预测替代 NTP 目标来规避这些——不是修复 LLM，而是从根本上使用不同的训练目标。

局限性与开放问题

Hazare 精确陈述了局限——不做最小化：

零经验验证：所有声明是理论或结构性的；实验验证进行中
OIC 是猜想：论证是直觉的，未包含自适应优化器、批量归一化动力学等
隔离必要性依赖未证明假设 A2：Z* 在 L_gen 高频子空间中是鞍点的假设
接口收敛未证明：L_I 是否有稳定均衡未知
行为编码器保真度未验证：enc_b 是否能忠实地映射群体紧急性轨迹未知

5.5 KiB Raw Blame History Unescape Escape