Conditional Memory

Conditional Memory 是 Engram 提出的一种新稀疏轴，与 Mixture-of-Experts 的 Conditional Computation 形成互补。

基本定义

维度	Conditional Computation (MoE)	Conditional Memory (Engram)
原语	稀疏参数激活	稀疏嵌入查找
操作	路由到专家子网络	哈希索引嵌入表
开销	随专家数增长	O(1) 常数
适用	动态推理、上下文组合	静态知识、局部模板

语言建模包含两类异质子任务：

Transformer 缺少原生的知识查找原语，被迫用计算模拟检索。例如，解析一个常见的多 token 实体需要消耗多个早期的 Attention 和 FFN 层——本质是用昂贵的计算重建一个静态查找表。

MoE 通过条件计算扩展模型容量，Engram 通过条件记忆扩展模型容量。二者共享同一个稀疏参数预算，通过 sparsity-allocation 进行最优分配。U 形缩放律表明：纯 MoE 和纯 Engram 都不如混合——最优分配约 75-80% 给 MoE，20-25% 给记忆。