myWiki/engram-conditional-memory-20260625.md at 6021dea160092d29b1a1f202917027e29f55465d - myWiki - SZ CodeSpace

SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.3 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Engram Review — 条件记忆作为 Transformer 的新稀疏轴

2026-06-25

2026-06-25

review

review

conditional-memory

sparsity

scaling-law

engram-conditional-memory-2026

📌 基本信息

论文：Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LLMs
作者：Cheng et al. (PKU / DeepSeek-AI)
arXiv：2601.07372 | 2026-01-12
领域：cs.CL, cs.AI (模型架构 / 稀疏性)
代码：github.com/deepseek-ai/Engram

🎯 核心概念

conditional-memory — 与 MoE 的条件计算互补的新稀疏轴：通过稀疏查找而非稀疏激活来扩展模型容量
engram — 现代化 N-gram 嵌入：词表压缩 → 多头哈希 → 上下文感知门控 → 深度可分离卷积
sparsity-allocation — U 形缩放律：纯 MoE 和纯 Engram 都不如混合，最优 ρ≈75-80%
ngram-embedding — 经典技术的现代化复兴：局部静态模式天然适合 O(1) 查找
memory-compute-decoupling — 确定性寻址使嵌入表可卸载到主机内存，开销 <3%

🔗 概念网络

核心连接：conditional-memory ↔ engram ↔ sparsity-allocation ↔ ngram-embedding ↔ memory-compute-decoupling
桥接已有概念：mixture-of-experts（MoE 的条件计算轴）、long-context-understanding（注意力容量释放效果）
扩展方向：与 lu-kv（KV Cache 淘汰）的潜在交叉——如果 N-gram 嵌入接管局部依赖，KV Cache 是否可以缩小？

📚 Wiki 集成

新增页面：6 个（1 论文 + 5 概念）
链接密度：核心概念平均 4 个链接
总规模：从 ~1145 页 + 6 = ~1151 页

💡 关键洞察

最大的收益不在知识，在推理 — Engram 的 MMLU +3.4 符合直觉，但 BBH +5.0 和 HumanEval +3.0 揭示了一个更深刻的事实：记忆模块的真正价值不是"存更多事实"，而是释放计算深度。早期层不再被迫重建静态查找表，剩余层有效加深。
U 形律说明单一稀疏轴不够 — MoE 是当前主流，但 ρ=1（纯 MoE）被实验证明是次优的。条件记忆不是 MoE 的替代，是其结构必要性补全。这为下一代稀疏模型架构指明方向：两个稀疏轴都需要一等原语地位。