2.3 KiB
2.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Engram Review — 条件记忆作为 Transformer 的新稀疏轴 | 2026-06-25 | 2026-06-25 | review |
|
|
📌 基本信息
- 论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LLMs
- 作者:Cheng et al. (PKU / DeepSeek-AI)
- arXiv:2601.07372 | 2026-01-12
- 领域:cs.CL, cs.AI (模型架构 / 稀疏性)
- 代码:github.com/deepseek-ai/Engram
🎯 核心概念
- conditional-memory — 与 MoE 的条件计算互补的新稀疏轴:通过稀疏查找而非稀疏激活来扩展模型容量
- engram — 现代化 N-gram 嵌入:词表压缩 → 多头哈希 → 上下文感知门控 → 深度可分离卷积
- sparsity-allocation — U 形缩放律:纯 MoE 和纯 Engram 都不如混合,最优 ρ≈75-80%
- ngram-embedding — 经典技术的现代化复兴:局部静态模式天然适合 O(1) 查找
- memory-compute-decoupling — 确定性寻址使嵌入表可卸载到主机内存,开销 <3%
🔗 概念网络
- 核心连接:conditional-memory ↔ engram ↔ sparsity-allocation ↔ ngram-embedding ↔ memory-compute-decoupling
- 桥接已有概念:mixture-of-experts(MoE 的条件计算轴)、long-context-understanding(注意力容量释放效果)
- 扩展方向:与 lu-kv(KV Cache 淘汰)的潜在交叉——如果 N-gram 嵌入接管局部依赖,KV Cache 是否可以缩小?
📚 Wiki 集成
- 新增页面:6 个(1 论文 + 5 概念)
- 链接密度:核心概念平均 4 个链接
- 总规模:从 ~1145 页 + 6 = ~1151 页
💡 关键洞察
-
最大的收益不在知识,在推理 — Engram 的 MMLU +3.4 符合直觉,但 BBH +5.0 和 HumanEval +3.0 揭示了一个更深刻的事实:记忆模块的真正价值不是"存更多事实",而是释放计算深度。早期层不再被迫重建静态查找表,剩余层有效加深。
-
U 形律说明单一稀疏轴不够 — MoE 是当前主流,但 ρ=1(纯 MoE)被实验证明是次优的。条件记忆不是 MoE 的替代,是其结构必要性补全。这为下一代稀疏模型架构指明方向:两个稀疏轴都需要一等原语地位。