20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,42 @@
---
title: "Engram Review — 条件记忆作为 Transformer 的新稀疏轴"
created: 2026-06-25
updated: 2026-06-25
type: review
tags: ["review", "conditional-memory", "sparsity", "scaling-law"]
sources:
- "[[engram-conditional-memory-2026]]"
---
📌 基本信息
- 论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LLMs
- 作者Cheng et al. (PKU / DeepSeek-AI)
- arXiv2601.07372 | 2026-01-12
- 领域cs.CL, cs.AI (模型架构 / 稀疏性)
- 代码github.com/deepseek-ai/Engram
🎯 核心概念
1. [[conditional-memory|Conditional Memory]] — 与 MoE 的条件计算互补的新稀疏轴:通过稀疏查找而非稀疏激活来扩展模型容量
2. [[engram|Engram 模块]] — 现代化 N-gram 嵌入:词表压缩 → 多头哈希 → 上下文感知门控 → 深度可分离卷积
3. [[sparsity-allocation|Sparsity Allocation]] — U 形缩放律:纯 MoE 和纯 Engram 都不如混合,最优 ρ≈75-80%
4. [[ngram-embedding|N-gram Embedding]] — 经典技术的现代化复兴:局部静态模式天然适合 O(1) 查找
5. [[memory-compute-decoupling|Memory-Compute Decoupling]] — 确定性寻址使嵌入表可卸载到主机内存,开销 <3%
🔗 概念网络
- 核心连接conditional-memory engram sparsity-allocation ngram-embedding memory-compute-decoupling
- 桥接已有概念[[mixture-of-experts]]MoE 的条件计算轴)、[[long-context-understanding]]注意力容量释放效果
- 扩展方向 [[lu-kv]]KV Cache 淘汰的潜在交叉——如果 N-gram 嵌入接管局部依赖KV Cache 是否可以缩小
📚 Wiki 集成
- 新增页面6 1 论文 + 5 概念
- 链接密度核心概念平均 4 个链接
- 总规模 ~1145 + 6 = ~1151
💡 关键洞察
1. **最大的收益不在知识,在推理** Engram MMLU +3.4 符合直觉 BBH +5.0 HumanEval +3.0 揭示了一个更深刻的事实记忆模块的真正价值不是"存更多事实"而是释放计算深度早期层不再被迫重建静态查找表剩余层有效加深
2. **U 形律说明单一稀疏轴不够** MoE 是当前主流 ρ=1 MoE被实验证明是次优的条件记忆不是 MoE 的替代是其结构必要性补全这为下一代稀疏模型架构指明方向两个稀疏轴都需要一等原语地位