20260429:一些新东西
This commit is contained in:
68
papers/deepseek-v4-million-token-context.md
Normal file
68
papers/deepseek-v4-million-token-context.md
Normal file
@@ -0,0 +1,68 @@
|
||||
---
|
||||
title: "DeepSeek-V4: 迈向高效百万 Token 上下文智能"
|
||||
authors: "DeepSeek-AI"
|
||||
date: "2026"
|
||||
source: "Hugging Face (Technical Report)"
|
||||
tags: [large-language-models, mixture-of-experts, long-context, architecture, training]
|
||||
---
|
||||
|
||||
# DeepSeek-V4: 迈向高效百万 Token 上下文智能
|
||||
|
||||
> **论文链接**: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
|
||||
> **模型**: DeepSeek-V4-Pro (1.6T/49B activated) | DeepSeek-V4-Flash (284B/13B activated)
|
||||
|
||||
## 核心问题
|
||||
|
||||
大语言模型的 reasoning 和 test-time scaling 受限于 vanilla attention 的二次复杂度。如何在保持模型性能的同时,实现百万级 token 的高效推理?
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### 1. [[hybrid-attention-architecture]] — 混合注意力架构
|
||||
结合 [[compressed-sparse-attention]](CSA)和 [[heavily-compressed-attention]](HCA),大幅降低长上下文的计算量和 KV 缓存:
|
||||
- **CSA**:沿序列维度压缩 KV cache 后进行稀疏注意力
|
||||
- **HCA**:激进压缩 KV cache 但保持密集注意力
|
||||
|
||||
### 2. [[manifold-constrained-hyper-connections]](mHC)— 流形约束超连接
|
||||
将残差映射矩阵约束到 Birkhoff 多面体(双随机矩阵流形),通过 Sinkhorn-Knopp 算法确保前向/反向传播的数值稳定性。
|
||||
|
||||
### 3. [[muon-optimizer]] — Muon 优化器
|
||||
采用混合 Newton-Schulz 迭代的正交化方法,实现更快收敛和更好的训练稳定性。
|
||||
|
||||
### 4. [[on-policy-distillation]](OPD)— 在线策略蒸馏
|
||||
两阶段后训练范式:先独立训练领域专家模型,再通过多教师反向 KL 蒸馏融合为统一模型。
|
||||
|
||||
## 关键发现
|
||||
|
||||
- **效率革命**:1M 上下文下,V4-Pro 仅需 V3.2 的 27% FLOPs 和 10% KV cache
|
||||
- **百万上下文原生支持**:预训练后即可高效处理 1M token 序列
|
||||
- **混合注意力收益巨大**:相比 BF16 GQA8 基线,4.3 层 KV cache 仅约 2%
|
||||
- **FP4 量化**:路由专家权重和 indexer QK 路径采用 FP4,理论可进一步提升 33% 效率
|
||||
|
||||
## 技术栈
|
||||
|
||||
| 组件 | 技术 | 创新点 |
|
||||
|------|------|--------|
|
||||
| 注意力 | CSA + HCA 混合 | 序列压缩 + 稀疏/密集混合 |
|
||||
| 残差连接 | mHC | 双随机矩阵约束 |
|
||||
| 优化器 | Muon | 混合 Newton-Schulz 迭代 |
|
||||
| MoE | DeepSeekMoE | Hash 路由 + 无辅助损失 |
|
||||
| 量化 | FP4 QAT | MoE 专家权重 FP4 |
|
||||
| 后训练 | Specialist + OPD | 多教师全词表 KL 蒸馏 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[compressed-sparse-attention]] — CSA:压缩稀疏注意力
|
||||
- [[heavily-compressed-attention]] — HCA:高强度压缩注意力
|
||||
- [[manifold-constrained-hyper-connections]] — mHC:流形约束超连接
|
||||
- [[muon-optimizer]] — Muon 优化器
|
||||
- [[on-policy-distillation]] — 在线策略蒸馏
|
||||
- [[mixture-of-experts]] — 混合专家模型
|
||||
- [[fp4-quantization-training]] — FP4 量化感知训练
|
||||
- [[multi-token-prediction]] — 多 Token 预测
|
||||
- [[test-time-scaling]] — 测试时扩展
|
||||
- [[million-token-context]] — 百万 Token 上下文
|
||||
|
||||
---
|
||||
|
||||
*Added: 2026-04-27 | Source: DeepSeek-AI Technical Report*
|
||||
*See raw archive: [[../raw/papers/deepseek-ai-deepseek-v4-2026]]*
|
||||
47
papers/godel-incompleteness-tutorial.md
Normal file
47
papers/godel-incompleteness-tutorial.md
Normal file
@@ -0,0 +1,47 @@
|
||||
# 哥德尔不完备定理教程
|
||||
|
||||
- **类型**: 综合教程
|
||||
- **年份**: 2026年4月
|
||||
- **目标读者**: 数学系本科生
|
||||
- **原始文件**: [[raw/papers/godel-tutorial-2026|原始存档]]
|
||||
|
||||
## 中文摘要
|
||||
|
||||
本教程系统阐述哥德尔不完备定理的完整图景:从 20 世纪初希尔伯特计划的历史背景出发,详解第一和第二不完备定理的精确陈述与证明技术([[godel-numbering]]、[[diagonalization-method]]、[[self-reference]]),并追踪该定理对[[hilberts-program|数学基础]]、[[halting-problem|计算机科学]]、[[lucas-penrose-argument|哲学与心智理论]]及[[chaitin-algorithmic-information-theory|现代信息论]]的跨学科影响。教程特别澄清了常见的误解与误用,在保持数学严谨性的同时以直观方式阐述证明的核心思想。
|
||||
|
||||
## 核心问题
|
||||
|
||||
希尔伯特计划能否实现?即:是否存在一个完备且一致的数学形式系统,能够证明所有数学真理并自我验证其一致性?
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
1. **哥德尔编码(Gödel Numbering)**:将符号、公式、证明序列唯一映射为自然数,实现「算术化元数学」
|
||||
2. **对角线自指构造**:通过 Sub 函数构造断言「我不可证」的哥德尔句子 G
|
||||
3. **可表示性理论**:证明所有原始递归关系在 PA 中可表示,奠定编码的数学基础
|
||||
4. **内部形式化**:在形式系统 F 内部模拟第一不完备定理的证明,导出第二不完备定理
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. **真 ≠ 可证**:任何足够强的一致形式系统必然不完备——存在真但不可证的命题
|
||||
2. **一致性不可自证**:系统无法在内部证明自身的一致性,终结希尔伯特计划的核心目标
|
||||
3. **不可判定性渗透到主流数学**:巴黎-哈灵顿定理和古德斯坦定理表明,不可判定性并非人工构造的逻辑玩具
|
||||
4. **信息论视角**:蔡廷定理揭示形式系统的证明能力受限于信息压缩的极限([[kolmogorov-complexity]]、[[chaitin-constant]])
|
||||
|
||||
## 跨学科影响
|
||||
|
||||
| 领域 | 核心影响 |
|
||||
|------|----------|
|
||||
| 数学基础 | 希尔伯特计划终结、连续统假设独立性、[[mathematical-pluralism]] |
|
||||
| 计算机科学 | [[computability-theory]]、[[halting-problem]]、[[formal-verification]]、[[automated-theorem-proving]] |
|
||||
| 哲学 | [[lucas-penrose-argument]]、数学真理本质、知识界限 |
|
||||
| 物理学 | 哥德尔宇宙、万有理论的可完备性讨论 |
|
||||
| 人工智能 | AGI 可能性边界、AI 系统自我验证的局限 |
|
||||
|
||||
## 核心概念网络
|
||||
|
||||
- **核心**: [[godel-incompleteness-theorems]] → [[godel-numbering]] → [[self-reference]]
|
||||
- **数学基础**: [[hilberts-program]] · [[peano-arithmetic]] · [[metamathematics]] · [[consistency-logic]] · [[completeness-logic]] · [[russells-paradox]] · [[continuum-hypothesis]]
|
||||
- **技术方法**: [[diagonalization-method]] · [[primitive-recursive-functions]]
|
||||
- **CS 影响**: [[halting-problem]] · [[computability-theory]] · [[formal-verification]] · [[automated-theorem-proving]]
|
||||
- **哲学**: [[lucas-penrose-argument]] · [[mathematical-pluralism]]
|
||||
- **现代发展**: [[chaitin-algorithmic-information-theory]] · [[chaitin-constant]] · [[kolmogorov-complexity]] · [[paris-harrington-theorem]] · [[goodsteins-theorem]]
|
||||
51
papers/llm-attention-survey-2026.md
Normal file
51
papers/llm-attention-survey-2026.md
Normal file
@@ -0,0 +1,51 @@
|
||||
# 大语言模型注意力机制全面分析
|
||||
|
||||
- **类型**: 综述论文
|
||||
- **日期**: 2026年4月
|
||||
- **标签**: #attention-mechanism #LLM #survey
|
||||
|
||||
## 中文摘要
|
||||
|
||||
本文从数学原理、机制分类、实际应用问题和解决方案四个维度,对LLM注意力机制进行全面综述。核心覆盖:[[multi-head-attention|MHA]] → [[multi-query-attention|MQA]] → [[grouped-query-attention|GQA]] → [[multi-head-latent-attention|MLA]] 的发展脉络;[[attention-entropy-collapse|注意力熵崩溃]]、[[lost-in-the-middle|Lost in the Middle]]和注意力漂移导致的幻觉三大核心挑战;[[flash-attention|FlashAttention]]、[[kv-cache-bottleneck|KV缓存压缩]]、[[sparse-attention-patterns|稀疏注意力]]、[[linear-attention-methods|线性注意力]]等前沿优化方案。
|
||||
|
||||
## 核心问题
|
||||
|
||||
LLM注意力机制面临三个结构性瓶颈:
|
||||
1. **计算**: O(n²) 的二次复杂度随序列长度爆炸
|
||||
2. **内存**: KV缓存的线性增长限制批处理和上下文长度
|
||||
3. **质量**: 注意力退化、长上下文信息丢失、注意力漂移导致幻觉
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
1. **统一数学框架** — 将各种注意力变体纳入核平滑(Kernel Smoothing)的统一形式
|
||||
2. **变体演化谱系** — 系统梳理 MHA → MQA → GQA → MLA 的演进逻辑
|
||||
3. **问题诊断体系** — 建立"二次复杂度-缓存瓶颈-熵崩溃-Lost in Middle-注意力漂移"五维问题框架
|
||||
4. **方案分类矩阵** — 覆盖硬件优化([[flash-attention]])、压缩([[kv-cache-bottleneck|KV量化]])、稀疏化、架构替代四大路径
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. **MLA标志性突破**: [[multi-head-latent-attention|MLA]]通过低秩压缩将KV缓存缩减至原来的数十分之一,是DeepSeek-V2/V3高效推理的关键
|
||||
2. **硬件协同设计**是最大杠杆:[[flash-attention|FlashAttention]]通过IO感知实现数量级加速,远优于纯算法优化
|
||||
3. **注意力退化**是一个被低估的问题:熵崩溃在深层中逐渐积累,导致注意力分布退化
|
||||
4. **替代架构崛起**: [[mamba-ssm|Mamba]]等状态空间模型证明线性复杂度序列建模的可行性
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[multi-head-attention]] — 标准多头注意力 (MHA)
|
||||
- [[multi-query-attention]] — 多查询注意力 (MQA)
|
||||
- [[grouped-query-attention]] — 分组查询注意力 (GQA)
|
||||
- [[multi-head-latent-attention]] — 多潜在头注意力 (MLA)
|
||||
- [[flash-attention]] — IO感知注意力优化
|
||||
- [[attention-entropy-collapse]] — 注意力熵崩溃
|
||||
- [[kv-cache-bottleneck]] — KV缓存瓶颈
|
||||
- [[lost-in-the-middle]] — 长上下文信息丢失
|
||||
- [[sparse-attention-patterns]] — 稀疏注意力
|
||||
- [[linear-attention-methods]] — 线性注意力
|
||||
- [[rotary-position-embedding]] — 旋转位置编码
|
||||
- [[attention-sinks]] — 注意力汇
|
||||
|
||||
## 外部链接
|
||||
|
||||
- [[deepseek-v4-million-token-context]] — DeepSeek-V4(MLA + CSA + HCA 的实际应用)
|
||||
- [[subquadratic-transformer-alternatives]] — 次二次复杂度替代架构综述
|
||||
- [[hybrid-attention-architecture]] — DeepSeek-V4的CSA/HCA混合注意力
|
||||
Reference in New Issue
Block a user