20260429:一些新东西

This commit is contained in:
2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions

View File

@@ -0,0 +1,35 @@
# 注意力熵崩溃 (Attention Entropy Collapse)
**注意力退化现象**,随着 Transformer 层数加深,注意力分布逐渐退化为接近均匀或过度集中的退化模式。
## 问题描述
在深层 Transformer 中:
- **熵崩溃**: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度
- **Rank Collapse**: 注意力矩阵的秩下降 → Token 表示趋向同质化
- **过度集中**: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈
## 根本原因
1. **Softmax 饱和**: 深度网络中注意力 logits 方差累积增长,导致 softmax 进入饱和区
2. **残差连接放大**: 残差流的累积效应使深层注意力退化
3. **训练不稳定性**: 深层梯度消失使注意力无法学习有用模式
## 影响
- 深层模型层数增加的边际收益递减
- 长上下文信息的有效利用受限
- 模型表达能力退化
## 缓解方案
- **热处理 (Heat Treatment)**: 动态调整 softmax 温度
- **熵正则化**: 在训练目标中加入注意力熵正则项
- **架构创新**: MLP 替代方案(如 [[mamba-ssm|Mamba]])天然不受此影响
## 相关概念
- [[multi-head-attention]] — MHA 中的深层退化
- [[depth-scaling-signal-degradation]] — 相关但不同:信号退化 vs 注意力退化
- [[mamba-ssm]] — 状态空间模型无此问题
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,17 @@
# 注意力汇 (Attention Sinks)
占位符 — 待补充完整内容。
**核心概念**: 某些初始 Token如 BOS天然吸引大量注意力权重可作为"注意力汇"稳定长序列推理。基于此可以设计高效的 KV 缓存淘汰策略(如 StreamingLLM、H2O
## 关键应用
- **StreamingLLM**: 保留初始 Attention Sinks + 最近 Token 实现无限长流式推理
- **H2O**: 基于注意力权重选择性地保留"重击者"Token 的 KV
- **SinkRouter**: 汇感知的路由优化
## 相关概念
- [[lost-in-the-middle]] — 问题背景
- [[kv-cache-bottleneck]] — 缓存优化
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,13 @@
# 自动定理证明 (Automated Theorem Proving, ATP)
- **领域**: AI × 数理逻辑
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
开发能够自动发现数学证明的计算机程序。哥德尔定理对其影响是双重的:负面边界(不存在通用判定算法)和正面启示(哥德尔编码促成逻辑编程语言 Prolog 的发展。已取得显著成就四色定理1976、开普勒猜想形式化验证2017等。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[formal-verification]] · [[halting-problem]]

View File

@@ -0,0 +1,16 @@
# 算法信息论 (Algorithmic Information Theory, AIT)
- **领域**: 信息论、可计算性理论
- **创始人**: Gregory Chaitin, 1970s
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
蔡廷将哥德尔不完备性思想与信息论结合,开创了算法信息论。核心概念包括[[kolmogorov-complexity|柯尔莫哥洛夫复杂度]] K(x)(输出 x 的最短程序长度)和[[chaitin-constant|蔡廷常数 Ω]](停机概率,一个不可计算但包含最大信息量的实数)。
蔡廷不完备性定理表明:任何形式系统只能证明有限个「随机性」事实——超过某个复杂度阈值后,系统无法再判断字符串是否「足够随机」。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[chaitin-constant]] · [[kolmogorov-complexity]] · [[godel-incompleteness-theorems]]

View File

@@ -0,0 +1,14 @@
# 蔡廷常数 Ω (Chaitin's Constant)
- **领域**: 算法信息论
- **定义者**: Gregory Chaitin
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
Ω = Σ_{p: U(p)↓} 2^{-|p|},即随机输入一个程序时通用图灵机停机的概率。Ω 具有不可计算性(无法计算任意位)、不可压缩性(前 n 位的信息量至少为 n和完备性前 n 位足以判定所有长度 ≤ n 的停机问题)。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[chaitin-algorithmic-information-theory]] · [[kolmogorov-complexity]] · [[halting-problem]]

View File

@@ -0,0 +1,13 @@
# 完备性 (Completeness, 逻辑学)
- **领域**: 数理逻辑
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
形式系统的完备性有两种含义:语义完备性(所有有效公式可证,哥德尔 1929 年证明一阶逻辑具有此性质)和语法完备性(对每个闭公式 φ,φ 或 ¬φ 可证)。[[godel-incompleteness-theorems|第一不完备定理]]否定的是语法完备性——存在既不能证明也不能否证的真命题。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[consistency-logic]] · [[godel-incompleteness-theorems]] · [[hilberts-program]]

View File

@@ -0,0 +1,50 @@
---
title: "Compressed Sparse Attention (CSA)"
domain: "Deep Learning / Attention Mechanisms"
tags: [attention, long-context, transformer, architecture]
sources: [[deepseek-v4-million-token-context]]
---
# Compressed Sparse Attention (CSA)
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
CSACompressed Sparse Attention是 DeepSeek-V4 引入的一种混合注意力机制,其核心思想是先将 KV cache 沿序列维度进行压缩,再在压缩后的表示上执行 DeepSeek Sparse AttentionDSA从而大幅降低长上下文下的计算和存储开销。
## 核心机制
### 1. KV Cache 压缩
- 对 Key 和 Value 矩阵沿序列维度进行压缩,通过**闪电索引器Lightning Indexer**选择性地保留最相关的 KV 条目
- 压缩后的 KV cache 大小相比原始表示减少数个数量级
### 2. 稀疏注意力
- 在压缩后的 KV 上执行 DeepSeek Sparse AttentionDSA
- 结合滑动窗口Sliding Window机制确保局部上下文不被丢失
- 使用 Multi-Query Attention 变体(共享 Key-Value
### 3. 效率分析
- 相比 BF16 GQA8 基线4.3 层 KV cache 仅约 2%1M 上下文)
- 注意力计算在索引器中以 FP4 精度执行,进一步加速
## 与 HCA 的关系
CSA 与 [[heavily-compressed-attention]]HCA构成 DeepSeek-V4 的 [[hybrid-attention-architecture]]
- **CSA**:中等压缩 + 稀疏注意力(保留更多局部信息)
- **HCA**:激进压缩 + 密集注意力(最大化全局效率)
## 数学原理
给定输入序列长度 L、压缩比 rCSA 将 KV 从 L × d 压缩至 L/r × d使得注意力复杂度从 O(L²d) 降至 O(L²/r² · d)。
## 相关概念
- [[heavily-compressed-attention]] — HCA 高强度压缩注意力
- [[hybrid-attention-architecture]] — 混合注意力架构
- [[million-token-context]] — 百万 Token 上下文
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,15 @@
# 可计算性理论 (Computability Theory)
- **领域**: 理论计算机科学
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
研究「什么是可计算的」及其边界的学科。源于哥德尔对[[primitive-recursive-functions|原始递归函数]]的研究,经丘奇(λ 演算)和图灵(图灵机)发展为独立学科。[[halting-problem|停机问题]]的不可判定性是其最核心的结果。
丘奇-图灵论题:所有「直觉上可计算」的函数等价于图灵可计算函数。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[halting-problem]] · [[primitive-recursive-functions]] · [[godel-incompleteness-theorems]]

View File

@@ -0,0 +1,13 @@
# 一致性 (Consistency, 逻辑学)
- **领域**: 数理逻辑
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
一个[[formal-systems|形式系统]]是一致的,当且仅当不存在公式 φ 使得系统同时证明 φ 和 ¬φ。等价地,不一致意味着系统可证 0 = 1。[[godel-incompleteness-theorems|第二不完备定理]]表明:足够强的一致系统不能自我证明其一致性——这是对[[hilberts-program|希尔伯特计划]]的致命打击。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[completeness-logic]] · [[godel-incompleteness-theorems]] · [[hilberts-program]]

View File

@@ -0,0 +1,14 @@
# 连续统假设 (Continuum Hypothesis, CH)
- **领域**: 集合论
- **提出者**: 格奥尔格·康托尔
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
不存在一个集合其基数严格介于自然数集和实数集之间2^ℵ₀ = ℵ₁)。希尔伯特 23 个问题之首。哥德尔1940证明 CH 与 ZFC 相对一致科恩1963用力迫法证明 CH 独立于 ZFC——这是[[godel-incompleteness-theorems|不完备性]]精神的典型体现。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[hilberts-program]] · [[mathematical-pluralism]]

161
concepts/crawl4ai.md Normal file
View File

@@ -0,0 +1,161 @@
# Crawl4AI
**类型**: 开源工具,数据提取,网页爬虫
**领域**: AI 应用开发数据工程RAG 系统
**许可证**: Apache 2.0
**核心功能**: 智能网页内容提取与结构化转换
## 定义
Crawl4AI 是一个专为大型语言模型LLM和 AI 应用设计的开源网页爬虫与数据提取工具。它能够自动将网页内容转换为结构化的 Markdown 格式,简化 RAG检索增强生成和模型微调所需的数据获取流程。
## 核心特性
### 1. 智能内容提取
- **自动转换**: 将网页内容自动转换为结构化 Markdown 格式
- **多种提取方式**: 支持 JSON CSS 提取、JSON XPath 提取、LLM 提取
- **数据获取简化**: 专门为 RAG 和微调场景优化数据获取流程
### 2. 技术架构
- **协议支持**: 支持 HTTP(S) 协议
- **合规性**: 遵守 robots.txt 规则
- **开源协议**: Apache 2.0 许可证
### 3. 配置灵活性
- **自定义 User-Agent**: 支持自定义请求头标识
- **代理设置**: 支持通过代理服务器访问
- **会话管理**: 支持会话状态管理
### 4. 缓存机制
- **多种缓存模式**:
- ENABLED默认: 启用缓存
- DISABLED: 禁用缓存
- READ_ONLY: 只读模式
- WRITE_ONLY: 只写模式
- BYPASS: 绕过缓存
- **缓存管理命令**:
- `aclear_cache()`: 清除缓存
- `aflush_cache()`: 刷新缓存
## 应用场景
### 1. RAG 数据准备
- 自动抓取和格式化网页内容用于知识库构建
- 支持大规模数据采集和预处理
- 为向量数据库提供标准化输入
### 2. 模型微调
- 获取高质量训练数据
- 支持特定领域内容抓取
- 数据清洗和格式化
### 3. AI 应用开发
- 为 AI 代理提供实时数据获取能力
- 支持自动化信息检索流程
- 知识图谱构建的数据源
## 技术亮点
1. **LLM 友好**: 专为大型语言模型应用设计,输出格式直接可用
2. **易于集成**: 简单的 API 设计,便于嵌入现有工作流
3. **开源生态**: Apache 2.0 许可证,支持社区贡献和二次开发
4. **灵活配置**: 丰富的配置选项适应不同场景需求
## 与其他工具的比较
| 特性 | Crawl4AI | 传统爬虫 | Scrapy | Firecrawl |
|------|----------|----------|--------|-----------|
| AI/LLM 优化 | ✅ 专门设计 | ❌ 通用 | ❌ 通用 | ✅ 支持 |
| Markdown 输出 | ✅ 原生支持 | ❌ 需转换 | ❌ 需转换 | ✅ 支持 |
| 开源 | ✅ Apache 2.0 | 部分 | ✅ BSD | ❌ 闭源 |
| 易用性 | ✅ 简单 API | 中等 | 较复杂 | ✅ 简单 |
| 缓存机制 | ✅ 多种模式 | 需自建 | 需配置 | ✅ 内置 |
## 在 AI 工作流中的位置
```
数据源(网页)
Crawl4AI抓取 + 提取 + 格式化)
结构化数据Markdown/JSON
RAG 系统 / 微调数据 / 知识库
LLM 应用
```
## 使用示例
### 基础抓取
```python
from crawl4ai import AsyncWebCrawler
async with AsyncWebCrawler() as crawler:
result = await crawler.arun("https://example.com")
print(result.markdown)
```
### 配置缓存
```python
from crawl4ai import CacheMode
# 设置缓存模式
crawler.config.cache_mode = CacheMode.ENABLED
# 清除缓存
await crawler.aclear_cache()
```
### 自定义提取
```python
# 使用 CSS 选择器提取
result = await crawler.arun(
url="https://example.com",
extraction_strategy=JsonCssExtractionStrategy(schema)
)
```
## 优势与局限
### 优势
1. **AI 原生**: 专为 AI/LLM 工作流设计
2. **格式友好**: 直接输出 Markdown无需额外处理
3. **轻量级**: 简单易用,快速上手
4. **开源免费**: Apache 2.0 许可证
### 局限
1. **功能专注**: 主要针对内容提取,复杂抓取需配合其他工具
2. **性能**: 大规模并发可能需要额外优化
3. **生态**: 相对较新,社区生态仍在建设中
## 发展趋势
### 技术演进
1. **多模态支持**: 扩展支持图片、视频等非文本内容
2. **智能解析**: 集成 LLM 进行更智能的内容理解
3. **分布式**: 支持大规模分布式抓取
### 应用扩展
1. **企业知识库**: 自动化企业文档采集
2. **学术研究**: 学术文献自动抓取和整理
3. **竞品分析**: 自动化市场信息监控
## 相关概念
- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统
- [[rag-systems]] — 检索增强生成系统
- [[llm-applications]] — 大型语言模型应用
- [[web-scraping]] — 网页抓取技术
- [[data-extraction]] — 数据提取技术
## 参考资源
1. 知乎原文: https://zhuanlan.zhihu.com/p/717965307
2. Crawl4AI 开源项目文档
3. Apache 2.0 许可证
---
*创建时间: 2026-04-22*
*最后更新: 2026-04-22*
*相关文章: [[crawl4ai-open-source-web-crawler]]*

View File

@@ -0,0 +1,36 @@
# 对角线方法 (Diagonalization Method)
- **领域**: 数学基础、逻辑学
- **创始人**: 格奥尔格·康托尔 (Georg Cantor)
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 定义
对角线方法是一种通过将列表中的每个元素与其对角线上的某个属性进行比较,构造出一个不在原列表中的新元素的证明技术。其本质是一种[[self-reference|自我参照]]的构造:通过让对象谈论自身,揭示系统的内在限制。
## 历史谱系与应用
| 结果 | 发现者 | 核心思想 |
|------|--------|----------|
| 实数集不可数 | Cantor | 对角线上构造不在列表中的实数 |
| 罗素悖论 | Russell | R = {x | x ∉ x} 的对角线自指 |
| 塔斯基不可定义性 | Tarski | 真值谓词不可在系统内定义 |
| 哥德尔不完备定理 | Gödel | Sub(n, n, n) 构造自指句子 |
| 停机问题 | Turing | D(D) 的对角线矛盾 |
## 在哥德尔证明中的运用
哥德尔的对角线构造不同于康托尔的直接形式:
1. 定义 Sub(a, b, c) 替换函数(将编码为 a 的公式中编码为 b 的变元替换为数字 c
2. 关键一步Sub(n, n, n)——将自身的编码代入自身
3. 产生自指命题 G = ¬Prov(Sub(n, n, n))G 断言自身不可证
这里的「对角线」体现在:同一个数 n 同时作为公式编码和替换数字出现。
## 本质
对角线方法的统一本质是:**任何足够丰富的系统,一旦允许内部元素「谈论」自身,就必然产生超越系统表达能力的结果。**
## 相关概念
[[self-reference]] · [[godel-numbering]] · [[godel-incompleteness-theorems]] · [[halting-problem]]

15
concepts/duo-attention.md Normal file
View File

@@ -0,0 +1,15 @@
# DuoAttention
**双模式注意力**,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。
## 核心区分
- **检索头**: 需要完整上下文的注意力头 → 全注意力
- **流式头**: 只需局部模式的注意力头 → 滚动 KV 缓存
## 相关概念
- [[attention-sinks]] — 注意力汇
- [[kv-cache-bottleneck]] — 缓存优化
- [[mixture-of-attention-schemes]] — MoAS 路由方案
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,14 @@
# FlashAttention-3
**FlashAttention 的最新版本** (2024),引入异步计算和低精度支持。
## 新增特性
- **异步执行**: 重叠计算与数据传输,进一步提高 GPU 利用率
- **FP8 支持**: 原生支持 FP8 低精度计算
- **Hopper 架构**: 针对 NVIDIA H100 GPU 的 Tensor Core 优化
## 相关概念
- [[flash-attention]] — FA1/FA2 前序版本
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,32 @@
# FlashAttention
**IO感知的精确注意力优化**,由 Dao 等 2022 年提出,是注意力计算效率的最大单次突破。
## 核心洞见
传统注意力实现的瓶颈不是计算FLOPs而是**GPU 内存层级之间的数据传输**IO。标准实现需要多次读写 HBM高带宽内存而 HBM 带宽远低于 SRAM。
## 关键创新
1. **Tiling**: 将注意力矩阵分块计算,每块保持在快速 SRAM 中
2. **Recomputation**: 反向传播时重新计算 softmax 而非存储中间结果,节省内存
3. **IO-Aware**: 算法设计以最小化 HBM↔SRAM 数据传输为核心目标
## 性能收益
- **速度**: 比标准注意力快 2-4x
- **内存**: 内存占用量从 O(n²) 降至 O(n)
- **精度**: 数值精确(非近似),无精度损失
## 版本演进
- **FlashAttention-1** (2022): Tiling + Recomputation
- **FlashAttention-2** (2023): 更好的并行化和 work partitioning
- **FlashAttention-3** (2024): 异步计算 + 低精度 (FP8)
## 相关概念
- [[flash-attention-3]] — 最新版本
- [[kv-cache-bottleneck]] — KV 缓存瓶颈FlashAttention 不直接解决但互补)
- [[sparse-attention-patterns]] — 稀疏注意力也可结合 FlashAttention
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,13 @@
# 形式系统 (Formal System)
- **领域**: 数理逻辑
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
形式系统由四要素组成:字母表(有限符号集合)、语法规则(合法公式)、公理(推理起点)和推理规则(如 Modus Ponens。[[godel-incompleteness-theorems|哥德尔不完备定理]]揭示了任何「足够强」的一致形式系统的内在限制。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[peano-arithmetic]] · [[godel-incompleteness-theorems]] · [[consistency-logic]] · [[completeness-logic]]

View File

@@ -0,0 +1,49 @@
---
title: "FP4 Quantization-Aware Training"
domain: "Deep Learning / Model Compression"
tags: [quantization, training, fp4, efficiency]
sources: [[deepseek-v4-million-token-context]]
---
# FP4 Quantization-Aware Training (FP4 QAT)
> **类型**: Concept (Tier 2 — Foundation)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
FP4MXFP4量化感知训练是一种低精度训练技术将模型权重量化到 4 位浮点格式以降低内存和计算开销。DeepSeek-V4 在 MoE 专家权重和 indexer QK 路径中应用 FP4 QAT。
## 核心设计
### 应用范围
- **MoE 路由专家权重**FP4 存储和推理
- **Indexer QK 路径**FP4 计算
### 训练流程
1. **前向传播**:原生 FP4 权重用于 rollout 和推理(降低内存流量)
2. **反向传播**FP4 → FP8 无损反量化 → 复用 FP8 混合精度框架
3. **主权重**FP32 精度维护
### 损失函数设计
FP4 量化误差通过额外损失项控制:
- Block-wise 量化(每 block 独立缩放因子)
- 无需修改反向传播管线
## 效率收益
| 场景 | FP8 | FP4 理论收益 |
|------|-----|-------------|
| 权重存储 | 8-bit/param | 4-bit/param (50% ↓) |
| 计算吞吐 | 基准 | +33%(未来硬件) |
当前硬件上 FP4 × FP8 峰值 FLOPS 与 FP8 × FP8 相同,但未来硬件可释放额外 33% 效率。
## 相关概念
- [[mixture-of-experts]] — MoE 混合专家
- [[million-token-context]] — 百万 Token 上下文
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,47 @@
# 哥德尔不完备定理 (Gödel's Incompleteness Theorems)
- **领域**: 数理逻辑、数学基础
- **发现者**: 库尔特·哥德尔 (Kurt Gödel), 1931
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 定义
哥德尔不完备定理包含两条关于形式系统内在限制的定理:
**第一不完备定理**:任何包含 [[peano-arithmetic|皮亚诺算术]] 的一致[[formal-systems|形式系统]] F必然存在一个闭公式 G哥德尔句子使得 G 在 F 中既不能证明也不能否证,且 G 在标准自然数模型中为真。
**第二不完备定理**:任何包含 PA 的一致形式系统 F不能在 F 内部证明自身的[[consistency-logic|一致性]](即 F ⊬ Con_F
## 核心机制
定理的证明依赖于三个关键技术:
1. **[[godel-numbering|哥德尔编码]]**:将符号、公式、证明映射为自然数,实现算术化[[metamathematics|元数学]]
2. **[[self-reference|自指构造]]**:通过[[diagonalization-method|对角线方法]]构造断言「我不可证」的哥德尔句子 G = ¬Prov(GN(G))
3. **[[primitive-recursive-functions|可表示性]]**证明关键元数学关系Proof、Prov、Sub在 PA 中可表示
## 前提条件
三条前提缺一不可:
- 系统必须「足够强」以表达基本算术(更弱的系统如 Presburger 算术是完备且可判定的)
- 系统必须一致(不一致系统可证任何命题,因而是「完备」的)
- 公理集必须递归可枚举(否则可用全体真命题作公理,得到完备但不可判定的系统)
## 影响领域
- **数学基础**:终结[[hilberts-program|希尔伯特计划]],催生证明论和模型论
- **计算机科学**[[halting-problem|停机问题]]、[[formal-verification|形式验证]]、[[automated-theorem-proving|自动定理证明]]
- **哲学**[[lucas-penrose-argument|卢卡斯-彭罗斯论证]]、数学真理本质、知识界限
- **物理学与 AI**万有理论的可完备性、AGI 边界讨论
## 常见误解
| 误解 | 澄清 |
|------|------|
| 数学不可靠 | 定理只说明不完备性,不涉及一致性问题 |
| 有些问题永远无法解决 | 不可证是相对于某个系统而言,可添加新公理解决 |
| 适用于所有系统 | 仅适用于「足够强」的系统 |
| 证明人类心智超越机器 | 论证存在缺陷,结论未定论 |
## 现代演进
[[paris-harrington-theorem]] → [[goodsteins-theorem]] → [[chaitin-algorithmic-information-theory|蔡廷算法信息论]]

View File

@@ -0,0 +1,39 @@
# 哥德尔编码 (Gödel Numbering)
- **领域**: 数理逻辑
- **发明者**: 库尔特·哥德尔, 1931
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 定义
哥德尔编码是将[[formal-systems|形式系统]]中的符号、公式和证明序列唯一地映射为自然数的技术。通过质因数分解的唯一性,实现从元数学陈述到算术陈述的翻译。
## 编码规则
**基本符号编码**为形式系统的每个基本符号分配一个唯一的自然数0→1, S→2, +→3, ·→4, =→5, ¬→6, ∧→7, ∀→8, ∃→9, (→10, )→11, x→13, y→17, z→19...
**公式编码**:若公式由符号序列 a₁a₂...aₖ 组成,各符号编码为 nᵢ
$$GN(φ) = 2^{n_1} \cdot 3^{n_2} \cdot 5^{n_3} \cdot ... \cdot p_k^{n_k}$$
其中 pₖ 是第 k 个质数。
**证明编码**:若证明是公式序列 φ₁,...,φₖ,各公式编码为 gᵢ
$$GN_{seq}(φ_1,...,φ_k) = 2^{g_1} \cdot 3^{g_2} \cdot ... \cdot p_k^{g_k}$$
## 算术化元数学
编码使得元数学概念转化为自然数的算术性质:
- 「x 是一个公式」→ 自然数 x 具有某性质
- 「x 是 y 的证明」→ 自然数 x 与 y 满足某关系
- 「公式 φ 可证」→ ∃x (x 是 GN(φ) 的证明)
这些算术性质在 [[peano-arithmetic|PA]] 中可表达,这是哥德尔证明的核心创新。
## 关键应用
- 构造可表示的关系 Proof(x, y) 和 Prov(y)
- 定义替换函数 Sub(a, b, c),实现[[self-reference|自指]]
- 构造[[godel-incompleteness-theorems|哥德尔句子]] G = ¬Prov(Sub(n, n, n))
## 相关概念
[[diagonalization-method]] · [[self-reference]] · [[primitive-recursive-functions]] · [[metamathematics]]

View File

@@ -0,0 +1,14 @@
# 古德斯坦定理 (Goodstein's Theorem)
- **领域**: 数论、证明论
- **发现者**: Reuben Goodstein, 1944; 不可证性由 Kirby & Paris, 1982 证明
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
古德斯坦序列通过对基数进行递归替换和递减构造。定理断言所有古德斯坦序列最终到达 0但这一命题在[[peano-arithmetic|PA]]中不可证——证明需要超限序数 ε₀,超出了 PA 的证明论强度。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[paris-harrington-theorem]] · [[peano-arithmetic]]

View File

@@ -0,0 +1,25 @@
# Grouped-Query Attention (GQA)
**分组查询注意力**,在 MHA 和 MQA 之间的折中方案,由 Ainslie 等 2023 年提出。
## 定义
GQA 将 Q 头分为 G 组,每组共享一个 KV 头。标准 MHA 是 G = h每组1个Q头MQA 是 G = 1所有Q头共享一个KV头
## 核心洞见
并非所有注意力都需要独立的 KV 头——GQA 证明分组共享 KV 可以在几乎不损失质量的前提下大幅减少 KV 缓存。这也是 Llama 3 系列采用的设计。
## 关键参数
- **组数 G**: G = h → MHAG = 1 → MQA1 < G < h GQA
- **缓存减少**: KV 缓存缩减为 MHA G/h典型的 8 分组可将缓存减少 87.5%
- **质量**: G = 4~8 时质量与 MHA 接近
## 相关概念
- [[multi-head-attention]] 标准 MHA (G = h)
- [[multi-query-attention]] 极端 MQA (G = 1)
- [[multi-head-latent-attention]] 更激进的 MLA 压缩
- [[kv-cache-bottleneck]] 缓存瓶颈驱动 GQA 设计
- [[llm-attention-survey-2026]] 综述参考

View File

@@ -0,0 +1,39 @@
# 停机问题 (Halting Problem)
- **领域**: 计算机科学、可计算性理论
- **证明者**: 阿兰·图灵 (Alan Turing), 1936
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 定义
**停机问题**:给定一个程序 P 及其输入 I判定 P 在输入 I 上最终是否会停机(执行有限步后终止)。
**不可判定性定理**:不存在一个通用算法(图灵机)能够对所有可能的程序-输入对 (P, I) 正确地判定 P(I) 是否停机。
## 证明概要(对角线方法)
假设存在算法 H(P, I) 判定停机。构造程序 D(P)
- 调用 H(P, P)
- 若 H 返回「停机」,则 D 进入无限循环
- 若 H 返回「不停机」,则 D 停机
考虑 D(D):无论哪种情况都导致矛盾。
## 与哥德尔不完备定理的联系
停机问题可视为[[godel-incompleteness-theorems|哥德尔不完备定理]]在计算理论中的直接对应物:
- 两者都使用[[diagonalization-method|对角线方法]]
- 两者都揭示形式系统/计算模型的内在限制
- 给定形式系统 F命题可证性的判定等价于停机问题的判定
## 相关不可判定问题
| 问题 | 证明者 |
|------|--------|
| 波斯特对应问题 | Post, 1946 |
| 希尔伯特第十问题 | Matiyasevich 等, 1970 |
| 字的群论问题 | Novikov, 1955 |
## 相关概念
[[computability-theory]] · [[self-reference]] · [[diagonalization-method]] · [[godel-incompleteness-theorems]]

View File

@@ -0,0 +1,52 @@
---
title: "Heavily Compressed Attention (HCA)"
domain: "Deep Learning / Attention Mechanisms"
tags: [attention, long-context, transformer, architecture]
sources: [[deepseek-v4-million-token-context]]
---
# Heavily Compressed Attention (HCA)
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
HCAHeavily Compressed Attention是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 [[compressed-sparse-attention]]CSA不同HCA 对 KV cache 施加更高强度的压缩,但保持密集注意力计算,以最大化全局上下文捕获效率。
## 核心机制
### 1. 高强度 KV 压缩
- 比 CSA 更激进的序列维度压缩
- 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示
### 2. 密集注意力
- 在压缩后的 KV 上执行完整(密集)注意力而非稀疏注意力
- 保留全局上下文信息的完整性,避免稀疏选择可能遗漏的信息
### 3. 设计权衡
- **优势**:更高的压缩比 → 更小的 KV cache → 更低的计算开销
- **代价**:压缩过程中的信息损失(由 CSA 层的局部信息补充)
## 与 CSA 的协同
在 [[hybrid-attention-architecture]] 中CSA 和 HCA 交替或分层部署:
- CSA 层负责保留局部和稀疏全局信息
- HCA 层负责捕获密集全局上下文
- 两者互补,共同实现长上下文下的高效推理
## 工程实现
- FP4 精度用于索引器中的注意力计算
- BF16/FP8 混合精度用于 KV 表示
- RoPE 位置编码维度隔离用于进一步压缩
## 相关概念
- [[compressed-sparse-attention]] — CSA 压缩稀疏注意力
- [[hybrid-attention-architecture]] — 混合注意力架构
- [[million-token-context]] — 百万 Token 上下文
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,35 @@
# 希尔伯特计划 (Hilbert's Program)
- **领域**: 数学基础、元数学
- **提出者**: 大卫·希尔伯特 (David Hilbert), 1920年代
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 定义
希尔伯特计划是 20 世纪初提出的旨在为整个数学奠定坚实基础的宏伟研究纲领。其核心目标为:
1. **形式化**:将全体数学表达为公理化的[[formal-systems|形式系统]] F
2. **一致性证明**使用有穷主义方法finitary methods证明 F 是一致的
3. **完备性证明**:证明 F 是完备的——所有可表达的真命题都可在 F 内证明
## 历史背景
计划诞生于[[russells-paradox|第三次数学危机]]之后。面对集合论悖论对数学基础的动摇,希尔伯特试图通过严格的[[metamathematics|元数学]]方法一劳永逸地解决所有基础问题。他于 1930 年在哥尼斯堡科学会议上发表著名演讲,以「我们必须知道,我们必将知道」结尾——这句话后来成为其墓志铭。
## 哥德尔的终结
[[godel-incompleteness-theorems|哥德尔不完备定理]]直接否定了希尔伯特计划的后两个核心目标:
- 第一不完备定理 ⇒ 完备性不可实现
- 第二不完备定理 ⇒ 一致性无法在系统内部自证
然而希尔伯特计划的遗产并未消亡——它催生的证明论和模型论至今是数理逻辑的重要分支。
## 影响与遗产
- 催生了证明论Proof Theory和模型论Model Theory
- 引导数学家接受[[mathematical-pluralism|数学多元主义]]
- 形式化方法在计算机科学中重生([[formal-verification|形式验证]]、[[automated-theorem-proving|自动定理证明]]
## 相关概念
[[peano-arithmetic]] · [[consistency-logic]] · [[completeness-logic]] · [[russells-paradox]]

View File

@@ -0,0 +1,55 @@
---
title: "Hybrid Attention Architecture"
domain: "Deep Learning / Attention Mechanisms"
tags: [attention, long-context, transformer, architecture]
sources: [[deepseek-v4-million-token-context]]
---
# Hybrid Attention Architecture
> **类型**: Concept (Tier 2 — Foundation)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
混合注意力架构是 DeepSeek-V4 系列为解决超长上下文效率问题而设计的核心创新,它通过在 Transformer 层中交替或组合使用不同压缩策略的注意力机制,在计算效率和上下文覆盖之间取得最优平衡。
## 组成
### [[compressed-sparse-attention]] (CSA)
- KV cache 沿序列维度压缩后进行稀疏注意力
- 保留局部信息(滑动窗口)+ 选择性全局信息(稀疏选择)
### [[heavily-compressed-attention]] (HCA)
- 更高强度的 KV 压缩,但保持密集注意力
- 最大化全局上下文效率,牺牲部分局部细节
## 设计原则
1. **分层部署**:不同层采用不同注意力类型
2. **效率递进**CSA 层保持中等压缩比HCA 层激进压缩
3. **互补覆盖**局部CSA滑动窗口+ 全局HCA密集= 完整上下文
## 效率数据
| 配置 | 1M 上下文 KV Cache (相对基线) |
|------|------------------------------|
| BF16 GQA8 基线 | 100% |
| DeepSeek-V3.2 | ~基线的 10% |
| DeepSeek-V4-Pro | ~基线的 2% |
## 工程实现要点
- FP4/BF16/FP8 混合精度RoPE 维度 BF16其他 FP8/FP4
- 闪电索引器Lightning Indexer用于 CSA 的 KV 选择
- Multi-Query Attention 共享 K/V
## 相关概念
- [[compressed-sparse-attention]] — CSA
- [[heavily-compressed-attention]] — HCA
- [[million-token-context]] — 百万 Token 上下文
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,13 @@
# 柯尔莫哥洛夫复杂度 (Kolmogorov Complexity)
- **领域**: 算法信息论
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
字符串 x 的柯尔莫哥洛夫复杂度 K(x) = min{|p| : U(p) = x},即输出 x 的最短程序长度。是[[chaitin-algorithmic-information-theory|算法信息论]]的核心概念,度量对象的「算法随机性」。[[chaitin-constant|蔡廷不完备性定理]]表明形式系统只能证明有限个随机性事实。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[chaitin-algorithmic-information-theory]] · [[chaitin-constant]] · [[godel-incompleteness-theorems]]

View File

@@ -0,0 +1,35 @@
# KV 缓存内存瓶颈
**自回归推理中的核心内存瓶颈**KV 缓存的线性增长严重限制 LLM 推理效率。
## 问题定义
自回归推理中,每个新生成的 Token 需要与所有历史 Token 的 KV 进行注意力计算。KV 缓存的大小为:
$$\text{KV Cache Size} = 2 \times n \times d \times \text{layers} \times \text{precision}$$
其中 n 为已生成的 Token 数d 为模型维度。当上下文长度达到 1M 时KV 缓存可能达到数百 GB。
## 瓶颈表现
- **批处理受限**: KV 缓存占用大量 GPU 内存,限制并行推理的 batch size
- **长上下文成本**: 上下文每翻倍KV 缓存也翻倍
- **吞吐量下降**: 内存压力导致推理吞吐量大幅下降
## 解决方案矩阵
| 策略 | 代表方法 | 缓存缩减 | 质量影响 |
|------|---------|---------|---------|
| 结构压缩 | MLA ([[multi-head-latent-attention]]) | 10-20x | 极小 |
| 头共享 | GQA ([[grouped-query-attention]]) | ~8x | 轻微 |
| 量化压缩 | KVQuant | 4-8x | 可控 |
| 选择性淘汰 | H2O/SnapKV ([[attention-sinks]]) | 2-5x | 中等 |
| 低秩投影 | Palu, ReCalKV | 3-5x | 轻微 |
## 相关概念
- [[multi-head-latent-attention]] — MLA: 结构压缩(最大杠杆)
- [[grouped-query-attention]] — GQA: 头共享方案
- [[kvcache-transfer]] — KVCache 跨节点传输
- [[attention-sinks]] — 缓存淘汰策略
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,32 @@
# 线性注意力方法 (Linear Attention Methods)
**O(n) 复杂度的注意力替代方案**,通过核函数分解避免显式 N×N 注意力矩阵计算。
## 核心思想
将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积:
$$\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T$$
利用矩阵乘法的结合律改变计算顺序:(QK^T)V → Q(K^TV),将复杂度从 O(n²) 降至 O(n)。
## 代表方法
- **Linear Transformer** (Katharopoulos 2020): 首次提出线性注意力
- **Performer**: 使用随机特征近似 softmax
- **RetNet**: 同时支持并行训练和循环推理的统一框架
- **RWKV**: 结合 RNN 效率与 Transformer 性能
## 与稀疏注意力的对比
| 特性 | 线性注意力 | [[sparse-attention-patterns|稀疏注意力]] |
|------|-----------|-----------|
| 复杂度 | O(n) | O(n·k) |
| 全局视野 | 隐式(全局压缩) | 显式(但受限) |
| 质量 | 一般略低于 MHA | 通常优于线性 |
## 相关概念
- [[sparse-attention-patterns]] — 稀疏注意力
- [[mamba-ssm]] — 状态空间模型(线性复杂度的新兴路径)
- [[subquadratic-transformer-alternatives]] — 次二次替代综述
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,62 @@
# LLM 应用
**类型**: AI 应用领域
**领域**: 人工智能,自然语言处理
**全称**: Large Language Model Applications大型语言模型应用
## 定义
LLM 应用是指基于大型语言模型(如 GPT-4、Claude、Gemini 等)构建的各类实际应用系统。这些应用利用大模型的语言理解和生成能力,解决从文本生成到复杂推理的多种任务。
## 主要类型
### 1. 文本生成
- 文章写作与编辑
- 代码生成与调试
- 多语言翻译
### 2. 对话系统
- 客服机器人
- 个人助手
- 教育辅导
### 3. 检索增强
- RAG 系统
- 知识管理
- 文档分析
### 4. 代理系统
- 自主 AI 代理
- 工具调用
- 任务执行
## 技术架构
```
用户输入
输入处理/提示工程
LLM 推理
输出处理/后处理
用户输出
```
## 开发挑战
1. **提示工程**: 设计有效的提示词获得理想输出
2. **上下文管理**: 处理长上下文和多轮对话
3. **幻觉控制**: 减少不准确或虚假信息的生成
4. **安全与合规**: 确保输出符合安全和法规要求
## 相关概念
- [[rag-systems]] — 检索增强生成系统
- [[crawl4ai]] — 用于数据获取的网页爬虫工具
- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统
---
*创建时间: 2026-04-22*
*最后更新: 2026-04-22*

View File

@@ -0,0 +1,29 @@
# Lost in the Middle
**长上下文信息丢失现象**LLM 在处理长上下文时对中间位置的信息利用效率最低。
## 核心发现
Liu 等 (2024) 发现 LLM 的注意力呈 **U 形分布**
- 开头 Token 获得最多关注primacy bias
- 结尾 Token 获得次多关注recency bias
- **中间 Token 被系统性忽略**
## 影响
- 将关键信息放在 Prompt 中间位置可能导致模型"看不到"
- 多文档 QA 任务中,中间文档的信息利用效率显著低于首尾
- 随上下文增长,中间区域的"注意力盲区"扩大
## 缓解方案
- [[attention-sinks|Attention Sinks]]: 利用注意力汇锚定上下文
- [[duo-attention|DuoAttention]]: 区分检索头和流式头
- Prompt 工程: 将关键信息放在开头或结尾
## 相关概念
- [[attention-entropy-collapse]] — 注意力退化加剧此现象
- [[attention-sinks]] — 缓解方案
- [[duo-attention]] — 架构层面的解决思路
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,16 @@
# 卢卡斯-彭罗斯论证 (Lucas-Penrose Argument)
- **领域**: 心灵哲学、人工智能
- **提出者**: John Lucas (1961), Roger Penrose (1989/1994)
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
基于[[godel-incompleteness-theorems|哥德尔不完备定理]]论证人类心智超越机器图灵机的著名哲学论证。卢卡斯1961提出人类可以通过元推理「看到」哥德尔句子为真而任何形式系统无法做到。彭罗斯1989/1994扩展此论证认为数学洞察涉及非计算过程可能与量子引力效应有关。
学术界普遍认为该论证存在严重缺陷(不一致性问题、系统辨识问题等),人类心智是否超越机器仍是开放问题。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[self-reference]] · [[halting-problem]]

18
concepts/mamba-ssm.md Normal file
View File

@@ -0,0 +1,18 @@
# Mamba (State Space Model)
**选择性状态空间模型**,由 Gu 和 Dao 2024 年提出,线性复杂度的 Transformer 替代方案。
## 核心机制
Mamba 将 SSM 的选择性机制(输入依赖的状态转移)与硬件感知算法结合,实现了线性时间序列建模,在多个任务上达到或超越 Transformer 性能。
## 与注意力机制的关系
Mamba 展示了突破 O(n²) 注意力瓶颈的另一条路——不是优化注意力,而是**抛弃注意力**。
## 相关概念
- [[linear-attention-methods]] — 另一条线性路径
- [[subquadratic-transformer-alternatives]] — 次二次替代综述
- [[attention-entropy-collapse]] — Mamba 无此问题
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,61 @@
---
title: "Manifold-Constrained Hyper-Connections (mHC)"
domain: "Deep Learning / Network Architecture"
tags: [architecture, residual-connections, training-stability, transformer]
sources: [[deepseek-v4-million-token-context]]
---
# Manifold-Constrained Hyper-Connections (mHC)
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]], Xie et al. (2026)
## 定义
mHCManifold-Constrained Hyper-Connections是对标准 Hyper-ConnectionsHC的改进通过将残差映射矩阵约束到 Birkhoff 多面体(双随机矩阵流形),解决深层堆叠时的数值不稳定问题。
## 核心机制
### 1. 标准 Hyper-Connections
标准 HC 将残差流的宽度从 ℝᵈ 扩展为 ℝⁿʰᶜˣᵈ,引入三个可学习的线性映射:
- **输入映射 Aₗ** ∈ ℝ¹ˣⁿʰᶜ:将扩展的残差状态融合为层输入
- **残差变换 Bₗ** ∈ ℝⁿʰᶜˣⁿʰᶜ:残差状态的跨流混合
- **输出映射 Cₗ** ∈ ℝⁿʰᶜˣ¹:将层输出注入残差流
更新公式Xₗ₊₁ = BₗXₗ + CₗFₗ(AₗXₗ)
### 2. 流形约束
mHC 的核心创新是将 Bₗ 约束到双随机矩阵流形 MBirkhoff polytope
```
M = {M ∈ ℝⁿˣⁿ | M1ₙ = 1ₙ, 1ₙᵀM = 1ₙᵀ, M ≥ 0}
```
这确保谱范数 ||Bₗ||₂ ≤ 1使得残差变换是**非扩张的**non-expansive保障前后向传播的数值稳定性。
### 3. 动态参数化
三个映射参数通过输入动态生成,分解为动态分量和静态分量:
- 输入 Xₗ 先经 RMSNorm 归一化
- 动态分量由可学习权重矩阵生成
- 静态分量由可学习偏置提供
- 门控因子 α 初始化为小值
### 4. 约束施加
- Aₗ 和 Cₗ通过 Sigmoid 确保非负性和有界性
- Bₗ通过 **Sinkhorn-Knopp 算法**20 次迭代)投影到双随机矩阵流形
## 与标准 HC 的对比
| 属性 | Hyper-Connections | mHC |
|------|-------------------|-----|
| 深层训练 | 数值不稳定 | 稳定 |
| 残差变换 | 无约束 | 双随机约束 |
| 谱范数 | 无界 | ≤1 |
| 适用性 | 浅层 | 深层堆叠 |
## 相关概念
- [[muon-optimizer]] — Muon 优化器mHC 与 Muon 共同提升训练稳定性)
- [[depth-scaling-signal-degradation]] — 深度扩展中的信号退化
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,13 @@
# 数学多元主义 (Mathematical Pluralism)
- **领域**: 数学哲学
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
[[godel-incompleteness-theorems|哥德尔不完备定理]]之后的数学哲学趋势:接受不存在唯一的「数学真理」——数学知识是相对于所选择的公理系统而言的。不同公理系统可能给出不同答案,而这些答案之间可能无法比较。数学家从追求统一的终极真理转向探索不同的数学宇宙。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[continuum-hypothesis]] · [[formal-systems]]

View File

@@ -0,0 +1,15 @@
# 元数学 (Metamathematics)
- **领域**: 数学基础、逻辑学
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
元数学是研究数学系统本身的数学——使用数学方法分析[[formal-systems|形式系统]]的性质(一致性、完备性、可判定性等)。[[godel-numbering|哥德尔编码]]是实现元数学的核心技术:将关于公式和证明的元数学陈述转化为关于自然数的算术陈述。
[[hilberts-program|希尔伯特计划]]是元数学研究的典型代表,而[[godel-incompleteness-theorems|哥德尔不完备定理]]则是元数学最深刻的结果。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[godel-numbering]] · [[hilberts-program]] · [[formal-systems]]

View File

@@ -0,0 +1,35 @@
---
title: "Million-Token Context"
domain: "Machine Learning / Long-Context Models"
tags: [long-context, efficiency, inference, kv-cache]
sources: [[deepseek-v4-million-token-context]]
---
# Million-Token Context
> **类型**: Concept (Tier 3 — Placeholder)
> **来源**: [[deepseek-v4-million-token-context]]
## 概述
百万 Token 上下文是指语言模型能够高效处理的序列长度达到 1,000,000 个 token。这是 DeepSeek-V4 系列的核心突破——通过 [[hybrid-attention-architecture]] 等技术创新,实现了在百万 token 上下文下仅为 DeepSeek-V3.2 27%Pro或 10%Flash的推理 FLOPs。
## 关键技术
- [[compressed-sparse-attention]] + [[heavily-compressed-attention]] 混合注意力
- [[fp4-quantization-training]] FP4 量化
- 异构 KV Cache 与磁盘存储策略
## 核心内容
*此页面为占位符,用于修复 wiki 中的断链。详细内容待后续补充。*
## 相关概念
- [[hybrid-attention-architecture]] — 混合注意力架构
- [[test-time-scaling]] — 测试时扩展
---
*Last Updated: 2026-04-27*
*Status: Placeholder — to be completed*

View File

@@ -0,0 +1,14 @@
# Mixture of Attention Schemes (MoAS)
**注意力方案混合路由**,根据 Token 复杂度动态分配注意力类型。
## 核心思想
"简单" Token 用廉价 [[multi-query-attention|MQA]]"困难" Token 用强大 [[multi-head-attention|MHA]],实现条件计算。
## 相关概念
- [[multi-head-attention]] — MHA
- [[grouped-query-attention]] — GQA
- [[duo-attention]] — 另一种分类方案
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,54 @@
---
title: "Mixture of Experts (MoE)"
domain: "Deep Learning / Model Architecture"
tags: [moe, architecture, sparsity, transformer]
sources: [[deepseek-v4-million-token-context]], Dai et al. (2024)
---
# Mixture of Experts (MoE)
> **类型**: Concept (Tier 2 — Foundation)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
Mixture of ExpertsMoE是一种神经网络架构范式通过稀疏激活机制每个 token 只路由到模型参数的一个子集(专家),从而在扩大总参数量的同时控制计算开销。
## DeepSeekMoE 设计
DeepSeek-V4 继承并扩展了 DeepSeekMoE 框架:
### 核心组件
- **细粒度路由专家**:大量小型专家,每个 token 选择 top-k 激活
- **共享专家**:所有 token 始终激活的专家,捕获通用知识
- **路由策略**Sqrt(Softplus(·)) 替代 Sigmoid 计算亲和度分数
### DeepSeek-V4 的改进
1. **负载均衡**:辅助损失自由策略 + 轻微序列级平衡损失
2. **移除路由目标数限制**:灵活的路由拓扑
3. **Hash 路由**:前几层 Transformer 的 FFN 用 Hash 路由替代密集层
4. **FP4 量化**:路由专家权重采用 FP4 精度
### Expert Parallelism 优化
[[deepseek-v4-million-token-context|DeepSeek-V4]] 引入细粒度通信-计算重叠:
- 将专家分组为 waves流水线化 dispatch/compute/combine
- MegaMoE2 mega-kernel理论加速 1.92×
- 在每个 GPU 上通信延迟可被计算完全隐藏
## 效率分析
对于 V4-Pro 的 token-expert 对:
- 计算量6hd FLOPsSwiGLU gate + up + down projections
- 通信量3h bytesFP8 dispatch + BF16 combine
- 需求C/B ≤ 6144 FLOPs/Byte即每 GBps 带宽可支撑 6.1 TFLOP/s 计算)
## 相关概念
- [[fp4-quantization-training]] — FP4 量化训练
- [[subquadratic-transformer-alternatives]] — Transformer 替代架构
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,30 @@
# Multi-Head Attention (MHA)
**标准多头注意力**Transformer 架构的核心注意力变体。
## 定义
MHA 将输入经过 h 个并行的注意力头处理,每个头学习不同的表示子空间,最后拼接所有头的输出并通过线性变换融合。核心操作:
$$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W^O$$
$$\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$$
## 关键特性
- **并行子空间**: h 个注意力头各自学习不同的注意模式(语法、语义、位置等)
- **参数量**: 每个头维度 d_k = d_v = d/h总参数量与单头一致
- **计算复杂度**: O(n² · d)n 为序列长度d 为模型维度
## 优势与局限
**优势**: 表达能力最强,每个头独立学习不同的 Token 关系模式。
**局限**: KV 缓存为 n × d长序列推理时内存开销极大每个 Token 需要计算与所有 Token 的注意力。
## 相关概念
- [[multi-query-attention]] — 共享 KV 头以减少缓存
- [[grouped-query-attention]] — MHA 与 MQA 之间的折中
- [[multi-head-latent-attention]] — 低秩压缩的极致优化
- [[attention-entropy-collapse]] — MHA 中深层退化问题
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,32 @@
# Multi-head Latent Attention (MLA)
**多潜在头注意力**DeepSeek 团队在 DeepSeek-V2 (2024) 中提出的革命性注意力机制。
## 核心思想
MLA 通过**低秩联合压缩**将 KV 映射到远小于原始维度的潜在空间,推理时只需缓存压缩后的潜在向量,解码时再解压重建 KV。这与 MQA/GQA 的"共享头"策略不同——MLA 是**信息论意义上的压缩**,而非简单的共享。
## 关键机制
1. **低秩压缩**: KV 先映射到 d_latent << d 的潜在空间
2. **潜在缓存**: 推理时只缓存压缩后的潜在向量而非完整 KV
3. **按需重建**: 解码时从潜在向量高效重建完整 KV
## 里程碑意义
- **缓存缩减**: KV 缓存可减少至 MHA 1/10 ~ 1/20
- **质量保持**: 压缩不显著影响模型性能
- **工业落地**: DeepSeek-V2/V3 的核心推理效率引擎
## 与 HCA 关系
MLA 可视为 [[heavily-compressed-attention|HCA]] 的泛化形式——HCA DeepSeek-V4 MLA 的增强版融合了流形约束
## 相关概念
- [[multi-head-attention]] MHA 基线
- [[grouped-query-attention]] GQA 分组方案
- [[kv-cache-bottleneck]] 缓存瓶颈问题
- [[heavily-compressed-attention]] DeepSeek-V4 HCA
- [[deepseek-v4-million-token-context]] 百万 Token 上下文应用
- [[llm-attention-survey-2026]] 综述参考

View File

@@ -0,0 +1,20 @@
# Multi-Query Attention (MQA)
**多查询注意力**,由 Shazeer 2019 年提出,所有 Q 头共享单个 KV 头。
## 定义
MQA 是 [[multi-head-attention|MHA]] 的最激进简化:保留多个 Q 头以维持表达能力,但所有头共享同一对 K 和 V。KV 缓存缩减为 MHA 的 1/h。
## 质量权衡
- **优势**: KV 缓存极低,推理内存大幅减少
- **劣势**: 表达能力受损,训练不稳定,需要额外优化
- **应用**: PaLM 采用 MQA但后续模型多转向 [[grouped-query-attention|GQA]]
## 相关概念
- [[multi-head-attention]] — MHA 基线
- [[grouped-query-attention]] — GQA 折中方案
- [[kv-cache-bottleneck]] — 缓存瓶颈
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,33 @@
---
title: "Multi-Token Prediction (MTP)"
domain: "Deep Learning / Training"
tags: [training, prediction, transformer, efficiency]
sources: [[deepseek-v4-million-token-context]]
---
# Multi-Token Prediction (MTP)
> **类型**: Concept (Tier 3 — Placeholder)
> **来源**: [[deepseek-v4-million-token-context]], DeepSeek-V3 (2024)
## 概述
MTP 是一种训练策略,让模型在每一步同时预测多个后续 token提高训练效率和下游任务性能。DeepSeek-V4 继承自 DeepSeek-V3 的 MTP 配置,未做修改。
## 核心内容
*此页面为占位符,用于修复 wiki 中的断链。详细内容待后续补充。*
## 与 DeepSeek-V4 的关系
- DeepSeek-V4 的 MTP 模块与 V3 完全相同
- 通过额外的 MTP 预测头增强训练信号密度
## 相关概念
- [[test-time-scaling]] — 测试时扩展
---
*Last Updated: 2026-04-27*
*Status: Placeholder — to be completed*

View File

@@ -0,0 +1,69 @@
---
title: "Muon Optimizer"
domain: "Deep Learning / Optimization"
tags: [optimizer, training, convergence, transformer]
sources: [[deepseek-v4-million-token-context]], Jordan et al. (2024), Liu et al. (2025)
---
# Muon Optimizer
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
Muon 是一种基于矩阵正交化的优化器,相比 AdamW 具有更快的收敛速度和更好的训练稳定性。DeepSeek-V4 中Muon 应用于大多数模块(除 embedding、prediction head、mHC 静态偏置、RMSNorm 外)。
## 核心算法
```
for each weight W ∈ ℝⁿˣᵐ:
Gₜ = ∇W Lₜ(Wₜ₋₁) # 计算梯度
Mₜ = μMₜ₋₁ + Gₜ # 动量累积
Oₜ' = HybridNewtonSchulz(μMₜ + Gₜ) # Nesterov + 混合 Newton-Schulz
Oₜ = Oₜ' · √max(n,m) · γ # RMS 重缩放
Wₜ = Wₜ₋₁ · (1 ηλ) ηOₜ # 权重衰减 + 更新
```
### 混合 Newton-Schulz 迭代
两阶段策略(共 10 次迭代):
1. **前 8 步**:系数 (a,b,c) = (3.4445, 4.7750, 2.0315) — 快速收敛
2. **后 2 步**:系数 (a,b,c) = (2, 1.5, 0.5) — 精确正交化
迭代公式Mₖ = aMₖ₋₁ + b(Mₖ₋₁Mₖ₋₁ᵀ)Mₖ₋₁ + c(Mₖ₋₁Mₖ₋₁ᵀ)²Mₖ₋₁
## 关键设计
### 1. Nesterov 技巧
使用 Nesterov 动量μMₜ + Gₜ而非标准动量进行牛顿迭代。
### 2. RMS 重缩放
将更新矩阵的 RMS 缩放到固定值,便于复用 AdamW 的超参数。
### 3. 避免注意力爆炸
DeepSeek-V4 的注意力架构允许在 Q/K 上直接应用 RMSNorm避免使用 QK-Clip。
## 与 AdamW 的混合使用
| 模块 | 优化器 |
|------|--------|
| Embedding | AdamW |
| Prediction Head | AdamW |
| mHC 静态偏置/门控 | AdamW |
| RMSNorm 权重 | AdamW |
| **其他所有模块** | **Muon** |
## 优势
- 更快收敛:通过矩阵正交化加速训练
- 更好稳定性:混合 Newton-Schulz 迭代确保数值精度
- 无缝集成RMS 重缩放允许复用 AdamW 超参数
## 相关概念
- [[manifold-constrained-hyper-connections]] — mHC共同提升训练稳定性
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,14 @@
# Native Sparse Attention (NSA)
**硬件对齐的原生可训练稀疏注意力**DeepSeek 2025 年提出。
## 核心创新
稀疏模式在训练阶段即被学习("原生"而非仅在推理时施加同时稀疏模式设计与硬件GPU Tensor Core天然对齐。
## 相关概念
- [[sparse-attention-patterns]] — 稀疏注意力全景
- [[seer-attention]] — 可学习稀疏对比
- [[deepseek-v4-million-token-context]] — 在实际模型中的应用
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,12 @@
# NTK-aware 位置编码插值
**RoPE 外推技术**,通过 NTK 理论调整旋转频率实现上下文窗口扩展。
## 核心思想
不修改模型架构,通过调整 [[rotary-position-embedding|RoPE]] 的旋转频率分布,使模型能够处理远超训练长度的序列。
## 相关概念
- [[rotary-position-embedding]] — RoPE 基础
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,69 @@
---
title: "On-Policy Distillation (OPD)"
domain: "Machine Learning / Post-Training"
tags: [post-training, distillation, reinforcement-learning, model-merging]
sources: [[deepseek-v4-million-token-context]]
---
# On-Policy Distillation (OPD)
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
OPDOn-Policy Distillation是一种多教师模型蒸馏技术通过让学生模型在自己的生成轨迹上学习教师模型的输出分布将多个领域专家模型的知识融合到单个统一模型中。
## DeepSeek-V4 中的 OPD 流程
### 两阶段后训练范式
1. **阶段一专家训练Specialist Training**
- 针对每个目标领域数学、编程、Agent、指令遵循等独立训练专家模型
- 流程Base Model → SFT领域高质量数据→ RLGRPO领域特定奖励模型
- 产出多个各自领域顶尖的专家模型
2. **阶段二OPD 融合**
- 统一模型(学生)通过多教师 OPD 学习所有专家能力
- 10+ 教师模型覆盖不同领域
### 数学形式
$$
\mathcal{L}_{\text{OPD}}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{KL}(\pi_\theta \parallel \pi_{E_i})
$$
- \(\pi_{E_i}\):第 i 个专家模型的策略
- \(\pi_\theta\):学生(统一)模型的策略
- \(w_i\):专家权重
- 反向 KL 散度确保学生沿自身生成轨迹学习
### 全词表蒸馏
与传统 token-level KL 估计不同DeepSeek-V4 采用**全词表 logit 蒸馏**
- 保留完整 logit 分布计算 KL 散度
- 梯度估计更稳定
- 更忠实地传递教师知识
## 工程实现
1. **教师调度**教师权重按需从集中存储加载ZeRO 分片;仅缓存最后一层隐藏状态
2. **TileLang 内核**:专门优化的 KL 散度计算内核
3. **在线策略**:学生模型自身生成训练轨迹,保持 on-policy 学习
## 相比其他方法的优势
| 方法 | 问题 | OPD 方案 |
|------|------|----------|
| 权重合并 | 性能下降 | Logit 级对齐,绕过物理权重限制 |
| 混合 RL | 训练不稳定 | 全词表蒸馏,梯度更稳定 |
| Token-level KL | 高方差 | 完整分布匹配 |
## 相关概念
- [[specialist-training-pipeline]] — 专家训练流水线
- [[test-time-scaling]] — 测试时扩展
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,14 @@
# 巴黎-哈灵顿定理 (Paris-Harrington Theorem)
- **领域**: 组合数学、证明论
- **发现者**: Jeff Paris & Leo Harrington, 1977
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
首次在「自然」的数学命题(而非人工构造的自指命题)中发现[[godel-incompleteness-theorems|不可判定性]]。Paris-Harrington 原理是对有限拉姆齐定理的轻微加强(要求同色子集的基数大于其最小元素),这一原理在[[peano-arithmetic|PA]]中不可证,但在 ZFC 中可证。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[goodsteins-theorem]] · [[peano-arithmetic]]

View File

@@ -0,0 +1,13 @@
# 皮亚诺算术 (Peano Arithmetic, PA)
- **领域**: 数理逻辑、数学基础
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
皮亚诺算术是[[godel-incompleteness-theorems|哥德尔不完备定理]]中最常使用的形式系统。它是基于一阶逻辑的算术公理系统,包含常数 0、后继函数 S、加法 + 和乘法 ·,以及归纳公理模式。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-incompleteness-theorems]] · [[godel-numbering]] · [[hilberts-program]] · [[formal-systems]]

View File

@@ -0,0 +1,15 @@
# 原始递归函数 (Primitive Recursive Functions)
- **领域**: 可计算性理论
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
从基本函数(零函数 Z(x)=0、后继 S(x)=x+1、投影函数出发通过复合和原始递归操作构造的函数类。包含大多数常见数论函数加法、乘法、指数等但并非所有可计算函数如阿克曼函数不可原始递归
在哥德尔证明中原始递归函数用于证明关键元数学关系Proof、Prov、Sub在[[peano-arithmetic|PA]]中的[[godel-numbering|可表示性]]。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[godel-numbering]] · [[godel-incompleteness-theorems]] · [[computability-theory]]

66
concepts/rag-systems.md Normal file
View File

@@ -0,0 +1,66 @@
# RAG 系统
**类型**: AI 应用架构
**领域**: 大语言模型应用,知识管理
**全称**: Retrieval-Augmented Generation检索增强生成
## 定义
RAGRetrieval-Augmented Generation检索增强生成是一种将信息检索与生成式 AI 相结合的架构模式。它通过在生成过程中检索外部知识库来增强大语言模型的输出质量和准确性。
## 核心组成
### 1. 检索器Retriever
- 从知识库或文档集中检索相关信息
- 通常基于向量搜索或关键词匹配
- 输出与查询相关的文档片段
### 2. 生成器Generator
- 通常是大语言模型(如 GPT、Claude 等)
- 根据检索到的上下文生成回答
- 结合检索信息与模型内部知识
### 3. 知识库Knowledge Base
- 存储结构化或半结构化的文档数据
- 支持高效检索的索引结构
- 可持续更新和扩展
## 工作流程
```
用户查询
查询处理/向量化
知识库检索 → 相关文档片段
上下文组装(查询 + 文档)
LLM 生成回答
输出结果
```
## 优势
1. **减少幻觉**: 基于检索到的实际数据生成回答,降低凤凌反复
2. **知识更新**: 无需重新训练模型,只需更新知识库
3. **可解释性**: 可以展示生成回答所依据的来源文档
4. **领域适应**: 适合专业领域、时效性要求高的场景
## 应用场景
- **企业知识管理**: 基于公司文档的智能问答
- **客服系统**: 结合产品文档的自动回复
- **学术研究**: 基于论文数据库的研究辅助
- **法律咨询**: 基于法规和案例的智能咨询
## 相关概念
- [[crawl4ai]] — 用于 RAG 数据准备的网页抓取工具
- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统
- [[llm-applications]] — 大型语言模型应用
---
*创建时间: 2026-04-22*
*最后更新: 2026-04-22*

View File

@@ -0,0 +1,23 @@
# 旋转位置编码 (RoPE)
**Rotary Position Embedding**,由苏剑林等 2021 年提出,通过旋转变换将位置信息编码到注意力计算中。
## 核心机制
RoPE 在 Q 和 K 向量上施加位置相关的旋转变换:
- 位置 m 的 Q 旋转 m·θ
- 位置 n 的 K 旋转 n·θ
- QK^T 内的内积只依赖于相对位置 m-n
## 优势
1. **相对位置**: 天然捕捉相对位置关系
2. **外推性**: 通过 NTK-aware 插值可外推到更长序列
3. **效率**: 计算开销极低,无需额外参数
4. **广泛采用**: LLaMA、DeepSeek、Qwen 等主流模型的标准选择
## 相关概念
- [[ntk-aware-interpolation]] — RoPE 外推技术
- [[multi-head-attention]] — MHA 通常搭配 RoPE
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,14 @@
# 罗素悖论 (Russell's Paradox)
- **领域**: 集合论、数学基础
- **发现者**: 伯特兰·罗素, 1901
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 概述
考虑集合 R = {x | x ∉ x}所有不包含自身的集合组成的集合。R ∈ R 是否成立?无论哪种情况都导致矛盾。这一悖论触发了第三次数学危机,直接促成了[[hilberts-program|希尔伯特计划]]的提出和集合论公理化运动。
> 📌 *占位符页面 — 待补充完整内容。*
## 相关概念
[[hilberts-program]] · [[self-reference]] · [[diagonalization-method]]

View File

@@ -0,0 +1,13 @@
# SeerAttention
**可学习稀疏注意力**,通过预测注意力稀疏模式实现高效的动态稀疏计算。
## 核心机制
训练一个小型预测网络来预估每个 Q 头需要关注哪些 K 位置,在推理时只计算预测的热点区域。
## 相关概念
- [[sparse-attention-patterns]] — 稀疏注意力全景
- [[native-sparse-attention]] — NSA 对比
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,34 @@
# 自指 (Self-Reference)
- **领域**: 逻辑学、数学基础、语言哲学
- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]]
## 定义
自指是指一个命题、公式或系统指向自身的能力。在哥德尔不完备定理中,自指是通过[[godel-numbering|哥德尔编码]]和[[diagonalization-method|对角线方法]]在[[formal-systems|形式系统]]内部合法构造的,核心产物是断言「我不可证」的哥德尔句子 G。
## 构造机制
1. 定义公式 ψ(x) := ¬Prov(Sub(x, x, x))
2. 设 ψ(x) 的哥德尔数为 n
3. 定义哥德尔句子 G := ψ(n) = ¬Prov(Sub(n, n, n))
4. 由于 Sub(n, n, n) = GN(G)G 等价于 ¬Prov(GN(G)),即 G 断言「G 不可证」
## 与说谎者悖论的区别
| 方面 | 说谎者悖论 | 哥德尔自指 |
|------|-----------|-----------|
| 表达方式 | 「这句话是假的」 | G = ¬Prov(GN(G)) |
| 编码基础 | 自然语言的语义模糊性 | 严格的算术编码 |
| 合法性 | 导致矛盾(悖论) | 在形式系统中完全合法 |
| 结果 | 无法赋值真值 | 为真但不可证 |
## 对角线方法的历史谱系
康托尔对角线论证(实数不可数)→ 罗素悖论 → 塔斯基不可定义性定理 → 哥德尔不完备定理 → [[halting-problem|停机问题不可判定性]]
对角线方法的本质是通过让对象谈论自身,揭示系统的内在限制。
## 相关概念
[[godel-numbering]] · [[diagonalization-method]] · [[godel-incompleteness-theorems]] · [[halting-problem]]

View File

@@ -0,0 +1,22 @@
# 稀疏注意力模式 (Sparse Attention Patterns)
**稀疏注意力**限制每个 Token 只关注序列的子集,将复杂度从 O(n²) 降至 O(n·k) 或 O(n·log n)。
## 主要类型
1. **局部窗口**: 每个 Token 只看固定窗口内的邻居 → O(n·w)
2. **全局+局部**: 少数全局 Token + 局部窗口Longformer, BigBird
3. **跨步注意力**: 固定步长的稀疏模式Sparse Transformer
4. **可学习稀疏**: 动态学习注意力模式([[seer-attention|SeerAttention]], [[native-sparse-attention|NSA]]
## 优势与局限
**优势**: 内存和计算线性缩放,支持极长序列。
**局限**: 稀疏模式可能遗漏关键的长距离依赖;硬件利用率低(不规则访问模式)。
## 相关概念
- [[linear-attention-methods]] — 另一种线性化路径
- [[seer-attention]] — 可学习稀疏
- [[native-sparse-attention]] — NSA (DeepSeek)
- [[llm-attention-survey-2026]] — 综述参考

View File

@@ -0,0 +1,60 @@
---
title: "Specialist Training Pipeline"
domain: "Machine Learning / Post-Training"
tags: [post-training, fine-tuning, reinforcement-learning, grpo]
sources: [[deepseek-v4-million-token-context]]
---
# Specialist Training Pipeline
> **类型**: Concept (Tier 2 — Foundation)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
专家训练流水线是 DeepSeek-V4 后训练的第一阶段针对每个目标领域数学、编程、Agent、指令遵循等独立训练专家模型为后续的 [[on-policy-distillation]] 融合提供高质量教师模型。
## 训练流程
### 1. 领域数据准备
- 收集每个目标领域的高质量 SFT 数据
- 设计领域特定的奖励模型Reward Model
### 2. 监督微调 (SFT)
- Base Model 在领域数据上进行监督微调
- 建立领域基础能力
### 3. 强化学习 (RL)
- 使用 GRPOGroup Relative Policy Optimization
- 领域特定奖励模型指导优化方向
- 产出各领域 SOTA 专家模型
## 每个领域独立优化
| 领域 | 训练重点 | 评估指标 |
|------|---------|---------|
| 数学 | 推理链质量 | 正确率 |
| 编程 | 可执行性、正确性 | Pass@1 |
| Agent | 工具使用、规划 | 任务完成率 |
| 指令遵循 | 约束遵守 | Win Rate |
## 与 OPD 的协同
专家训练 + [[on-policy-distillation]] 构成 DeepSeek-V4 的完整后训练范式:
1. **分散培养**Diverge各自领域独立优化
2. **统一融合**ConvergeOPD 将分散的知识融合到单一模型
## 优势
- 避免跨领域负迁移
- 每个专家可在其领域达到顶级水平
- 融合后的统一模型同时具备多领域能力
## 相关概念
- [[on-policy-distillation]] — OPD 在线策略蒸馏
- [[test-time-scaling]] — 测试时扩展
---
*Last Updated: 2026-04-27*

View File

@@ -0,0 +1,34 @@
---
title: "Test-Time Scaling"
domain: "Machine Learning / Inference"
tags: [inference, scaling, reasoning, compute]
sources: [[deepseek-v4-million-token-context]]
---
# Test-Time Scaling
> **类型**: Concept (Tier 3 — Placeholder)
> **来源**: [[deepseek-v4-million-token-context]]
## 概述
Test-Time Scaling测试时扩展是指通过增加推理时的计算资源更多推理 token、更多搜索步骤等来提升模型性能的范式。DeepSeek-V4 系列通过高效的百万 Token 上下文能力,使 test-time scaling 更加可行。
## 核心内容
*此页面为占位符,用于修复 wiki 中的断链。详细内容待后续补充。*
## 与 DeepSeek-V4 的关系
- V4 的高效长上下文能力为 test-time scaling 扫除了计算瓶颈
- DeepSeek-V4-Pro-Max 是该范式下的最大推理努力模式
## 相关概念
- [[million-token-context]] — 百万 Token 上下文
- [[multi-token-prediction]] — 多 Token 预测
---
*Last Updated: 2026-04-27*
*Status: Placeholder — to be completed*