From 56c4d3ef7c9b520b9573abae49093d6d1fa24811 Mon Sep 17 00:00:00 2001 From: Sidney Zhang Date: Wed, 29 Apr 2026 16:28:13 +0800 Subject: [PATCH] =?UTF-8?q?20260429:=E4=B8=80=E4=BA=9B=E6=96=B0=E4=B8=9C?= =?UTF-8?q?=E8=A5=BF?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- articles/crawl4ai-open-source-web-crawler.md | 120 +++++++++++ concepts/attention-entropy-collapse.md | 35 ++++ concepts/attention-sinks.md | 17 ++ concepts/automated-theorem-proving.md | 13 ++ .../chaitin-algorithmic-information-theory.md | 16 ++ concepts/chaitin-constant.md | 14 ++ concepts/completeness-logic.md | 13 ++ concepts/compressed-sparse-attention.md | 50 +++++ concepts/computability-theory.md | 15 ++ concepts/consistency-logic.md | 13 ++ concepts/continuum-hypothesis.md | 14 ++ concepts/crawl4ai.md | 161 +++++++++++++++ concepts/diagonalization-method.md | 36 ++++ concepts/duo-attention.md | 15 ++ concepts/flash-attention-3.md | 14 ++ concepts/flash-attention.md | 32 +++ concepts/formal-systems.md | 13 ++ concepts/fp4-quantization-training.md | 49 +++++ concepts/godel-incompleteness-theorems.md | 47 +++++ concepts/godel-numbering.md | 39 ++++ concepts/goodsteins-theorem.md | 14 ++ concepts/grouped-query-attention.md | 25 +++ concepts/halting-problem.md | 39 ++++ concepts/heavily-compressed-attention.md | 52 +++++ concepts/hilberts-program.md | 35 ++++ concepts/hybrid-attention-architecture.md | 55 +++++ concepts/kolmogorov-complexity.md | 13 ++ concepts/kv-cache-bottleneck.md | 35 ++++ concepts/linear-attention-methods.md | 32 +++ concepts/llm-applications.md | 62 ++++++ concepts/lost-in-the-middle.md | 29 +++ concepts/lucas-penrose-argument.md | 16 ++ concepts/mamba-ssm.md | 18 ++ .../manifold-constrained-hyper-connections.md | 61 ++++++ concepts/mathematical-pluralism.md | 13 ++ concepts/metamathematics.md | 15 ++ concepts/million-token-context.md | 35 ++++ concepts/mixture-of-attention-schemes.md | 14 ++ concepts/mixture-of-experts.md | 54 +++++ concepts/multi-head-attention.md | 30 +++ concepts/multi-head-latent-attention.md | 32 +++ concepts/multi-query-attention.md | 20 ++ concepts/multi-token-prediction.md | 33 +++ concepts/muon-optimizer.md | 69 +++++++ concepts/native-sparse-attention.md | 14 ++ concepts/ntk-aware-interpolation.md | 12 ++ concepts/on-policy-distillation.md | 69 +++++++ concepts/paris-harrington-theorem.md | 14 ++ concepts/peano-arithmetic.md | 13 ++ concepts/primitive-recursive-functions.md | 15 ++ concepts/rag-systems.md | 66 ++++++ concepts/rotary-position-embedding.md | 23 +++ concepts/russells-paradox.md | 14 ++ concepts/seer-attention.md | 13 ++ concepts/self-reference.md | 34 ++++ concepts/sparse-attention-patterns.md | 22 ++ concepts/specialist-training-pipeline.md | 60 ++++++ concepts/test-time-scaling.md | 34 ++++ .../gpt-image2-prompt-collection-20260428.md | 192 ++++++++++++++++++ index.md | 67 +++++- log.md | 105 ++++++++++ papers/deepseek-v4-million-token-context.md | 68 +++++++ papers/godel-incompleteness-tutorial.md | 47 +++++ papers/llm-attention-survey-2026.md | 51 +++++ ...i-crawl4ai-open-source-web-crawler-2024.md | 77 +++++++ raw/papers/deepseek-ai-deepseek-v4-2026.md | 62 ++++++ raw/papers/godel-tutorial-2026.md | 46 +++++ raw/papers/llm-attention-survey-2026.md | 38 ++++ reviews/godel-tutorial-review-20260428.md | 68 +++++++ .../llm-attention-survey-review-20260429.md | 50 +++++ 70 files changed, 2798 insertions(+), 3 deletions(-) create mode 100644 articles/crawl4ai-open-source-web-crawler.md create mode 100644 concepts/attention-entropy-collapse.md create mode 100644 concepts/attention-sinks.md create mode 100644 concepts/automated-theorem-proving.md create mode 100644 concepts/chaitin-algorithmic-information-theory.md create mode 100644 concepts/chaitin-constant.md create mode 100644 concepts/completeness-logic.md create mode 100644 concepts/compressed-sparse-attention.md create mode 100644 concepts/computability-theory.md create mode 100644 concepts/consistency-logic.md create mode 100644 concepts/continuum-hypothesis.md create mode 100644 concepts/crawl4ai.md create mode 100644 concepts/diagonalization-method.md create mode 100644 concepts/duo-attention.md create mode 100644 concepts/flash-attention-3.md create mode 100644 concepts/flash-attention.md create mode 100644 concepts/formal-systems.md create mode 100644 concepts/fp4-quantization-training.md create mode 100644 concepts/godel-incompleteness-theorems.md create mode 100644 concepts/godel-numbering.md create mode 100644 concepts/goodsteins-theorem.md create mode 100644 concepts/grouped-query-attention.md create mode 100644 concepts/halting-problem.md create mode 100644 concepts/heavily-compressed-attention.md create mode 100644 concepts/hilberts-program.md create mode 100644 concepts/hybrid-attention-architecture.md create mode 100644 concepts/kolmogorov-complexity.md create mode 100644 concepts/kv-cache-bottleneck.md create mode 100644 concepts/linear-attention-methods.md create mode 100644 concepts/llm-applications.md create mode 100644 concepts/lost-in-the-middle.md create mode 100644 concepts/lucas-penrose-argument.md create mode 100644 concepts/mamba-ssm.md create mode 100644 concepts/manifold-constrained-hyper-connections.md create mode 100644 concepts/mathematical-pluralism.md create mode 100644 concepts/metamathematics.md create mode 100644 concepts/million-token-context.md create mode 100644 concepts/mixture-of-attention-schemes.md create mode 100644 concepts/mixture-of-experts.md create mode 100644 concepts/multi-head-attention.md create mode 100644 concepts/multi-head-latent-attention.md create mode 100644 concepts/multi-query-attention.md create mode 100644 concepts/multi-token-prediction.md create mode 100644 concepts/muon-optimizer.md create mode 100644 concepts/native-sparse-attention.md create mode 100644 concepts/ntk-aware-interpolation.md create mode 100644 concepts/on-policy-distillation.md create mode 100644 concepts/paris-harrington-theorem.md create mode 100644 concepts/peano-arithmetic.md create mode 100644 concepts/primitive-recursive-functions.md create mode 100644 concepts/rag-systems.md create mode 100644 concepts/rotary-position-embedding.md create mode 100644 concepts/russells-paradox.md create mode 100644 concepts/seer-attention.md create mode 100644 concepts/self-reference.md create mode 100644 concepts/sparse-attention-patterns.md create mode 100644 concepts/specialist-training-pipeline.md create mode 100644 concepts/test-time-scaling.md create mode 100644 extracts/gpt-image2-prompt-collection-20260428.md create mode 100644 papers/deepseek-v4-million-token-context.md create mode 100644 papers/godel-incompleteness-tutorial.md create mode 100644 papers/llm-attention-survey-2026.md create mode 100644 raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md create mode 100644 raw/papers/deepseek-ai-deepseek-v4-2026.md create mode 100644 raw/papers/godel-tutorial-2026.md create mode 100644 raw/papers/llm-attention-survey-2026.md create mode 100644 reviews/godel-tutorial-review-20260428.md create mode 100644 reviews/llm-attention-survey-review-20260429.md diff --git a/articles/crawl4ai-open-source-web-crawler.md b/articles/crawl4ai-open-source-web-crawler.md new file mode 100644 index 0000000..eeed7ad --- /dev/null +++ b/articles/crawl4ai-open-source-web-crawler.md @@ -0,0 +1,120 @@ +# Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具 + +**来源**: 知乎专栏 +**作者**: 沈飞 +**链接**: https://zhuanlan.zhihu.com/p/717965307 +**文章类型**: 技术介绍 / 工具推荐 +**收录日期**: 2026-04-22 + +## 文章摘要 + +Crawl4AI 是一个专为大型语言模型(LLM)和 AI 应用设计的开源网页爬虫与数据提取工具。它能够自动将网页内容转换为结构化的 Markdown 格式,简化 RAG(检索增强生成)和模型微调所需的数据获取流程。 + +## 核心内容 + +### 1. 产品定位 +Crawl4AI 定位为"赋能 AI 用户的开源智能网页爬虫与数据提取工具",专注于: +- 为 LLM 和 AI 应用提供高质量的网页数据 +- 自动化内容格式转换流程 +- 降低 AI 应用开发中的数据获取门槛 + +### 2. 核心功能 + +#### 智能内容提取 +- **自动转换**: 将网页内容自动转换为结构化 Markdown 格式 +- **多种提取方式**: 支持 JSON CSS 提取、JSON XPath 提取、LLM 提取 +- **数据获取简化**: 专门为 RAG 和微调场景优化数据获取流程 + +#### 技术架构 +- **协议支持**: 支持 HTTP(S) 协议 +- **合规性**: 遵守 robots.txt 规则 +- **开源协议**: Apache 2.0 许可证 + +#### 配置灵活性 +- **自定义 User-Agent**: 支持自定义请求头标识 +- **代理设置**: 支持通过代理服务器访问 +- **会话管理**: 支持会话状态管理 + +#### 缓存机制 +- **多种缓存模式**: + - ENABLED(默认): 启用缓存 + - DISABLED: 禁用缓存 + - READ_ONLY: 只读模式 + - WRITE_ONLY: 只写模式 + - BYPASS: 绕过缓存 +- **缓存管理命令**: + - `aclear_cache()`: 清除缓存 + - `aflush_cache()`: 刷新缓存 + +### 3. 应用场景 + +#### RAG 数据准备 +- 自动抓取和格式化网页内容用于知识库构建 +- 支持大规模数据采集和预处理 +- 为向量数据库提供标准化输入 + +#### 模型微调 +- 获取高质量训练数据 +- 支持特定领域内容抓取 +- 数据清洗和格式化 + +#### AI 应用开发 +- 为 AI 代理提供实时数据获取能力 +- 支持自动化信息检索流程 +- 知识图谱构建的数据源 + +## 技术亮点 + +1. **LLM 友好**: 专为大型语言模型应用设计,输出格式直接可用 +2. **易于集成**: 简单的 API 设计,便于嵌入现有工作流 +3. **开源生态**: Apache 2.0 许可证,支持社区贡献和二次开发 +4. **灵活配置**: 丰富的配置选项适应不同场景需求 + +## 与其他工具的比较 + +| 特性 | Crawl4AI | 传统爬虫 | Scrapy | Firecrawl | +|------|----------|----------|--------|-----------| +| AI/LLM 优化 | ✅ 专门设计 | ❌ 通用 | ❌ 通用 | ✅ 支持 | +| Markdown 输出 | ✅ 原生支持 | ❌ 需转换 | ❌ 需转换 | ✅ 支持 | +| 开源 | ✅ Apache 2.0 | 部分 | ✅ BSD | ❌ 闭源 | +| 易用性 | ✅ 简单 API | 中等 | 较复杂 | ✅ 简单 | +| 缓存机制 | ✅ 多种模式 | 需自建 | 需配置 | ✅ 内置 | + +## 在 AI 工作流中的位置 + +``` +数据源(网页) + ↓ +Crawl4AI(抓取 + 提取 + 格式化) + ↓ +结构化数据(Markdown/JSON) + ↓ +RAG 系统 / 微调数据 / 知识库 + ↓ +LLM 应用 +``` + +## 评价与意义 + +Crawl4AI 代表了 AI 时代数据获取工具的发展方向: +- **从通用到专用**: 专为 AI/LLM 工作流优化 +- **从原始到结构化**: 自动转换为 AI 可用的格式 +- **从复杂到简单**: 降低数据获取的技术门槛 + +## 相关概念 + +- [[crawl4ai]] — Crawl4AI 工具详细概念页面 +- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统 +- [[rag-systems]] — 检索增强生成系统 +- [[llm-applications]] — 大型语言模型应用 + +## 参考资源 + +1. 知乎原文: https://zhuanlan.zhihu.com/p/717965307 +2. Crawl4AI 开源项目文档 +3. Apache 2.0 许可证 + +--- +*创建时间: 2026-04-22* +*最后更新: 2026-04-22* +*Wiki 集成: 已完成* diff --git a/concepts/attention-entropy-collapse.md b/concepts/attention-entropy-collapse.md new file mode 100644 index 0000000..ad8f1a4 --- /dev/null +++ b/concepts/attention-entropy-collapse.md @@ -0,0 +1,35 @@ +# 注意力熵崩溃 (Attention Entropy Collapse) + +**注意力退化现象**,随着 Transformer 层数加深,注意力分布逐渐退化为接近均匀或过度集中的退化模式。 + +## 问题描述 + +在深层 Transformer 中: +- **熵崩溃**: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度 +- **Rank Collapse**: 注意力矩阵的秩下降 → Token 表示趋向同质化 +- **过度集中**: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈 + +## 根本原因 + +1. **Softmax 饱和**: 深度网络中注意力 logits 方差累积增长,导致 softmax 进入饱和区 +2. **残差连接放大**: 残差流的累积效应使深层注意力退化 +3. **训练不稳定性**: 深层梯度消失使注意力无法学习有用模式 + +## 影响 + +- 深层模型层数增加的边际收益递减 +- 长上下文信息的有效利用受限 +- 模型表达能力退化 + +## 缓解方案 + +- **热处理 (Heat Treatment)**: 动态调整 softmax 温度 +- **熵正则化**: 在训练目标中加入注意力熵正则项 +- **架构创新**: MLP 替代方案(如 [[mamba-ssm|Mamba]])天然不受此影响 + +## 相关概念 + +- [[multi-head-attention]] — MHA 中的深层退化 +- [[depth-scaling-signal-degradation]] — 相关但不同:信号退化 vs 注意力退化 +- [[mamba-ssm]] — 状态空间模型无此问题 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/attention-sinks.md b/concepts/attention-sinks.md new file mode 100644 index 0000000..4402805 --- /dev/null +++ b/concepts/attention-sinks.md @@ -0,0 +1,17 @@ +# 注意力汇 (Attention Sinks) + +占位符 — 待补充完整内容。 + +**核心概念**: 某些初始 Token(如 BOS)天然吸引大量注意力权重,可作为"注意力汇"稳定长序列推理。基于此可以设计高效的 KV 缓存淘汰策略(如 StreamingLLM、H2O)。 + +## 关键应用 + +- **StreamingLLM**: 保留初始 Attention Sinks + 最近 Token 实现无限长流式推理 +- **H2O**: 基于注意力权重选择性地保留"重击者"Token 的 KV +- **SinkRouter**: 汇感知的路由优化 + +## 相关概念 + +- [[lost-in-the-middle]] — 问题背景 +- [[kv-cache-bottleneck]] — 缓存优化 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/automated-theorem-proving.md b/concepts/automated-theorem-proving.md new file mode 100644 index 0000000..d9a5782 --- /dev/null +++ b/concepts/automated-theorem-proving.md @@ -0,0 +1,13 @@ +# 自动定理证明 (Automated Theorem Proving, ATP) + +- **领域**: AI × 数理逻辑 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +开发能够自动发现数学证明的计算机程序。哥德尔定理对其影响是双重的:负面边界(不存在通用判定算法)和正面启示(哥德尔编码促成逻辑编程语言 Prolog 的发展)。已取得显著成就:四色定理(1976)、开普勒猜想形式化验证(2017)等。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[formal-verification]] · [[halting-problem]] diff --git a/concepts/chaitin-algorithmic-information-theory.md b/concepts/chaitin-algorithmic-information-theory.md new file mode 100644 index 0000000..8d5be27 --- /dev/null +++ b/concepts/chaitin-algorithmic-information-theory.md @@ -0,0 +1,16 @@ +# 算法信息论 (Algorithmic Information Theory, AIT) + +- **领域**: 信息论、可计算性理论 +- **创始人**: Gregory Chaitin, 1970s +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +蔡廷将哥德尔不完备性思想与信息论结合,开创了算法信息论。核心概念包括[[kolmogorov-complexity|柯尔莫哥洛夫复杂度]] K(x)(输出 x 的最短程序长度)和[[chaitin-constant|蔡廷常数 Ω]](停机概率,一个不可计算但包含最大信息量的实数)。 + +蔡廷不完备性定理表明:任何形式系统只能证明有限个「随机性」事实——超过某个复杂度阈值后,系统无法再判断字符串是否「足够随机」。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[chaitin-constant]] · [[kolmogorov-complexity]] · [[godel-incompleteness-theorems]] diff --git a/concepts/chaitin-constant.md b/concepts/chaitin-constant.md new file mode 100644 index 0000000..94b9507 --- /dev/null +++ b/concepts/chaitin-constant.md @@ -0,0 +1,14 @@ +# 蔡廷常数 Ω (Chaitin's Constant) + +- **领域**: 算法信息论 +- **定义者**: Gregory Chaitin +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +Ω = Σ_{p: U(p)↓} 2^{-|p|},即随机输入一个程序时通用图灵机停机的概率。Ω 具有不可计算性(无法计算任意位)、不可压缩性(前 n 位的信息量至少为 n)和完备性(前 n 位足以判定所有长度 ≤ n 的停机问题)。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[chaitin-algorithmic-information-theory]] · [[kolmogorov-complexity]] · [[halting-problem]] diff --git a/concepts/completeness-logic.md b/concepts/completeness-logic.md new file mode 100644 index 0000000..7320374 --- /dev/null +++ b/concepts/completeness-logic.md @@ -0,0 +1,13 @@ +# 完备性 (Completeness, 逻辑学) + +- **领域**: 数理逻辑 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +形式系统的完备性有两种含义:语义完备性(所有有效公式可证,哥德尔 1929 年证明一阶逻辑具有此性质)和语法完备性(对每个闭公式 φ,φ 或 ¬φ 可证)。[[godel-incompleteness-theorems|第一不完备定理]]否定的是语法完备性——存在既不能证明也不能否证的真命题。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[consistency-logic]] · [[godel-incompleteness-theorems]] · [[hilberts-program]] diff --git a/concepts/compressed-sparse-attention.md b/concepts/compressed-sparse-attention.md new file mode 100644 index 0000000..1286d06 --- /dev/null +++ b/concepts/compressed-sparse-attention.md @@ -0,0 +1,50 @@ +--- +title: "Compressed Sparse Attention (CSA)" +domain: "Deep Learning / Attention Mechanisms" +tags: [attention, long-context, transformer, architecture] +sources: [[deepseek-v4-million-token-context]] +--- + +# Compressed Sparse Attention (CSA) + +> **类型**: Concept (Tier 1 — Core) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +CSA(Compressed Sparse Attention)是 DeepSeek-V4 引入的一种混合注意力机制,其核心思想是先将 KV cache 沿序列维度进行压缩,再在压缩后的表示上执行 DeepSeek Sparse Attention(DSA),从而大幅降低长上下文下的计算和存储开销。 + +## 核心机制 + +### 1. KV Cache 压缩 +- 对 Key 和 Value 矩阵沿序列维度进行压缩,通过**闪电索引器(Lightning Indexer)**选择性地保留最相关的 KV 条目 +- 压缩后的 KV cache 大小相比原始表示减少数个数量级 + +### 2. 稀疏注意力 +- 在压缩后的 KV 上执行 DeepSeek Sparse Attention(DSA) +- 结合滑动窗口(Sliding Window)机制,确保局部上下文不被丢失 +- 使用 Multi-Query Attention 变体(共享 Key-Value) + +### 3. 效率分析 +- 相比 BF16 GQA8 基线,4.3 层 KV cache 仅约 2%(1M 上下文) +- 注意力计算在索引器中以 FP4 精度执行,进一步加速 + +## 与 HCA 的关系 + +CSA 与 [[heavily-compressed-attention]](HCA)构成 DeepSeek-V4 的 [[hybrid-attention-architecture]]: +- **CSA**:中等压缩 + 稀疏注意力(保留更多局部信息) +- **HCA**:激进压缩 + 密集注意力(最大化全局效率) + +## 数学原理 + +给定输入序列长度 L、压缩比 r,CSA 将 KV 从 L × d 压缩至 L/r × d,使得注意力复杂度从 O(L²d) 降至 O(L²/r² · d)。 + +## 相关概念 + +- [[heavily-compressed-attention]] — HCA 高强度压缩注意力 +- [[hybrid-attention-architecture]] — 混合注意力架构 +- [[million-token-context]] — 百万 Token 上下文 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/computability-theory.md b/concepts/computability-theory.md new file mode 100644 index 0000000..b94730e --- /dev/null +++ b/concepts/computability-theory.md @@ -0,0 +1,15 @@ +# 可计算性理论 (Computability Theory) + +- **领域**: 理论计算机科学 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +研究「什么是可计算的」及其边界的学科。源于哥德尔对[[primitive-recursive-functions|原始递归函数]]的研究,经丘奇(λ 演算)和图灵(图灵机)发展为独立学科。[[halting-problem|停机问题]]的不可判定性是其最核心的结果。 + +丘奇-图灵论题:所有「直觉上可计算」的函数等价于图灵可计算函数。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[halting-problem]] · [[primitive-recursive-functions]] · [[godel-incompleteness-theorems]] diff --git a/concepts/consistency-logic.md b/concepts/consistency-logic.md new file mode 100644 index 0000000..757d851 --- /dev/null +++ b/concepts/consistency-logic.md @@ -0,0 +1,13 @@ +# 一致性 (Consistency, 逻辑学) + +- **领域**: 数理逻辑 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +一个[[formal-systems|形式系统]]是一致的,当且仅当不存在公式 φ 使得系统同时证明 φ 和 ¬φ。等价地,不一致意味着系统可证 0 = 1。[[godel-incompleteness-theorems|第二不完备定理]]表明:足够强的一致系统不能自我证明其一致性——这是对[[hilberts-program|希尔伯特计划]]的致命打击。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[completeness-logic]] · [[godel-incompleteness-theorems]] · [[hilberts-program]] diff --git a/concepts/continuum-hypothesis.md b/concepts/continuum-hypothesis.md new file mode 100644 index 0000000..bb3157f --- /dev/null +++ b/concepts/continuum-hypothesis.md @@ -0,0 +1,14 @@ +# 连续统假设 (Continuum Hypothesis, CH) + +- **领域**: 集合论 +- **提出者**: 格奥尔格·康托尔 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +不存在一个集合,其基数严格介于自然数集和实数集之间(2^ℵ₀ = ℵ₁)。希尔伯特 23 个问题之首。哥德尔(1940)证明 CH 与 ZFC 相对一致,科恩(1963)用力迫法证明 CH 独立于 ZFC——这是[[godel-incompleteness-theorems|不完备性]]精神的典型体现。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[hilberts-program]] · [[mathematical-pluralism]] diff --git a/concepts/crawl4ai.md b/concepts/crawl4ai.md new file mode 100644 index 0000000..33b72fd --- /dev/null +++ b/concepts/crawl4ai.md @@ -0,0 +1,161 @@ +# Crawl4AI + +**类型**: 开源工具,数据提取,网页爬虫 +**领域**: AI 应用开发,数据工程,RAG 系统 +**许可证**: Apache 2.0 +**核心功能**: 智能网页内容提取与结构化转换 + +## 定义 + +Crawl4AI 是一个专为大型语言模型(LLM)和 AI 应用设计的开源网页爬虫与数据提取工具。它能够自动将网页内容转换为结构化的 Markdown 格式,简化 RAG(检索增强生成)和模型微调所需的数据获取流程。 + +## 核心特性 + +### 1. 智能内容提取 +- **自动转换**: 将网页内容自动转换为结构化 Markdown 格式 +- **多种提取方式**: 支持 JSON CSS 提取、JSON XPath 提取、LLM 提取 +- **数据获取简化**: 专门为 RAG 和微调场景优化数据获取流程 + +### 2. 技术架构 +- **协议支持**: 支持 HTTP(S) 协议 +- **合规性**: 遵守 robots.txt 规则 +- **开源协议**: Apache 2.0 许可证 + +### 3. 配置灵活性 +- **自定义 User-Agent**: 支持自定义请求头标识 +- **代理设置**: 支持通过代理服务器访问 +- **会话管理**: 支持会话状态管理 + +### 4. 缓存机制 +- **多种缓存模式**: + - ENABLED(默认): 启用缓存 + - DISABLED: 禁用缓存 + - READ_ONLY: 只读模式 + - WRITE_ONLY: 只写模式 + - BYPASS: 绕过缓存 +- **缓存管理命令**: + - `aclear_cache()`: 清除缓存 + - `aflush_cache()`: 刷新缓存 + +## 应用场景 + +### 1. RAG 数据准备 +- 自动抓取和格式化网页内容用于知识库构建 +- 支持大规模数据采集和预处理 +- 为向量数据库提供标准化输入 + +### 2. 模型微调 +- 获取高质量训练数据 +- 支持特定领域内容抓取 +- 数据清洗和格式化 + +### 3. AI 应用开发 +- 为 AI 代理提供实时数据获取能力 +- 支持自动化信息检索流程 +- 知识图谱构建的数据源 + +## 技术亮点 + +1. **LLM 友好**: 专为大型语言模型应用设计,输出格式直接可用 +2. **易于集成**: 简单的 API 设计,便于嵌入现有工作流 +3. **开源生态**: Apache 2.0 许可证,支持社区贡献和二次开发 +4. **灵活配置**: 丰富的配置选项适应不同场景需求 + +## 与其他工具的比较 + +| 特性 | Crawl4AI | 传统爬虫 | Scrapy | Firecrawl | +|------|----------|----------|--------|-----------| +| AI/LLM 优化 | ✅ 专门设计 | ❌ 通用 | ❌ 通用 | ✅ 支持 | +| Markdown 输出 | ✅ 原生支持 | ❌ 需转换 | ❌ 需转换 | ✅ 支持 | +| 开源 | ✅ Apache 2.0 | 部分 | ✅ BSD | ❌ 闭源 | +| 易用性 | ✅ 简单 API | 中等 | 较复杂 | ✅ 简单 | +| 缓存机制 | ✅ 多种模式 | 需自建 | 需配置 | ✅ 内置 | + +## 在 AI 工作流中的位置 + +``` +数据源(网页) + ↓ +Crawl4AI(抓取 + 提取 + 格式化) + ↓ +结构化数据(Markdown/JSON) + ↓ +RAG 系统 / 微调数据 / 知识库 + ↓ +LLM 应用 +``` + +## 使用示例 + +### 基础抓取 +```python +from crawl4ai import AsyncWebCrawler + +async with AsyncWebCrawler() as crawler: + result = await crawler.arun("https://example.com") + print(result.markdown) +``` + +### 配置缓存 +```python +from crawl4ai import CacheMode + +# 设置缓存模式 +crawler.config.cache_mode = CacheMode.ENABLED + +# 清除缓存 +await crawler.aclear_cache() +``` + +### 自定义提取 +```python +# 使用 CSS 选择器提取 +result = await crawler.arun( + url="https://example.com", + extraction_strategy=JsonCssExtractionStrategy(schema) +) +``` + +## 优势与局限 + +### 优势 +1. **AI 原生**: 专为 AI/LLM 工作流设计 +2. **格式友好**: 直接输出 Markdown,无需额外处理 +3. **轻量级**: 简单易用,快速上手 +4. **开源免费**: Apache 2.0 许可证 + +### 局限 +1. **功能专注**: 主要针对内容提取,复杂抓取需配合其他工具 +2. **性能**: 大规模并发可能需要额外优化 +3. **生态**: 相对较新,社区生态仍在建设中 + +## 发展趋势 + +### 技术演进 +1. **多模态支持**: 扩展支持图片、视频等非文本内容 +2. **智能解析**: 集成 LLM 进行更智能的内容理解 +3. **分布式**: 支持大规模分布式抓取 + +### 应用扩展 +1. **企业知识库**: 自动化企业文档采集 +2. **学术研究**: 学术文献自动抓取和整理 +3. **竞品分析**: 自动化市场信息监控 + +## 相关概念 + +- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统 +- [[rag-systems]] — 检索增强生成系统 +- [[llm-applications]] — 大型语言模型应用 +- [[web-scraping]] — 网页抓取技术 +- [[data-extraction]] — 数据提取技术 + +## 参考资源 + +1. 知乎原文: https://zhuanlan.zhihu.com/p/717965307 +2. Crawl4AI 开源项目文档 +3. Apache 2.0 许可证 + +--- +*创建时间: 2026-04-22* +*最后更新: 2026-04-22* +*相关文章: [[crawl4ai-open-source-web-crawler]]* diff --git a/concepts/diagonalization-method.md b/concepts/diagonalization-method.md new file mode 100644 index 0000000..3e65751 --- /dev/null +++ b/concepts/diagonalization-method.md @@ -0,0 +1,36 @@ +# 对角线方法 (Diagonalization Method) + +- **领域**: 数学基础、逻辑学 +- **创始人**: 格奥尔格·康托尔 (Georg Cantor) +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 定义 + +对角线方法是一种通过将列表中的每个元素与其对角线上的某个属性进行比较,构造出一个不在原列表中的新元素的证明技术。其本质是一种[[self-reference|自我参照]]的构造:通过让对象谈论自身,揭示系统的内在限制。 + +## 历史谱系与应用 + +| 结果 | 发现者 | 核心思想 | +|------|--------|----------| +| 实数集不可数 | Cantor | 对角线上构造不在列表中的实数 | +| 罗素悖论 | Russell | R = {x | x ∉ x} 的对角线自指 | +| 塔斯基不可定义性 | Tarski | 真值谓词不可在系统内定义 | +| 哥德尔不完备定理 | Gödel | Sub(n, n, n) 构造自指句子 | +| 停机问题 | Turing | D(D) 的对角线矛盾 | + +## 在哥德尔证明中的运用 + +哥德尔的对角线构造不同于康托尔的直接形式: +1. 定义 Sub(a, b, c) 替换函数(将编码为 a 的公式中编码为 b 的变元替换为数字 c) +2. 关键一步:Sub(n, n, n)——将自身的编码代入自身 +3. 产生自指命题 G = ¬Prov(Sub(n, n, n)),G 断言自身不可证 + +这里的「对角线」体现在:同一个数 n 同时作为公式编码和替换数字出现。 + +## 本质 + +对角线方法的统一本质是:**任何足够丰富的系统,一旦允许内部元素「谈论」自身,就必然产生超越系统表达能力的结果。** + +## 相关概念 + +[[self-reference]] · [[godel-numbering]] · [[godel-incompleteness-theorems]] · [[halting-problem]] diff --git a/concepts/duo-attention.md b/concepts/duo-attention.md new file mode 100644 index 0000000..ba1fb79 --- /dev/null +++ b/concepts/duo-attention.md @@ -0,0 +1,15 @@ +# DuoAttention + +**双模式注意力**,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。 + +## 核心区分 + +- **检索头**: 需要完整上下文的注意力头 → 全注意力 +- **流式头**: 只需局部模式的注意力头 → 滚动 KV 缓存 + +## 相关概念 + +- [[attention-sinks]] — 注意力汇 +- [[kv-cache-bottleneck]] — 缓存优化 +- [[mixture-of-attention-schemes]] — MoAS 路由方案 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/flash-attention-3.md b/concepts/flash-attention-3.md new file mode 100644 index 0000000..926358a --- /dev/null +++ b/concepts/flash-attention-3.md @@ -0,0 +1,14 @@ +# FlashAttention-3 + +**FlashAttention 的最新版本** (2024),引入异步计算和低精度支持。 + +## 新增特性 + +- **异步执行**: 重叠计算与数据传输,进一步提高 GPU 利用率 +- **FP8 支持**: 原生支持 FP8 低精度计算 +- **Hopper 架构**: 针对 NVIDIA H100 GPU 的 Tensor Core 优化 + +## 相关概念 + +- [[flash-attention]] — FA1/FA2 前序版本 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/flash-attention.md b/concepts/flash-attention.md new file mode 100644 index 0000000..f45890e --- /dev/null +++ b/concepts/flash-attention.md @@ -0,0 +1,32 @@ +# FlashAttention + +**IO感知的精确注意力优化**,由 Dao 等 2022 年提出,是注意力计算效率的最大单次突破。 + +## 核心洞见 + +传统注意力实现的瓶颈不是计算(FLOPs),而是**GPU 内存层级之间的数据传输**(IO)。标准实现需要多次读写 HBM(高带宽内存),而 HBM 带宽远低于 SRAM。 + +## 关键创新 + +1. **Tiling**: 将注意力矩阵分块计算,每块保持在快速 SRAM 中 +2. **Recomputation**: 反向传播时重新计算 softmax 而非存储中间结果,节省内存 +3. **IO-Aware**: 算法设计以最小化 HBM↔SRAM 数据传输为核心目标 + +## 性能收益 + +- **速度**: 比标准注意力快 2-4x +- **内存**: 内存占用量从 O(n²) 降至 O(n) +- **精度**: 数值精确(非近似),无精度损失 + +## 版本演进 + +- **FlashAttention-1** (2022): Tiling + Recomputation +- **FlashAttention-2** (2023): 更好的并行化和 work partitioning +- **FlashAttention-3** (2024): 异步计算 + 低精度 (FP8) + +## 相关概念 + +- [[flash-attention-3]] — 最新版本 +- [[kv-cache-bottleneck]] — KV 缓存瓶颈(FlashAttention 不直接解决但互补) +- [[sparse-attention-patterns]] — 稀疏注意力也可结合 FlashAttention +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/formal-systems.md b/concepts/formal-systems.md new file mode 100644 index 0000000..edaeb08 --- /dev/null +++ b/concepts/formal-systems.md @@ -0,0 +1,13 @@ +# 形式系统 (Formal System) + +- **领域**: 数理逻辑 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +形式系统由四要素组成:字母表(有限符号集合)、语法规则(合法公式)、公理(推理起点)和推理规则(如 Modus Ponens)。[[godel-incompleteness-theorems|哥德尔不完备定理]]揭示了任何「足够强」的一致形式系统的内在限制。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[peano-arithmetic]] · [[godel-incompleteness-theorems]] · [[consistency-logic]] · [[completeness-logic]] diff --git a/concepts/fp4-quantization-training.md b/concepts/fp4-quantization-training.md new file mode 100644 index 0000000..741afec --- /dev/null +++ b/concepts/fp4-quantization-training.md @@ -0,0 +1,49 @@ +--- +title: "FP4 Quantization-Aware Training" +domain: "Deep Learning / Model Compression" +tags: [quantization, training, fp4, efficiency] +sources: [[deepseek-v4-million-token-context]] +--- + +# FP4 Quantization-Aware Training (FP4 QAT) + +> **类型**: Concept (Tier 2 — Foundation) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +FP4(MXFP4)量化感知训练是一种低精度训练技术,将模型权重量化到 4 位浮点格式以降低内存和计算开销。DeepSeek-V4 在 MoE 专家权重和 indexer QK 路径中应用 FP4 QAT。 + +## 核心设计 + +### 应用范围 +- **MoE 路由专家权重**:FP4 存储和推理 +- **Indexer QK 路径**:FP4 计算 + +### 训练流程 +1. **前向传播**:原生 FP4 权重用于 rollout 和推理(降低内存流量) +2. **反向传播**:FP4 → FP8 无损反量化 → 复用 FP8 混合精度框架 +3. **主权重**:FP32 精度维护 + +### 损失函数设计 +FP4 量化误差通过额外损失项控制: +- Block-wise 量化(每 block 独立缩放因子) +- 无需修改反向传播管线 + +## 效率收益 + +| 场景 | FP8 | FP4 理论收益 | +|------|-----|-------------| +| 权重存储 | 8-bit/param | 4-bit/param (50% ↓) | +| 计算吞吐 | 基准 | +33%(未来硬件) | + +当前硬件上 FP4 × FP8 峰值 FLOPS 与 FP8 × FP8 相同,但未来硬件可释放额外 33% 效率。 + +## 相关概念 + +- [[mixture-of-experts]] — MoE 混合专家 +- [[million-token-context]] — 百万 Token 上下文 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/godel-incompleteness-theorems.md b/concepts/godel-incompleteness-theorems.md new file mode 100644 index 0000000..5355d06 --- /dev/null +++ b/concepts/godel-incompleteness-theorems.md @@ -0,0 +1,47 @@ +# 哥德尔不完备定理 (Gödel's Incompleteness Theorems) + +- **领域**: 数理逻辑、数学基础 +- **发现者**: 库尔特·哥德尔 (Kurt Gödel), 1931 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 定义 + +哥德尔不完备定理包含两条关于形式系统内在限制的定理: + +**第一不完备定理**:任何包含 [[peano-arithmetic|皮亚诺算术]] 的一致[[formal-systems|形式系统]] F,必然存在一个闭公式 G(哥德尔句子),使得 G 在 F 中既不能证明也不能否证,且 G 在标准自然数模型中为真。 + +**第二不完备定理**:任何包含 PA 的一致形式系统 F,不能在 F 内部证明自身的[[consistency-logic|一致性]](即 F ⊬ Con_F)。 + +## 核心机制 + +定理的证明依赖于三个关键技术: +1. **[[godel-numbering|哥德尔编码]]**:将符号、公式、证明映射为自然数,实现算术化[[metamathematics|元数学]] +2. **[[self-reference|自指构造]]**:通过[[diagonalization-method|对角线方法]]构造断言「我不可证」的哥德尔句子 G = ¬Prov(GN(G)) +3. **[[primitive-recursive-functions|可表示性]]**:证明关键元数学关系(Proof、Prov、Sub)在 PA 中可表示 + +## 前提条件 + +三条前提缺一不可: +- 系统必须「足够强」以表达基本算术(更弱的系统如 Presburger 算术是完备且可判定的) +- 系统必须一致(不一致系统可证任何命题,因而是「完备」的) +- 公理集必须递归可枚举(否则可用全体真命题作公理,得到完备但不可判定的系统) + +## 影响领域 + +- **数学基础**:终结[[hilberts-program|希尔伯特计划]],催生证明论和模型论 +- **计算机科学**:[[halting-problem|停机问题]]、[[formal-verification|形式验证]]、[[automated-theorem-proving|自动定理证明]] +- **哲学**:[[lucas-penrose-argument|卢卡斯-彭罗斯论证]]、数学真理本质、知识界限 +- **物理学与 AI**:万有理论的可完备性、AGI 边界讨论 + +## 常见误解 + +| 误解 | 澄清 | +|------|------| +| 数学不可靠 | 定理只说明不完备性,不涉及一致性问题 | +| 有些问题永远无法解决 | 不可证是相对于某个系统而言,可添加新公理解决 | +| 适用于所有系统 | 仅适用于「足够强」的系统 | +| 证明人类心智超越机器 | 论证存在缺陷,结论未定论 | + +## 现代演进 + +[[paris-harrington-theorem]] → [[goodsteins-theorem]] → [[chaitin-algorithmic-information-theory|蔡廷算法信息论]] diff --git a/concepts/godel-numbering.md b/concepts/godel-numbering.md new file mode 100644 index 0000000..439771a --- /dev/null +++ b/concepts/godel-numbering.md @@ -0,0 +1,39 @@ +# 哥德尔编码 (Gödel Numbering) + +- **领域**: 数理逻辑 +- **发明者**: 库尔特·哥德尔, 1931 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 定义 + +哥德尔编码是将[[formal-systems|形式系统]]中的符号、公式和证明序列唯一地映射为自然数的技术。通过质因数分解的唯一性,实现从元数学陈述到算术陈述的翻译。 + +## 编码规则 + +**基本符号编码**:为形式系统的每个基本符号分配一个唯一的自然数(如:0→1, S→2, +→3, ·→4, =→5, ¬→6, ∧→7, ∀→8, ∃→9, (→10, )→11, x→13, y→17, z→19...) + +**公式编码**:若公式由符号序列 a₁a₂...aₖ 组成,各符号编码为 nᵢ,则: +$$GN(φ) = 2^{n_1} \cdot 3^{n_2} \cdot 5^{n_3} \cdot ... \cdot p_k^{n_k}$$ +其中 pₖ 是第 k 个质数。 + +**证明编码**:若证明是公式序列 φ₁,...,φₖ,各公式编码为 gᵢ,则: +$$GN_{seq}(φ_1,...,φ_k) = 2^{g_1} \cdot 3^{g_2} \cdot ... \cdot p_k^{g_k}$$ + +## 算术化元数学 + +编码使得元数学概念转化为自然数的算术性质: +- 「x 是一个公式」→ 自然数 x 具有某性质 +- 「x 是 y 的证明」→ 自然数 x 与 y 满足某关系 +- 「公式 φ 可证」→ ∃x (x 是 GN(φ) 的证明) + +这些算术性质在 [[peano-arithmetic|PA]] 中可表达,这是哥德尔证明的核心创新。 + +## 关键应用 + +- 构造可表示的关系 Proof(x, y) 和 Prov(y) +- 定义替换函数 Sub(a, b, c),实现[[self-reference|自指]] +- 构造[[godel-incompleteness-theorems|哥德尔句子]] G = ¬Prov(Sub(n, n, n)) + +## 相关概念 + +[[diagonalization-method]] · [[self-reference]] · [[primitive-recursive-functions]] · [[metamathematics]] diff --git a/concepts/goodsteins-theorem.md b/concepts/goodsteins-theorem.md new file mode 100644 index 0000000..710c6b0 --- /dev/null +++ b/concepts/goodsteins-theorem.md @@ -0,0 +1,14 @@ +# 古德斯坦定理 (Goodstein's Theorem) + +- **领域**: 数论、证明论 +- **发现者**: Reuben Goodstein, 1944; 不可证性由 Kirby & Paris, 1982 证明 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +古德斯坦序列通过对基数进行递归替换和递减构造。定理断言所有古德斯坦序列最终到达 0,但这一命题在[[peano-arithmetic|PA]]中不可证——证明需要超限序数 ε₀,超出了 PA 的证明论强度。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[paris-harrington-theorem]] · [[peano-arithmetic]] diff --git a/concepts/grouped-query-attention.md b/concepts/grouped-query-attention.md new file mode 100644 index 0000000..3fb39f4 --- /dev/null +++ b/concepts/grouped-query-attention.md @@ -0,0 +1,25 @@ +# Grouped-Query Attention (GQA) + +**分组查询注意力**,在 MHA 和 MQA 之间的折中方案,由 Ainslie 等 2023 年提出。 + +## 定义 + +GQA 将 Q 头分为 G 组,每组共享一个 KV 头。标准 MHA 是 G = h(每组1个Q头),MQA 是 G = 1(所有Q头共享一个KV头)。 + +## 核心洞见 + +并非所有注意力都需要独立的 KV 头——GQA 证明分组共享 KV 可以在几乎不损失质量的前提下大幅减少 KV 缓存。这也是 Llama 3 系列采用的设计。 + +## 关键参数 + +- **组数 G**: G = h → MHA;G = 1 → MQA;1 < G < h → GQA +- **缓存减少**: KV 缓存缩减为 MHA 的 G/h,典型的 8 分组可将缓存减少 87.5% +- **质量**: G = 4~8 时质量与 MHA 接近 + +## 相关概念 + +- [[multi-head-attention]] — 标准 MHA (G = h) +- [[multi-query-attention]] — 极端 MQA (G = 1) +- [[multi-head-latent-attention]] — 更激进的 MLA 压缩 +- [[kv-cache-bottleneck]] — 缓存瓶颈驱动 GQA 设计 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/halting-problem.md b/concepts/halting-problem.md new file mode 100644 index 0000000..603089c --- /dev/null +++ b/concepts/halting-problem.md @@ -0,0 +1,39 @@ +# 停机问题 (Halting Problem) + +- **领域**: 计算机科学、可计算性理论 +- **证明者**: 阿兰·图灵 (Alan Turing), 1936 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 定义 + +**停机问题**:给定一个程序 P 及其输入 I,判定 P 在输入 I 上最终是否会停机(执行有限步后终止)。 + +**不可判定性定理**:不存在一个通用算法(图灵机)能够对所有可能的程序-输入对 (P, I) 正确地判定 P(I) 是否停机。 + +## 证明概要(对角线方法) + +假设存在算法 H(P, I) 判定停机。构造程序 D(P): +- 调用 H(P, P) +- 若 H 返回「停机」,则 D 进入无限循环 +- 若 H 返回「不停机」,则 D 停机 + +考虑 D(D):无论哪种情况都导致矛盾。 + +## 与哥德尔不完备定理的联系 + +停机问题可视为[[godel-incompleteness-theorems|哥德尔不完备定理]]在计算理论中的直接对应物: +- 两者都使用[[diagonalization-method|对角线方法]] +- 两者都揭示形式系统/计算模型的内在限制 +- 给定形式系统 F,命题可证性的判定等价于停机问题的判定 + +## 相关不可判定问题 + +| 问题 | 证明者 | +|------|--------| +| 波斯特对应问题 | Post, 1946 | +| 希尔伯特第十问题 | Matiyasevich 等, 1970 | +| 字的群论问题 | Novikov, 1955 | + +## 相关概念 + +[[computability-theory]] · [[self-reference]] · [[diagonalization-method]] · [[godel-incompleteness-theorems]] diff --git a/concepts/heavily-compressed-attention.md b/concepts/heavily-compressed-attention.md new file mode 100644 index 0000000..b445893 --- /dev/null +++ b/concepts/heavily-compressed-attention.md @@ -0,0 +1,52 @@ +--- +title: "Heavily Compressed Attention (HCA)" +domain: "Deep Learning / Attention Mechanisms" +tags: [attention, long-context, transformer, architecture] +sources: [[deepseek-v4-million-token-context]] +--- + +# Heavily Compressed Attention (HCA) + +> **类型**: Concept (Tier 1 — Core) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +HCA(Heavily Compressed Attention)是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 [[compressed-sparse-attention]](CSA)不同,HCA 对 KV cache 施加更高强度的压缩,但保持密集注意力计算,以最大化全局上下文捕获效率。 + +## 核心机制 + +### 1. 高强度 KV 压缩 +- 比 CSA 更激进的序列维度压缩 +- 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示 + +### 2. 密集注意力 +- 在压缩后的 KV 上执行完整(密集)注意力而非稀疏注意力 +- 保留全局上下文信息的完整性,避免稀疏选择可能遗漏的信息 + +### 3. 设计权衡 +- **优势**:更高的压缩比 → 更小的 KV cache → 更低的计算开销 +- **代价**:压缩过程中的信息损失(由 CSA 层的局部信息补充) + +## 与 CSA 的协同 + +在 [[hybrid-attention-architecture]] 中,CSA 和 HCA 交替或分层部署: +- CSA 层负责保留局部和稀疏全局信息 +- HCA 层负责捕获密集全局上下文 +- 两者互补,共同实现长上下文下的高效推理 + +## 工程实现 + +- FP4 精度用于索引器中的注意力计算 +- BF16/FP8 混合精度用于 KV 表示 +- RoPE 位置编码维度隔离用于进一步压缩 + +## 相关概念 + +- [[compressed-sparse-attention]] — CSA 压缩稀疏注意力 +- [[hybrid-attention-architecture]] — 混合注意力架构 +- [[million-token-context]] — 百万 Token 上下文 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/hilberts-program.md b/concepts/hilberts-program.md new file mode 100644 index 0000000..239453b --- /dev/null +++ b/concepts/hilberts-program.md @@ -0,0 +1,35 @@ +# 希尔伯特计划 (Hilbert's Program) + +- **领域**: 数学基础、元数学 +- **提出者**: 大卫·希尔伯特 (David Hilbert), 1920年代 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 定义 + +希尔伯特计划是 20 世纪初提出的旨在为整个数学奠定坚实基础的宏伟研究纲领。其核心目标为: + +1. **形式化**:将全体数学表达为公理化的[[formal-systems|形式系统]] F +2. **一致性证明**:使用有穷主义方法(finitary methods)证明 F 是一致的 +3. **完备性证明**:证明 F 是完备的——所有可表达的真命题都可在 F 内证明 + +## 历史背景 + +计划诞生于[[russells-paradox|第三次数学危机]]之后。面对集合论悖论对数学基础的动摇,希尔伯特试图通过严格的[[metamathematics|元数学]]方法一劳永逸地解决所有基础问题。他于 1930 年在哥尼斯堡科学会议上发表著名演讲,以「我们必须知道,我们必将知道」结尾——这句话后来成为其墓志铭。 + +## 哥德尔的终结 + +[[godel-incompleteness-theorems|哥德尔不完备定理]]直接否定了希尔伯特计划的后两个核心目标: +- 第一不完备定理 ⇒ 完备性不可实现 +- 第二不完备定理 ⇒ 一致性无法在系统内部自证 + +然而希尔伯特计划的遗产并未消亡——它催生的证明论和模型论至今是数理逻辑的重要分支。 + +## 影响与遗产 + +- 催生了证明论(Proof Theory)和模型论(Model Theory) +- 引导数学家接受[[mathematical-pluralism|数学多元主义]] +- 形式化方法在计算机科学中重生([[formal-verification|形式验证]]、[[automated-theorem-proving|自动定理证明]]) + +## 相关概念 + +[[peano-arithmetic]] · [[consistency-logic]] · [[completeness-logic]] · [[russells-paradox]] diff --git a/concepts/hybrid-attention-architecture.md b/concepts/hybrid-attention-architecture.md new file mode 100644 index 0000000..d543ce4 --- /dev/null +++ b/concepts/hybrid-attention-architecture.md @@ -0,0 +1,55 @@ +--- +title: "Hybrid Attention Architecture" +domain: "Deep Learning / Attention Mechanisms" +tags: [attention, long-context, transformer, architecture] +sources: [[deepseek-v4-million-token-context]] +--- + +# Hybrid Attention Architecture + +> **类型**: Concept (Tier 2 — Foundation) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +混合注意力架构是 DeepSeek-V4 系列为解决超长上下文效率问题而设计的核心创新,它通过在 Transformer 层中交替或组合使用不同压缩策略的注意力机制,在计算效率和上下文覆盖之间取得最优平衡。 + +## 组成 + +### [[compressed-sparse-attention]] (CSA) +- KV cache 沿序列维度压缩后进行稀疏注意力 +- 保留局部信息(滑动窗口)+ 选择性全局信息(稀疏选择) + +### [[heavily-compressed-attention]] (HCA) +- 更高强度的 KV 压缩,但保持密集注意力 +- 最大化全局上下文效率,牺牲部分局部细节 + +## 设计原则 + +1. **分层部署**:不同层采用不同注意力类型 +2. **效率递进**:CSA 层保持中等压缩比,HCA 层激进压缩 +3. **互补覆盖**:局部(CSA滑动窗口)+ 全局(HCA密集)= 完整上下文 + +## 效率数据 + +| 配置 | 1M 上下文 KV Cache (相对基线) | +|------|------------------------------| +| BF16 GQA8 基线 | 100% | +| DeepSeek-V3.2 | ~基线的 10% | +| DeepSeek-V4-Pro | ~基线的 2% | + +## 工程实现要点 + +- FP4/BF16/FP8 混合精度:RoPE 维度 BF16,其他 FP8/FP4 +- 闪电索引器(Lightning Indexer)用于 CSA 的 KV 选择 +- Multi-Query Attention 共享 K/V + +## 相关概念 + +- [[compressed-sparse-attention]] — CSA +- [[heavily-compressed-attention]] — HCA +- [[million-token-context]] — 百万 Token 上下文 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/kolmogorov-complexity.md b/concepts/kolmogorov-complexity.md new file mode 100644 index 0000000..27366e1 --- /dev/null +++ b/concepts/kolmogorov-complexity.md @@ -0,0 +1,13 @@ +# 柯尔莫哥洛夫复杂度 (Kolmogorov Complexity) + +- **领域**: 算法信息论 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +字符串 x 的柯尔莫哥洛夫复杂度 K(x) = min{|p| : U(p) = x},即输出 x 的最短程序长度。是[[chaitin-algorithmic-information-theory|算法信息论]]的核心概念,度量对象的「算法随机性」。[[chaitin-constant|蔡廷不完备性定理]]表明形式系统只能证明有限个随机性事实。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[chaitin-algorithmic-information-theory]] · [[chaitin-constant]] · [[godel-incompleteness-theorems]] diff --git a/concepts/kv-cache-bottleneck.md b/concepts/kv-cache-bottleneck.md new file mode 100644 index 0000000..e4bf4a1 --- /dev/null +++ b/concepts/kv-cache-bottleneck.md @@ -0,0 +1,35 @@ +# KV 缓存内存瓶颈 + +**自回归推理中的核心内存瓶颈**,KV 缓存的线性增长严重限制 LLM 推理效率。 + +## 问题定义 + +自回归推理中,每个新生成的 Token 需要与所有历史 Token 的 KV 进行注意力计算。KV 缓存的大小为: + +$$\text{KV Cache Size} = 2 \times n \times d \times \text{layers} \times \text{precision}$$ + +其中 n 为已生成的 Token 数,d 为模型维度。当上下文长度达到 1M 时,KV 缓存可能达到数百 GB。 + +## 瓶颈表现 + +- **批处理受限**: KV 缓存占用大量 GPU 内存,限制并行推理的 batch size +- **长上下文成本**: 上下文每翻倍,KV 缓存也翻倍 +- **吞吐量下降**: 内存压力导致推理吞吐量大幅下降 + +## 解决方案矩阵 + +| 策略 | 代表方法 | 缓存缩减 | 质量影响 | +|------|---------|---------|---------| +| 结构压缩 | MLA ([[multi-head-latent-attention]]) | 10-20x | 极小 | +| 头共享 | GQA ([[grouped-query-attention]]) | ~8x | 轻微 | +| 量化压缩 | KVQuant | 4-8x | 可控 | +| 选择性淘汰 | H2O/SnapKV ([[attention-sinks]]) | 2-5x | 中等 | +| 低秩投影 | Palu, ReCalKV | 3-5x | 轻微 | + +## 相关概念 + +- [[multi-head-latent-attention]] — MLA: 结构压缩(最大杠杆) +- [[grouped-query-attention]] — GQA: 头共享方案 +- [[kvcache-transfer]] — KVCache 跨节点传输 +- [[attention-sinks]] — 缓存淘汰策略 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/linear-attention-methods.md b/concepts/linear-attention-methods.md new file mode 100644 index 0000000..5aea2c1 --- /dev/null +++ b/concepts/linear-attention-methods.md @@ -0,0 +1,32 @@ +# 线性注意力方法 (Linear Attention Methods) + +**O(n) 复杂度的注意力替代方案**,通过核函数分解避免显式 N×N 注意力矩阵计算。 + +## 核心思想 + +将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积: +$$\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T$$ + +利用矩阵乘法的结合律改变计算顺序:(QK^T)V → Q(K^TV),将复杂度从 O(n²) 降至 O(n)。 + +## 代表方法 + +- **Linear Transformer** (Katharopoulos 2020): 首次提出线性注意力 +- **Performer**: 使用随机特征近似 softmax +- **RetNet**: 同时支持并行训练和循环推理的统一框架 +- **RWKV**: 结合 RNN 效率与 Transformer 性能 + +## 与稀疏注意力的对比 + +| 特性 | 线性注意力 | [[sparse-attention-patterns|稀疏注意力]] | +|------|-----------|-----------| +| 复杂度 | O(n) | O(n·k) | +| 全局视野 | 隐式(全局压缩) | 显式(但受限) | +| 质量 | 一般略低于 MHA | 通常优于线性 | + +## 相关概念 + +- [[sparse-attention-patterns]] — 稀疏注意力 +- [[mamba-ssm]] — 状态空间模型(线性复杂度的新兴路径) +- [[subquadratic-transformer-alternatives]] — 次二次替代综述 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/llm-applications.md b/concepts/llm-applications.md new file mode 100644 index 0000000..386d586 --- /dev/null +++ b/concepts/llm-applications.md @@ -0,0 +1,62 @@ +# LLM 应用 + +**类型**: AI 应用领域 +**领域**: 人工智能,自然语言处理 +**全称**: Large Language Model Applications(大型语言模型应用) + +## 定义 + +LLM 应用是指基于大型语言模型(如 GPT-4、Claude、Gemini 等)构建的各类实际应用系统。这些应用利用大模型的语言理解和生成能力,解决从文本生成到复杂推理的多种任务。 + +## 主要类型 + +### 1. 文本生成 +- 文章写作与编辑 +- 代码生成与调试 +- 多语言翻译 + +### 2. 对话系统 +- 客服机器人 +- 个人助手 +- 教育辅导 + +### 3. 检索增强 +- RAG 系统 +- 知识管理 +- 文档分析 + +### 4. 代理系统 +- 自主 AI 代理 +- 工具调用 +- 任务执行 + +## 技术架构 + +``` +用户输入 + ↓ +输入处理/提示工程 + ↓ +LLM 推理 + ↓ +输出处理/后处理 + ↓ +用户输出 +``` + +## 开发挑战 + +1. **提示工程**: 设计有效的提示词获得理想输出 +2. **上下文管理**: 处理长上下文和多轮对话 +3. **幻觉控制**: 减少不准确或虚假信息的生成 +4. **安全与合规**: 确保输出符合安全和法规要求 + +## 相关概念 + +- [[rag-systems]] — 检索增强生成系统 +- [[crawl4ai]] — 用于数据获取的网页爬虫工具 +- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统 + +--- +*创建时间: 2026-04-22* +*最后更新: 2026-04-22* diff --git a/concepts/lost-in-the-middle.md b/concepts/lost-in-the-middle.md new file mode 100644 index 0000000..f51118f --- /dev/null +++ b/concepts/lost-in-the-middle.md @@ -0,0 +1,29 @@ +# Lost in the Middle + +**长上下文信息丢失现象**,LLM 在处理长上下文时对中间位置的信息利用效率最低。 + +## 核心发现 + +Liu 等 (2024) 发现 LLM 的注意力呈 **U 形分布**: +- 开头 Token 获得最多关注(primacy bias) +- 结尾 Token 获得次多关注(recency bias) +- **中间 Token 被系统性忽略** + +## 影响 + +- 将关键信息放在 Prompt 中间位置可能导致模型"看不到" +- 多文档 QA 任务中,中间文档的信息利用效率显著低于首尾 +- 随上下文增长,中间区域的"注意力盲区"扩大 + +## 缓解方案 + +- [[attention-sinks|Attention Sinks]]: 利用注意力汇锚定上下文 +- [[duo-attention|DuoAttention]]: 区分检索头和流式头 +- Prompt 工程: 将关键信息放在开头或结尾 + +## 相关概念 + +- [[attention-entropy-collapse]] — 注意力退化加剧此现象 +- [[attention-sinks]] — 缓解方案 +- [[duo-attention]] — 架构层面的解决思路 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/lucas-penrose-argument.md b/concepts/lucas-penrose-argument.md new file mode 100644 index 0000000..0aba577 --- /dev/null +++ b/concepts/lucas-penrose-argument.md @@ -0,0 +1,16 @@ +# 卢卡斯-彭罗斯论证 (Lucas-Penrose Argument) + +- **领域**: 心灵哲学、人工智能 +- **提出者**: John Lucas (1961), Roger Penrose (1989/1994) +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +基于[[godel-incompleteness-theorems|哥德尔不完备定理]]论证人类心智超越机器(图灵机)的著名哲学论证。卢卡斯(1961)提出人类可以通过元推理「看到」哥德尔句子为真,而任何形式系统无法做到。彭罗斯(1989/1994)扩展此论证,认为数学洞察涉及非计算过程,可能与量子引力效应有关。 + +学术界普遍认为该论证存在严重缺陷(不一致性问题、系统辨识问题等),人类心智是否超越机器仍是开放问题。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[self-reference]] · [[halting-problem]] diff --git a/concepts/mamba-ssm.md b/concepts/mamba-ssm.md new file mode 100644 index 0000000..dbcc658 --- /dev/null +++ b/concepts/mamba-ssm.md @@ -0,0 +1,18 @@ +# Mamba (State Space Model) + +**选择性状态空间模型**,由 Gu 和 Dao 2024 年提出,线性复杂度的 Transformer 替代方案。 + +## 核心机制 + +Mamba 将 SSM 的选择性机制(输入依赖的状态转移)与硬件感知算法结合,实现了线性时间序列建模,在多个任务上达到或超越 Transformer 性能。 + +## 与注意力机制的关系 + +Mamba 展示了突破 O(n²) 注意力瓶颈的另一条路——不是优化注意力,而是**抛弃注意力**。 + +## 相关概念 + +- [[linear-attention-methods]] — 另一条线性路径 +- [[subquadratic-transformer-alternatives]] — 次二次替代综述 +- [[attention-entropy-collapse]] — Mamba 无此问题 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/manifold-constrained-hyper-connections.md b/concepts/manifold-constrained-hyper-connections.md new file mode 100644 index 0000000..b3d60e1 --- /dev/null +++ b/concepts/manifold-constrained-hyper-connections.md @@ -0,0 +1,61 @@ +--- +title: "Manifold-Constrained Hyper-Connections (mHC)" +domain: "Deep Learning / Network Architecture" +tags: [architecture, residual-connections, training-stability, transformer] +sources: [[deepseek-v4-million-token-context]] +--- + +# Manifold-Constrained Hyper-Connections (mHC) + +> **类型**: Concept (Tier 1 — Core) +> **来源**: [[deepseek-v4-million-token-context]], Xie et al. (2026) + +## 定义 + +mHC(Manifold-Constrained Hyper-Connections)是对标准 Hyper-Connections(HC)的改进,通过将残差映射矩阵约束到 Birkhoff 多面体(双随机矩阵流形),解决深层堆叠时的数值不稳定问题。 + +## 核心机制 + +### 1. 标准 Hyper-Connections +标准 HC 将残差流的宽度从 ℝᵈ 扩展为 ℝⁿʰᶜˣᵈ,引入三个可学习的线性映射: +- **输入映射 Aₗ** ∈ ℝ¹ˣⁿʰᶜ:将扩展的残差状态融合为层输入 +- **残差变换 Bₗ** ∈ ℝⁿʰᶜˣⁿʰᶜ:残差状态的跨流混合 +- **输出映射 Cₗ** ∈ ℝⁿʰᶜˣ¹:将层输出注入残差流 + +更新公式:Xₗ₊₁ = BₗXₗ + CₗFₗ(AₗXₗ) + +### 2. 流形约束 +mHC 的核心创新是将 Bₗ 约束到双随机矩阵流形 M(Birkhoff polytope): +``` +M = {M ∈ ℝⁿˣⁿ | M1ₙ = 1ₙ, 1ₙᵀM = 1ₙᵀ, M ≥ 0} +``` +这确保谱范数 ||Bₗ||₂ ≤ 1,使得残差变换是**非扩张的**(non-expansive),保障前后向传播的数值稳定性。 + +### 3. 动态参数化 +三个映射参数通过输入动态生成,分解为动态分量和静态分量: +- 输入 Xₗ 先经 RMSNorm 归一化 +- 动态分量由可学习权重矩阵生成 +- 静态分量由可学习偏置提供 +- 门控因子 α 初始化为小值 + +### 4. 约束施加 +- Aₗ 和 Cₗ:通过 Sigmoid 确保非负性和有界性 +- Bₗ:通过 **Sinkhorn-Knopp 算法**(20 次迭代)投影到双随机矩阵流形 + +## 与标准 HC 的对比 + +| 属性 | Hyper-Connections | mHC | +|------|-------------------|-----| +| 深层训练 | 数值不稳定 | 稳定 | +| 残差变换 | 无约束 | 双随机约束 | +| 谱范数 | 无界 | ≤1 | +| 适用性 | 浅层 | 深层堆叠 | + +## 相关概念 + +- [[muon-optimizer]] — Muon 优化器(mHC 与 Muon 共同提升训练稳定性) +- [[depth-scaling-signal-degradation]] — 深度扩展中的信号退化 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/mathematical-pluralism.md b/concepts/mathematical-pluralism.md new file mode 100644 index 0000000..88048fd --- /dev/null +++ b/concepts/mathematical-pluralism.md @@ -0,0 +1,13 @@ +# 数学多元主义 (Mathematical Pluralism) + +- **领域**: 数学哲学 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +[[godel-incompleteness-theorems|哥德尔不完备定理]]之后的数学哲学趋势:接受不存在唯一的「数学真理」——数学知识是相对于所选择的公理系统而言的。不同公理系统可能给出不同答案,而这些答案之间可能无法比较。数学家从追求统一的终极真理转向探索不同的数学宇宙。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[continuum-hypothesis]] · [[formal-systems]] diff --git a/concepts/metamathematics.md b/concepts/metamathematics.md new file mode 100644 index 0000000..145415b --- /dev/null +++ b/concepts/metamathematics.md @@ -0,0 +1,15 @@ +# 元数学 (Metamathematics) + +- **领域**: 数学基础、逻辑学 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +元数学是研究数学系统本身的数学——使用数学方法分析[[formal-systems|形式系统]]的性质(一致性、完备性、可判定性等)。[[godel-numbering|哥德尔编码]]是实现元数学的核心技术:将关于公式和证明的元数学陈述转化为关于自然数的算术陈述。 + +[[hilberts-program|希尔伯特计划]]是元数学研究的典型代表,而[[godel-incompleteness-theorems|哥德尔不完备定理]]则是元数学最深刻的结果。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[godel-numbering]] · [[hilberts-program]] · [[formal-systems]] diff --git a/concepts/million-token-context.md b/concepts/million-token-context.md new file mode 100644 index 0000000..b4a0872 --- /dev/null +++ b/concepts/million-token-context.md @@ -0,0 +1,35 @@ +--- +title: "Million-Token Context" +domain: "Machine Learning / Long-Context Models" +tags: [long-context, efficiency, inference, kv-cache] +sources: [[deepseek-v4-million-token-context]] +--- + +# Million-Token Context + +> **类型**: Concept (Tier 3 — Placeholder) +> **来源**: [[deepseek-v4-million-token-context]] + +## 概述 + +百万 Token 上下文是指语言模型能够高效处理的序列长度达到 1,000,000 个 token。这是 DeepSeek-V4 系列的核心突破——通过 [[hybrid-attention-architecture]] 等技术创新,实现了在百万 token 上下文下仅为 DeepSeek-V3.2 27%(Pro)或 10%(Flash)的推理 FLOPs。 + +## 关键技术 + +- [[compressed-sparse-attention]] + [[heavily-compressed-attention]] 混合注意力 +- [[fp4-quantization-training]] FP4 量化 +- 异构 KV Cache 与磁盘存储策略 + +## 核心内容 + +*此页面为占位符,用于修复 wiki 中的断链。详细内容待后续补充。* + +## 相关概念 + +- [[hybrid-attention-architecture]] — 混合注意力架构 +- [[test-time-scaling]] — 测试时扩展 + +--- + +*Last Updated: 2026-04-27* +*Status: Placeholder — to be completed* diff --git a/concepts/mixture-of-attention-schemes.md b/concepts/mixture-of-attention-schemes.md new file mode 100644 index 0000000..1ab03d6 --- /dev/null +++ b/concepts/mixture-of-attention-schemes.md @@ -0,0 +1,14 @@ +# Mixture of Attention Schemes (MoAS) + +**注意力方案混合路由**,根据 Token 复杂度动态分配注意力类型。 + +## 核心思想 + +"简单" Token 用廉价 [[multi-query-attention|MQA]],"困难" Token 用强大 [[multi-head-attention|MHA]],实现条件计算。 + +## 相关概念 + +- [[multi-head-attention]] — MHA +- [[grouped-query-attention]] — GQA +- [[duo-attention]] — 另一种分类方案 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/mixture-of-experts.md b/concepts/mixture-of-experts.md new file mode 100644 index 0000000..479d89c --- /dev/null +++ b/concepts/mixture-of-experts.md @@ -0,0 +1,54 @@ +--- +title: "Mixture of Experts (MoE)" +domain: "Deep Learning / Model Architecture" +tags: [moe, architecture, sparsity, transformer] +sources: [[deepseek-v4-million-token-context]], Dai et al. (2024) +--- + +# Mixture of Experts (MoE) + +> **类型**: Concept (Tier 2 — Foundation) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +Mixture of Experts(MoE)是一种神经网络架构范式,通过稀疏激活机制,每个 token 只路由到模型参数的一个子集(专家),从而在扩大总参数量的同时控制计算开销。 + +## DeepSeekMoE 设计 + +DeepSeek-V4 继承并扩展了 DeepSeekMoE 框架: + +### 核心组件 +- **细粒度路由专家**:大量小型专家,每个 token 选择 top-k 激活 +- **共享专家**:所有 token 始终激活的专家,捕获通用知识 +- **路由策略**:Sqrt(Softplus(·)) 替代 Sigmoid 计算亲和度分数 + +### DeepSeek-V4 的改进 + +1. **负载均衡**:辅助损失自由策略 + 轻微序列级平衡损失 +2. **移除路由目标数限制**:灵活的路由拓扑 +3. **Hash 路由**:前几层 Transformer 的 FFN 用 Hash 路由替代密集层 +4. **FP4 量化**:路由专家权重采用 FP4 精度 + +### Expert Parallelism 优化 + +[[deepseek-v4-million-token-context|DeepSeek-V4]] 引入细粒度通信-计算重叠: +- 将专家分组为 waves,流水线化 dispatch/compute/combine +- MegaMoE2 mega-kernel:理论加速 1.92× +- 在每个 GPU 上通信延迟可被计算完全隐藏 + +## 效率分析 + +对于 V4-Pro 的 token-expert 对: +- 计算量:6hd FLOPs(SwiGLU gate + up + down projections) +- 通信量:3h bytes(FP8 dispatch + BF16 combine) +- 需求:C/B ≤ 6144 FLOPs/Byte(即每 GBps 带宽可支撑 6.1 TFLOP/s 计算) + +## 相关概念 + +- [[fp4-quantization-training]] — FP4 量化训练 +- [[subquadratic-transformer-alternatives]] — Transformer 替代架构 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/multi-head-attention.md b/concepts/multi-head-attention.md new file mode 100644 index 0000000..e0a0e70 --- /dev/null +++ b/concepts/multi-head-attention.md @@ -0,0 +1,30 @@ +# Multi-Head Attention (MHA) + +**标准多头注意力**,Transformer 架构的核心注意力变体。 + +## 定义 + +MHA 将输入经过 h 个并行的注意力头处理,每个头学习不同的表示子空间,最后拼接所有头的输出并通过线性变换融合。核心操作: + +$$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W^O$$ + +$$\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$$ + +## 关键特性 + +- **并行子空间**: h 个注意力头各自学习不同的注意模式(语法、语义、位置等) +- **参数量**: 每个头维度 d_k = d_v = d/h,总参数量与单头一致 +- **计算复杂度**: O(n² · d),n 为序列长度,d 为模型维度 + +## 优势与局限 + +**优势**: 表达能力最强,每个头独立学习不同的 Token 关系模式。 +**局限**: KV 缓存为 n × d,长序列推理时内存开销极大;每个 Token 需要计算与所有 Token 的注意力。 + +## 相关概念 + +- [[multi-query-attention]] — 共享 KV 头以减少缓存 +- [[grouped-query-attention]] — MHA 与 MQA 之间的折中 +- [[multi-head-latent-attention]] — 低秩压缩的极致优化 +- [[attention-entropy-collapse]] — MHA 中深层退化问题 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/multi-head-latent-attention.md b/concepts/multi-head-latent-attention.md new file mode 100644 index 0000000..bb086c7 --- /dev/null +++ b/concepts/multi-head-latent-attention.md @@ -0,0 +1,32 @@ +# Multi-head Latent Attention (MLA) + +**多潜在头注意力**,DeepSeek 团队在 DeepSeek-V2 (2024) 中提出的革命性注意力机制。 + +## 核心思想 + +MLA 通过**低秩联合压缩**将 KV 映射到远小于原始维度的潜在空间,推理时只需缓存压缩后的潜在向量,解码时再解压重建 KV。这与 MQA/GQA 的"共享头"策略不同——MLA 是**信息论意义上的压缩**,而非简单的共享。 + +## 关键机制 + +1. **低秩压缩**: KV 先映射到 d_latent << d 的潜在空间 +2. **潜在缓存**: 推理时只缓存压缩后的潜在向量,而非完整 KV +3. **按需重建**: 解码时从潜在向量高效重建完整 KV + +## 里程碑意义 + +- **缓存缩减**: KV 缓存可减少至 MHA 的 1/10 ~ 1/20 +- **质量保持**: 压缩不显著影响模型性能 +- **工业落地**: DeepSeek-V2/V3 的核心推理效率引擎 + +## 与 HCA 关系 + +MLA 可视为 [[heavily-compressed-attention|HCA]] 的泛化形式——HCA 是 DeepSeek-V4 中 MLA 的增强版,融合了流形约束。 + +## 相关概念 + +- [[multi-head-attention]] — MHA 基线 +- [[grouped-query-attention]] — GQA 分组方案 +- [[kv-cache-bottleneck]] — 缓存瓶颈问题 +- [[heavily-compressed-attention]] — DeepSeek-V4 的 HCA +- [[deepseek-v4-million-token-context]] — 百万 Token 上下文应用 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/multi-query-attention.md b/concepts/multi-query-attention.md new file mode 100644 index 0000000..618772e --- /dev/null +++ b/concepts/multi-query-attention.md @@ -0,0 +1,20 @@ +# Multi-Query Attention (MQA) + +**多查询注意力**,由 Shazeer 2019 年提出,所有 Q 头共享单个 KV 头。 + +## 定义 + +MQA 是 [[multi-head-attention|MHA]] 的最激进简化:保留多个 Q 头以维持表达能力,但所有头共享同一对 K 和 V。KV 缓存缩减为 MHA 的 1/h。 + +## 质量权衡 + +- **优势**: KV 缓存极低,推理内存大幅减少 +- **劣势**: 表达能力受损,训练不稳定,需要额外优化 +- **应用**: PaLM 采用 MQA,但后续模型多转向 [[grouped-query-attention|GQA]] + +## 相关概念 + +- [[multi-head-attention]] — MHA 基线 +- [[grouped-query-attention]] — GQA 折中方案 +- [[kv-cache-bottleneck]] — 缓存瓶颈 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/multi-token-prediction.md b/concepts/multi-token-prediction.md new file mode 100644 index 0000000..11ce162 --- /dev/null +++ b/concepts/multi-token-prediction.md @@ -0,0 +1,33 @@ +--- +title: "Multi-Token Prediction (MTP)" +domain: "Deep Learning / Training" +tags: [training, prediction, transformer, efficiency] +sources: [[deepseek-v4-million-token-context]] +--- + +# Multi-Token Prediction (MTP) + +> **类型**: Concept (Tier 3 — Placeholder) +> **来源**: [[deepseek-v4-million-token-context]], DeepSeek-V3 (2024) + +## 概述 + +MTP 是一种训练策略,让模型在每一步同时预测多个后续 token,提高训练效率和下游任务性能。DeepSeek-V4 继承自 DeepSeek-V3 的 MTP 配置,未做修改。 + +## 核心内容 + +*此页面为占位符,用于修复 wiki 中的断链。详细内容待后续补充。* + +## 与 DeepSeek-V4 的关系 + +- DeepSeek-V4 的 MTP 模块与 V3 完全相同 +- 通过额外的 MTP 预测头增强训练信号密度 + +## 相关概念 + +- [[test-time-scaling]] — 测试时扩展 + +--- + +*Last Updated: 2026-04-27* +*Status: Placeholder — to be completed* diff --git a/concepts/muon-optimizer.md b/concepts/muon-optimizer.md new file mode 100644 index 0000000..22403d4 --- /dev/null +++ b/concepts/muon-optimizer.md @@ -0,0 +1,69 @@ +--- +title: "Muon Optimizer" +domain: "Deep Learning / Optimization" +tags: [optimizer, training, convergence, transformer] +sources: [[deepseek-v4-million-token-context]], Jordan et al. (2024), Liu et al. (2025) +--- + +# Muon Optimizer + +> **类型**: Concept (Tier 1 — Core) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +Muon 是一种基于矩阵正交化的优化器,相比 AdamW 具有更快的收敛速度和更好的训练稳定性。DeepSeek-V4 中,Muon 应用于大多数模块(除 embedding、prediction head、mHC 静态偏置、RMSNorm 外)。 + +## 核心算法 + +``` +for each weight W ∈ ℝⁿˣᵐ: + Gₜ = ∇W Lₜ(Wₜ₋₁) # 计算梯度 + Mₜ = μMₜ₋₁ + Gₜ # 动量累积 + Oₜ' = HybridNewtonSchulz(μMₜ + Gₜ) # Nesterov + 混合 Newton-Schulz + Oₜ = Oₜ' · √max(n,m) · γ # RMS 重缩放 + Wₜ = Wₜ₋₁ · (1 − ηλ) − ηOₜ # 权重衰减 + 更新 +``` + +### 混合 Newton-Schulz 迭代 + +两阶段策略(共 10 次迭代): +1. **前 8 步**:系数 (a,b,c) = (3.4445, −4.7750, 2.0315) — 快速收敛 +2. **后 2 步**:系数 (a,b,c) = (2, −1.5, 0.5) — 精确正交化 + +迭代公式:Mₖ = aMₖ₋₁ + b(Mₖ₋₁Mₖ₋₁ᵀ)Mₖ₋₁ + c(Mₖ₋₁Mₖ₋₁ᵀ)²Mₖ₋₁ + +## 关键设计 + +### 1. Nesterov 技巧 +使用 Nesterov 动量(μMₜ + Gₜ)而非标准动量进行牛顿迭代。 + +### 2. RMS 重缩放 +将更新矩阵的 RMS 缩放到固定值,便于复用 AdamW 的超参数。 + +### 3. 避免注意力爆炸 +DeepSeek-V4 的注意力架构允许在 Q/K 上直接应用 RMSNorm,避免使用 QK-Clip。 + +## 与 AdamW 的混合使用 + +| 模块 | 优化器 | +|------|--------| +| Embedding | AdamW | +| Prediction Head | AdamW | +| mHC 静态偏置/门控 | AdamW | +| RMSNorm 权重 | AdamW | +| **其他所有模块** | **Muon** | + +## 优势 + +- 更快收敛:通过矩阵正交化加速训练 +- 更好稳定性:混合 Newton-Schulz 迭代确保数值精度 +- 无缝集成:RMS 重缩放允许复用 AdamW 超参数 + +## 相关概念 + +- [[manifold-constrained-hyper-connections]] — mHC(共同提升训练稳定性) + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/native-sparse-attention.md b/concepts/native-sparse-attention.md new file mode 100644 index 0000000..77172b1 --- /dev/null +++ b/concepts/native-sparse-attention.md @@ -0,0 +1,14 @@ +# Native Sparse Attention (NSA) + +**硬件对齐的原生可训练稀疏注意力**,DeepSeek 2025 年提出。 + +## 核心创新 + +稀疏模式在训练阶段即被学习("原生"),而非仅在推理时施加;同时稀疏模式设计与硬件(GPU Tensor Core)天然对齐。 + +## 相关概念 + +- [[sparse-attention-patterns]] — 稀疏注意力全景 +- [[seer-attention]] — 可学习稀疏对比 +- [[deepseek-v4-million-token-context]] — 在实际模型中的应用 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/ntk-aware-interpolation.md b/concepts/ntk-aware-interpolation.md new file mode 100644 index 0000000..39dc5aa --- /dev/null +++ b/concepts/ntk-aware-interpolation.md @@ -0,0 +1,12 @@ +# NTK-aware 位置编码插值 + +**RoPE 外推技术**,通过 NTK 理论调整旋转频率实现上下文窗口扩展。 + +## 核心思想 + +不修改模型架构,通过调整 [[rotary-position-embedding|RoPE]] 的旋转频率分布,使模型能够处理远超训练长度的序列。 + +## 相关概念 + +- [[rotary-position-embedding]] — RoPE 基础 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/on-policy-distillation.md b/concepts/on-policy-distillation.md new file mode 100644 index 0000000..a88ae0a --- /dev/null +++ b/concepts/on-policy-distillation.md @@ -0,0 +1,69 @@ +--- +title: "On-Policy Distillation (OPD)" +domain: "Machine Learning / Post-Training" +tags: [post-training, distillation, reinforcement-learning, model-merging] +sources: [[deepseek-v4-million-token-context]] +--- + +# On-Policy Distillation (OPD) + +> **类型**: Concept (Tier 1 — Core) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +OPD(On-Policy Distillation)是一种多教师模型蒸馏技术,通过让学生模型在自己的生成轨迹上学习教师模型的输出分布,将多个领域专家模型的知识融合到单个统一模型中。 + +## DeepSeek-V4 中的 OPD 流程 + +### 两阶段后训练范式 + +1. **阶段一:专家训练(Specialist Training)** + - 针对每个目标领域(数学、编程、Agent、指令遵循等)独立训练专家模型 + - 流程:Base Model → SFT(领域高质量数据)→ RL(GRPO,领域特定奖励模型) + - 产出多个各自领域顶尖的专家模型 + +2. **阶段二:OPD 融合** + - 统一模型(学生)通过多教师 OPD 学习所有专家能力 + - 10+ 教师模型覆盖不同领域 + +### 数学形式 + +$$ +\mathcal{L}_{\text{OPD}}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{KL}(\pi_\theta \parallel \pi_{E_i}) +$$ + +- \(\pi_{E_i}\):第 i 个专家模型的策略 +- \(\pi_\theta\):学生(统一)模型的策略 +- \(w_i\):专家权重 +- 反向 KL 散度确保学生沿自身生成轨迹学习 + +### 全词表蒸馏 + +与传统 token-level KL 估计不同,DeepSeek-V4 采用**全词表 logit 蒸馏**: +- 保留完整 logit 分布计算 KL 散度 +- 梯度估计更稳定 +- 更忠实地传递教师知识 + +## 工程实现 + +1. **教师调度**:教师权重按需从集中存储加载,ZeRO 分片;仅缓存最后一层隐藏状态 +2. **TileLang 内核**:专门优化的 KL 散度计算内核 +3. **在线策略**:学生模型自身生成训练轨迹,保持 on-policy 学习 + +## 相比其他方法的优势 + +| 方法 | 问题 | OPD 方案 | +|------|------|----------| +| 权重合并 | 性能下降 | Logit 级对齐,绕过物理权重限制 | +| 混合 RL | 训练不稳定 | 全词表蒸馏,梯度更稳定 | +| Token-level KL | 高方差 | 完整分布匹配 | + +## 相关概念 + +- [[specialist-training-pipeline]] — 专家训练流水线 +- [[test-time-scaling]] — 测试时扩展 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/paris-harrington-theorem.md b/concepts/paris-harrington-theorem.md new file mode 100644 index 0000000..233a19a --- /dev/null +++ b/concepts/paris-harrington-theorem.md @@ -0,0 +1,14 @@ +# 巴黎-哈灵顿定理 (Paris-Harrington Theorem) + +- **领域**: 组合数学、证明论 +- **发现者**: Jeff Paris & Leo Harrington, 1977 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +首次在「自然」的数学命题(而非人工构造的自指命题)中发现[[godel-incompleteness-theorems|不可判定性]]。Paris-Harrington 原理是对有限拉姆齐定理的轻微加强(要求同色子集的基数大于其最小元素),这一原理在[[peano-arithmetic|PA]]中不可证,但在 ZFC 中可证。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[goodsteins-theorem]] · [[peano-arithmetic]] diff --git a/concepts/peano-arithmetic.md b/concepts/peano-arithmetic.md new file mode 100644 index 0000000..28358eb --- /dev/null +++ b/concepts/peano-arithmetic.md @@ -0,0 +1,13 @@ +# 皮亚诺算术 (Peano Arithmetic, PA) + +- **领域**: 数理逻辑、数学基础 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +皮亚诺算术是[[godel-incompleteness-theorems|哥德尔不完备定理]]中最常使用的形式系统。它是基于一阶逻辑的算术公理系统,包含常数 0、后继函数 S、加法 + 和乘法 ·,以及归纳公理模式。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-incompleteness-theorems]] · [[godel-numbering]] · [[hilberts-program]] · [[formal-systems]] diff --git a/concepts/primitive-recursive-functions.md b/concepts/primitive-recursive-functions.md new file mode 100644 index 0000000..edda9ae --- /dev/null +++ b/concepts/primitive-recursive-functions.md @@ -0,0 +1,15 @@ +# 原始递归函数 (Primitive Recursive Functions) + +- **领域**: 可计算性理论 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +从基本函数(零函数 Z(x)=0、后继 S(x)=x+1、投影函数)出发,通过复合和原始递归操作构造的函数类。包含大多数常见数论函数(加法、乘法、指数等),但并非所有可计算函数(如阿克曼函数不可原始递归)。 + +在哥德尔证明中,原始递归函数用于证明关键元数学关系(Proof、Prov、Sub)在[[peano-arithmetic|PA]]中的[[godel-numbering|可表示性]]。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[godel-numbering]] · [[godel-incompleteness-theorems]] · [[computability-theory]] diff --git a/concepts/rag-systems.md b/concepts/rag-systems.md new file mode 100644 index 0000000..70e3f56 --- /dev/null +++ b/concepts/rag-systems.md @@ -0,0 +1,66 @@ +# RAG 系统 + +**类型**: AI 应用架构 +**领域**: 大语言模型应用,知识管理 +**全称**: Retrieval-Augmented Generation(检索增强生成) + +## 定义 + +RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索与生成式 AI 相结合的架构模式。它通过在生成过程中检索外部知识库来增强大语言模型的输出质量和准确性。 + +## 核心组成 + +### 1. 检索器(Retriever) +- 从知识库或文档集中检索相关信息 +- 通常基于向量搜索或关键词匹配 +- 输出与查询相关的文档片段 + +### 2. 生成器(Generator) +- 通常是大语言模型(如 GPT、Claude 等) +- 根据检索到的上下文生成回答 +- 结合检索信息与模型内部知识 + +### 3. 知识库(Knowledge Base) +- 存储结构化或半结构化的文档数据 +- 支持高效检索的索引结构 +- 可持续更新和扩展 + +## 工作流程 + +``` +用户查询 + ↓ +查询处理/向量化 + ↓ +知识库检索 → 相关文档片段 + ↓ +上下文组装(查询 + 文档) + ↓ +LLM 生成回答 + ↓ +输出结果 +``` + +## 优势 + +1. **减少幻觉**: 基于检索到的实际数据生成回答,降低凤凌反复 +2. **知识更新**: 无需重新训练模型,只需更新知识库 +3. **可解释性**: 可以展示生成回答所依据的来源文档 +4. **领域适应**: 适合专业领域、时效性要求高的场景 + +## 应用场景 + +- **企业知识管理**: 基于公司文档的智能问答 +- **客服系统**: 结合产品文档的自动回复 +- **学术研究**: 基于论文数据库的研究辅助 +- **法律咨询**: 基于法规和案例的智能咨询 + +## 相关概念 + +- [[crawl4ai]] — 用于 RAG 数据准备的网页抓取工具 +- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统 +- [[llm-applications]] — 大型语言模型应用 + +--- +*创建时间: 2026-04-22* +*最后更新: 2026-04-22* diff --git a/concepts/rotary-position-embedding.md b/concepts/rotary-position-embedding.md new file mode 100644 index 0000000..804afd4 --- /dev/null +++ b/concepts/rotary-position-embedding.md @@ -0,0 +1,23 @@ +# 旋转位置编码 (RoPE) + +**Rotary Position Embedding**,由苏剑林等 2021 年提出,通过旋转变换将位置信息编码到注意力计算中。 + +## 核心机制 + +RoPE 在 Q 和 K 向量上施加位置相关的旋转变换: +- 位置 m 的 Q 旋转 m·θ +- 位置 n 的 K 旋转 n·θ +- QK^T 内的内积只依赖于相对位置 m-n + +## 优势 + +1. **相对位置**: 天然捕捉相对位置关系 +2. **外推性**: 通过 NTK-aware 插值可外推到更长序列 +3. **效率**: 计算开销极低,无需额外参数 +4. **广泛采用**: LLaMA、DeepSeek、Qwen 等主流模型的标准选择 + +## 相关概念 + +- [[ntk-aware-interpolation]] — RoPE 外推技术 +- [[multi-head-attention]] — MHA 通常搭配 RoPE +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/russells-paradox.md b/concepts/russells-paradox.md new file mode 100644 index 0000000..ce3acb8 --- /dev/null +++ b/concepts/russells-paradox.md @@ -0,0 +1,14 @@ +# 罗素悖论 (Russell's Paradox) + +- **领域**: 集合论、数学基础 +- **发现者**: 伯特兰·罗素, 1901 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 概述 + +考虑集合 R = {x | x ∉ x}(所有不包含自身的集合组成的集合)。R ∈ R 是否成立?无论哪种情况都导致矛盾。这一悖论触发了第三次数学危机,直接促成了[[hilberts-program|希尔伯特计划]]的提出和集合论公理化运动。 + +> 📌 *占位符页面 — 待补充完整内容。* + +## 相关概念 +[[hilberts-program]] · [[self-reference]] · [[diagonalization-method]] diff --git a/concepts/seer-attention.md b/concepts/seer-attention.md new file mode 100644 index 0000000..fa277b9 --- /dev/null +++ b/concepts/seer-attention.md @@ -0,0 +1,13 @@ +# SeerAttention + +**可学习稀疏注意力**,通过预测注意力稀疏模式实现高效的动态稀疏计算。 + +## 核心机制 + +训练一个小型预测网络来预估每个 Q 头需要关注哪些 K 位置,在推理时只计算预测的热点区域。 + +## 相关概念 + +- [[sparse-attention-patterns]] — 稀疏注意力全景 +- [[native-sparse-attention]] — NSA 对比 +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/self-reference.md b/concepts/self-reference.md new file mode 100644 index 0000000..e69da42 --- /dev/null +++ b/concepts/self-reference.md @@ -0,0 +1,34 @@ +# 自指 (Self-Reference) + +- **领域**: 逻辑学、数学基础、语言哲学 +- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] + +## 定义 + +自指是指一个命题、公式或系统指向自身的能力。在哥德尔不完备定理中,自指是通过[[godel-numbering|哥德尔编码]]和[[diagonalization-method|对角线方法]]在[[formal-systems|形式系统]]内部合法构造的,核心产物是断言「我不可证」的哥德尔句子 G。 + +## 构造机制 + +1. 定义公式 ψ(x) := ¬Prov(Sub(x, x, x)) +2. 设 ψ(x) 的哥德尔数为 n +3. 定义哥德尔句子 G := ψ(n) = ¬Prov(Sub(n, n, n)) +4. 由于 Sub(n, n, n) = GN(G),G 等价于 ¬Prov(GN(G)),即 G 断言「G 不可证」 + +## 与说谎者悖论的区别 + +| 方面 | 说谎者悖论 | 哥德尔自指 | +|------|-----------|-----------| +| 表达方式 | 「这句话是假的」 | G = ¬Prov(GN(G)) | +| 编码基础 | 自然语言的语义模糊性 | 严格的算术编码 | +| 合法性 | 导致矛盾(悖论) | 在形式系统中完全合法 | +| 结果 | 无法赋值真值 | 为真但不可证 | + +## 对角线方法的历史谱系 + +康托尔对角线论证(实数不可数)→ 罗素悖论 → 塔斯基不可定义性定理 → 哥德尔不完备定理 → [[halting-problem|停机问题不可判定性]] + +对角线方法的本质是通过让对象谈论自身,揭示系统的内在限制。 + +## 相关概念 + +[[godel-numbering]] · [[diagonalization-method]] · [[godel-incompleteness-theorems]] · [[halting-problem]] diff --git a/concepts/sparse-attention-patterns.md b/concepts/sparse-attention-patterns.md new file mode 100644 index 0000000..2dae7ee --- /dev/null +++ b/concepts/sparse-attention-patterns.md @@ -0,0 +1,22 @@ +# 稀疏注意力模式 (Sparse Attention Patterns) + +**稀疏注意力**限制每个 Token 只关注序列的子集,将复杂度从 O(n²) 降至 O(n·k) 或 O(n·log n)。 + +## 主要类型 + +1. **局部窗口**: 每个 Token 只看固定窗口内的邻居 → O(n·w) +2. **全局+局部**: 少数全局 Token + 局部窗口(Longformer, BigBird) +3. **跨步注意力**: 固定步长的稀疏模式(Sparse Transformer) +4. **可学习稀疏**: 动态学习注意力模式([[seer-attention|SeerAttention]], [[native-sparse-attention|NSA]]) + +## 优势与局限 + +**优势**: 内存和计算线性缩放,支持极长序列。 +**局限**: 稀疏模式可能遗漏关键的长距离依赖;硬件利用率低(不规则访问模式)。 + +## 相关概念 + +- [[linear-attention-methods]] — 另一种线性化路径 +- [[seer-attention]] — 可学习稀疏 +- [[native-sparse-attention]] — NSA (DeepSeek) +- [[llm-attention-survey-2026]] — 综述参考 diff --git a/concepts/specialist-training-pipeline.md b/concepts/specialist-training-pipeline.md new file mode 100644 index 0000000..02784ca --- /dev/null +++ b/concepts/specialist-training-pipeline.md @@ -0,0 +1,60 @@ +--- +title: "Specialist Training Pipeline" +domain: "Machine Learning / Post-Training" +tags: [post-training, fine-tuning, reinforcement-learning, grpo] +sources: [[deepseek-v4-million-token-context]] +--- + +# Specialist Training Pipeline + +> **类型**: Concept (Tier 2 — Foundation) +> **来源**: [[deepseek-v4-million-token-context]] + +## 定义 + +专家训练流水线是 DeepSeek-V4 后训练的第一阶段,针对每个目标领域(数学、编程、Agent、指令遵循等)独立训练专家模型,为后续的 [[on-policy-distillation]] 融合提供高质量教师模型。 + +## 训练流程 + +### 1. 领域数据准备 +- 收集每个目标领域的高质量 SFT 数据 +- 设计领域特定的奖励模型(Reward Model) + +### 2. 监督微调 (SFT) +- Base Model 在领域数据上进行监督微调 +- 建立领域基础能力 + +### 3. 强化学习 (RL) +- 使用 GRPO(Group Relative Policy Optimization) +- 领域特定奖励模型指导优化方向 +- 产出各领域 SOTA 专家模型 + +## 每个领域独立优化 + +| 领域 | 训练重点 | 评估指标 | +|------|---------|---------| +| 数学 | 推理链质量 | 正确率 | +| 编程 | 可执行性、正确性 | Pass@1 | +| Agent | 工具使用、规划 | 任务完成率 | +| 指令遵循 | 约束遵守 | Win Rate | + +## 与 OPD 的协同 + +专家训练 + [[on-policy-distillation]] 构成 DeepSeek-V4 的完整后训练范式: +1. **分散培养**(Diverge):各自领域独立优化 +2. **统一融合**(Converge):OPD 将分散的知识融合到单一模型 + +## 优势 + +- 避免跨领域负迁移 +- 每个专家可在其领域达到顶级水平 +- 融合后的统一模型同时具备多领域能力 + +## 相关概念 + +- [[on-policy-distillation]] — OPD 在线策略蒸馏 +- [[test-time-scaling]] — 测试时扩展 + +--- + +*Last Updated: 2026-04-27* diff --git a/concepts/test-time-scaling.md b/concepts/test-time-scaling.md new file mode 100644 index 0000000..4051c3e --- /dev/null +++ b/concepts/test-time-scaling.md @@ -0,0 +1,34 @@ +--- +title: "Test-Time Scaling" +domain: "Machine Learning / Inference" +tags: [inference, scaling, reasoning, compute] +sources: [[deepseek-v4-million-token-context]] +--- + +# Test-Time Scaling + +> **类型**: Concept (Tier 3 — Placeholder) +> **来源**: [[deepseek-v4-million-token-context]] + +## 概述 + +Test-Time Scaling(测试时扩展)是指通过增加推理时的计算资源(更多推理 token、更多搜索步骤等)来提升模型性能的范式。DeepSeek-V4 系列通过高效的百万 Token 上下文能力,使 test-time scaling 更加可行。 + +## 核心内容 + +*此页面为占位符,用于修复 wiki 中的断链。详细内容待后续补充。* + +## 与 DeepSeek-V4 的关系 + +- V4 的高效长上下文能力为 test-time scaling 扫除了计算瓶颈 +- DeepSeek-V4-Pro-Max 是该范式下的最大推理努力模式 + +## 相关概念 + +- [[million-token-context]] — 百万 Token 上下文 +- [[multi-token-prediction]] — 多 Token 预测 + +--- + +*Last Updated: 2026-04-27* +*Status: Placeholder — to be completed* diff --git a/extracts/gpt-image2-prompt-collection-20260428.md b/extracts/gpt-image2-prompt-collection-20260428.md new file mode 100644 index 0000000..f58ddcd --- /dev/null +++ b/extracts/gpt-image2-prompt-collection-20260428.md @@ -0,0 +1,192 @@ +# GPT-Image-2 绘图方法/Prompt 摘录 +# 来源: https://linux.do/t/topic/2044964 +# 作者: sallyn | 日期: 2026-04-24 +# 整理: 小赫 | 整理日期: 2026-04-28 + +================================================================================ + 【风格 Prompt 合集】 +================================================================================ + +──────────────────────────────────────────────────────── +1. 俄国解构主义 (Russian Constructivism) +──────────────────────────────────────────────────────── +生成一张 [主体内容] 的宣传海报。俄国构成主义风格,平面设计插画,极简主义矢量艺术, +复古宣传海报。画面由强烈的几何形状构成,包含大量的锐利三角形、圆形和粗重的对角线切 +割。色调采用极简的三色限定:高饱和度宝蓝色、深黑色和米白色(做旧纸张感)。整体具有 +复古丝网印刷质感,布满细腻的颗粒噪点和磨损纹理。构图充满张力,强调不对称的平衡感和 +工业力量感,锐利的线条边缘,扁平化视觉,高对比度。 + +──────────────────────────────────────────────────────── +2. 错位矩形风格第一版 (Glitch Art / Pixel Sorting) +──────────────────────────────────────────────────────── +生成一张 [主体内容] 的人物海报。故障艺术风格,赛博朋克动漫美学,数字碎片化构图。画 +面由多个错位的矩形窗口和几何切片叠加而成,呈现出一种数据损坏和图像溢出的视觉感。核 +心风格包含:像素排序(Pixel Sorting)效果、RGB色彩偏移、横向拉伸的数字噪点以及彩虹 +色调的电流纹理。背景采用极简主义的米白色,与画面中心高饱和度的湛蓝天空、厚重的积雨 +云形成强烈视觉对比。整体氛围带有超现实的忧郁感和深邃的数字空间感,构图错落有致,充 +满现代平面设计感。 + +──────────────────────────────────────────────────────── +3. 错位矩形风格第二版 (Window Overlay / Digital Collage) +──────────────────────────────────────────────────────── +二次元平面艺术插画,角色为 [角色名]。人物的衣服、动作、表情均可以替换。人物需要尽量 +使用全身像,且不使用常规的正面全身像而是做出展现人物动态的速写动作。画面采用"窗口重 +叠 (Window Overlay)"与"数字拼贴"的构图。角色的轮廓由多个错位的矩形框构成,某些方框区 +域被处理成透明视窗,展示出清朗的蓝天与积雨云纹理,仿佛角色体内蕴含着广阔的天空。画 +面中装饰有精美的故障艺术 (Glitch Art) 元素,如极简的黑色几何长条、细密的彩色电子扫描 +线以及错位的色彩偏移纹理。整体视觉呈现出一种现代平面设计的律动感,色彩以克莱因蓝和 +纯净白为主,背景简洁明快,氛围宁静且富有诗意。 + +──────────────────────────────────────────────────────── +4. 混合媒介-照片+素描 (Mixed Media: Photo + Sketch) +──────────────────────────────────────────────────────── +一件混合媒介艺术作品。前景:一个极简主义的白色线稿素描,描绘的是 [角色名],近景胸像, +线条细腻纤细,半透明的剪影感,全身仅眼睛部分带有 [发光颜色]。人物的衣服、动作、表情 +均可替换为更适合整体风格的。背景:一张写实的、大光圈虚化的摄影照片,场景为 [场景描 +述],电影感光影,天空呈现暮蓝色与金黄色的渐变。采用倾斜构图(荷兰角视角),水平线明 +显倾斜。风格:空灵的氛围,怀旧的Lo-fi美学,锐利的白色线条与柔软模糊的实景摄影形成强 +烈对比,梦幻且忧郁的意境。 + +──────────────────────────────────────────────────────── +5. 黑蓝红三色 (Minimalist 3-Color Planar Illustration) +──────────────────────────────────────────────────────── +极简主义平面插画风格,高对比度视觉冲击。画面以[背景颜色,如:鲜红色]为底色,采用 +[填入颜色,如:黑、白、红]三色限定。 + +【核心构图】:画面采用极强的对角线构图,以倾斜的地平线为视觉分界线,将空间切割为两 +个截然不同的色块区域:上方填充高饱和底色,下方呈现斑驳的浅色地表。 + +主体:画面[方位,如:左下方]站立着[主体描述,例如:一个披着白色斗篷、银色长发的少 +女剪影],呈现出纯净、发光的质感,轮廓跨越或靠近对角线。 + +环境:背景中有一棵[环境核心,例如:巨大的炭黑色枯萎古树],枝干呈放射状跨越对角线向 +四周延伸。树干带有[材质细节,如:水墨晕染与斑驳的裂纹]质感。 + +点缀与细节:[点缀物描述,例如:枝头停歇着几只纯白的飞鸟]。下方的地表呈现为[地面描 +述,例如:大面积斑驳的银白色荒原],带有[纹理描述,如:粗糙的矿物颗粒感和干笔刷痕 +迹]。 + +艺术表现:电影感广角比例,强烈的二次元平面感与写实纹理相结合。整体氛围呈现出一种 +[氛围关键词,如:孤独、神圣、超现实]的意境,线条锋利。 + +──────────────────────────────────────────────────────── +6. 半调双色雕刻风格 (Engraving Halftone Style) +──────────────────────────────────────────────────────── +一幅极简主义平面设计海报,采用"半调雕刻线稿"风格(Engraving Halftone Style)。画面由 +密集的[线条形状:如"同心圆"或"平行弧线"]构成,通过线条的粗细变化和疏密程度,巧妙地 +勾勒出[主体人物/对象:例如"一个侧脸的女性廓形"]的轮廓与面部阴影,形成强烈的立体感。 +视觉表现上采用极简双色调方案,背景色为[背景颜色:例如"深蓝色"],线条颜色为[线条颜 +色:例如"明黄色"]。整体构图简洁有力,具有矢量艺术的质感,风格前卫且具有现代主义海报 +设计感。 + +──────────────────────────────────────────────────────── +7. 半调杂志风格 (Risograph Halftone Magazine Style) +──────────────────────────────────────────────────────── +现代复古平面海报设计,Risograph半调网点印刷风格。画面正中心是 [在此填写您的主体, +例如:一只复古留声机 / 一把电吉他 / 一杯咖啡]。主体采用深蓝与米白交织的半调网点纹 +理表现。背景为带有粗糙颗粒感的米色纸张。主体背后衬托着一个明黄色的几何实心拱门色 +块。主体周围环绕着极细的抽象交错轨道线条和几个微小的品红色四芒星符号。画面边缘(顶 +部和底部)带有深蓝色的复古粗体无衬线排版文字,部分文字带有明黄色高光色块底色。右上 +角包含一个条形码图形元素。整体构图极简,色彩对比强烈,具有波普艺术和复古杂志封面的 +视觉冲击力。 + +──────────────────────────────────────────────────────── +8. 波普+水墨喷溅 (Pop Art + Ink Splash) +──────────────────────────────────────────────────────── +现代日系混合媒介插画风格,[在此处替换为您想要生成的主体内容]。 + +采用倒置动态构图,结合扁平化波普艺术逻辑。色彩以高饱和度明黄为主基调,运用克莱因蓝 +与大红进行强视觉对冲。画面融合赛璐璐平涂、波点网纹(Halftone)及水墨喷溅质感,具有 +纸张肌理与数码后期叠加的综合材质感。光影利落,空间呈现多层次平面拼贴关系。整体氛围 +洋溢着现代都市的轻盈感与瞬时爆发力,充满时尚平面设计的高信息密度与符号化视觉冲击。 + +──────────────────────────────────────────────────────── +9. 看门狗-DEDSEC (Hardcore Punk / Cyber-Hacker) +──────────────────────────────────────────────────────── +[在此处替换为您想要生成的主体内容]放置在画面正中央,作为绝对的视觉焦点。四周边缘有 +多只风格化、带有惊悚感的手臂呈放射状向中心抓取,前景的手部经过夸张的广角畸变处理被 +极度放大,产生强烈的透视压迫感与定格的侵入张力。整体画面呈现出硬核朋克、地下独立漫 +画与波普拼贴艺术相融合的美学风格,散发出躁动、反叛与赛博黑客般的地下氛围。 + +画面的色彩被严格限制在极高对比度的纯黑、纯白与高饱和度的亮橙色之中。光影被彻底扁平 +化处理,物体的体积与阴影完全依靠粗犷锐利的黑色墨线勾勒以及大面积、密集的半色调网点 +(Halftone patterns)来表现。背景由撕裂的纸张边缘、粗糙的数字噪点、斑驳的印刷纹理与 +黑橙相间的抽象几何色块堆叠而成,信息密度极高且无明显留白。强烈的丝网印刷质感与破坏 +性的层叠拼贴手法交织,营造出极具视觉冲击力的平面图形艺术效果。 + +──────────────────────────────────────────────────────── +10. 克莱因秩序 (Klein Blue Order / Cel-Shading) +──────────────────────────────────────────────────────── +现代极简主义二次元插画,[在此处替换为您想要生成的动漫角色],赛璐璐风格 +(Cel-shading)。画面采用极简的几何切割构图,角色置于大面积的负空间留白之中。色彩上 +采用极具冲击力的克莱因蓝(Klein Blue)与高亮纯白构成双色视觉核心。光影特质为硬边阴 +影(Hard edges shadow),模拟正午强烈的直射日光,角色受光面清透微曝,阴影区深邃且边 +缘锐利,呈现出极高的明暗对比度。空间逻辑采用强烈的仰拍透视,强调线条的延伸感。整体 +氛围具有一种夏日清冷、孤独且超现实的现代美感。线条利落,色彩平整,无杂色颗粒,通透 +感,大师级动画分镜感。 + +──────────────────────────────────────────────────────── +11. 高对比度数字工业故障 (High-Contrast Digital Industrial Glitch) +──────────────────────────────────────────────────────── +极简高对比图形艺术风格,[在此处替换为您想要生成的主体内容] 呈现出深邃的黑色剪影与 +鲜明电光蓝(Electric Blue)交织的重影质感。画面采用极端的仰视低角度构图(Low Angle +Shot),展现强烈的动态对角线张力与线条穿插的复杂结构。背景为大面积的纯白高调留白, +形成极高的视觉反差。色彩方案严格限定于:纯黑、克莱因蓝/电光蓝、以及高亮白。画面带 +有浓郁的胶片噪点、Riso印刷纹理、以及明显的色差边缘(Chromatic Aberration)与数字故障 +痕迹。光影呈现高阈值的二值化硬核特质,边缘锐化且伴有像素撕裂感。整体视觉语言融合了 +后现代工业美学与都市孤寂感,信息密度极高且富有冷峻的平面设计感,呈现出一种瞬时的、 +数字化的视觉定格。 + + +================================================================================ + 【反推 Prompt 方法论】 +================================================================================ + +──────────────────────────────────────────────────────── +方法一:让 AI 教你风格术语 +──────────────────────────────────────────────────────── +让 Grok/ChatGPT 搜索从历史到现代所有有重大影响的设计风格,如: +瑞士风格、包豪斯、极简主义、极繁主义、超现实主义、至上主义、构成主义、 +半调风格、拼贴风格…… + +带着这些关键词去 Google / Pinterest 搜图,找到心仪的风格,记住术语,写提示词时带上。 + +──────────────────────────────────────────────────────── +方法二:从图片反推 Prompt(核心方法) +──────────────────────────────────────────────────────── +给 Gemini/GPT 一张参考图,让它用完整的自然语言概括风格。 +生出来不满意就回去让它修改提示词。 + +【推荐】反推 Prompt 模板(作者最终版): + +请作为一名顶级的 AI 绘画提示词专家,为我分析这张图片的视觉风格。 + +任务目标: +提取并反推这张图片的艺术风格,生成一份通用的 Prompt。这份 Prompt 必须剥离原图中的 +具体角色、文字或特定情节,仅保留其美学灵魂。 + +分析维度(请务必涵盖以下 15 个方面): +1. 基础维度:画面风格、画面成分组成、构图方式、分镜类型、光影特质、色调与色彩科 + 学、媒介与材质纹理、情绪与氛围、渲染/拍摄参数。 +2. 进阶维度:时代感与文化语境、空间逻辑与透视关系、信息密度与留白、动态状态(瞬 + 时感)、后期处理与数字痕迹、符号化特征。 + +输出要求: +1. 请直接输出一段完整的、高水准的中文提示词。 +2. 在提示词的开头或核心位置,使用 [在此处替换为您想要生成的主体内容] 作为占位符。 +3. 确保该 Prompt 具有高度通用性,用户只需更换占位符内容,即可在保持原图质感的同时 + 生成全新的画面。 +4. 无需输出分析过程,请直接给出最终的 Prompt 文本。 + +──────────────────────────────────────────────────────── +方法三:用 Grok 包装敏感词绕过审核 +──────────────────────────────────────────────────────── +如果生成主题不符合 GPT 规范(如杜蕾斯联动等),告诉 Grok 需求后让它包装成更安全、 +更能通过审核的提示词,再丢回 GPT 生成。 + +──────────────────────────────────────────────────────── +附:作者环境 +──────────────────────────────────────────────────────── +- 网络:机房 IP(非家宽) +- 使用环境:浏览器网页版 +- 账号:全部 Free 账号(无一付费) diff --git a/index.md b/index.md index 514118f..96243d2 100644 --- a/index.md +++ b/index.md @@ -2,7 +2,7 @@ > 内容目录。每个 wiki 页面按类型列出,附单行摘要。 > 首先阅读此文件以查找任何查询的相关页面。 -> 最后更新:2026-04-22 | 总页面数:53 +> 最后更新:2026-04-29 | 总页面数:116 ## Entities(实体) @@ -13,49 +13,107 @@ ## Concepts(概念) - [[ai-agent-security]] — AI 代理安全:保护自主AI代理及其运行环境免受恶意攻击、滥用和意外危害的安全实践和技术 - [[ai-alignment]] — AI 对齐:确保 AI 系统与人类价值观一致的研究领域 -- [[ai-safety]] — AI 安全:确保 AI 系统安全可靠的研究领域 - [[ai-mathematics]] - AI 与数学的交叉研究,以数学为 "沙盒"探索 AI 能力 +- [[ai-safety]] — AI 安全:确保 AI 系统安全可靠的研究领域 - [[agent-mediated-deception]] — 代理中介欺骗 (AMD) 攻击模式与防御 +- [[attention-entropy-collapse]] — 注意力熵崩溃:深层 Transformer 中注意力分布退化现象 +- [[attention-sinks]] — 注意力汇:利用初始Token的注意力吸引特性稳定长序列推理与优化KV缓存淘汰 +- [[automated-theorem-proving]] — 自动定理证明:开发能够自动发现数学证明的计算机程序,AI 与数理逻辑的交叉领域 - [[bpf-syscall-interception]] — BPF系统调用拦截:使用BPF技术拦截、监控和控制系统调用的方法,用于安全策略执行和行为监控 +- [[chaitin-algorithmic-information-theory]] — 算法信息论:蔡廷将哥德尔不完备性与信息论结合的研究领域(K(x)、Ω) +- [[chaitin-constant]] — 蔡廷常数 Ω:通用图灵机的停机概率,不可计算且包含最大信息量 - [[clawless]] — ClawLess:针对自主AI代理的安全框架,在最坏情况威胁模型下对AI代理强制执行形式化验证的安全策略 - [[cognitive-architecture]] — 认知架构:人类或AI系统认知过程的理论框架和计算实现,支持感知、学习、记忆、推理等功能 +- [[completeness-logic]] — 完备性(逻辑学):形式系统能否证明所有真命题的性质 +- [[computability-theory]] — 可计算性理论:研究「什么是可计算的」及其边界的学科 - [[computerized-adaptive-testing]] — 计算机化自适应测试综述:ML 方法如何优化测量模型、选题策略、题库构建和测试控制 +- [[compressed-sparse-attention]] — CSA:压缩稀疏注意力,先压缩 KV 再在压缩后表示上执行稀疏注意力 +- [[consistency-logic]] — 一致性(逻辑学):形式系统不能同时证明 φ 和 ¬φ 的性质 +- [[continuum-hypothesis]] — 连续统假设 CH:不存在基数严格介于自然数和实数之间的集合 - [[cramer-rao-lower-bound]] — 参数估计的理论方差下界,由 Fisher 信息量的倒数给出,是 MLE 和 CAT 的数学基础 +- [[crawl4ai]] — Crawl4AI:为 LLM 和 AI 应用设计的开源网页爬虫与数据提取工具,支持智能内容转换为 Markdown 格式 - [[curvine-distributed-cache]] — Curvine 云原生分布式缓存系统 - [[darwin-godel-machine]] — 达尔文·哥德尔机:通过生成和评估自我修改变体实现编码领域自我改进的框架 - [[depth-scaling-signal-degradation]] — LLM 深度扩展与信号退化问题 +- [[diagonalization-method]] — 对角线方法:通过自我参照构造揭示系统内在限制的证明技术(康托尔→罗素→哥德尔→图灵) +- [[duo-attention]] — DuoAttention:区分检索头和流式头的双模式注意力,按需分配全注意力或局部缓存 - [[eml-operator]] - EML (Exp-Minus-Log) 算子,连续数学中的 Sheffer 算子 - [[evolutionary-algorithms]] — 进化算法:基于自然选择和遗传原理的优化算法家族 - [[few-shot-learning]] — 少样本学习:从少量示例中学习新概念的机器学习方法 +- [[flash-attention]] — FlashAttention:IO感知的精确注意力优化,通过Tiling和Recomputation实现数量级加速 +- [[flash-attention-3]] — FlashAttention-3:异步计算和FP8低精度的最新版本 - [[formal-security-model]] — 形式化安全模型:使用数学方法精确描述和验证安全属性的方法论 +- [[formal-systems]] — 形式系统:由字母表、语法规则、公理和推理规则组成的数学系统 - [[formal-verification]] - 使用形式化方法验证数学证明正确性 +- [[fp4-quantization-training]] — FP4 量化感知训练:在 MoE 专家权重和注意力路径中应用 4 位浮点量化以降低内存和计算开销 - [[genetic-programming]] — 遗传编程:通过模拟自然选择自动生成计算机程序的进化计算技术 +- [[godel-incompleteness-theorems]] — 哥德尔不完备定理:任何足够强的一致形式系统必然不完备且不能自证一致性 +- [[godel-numbering]] — 哥德尔编码:将形式系统的符号、公式和证明唯一映射为自然数的技术 +- [[goodsteins-theorem]] — 古德斯坦定理:所有古德斯坦序列最终到达 0,但在 PA 中不可证 - [[gravitino-unified-metadata]] — Gravitino 统一元数据管理方案 +- [[grouped-query-attention]] — GQA:分组查询注意力,MHA与MQA的折中方案,Llama 3系列采用 +- [[halting-problem]] — 停机问题:判定程序是否终止的不可判定问题,哥德尔定理在计算理论中的对应物 +- [[heavily-compressed-attention]] — HCA:高强度压缩注意力,对 KV 激进压缩但保持密集注意力以最大化全局上下文效率 +- [[hilberts-program]] — 希尔伯特计划:20 世纪初提出的数学基础统一方案,被哥德尔定理终结 - [[human-agent-trust]] — 人机信任建立与脆弱性研究 - [[human-centered-ai]] - 以增强人类能力为核心目标的 AI 发展哲学 +- [[hybrid-attention-architecture]] — 混合注意力架构:组合 CSA 和 HCA 的分层注意力方案,在计算效率和上下文覆盖间取得最优平衡 - [[hyperagents]] — 超智能体:自指代理,集成任务解决和自我修改,支持元认知自我修改 - [[knowledge-bank]] — AI 辅助开发时代的知识管理系统,3D 分类 (scope + source + type) 与自动捕获生命周期 +- [[kolmogorov-complexity]] — 柯尔莫哥洛夫复杂度 K(x):输出字符串 x 的最短程序长度 +- [[kv-cache-bottleneck]] — KV缓存瓶颈:自回归推理中的核心内存瓶颈,驱动MQA/GQA/MLA等结构优化 - [[kvcache-transfer]] — KVCache 传输与优化技术 +- [[linear-attention-methods]] — 线性注意力:通过核分解将注意力复杂度从O(n²)降至O(n)的方法族 +- [[llm-applications]] — LLM 应用:基于大型语言模型的各类实际应用系统,包括文本生成、对话系统、RAG 和代理系统 +- [[lost-in-the-middle]] — Lost in the Middle:LLM长上下文中中间位置信息被系统性忽略的U形注意力分布现象 +- [[lucas-penrose-argument]] — 卢卡斯-彭罗斯论证:基于哥德尔定理论证人类心智超越机器的哲学论证 +- [[mamba-ssm]] — Mamba:选择性状态空间模型,线性复杂度的Transformer替代架构 +- [[manifold-constrained-hyper-connections]] — mHC:流形约束超连接,将残差映射约束到 Birkhoff 多面体确保深层训练的数值稳定性 +- [[mathematical-pluralism]] — 数学多元主义:接受不存在唯一数学真理的哲学立场 - [[memory-caching-rnn]] — 通过缓存 RNN 隐藏状态检查点扩展有效记忆容量的技术 -- [[metacognitive-self-modification]] — 元认知自我修改:AI 系统改进其自身改进机制的能力,实现递归改进 - [[meta-learning]] — 元学习:学习如何学习的机器学习方法,支持快速适应新任务 +- [[metacognitive-self-modification]] — 元认知自我修改:AI 系统改进其自身改进机制的能力,实现递归改进 +- [[metamathematics]] — 元数学:使用数学方法研究形式系统性质的学科 +- [[million-token-context]] — 百万 Token 上下文:LLM 高效处理 1M token 序列的能力,DeepSeek-V4 的核心突破之一 +- [[mixture-of-attention-schemes]] — MoAS:注意力方案混合路由,根据Token复杂度动态分配MHA/MQA/GQA - [[mixture-of-depths-attention]] — MoDA 跨层注意力机制 +- [[mixture-of-experts]] — MoE 混合专家:通过稀疏激活路由实现参数规模扩展而控制计算开销的架构范式 +- [[multi-head-attention]] — MHA:标准多头注意力,h个并行头学习不同子空间后拼接融合 +- [[multi-head-latent-attention]] — MLA:多潜在头注意力,通过低秩压缩将KV缓存缩减至MHA的1/10~1/20 +- [[multi-query-attention]] — MQA:多查询注意力,所有Q头共享单个KV头以实现极低KV缓存 +- [[multi-token-prediction]] — MTP 多 Token 预测:训练时同时预测多个后续 token 的策略 +- [[muon-optimizer]] — Muon 优化器:基于矩阵正交化的优化器,比 AdamW 收敛更快、训练更稳定 +- [[native-sparse-attention]] — NSA:硬件对齐的原生可训练稀疏注意力,DeepSeek 2025提出 - [[neuroscience]] — 神经科学:研究神经系统结构和功能的科学 +- [[ntk-aware-interpolation]] — NTK-aware插值:通过NTK理论调整RoPE旋转频率实现上下文窗口外推 +- [[on-policy-distillation]] — OPD 在线策略蒸馏:多教师模型通过反向 KL 散度在学生轨迹上融合领域专家知识的技术 +- [[paris-harrington-theorem]] — 巴黎-哈灵顿定理:首个自然数学命题中发现的 PA 不可判定性 +- [[peano-arithmetic]] — 皮亚诺算术 PA:哥德尔定理中使用的一阶算术公理系统 - [[prefill-as-a-service]] — PrfaaS 跨数据中心 LLM 服务架构 - [[prefill-decode-disaggregation]] — Prefill-Decode 分离架构演进 +- [[primitive-recursive-functions]] — 原始递归函数:通过复合和原始递归构造的函数类 - [[program-synthesis]] — 程序合成:从高级规范自动生成满足这些规范的程序的过程 +- [[rag-systems]] — RAG 系统:检索增强生成架构,将信息检索与生成式 AI 结合以提高输出质量和准确性 - [[recursive-self-improvement]] — 递归自我改进:AI系统改进其自身改进能力,可能导致能力爆炸的理论概念 +- [[rotary-position-embedding]] — RoPE:旋转位置编码,通过旋转变换将相对位置信息编码到注意力计算中 +- [[russells-paradox]] — 罗素悖论:不包含自身的集合组成的集合导致矛盾,触发第三次数学危机 - [[secure-containers]] — 安全容器:提供增强安全特性的容器技术,保护主机系统免受容器内应用程序的攻击 +- [[seer-attention]] — SeerAttention:可学习稀疏注意力,训练预测网络预估注意力热点区域 - [[self-improving-ai]] — 自我改进人工智能:能够通过学习改进自身学习过程、问题解决能力或认知架构的 AI 系统 +- [[self-reference]] — 自指:命题或系统指向自身的能力,哥德尔句子的核心构造机制 - [[singularity]] — 技术奇点:假设的未来时间点,技术进步变得如此迅速和深刻,以至于人类无法预测或理解其后的世界 +- [[sparse-attention-patterns]] — 稀疏注意力:限制每个Token只关注序列子集,复杂度从O(n²)降至O(n·k) +- [[specialist-training-pipeline]] — 专家训练流水线:DeepSeek-V4 后训练第一阶段,针对每个领域独立训练专家模型 - [[spurious-predictability]] — 金融机器学习中的虚假可预测性:自适应搜索产生的统计伪影 - [[subquadratic-transformer-alternatives]] — Transformer 的次二次复杂度替代架构综述 - [[symbolic-regression]] — 从数据中发现数学表达式的机器学习技术 +- [[test-time-scaling]] — 测试时扩展:通过增加推理计算资源提升模型性能的范式,DeepSeek-V4 的高效长上下文使其更加可行 - [[transfer-learning]] — 迁移学习:将从一个任务学到的知识应用到另一个相关任务的机器学习方法 - [[userspace-kernel]] — 用户空间内核:在用户空间提供内核功能,增强系统安全的技术 - [[worst-case-threat-model]] — 最坏情况威胁模型:假设系统将面临最坏可能攻击场景的安全设计方法论 ## Articles(文章) +- [[crawl4ai-open-source-web-crawler]] — Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具(知乎专栏) - [[oppo-multimodal-data-lake]] — OPPO 多模态数据湖架构实践 (Gravitino + Curvine) ## Comparisons(对比) @@ -63,7 +121,10 @@ ## Papers(论文) - [[behrouz-memory-caching-rnn]] — Memory Caching 技术:通过缓存 RNN 隐藏状态实现可增长记忆 (arXiv:2602.24281, 2026) - [[clawless-ai-agent-security]] — ClawLess: AI 代理安全模型,形式化验证与运行时执行框架 (arXiv:2604.06284, 2026) +- [[deepseek-v4-million-token-context]] — DeepSeek-V4:高效百万Token上下文智能,CSA+HCA混合注意力、mHC、Muon优化器 (HuggingFace, 2026) +- [[godel-incompleteness-tutorial]] — 哥德尔不完备定理教程:从哥德尔编号到 AI 边界探索的综合教学资料 (2026) - [[li-amd-human-perception]] — 人类对 LLM Agent 欺骗的感知脆弱性实证研究 (arXiv:2602.21127, 2026) +- [[llm-attention-survey-2026]] — 大语言模型注意力机制全面分析综述:MHA→GQA→MLA演化、熵崩溃、FlashAttention优化 (2026年4月) - [[Mathematical methods and human thought in the age of AI]] - 陶哲轩与 Klowden 关于 AI 哲学的深度论文 (arXiv:2603.26524, 2026) - [[nikolopoulos-spurious-predictability]] — 金融机器学习中的虚假可预测性:证伪审计框架 (arXiv:2604.15531, 2026) - [[odrzywolek-eml-single-operator]] - EML 算子:单一二元算子生成所有初等函数 (arXiv:2603.21852, 2026) diff --git a/log.md b/log.md index c5e638e..0e47085 100644 --- a/log.md +++ b/log.md @@ -5,6 +5,31 @@ > 操作类型:ingest, update, query, lint, create, archive, delete > 当此文件超过 500 条记录时,轮换:重命名为 log-YYYY.md,重新开始。 +## [2026-04-27] ingest | DeepSeek-V4 技术报告 (HuggingFace) +- 来源:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf +- 作者:DeepSeek-AI +- PDF:4.4MB,提取 4906 行文本 +- 新增文件 (14 个): + - `raw/papers/deepseek-ai-deepseek-v4-2026.md` — 原始论文存档 + - `papers/deepseek-v4-million-token-context.md` — 论文主页面 + - Tier 1 核心概念 (5 个): + - `concepts/compressed-sparse-attention.md` — CSA 压缩稀疏注意力 + - `concepts/heavily-compressed-attention.md` — HCA 高强度压缩注意力 + - `concepts/manifold-constrained-hyper-connections.md` — mHC 流形约束超连接 + - `concepts/muon-optimizer.md` — Muon 优化器 + - `concepts/on-policy-distillation.md` — OPD 在线策略蒸馏 + - Tier 2 基础概念 (4 个): + - `concepts/hybrid-attention-architecture.md` — 混合注意力架构 + - `concepts/mixture-of-experts.md` — MoE 混合专家 + - `concepts/fp4-quantization-training.md` — FP4 量化感知训练 + - `concepts/specialist-training-pipeline.md` — 专家训练流水线 + - Tier 3 占位符概念 (3 个): + - `concepts/multi-token-prediction.md` — MTP 多 Token 预测 + - `concepts/test-time-scaling.md` — 测试时扩展 + - `concepts/million-token-context.md` — 百万 Token 上下文 +- 关键概念:CSA/HCA 混合注意力、mHC 双随机矩阵约束、Muon 优化器、OPD 多教师蒸馏 +- 更新 index.md:总页面数 57 → 71 + ## [2026-04-20] merge | 合并 /home/ubuntu/wiki 到 /home/ubuntu/wikiplace - 来源:旧 wiki 路径(默认回退路径 ~/wiki) - 操作:将 wiki 独有的文件合并到 wikiplace @@ -168,3 +193,83 @@ - concepts/worst-case-threat-model.md — 最坏情况威胁模型概念 - 更新 index.md:总页面数 46 → 53 - 关键概念:ClawLess、AI代理安全、形式化安全模型、用户空间内核、BPF系统调用拦截、安全容器、最坏情况威胁模型 + +## [2026-04-22] ingest | Crawl4AI: 开源智能网页爬虫与数据提取工具 +- 来源:知乎专栃 https://zhuanlan.zhihu.com/p/717965307 +- 作者:沈飞 +- 保存至:raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md +- 创建页面: + - articles/crawl4ai-open-source-web-crawler.md — Crawl4AI 文章主页面 + - concepts/crawl4ai.md — Crawl4AI 工具概念页面 + - concepts/rag-systems.md — RAG 系统概念页面 + - concepts/llm-applications.md — LLM 应用概念页面 +- 更新 index.md:总页面数 53 → 57 +- 关键概念:Crawl4AI、网页爬虫、数据提取、RAG、LLM应用、Markdown转换 + +--- + +## 2026-04-28 | 哥德尔不完备定理教程 + +- **来源**: PDF 直接提交 (godel_tutorial.pdf),2026年4月综合教程 +- **作者**: 无明确单一作者(面向数学系本科生的教学资料) +- **新增页面**: 25 个(1 论文 + 1 原始存档 + 23 概念) + - raw/papers/godel-tutorial-2026.md — 原始存档 + - papers/godel-incompleteness-tutorial.md — 论文主页面 + - concepts/godel-incompleteness-theorems.md — 哥德尔不完备定理 + - concepts/godel-numbering.md — 哥德尔编码 + - concepts/hilberts-program.md — 希尔伯特计划 + - concepts/peano-arithmetic.md — 皮亚诺算术 + - concepts/self-reference.md — 自指 + - concepts/diagonalization-method.md — 对角线方法 + - concepts/halting-problem.md — 停机问题 + - concepts/lucas-penrose-argument.md — 卢卡斯-彭罗斯论证 + - concepts/chaitin-algorithmic-information-theory.md — 算法信息论 + - concepts/metamathematics.md — 元数学 + - concepts/primitive-recursive-functions.md — 原始递归函数 + - concepts/computability-theory.md — 可计算性理论 + - concepts/formal-systems.md — 形式系统 + - concepts/automated-theorem-proving.md — 自动定理证明 + - concepts/paris-harrington-theorem.md — 巴黎-哈灵顿定理 + - concepts/goodsteins-theorem.md — 古德斯坦定理 + - concepts/russells-paradox.md — 罗素悖论 + - concepts/continuum-hypothesis.md — 连续统假设 + - concepts/consistency-logic.md — 一致性 + - concepts/completeness-logic.md — 完备性 + - concepts/mathematical-pluralism.md — 数学多元主义 + - concepts/chaitin-constant.md — 蔡廷常数 + - concepts/kolmogorov-complexity.md — 柯尔莫哥洛夫复杂度 +- 更新 index.md:总页面数 71 → 96 +- 关键概念:哥德尔不完备定理、哥德尔编码、自指、对角线方法、停机问题、希尔伯特计划、可计算性、形式系统 +## [2026-04-29] ingest | 大语言模型注意力机制全面分析 (综述论文) +- 来源:用户直接上传 PDF (LLM注意力机制全面分析.pdf) +- 类型:综述论文 / Review Paper,2026年4月 +- PDF:1385 行文本提取 +- 新增文件 (21 个): + - `raw/papers/llm-attention-survey-2026.md` — 原始论文存档 + - `papers/llm-attention-survey-2026.md` — 论文主页面 + - Tier 1 核心概念 (6 个): + - `concepts/multi-head-attention.md` — MHA 标准多头注意力 + - `concepts/grouped-query-attention.md` — GQA 分组查询注意力 + - `concepts/multi-head-latent-attention.md` — MLA 多潜在头注意力 + - `concepts/flash-attention.md` — FlashAttention IO感知优化 + - `concepts/attention-entropy-collapse.md` — 注意力熵崩溃 + - `concepts/kv-cache-bottleneck.md` — KV缓存内存瓶颈 + - Tier 2 基础概念 (5 个): + - `concepts/multi-query-attention.md` — MQA 多查询注意力 + - `concepts/sparse-attention-patterns.md` — 稀疏注意力模式 + - `concepts/linear-attention-methods.md` — 线性注意力方法 + - `concepts/rotary-position-embedding.md` — RoPE 旋转位置编码 + - `concepts/lost-in-the-middle.md` — Lost in the Middle 现象 + - Tier 3 占位概念 (8 个): + - `concepts/attention-sinks.md` — 注意力汇 + - `concepts/flash-attention-3.md` — FlashAttention-3 + - `concepts/mamba-ssm.md` — Mamba 状态空间模型 + - `concepts/mixture-of-attention-schemes.md` — MoAS 注意力方案混合 + - `concepts/duo-attention.md` — DuoAttention 双模式注意力 + - `concepts/seer-attention.md` — SeerAttention 可学习稀疏 + - `concepts/ntk-aware-interpolation.md` — NTK-aware 位置插值 + - `concepts/native-sparse-attention.md` — NSA 原生稀疏注意力 +- 更新 index.md:总页面数 96 → 116 +- 关键概念:注意力机制演化谱系 (MHA→MQA→GQA→MLA)、FlashAttention、注意力退化、KV缓存瓶颈、Lost in the Middle +- 网络连接:与已有概念 CSA、HCA、混合注意力架构、DeepSeek-V4 等形成密集交叉引用 + diff --git a/papers/deepseek-v4-million-token-context.md b/papers/deepseek-v4-million-token-context.md new file mode 100644 index 0000000..3b5db40 --- /dev/null +++ b/papers/deepseek-v4-million-token-context.md @@ -0,0 +1,68 @@ +--- +title: "DeepSeek-V4: 迈向高效百万 Token 上下文智能" +authors: "DeepSeek-AI" +date: "2026" +source: "Hugging Face (Technical Report)" +tags: [large-language-models, mixture-of-experts, long-context, architecture, training] +--- + +# DeepSeek-V4: 迈向高效百万 Token 上下文智能 + +> **论文链接**: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf +> **模型**: DeepSeek-V4-Pro (1.6T/49B activated) | DeepSeek-V4-Flash (284B/13B activated) + +## 核心问题 + +大语言模型的 reasoning 和 test-time scaling 受限于 vanilla attention 的二次复杂度。如何在保持模型性能的同时,实现百万级 token 的高效推理? + +## 方法论贡献 + +### 1. [[hybrid-attention-architecture]] — 混合注意力架构 +结合 [[compressed-sparse-attention]](CSA)和 [[heavily-compressed-attention]](HCA),大幅降低长上下文的计算量和 KV 缓存: +- **CSA**:沿序列维度压缩 KV cache 后进行稀疏注意力 +- **HCA**:激进压缩 KV cache 但保持密集注意力 + +### 2. [[manifold-constrained-hyper-connections]](mHC)— 流形约束超连接 +将残差映射矩阵约束到 Birkhoff 多面体(双随机矩阵流形),通过 Sinkhorn-Knopp 算法确保前向/反向传播的数值稳定性。 + +### 3. [[muon-optimizer]] — Muon 优化器 +采用混合 Newton-Schulz 迭代的正交化方法,实现更快收敛和更好的训练稳定性。 + +### 4. [[on-policy-distillation]](OPD)— 在线策略蒸馏 +两阶段后训练范式:先独立训练领域专家模型,再通过多教师反向 KL 蒸馏融合为统一模型。 + +## 关键发现 + +- **效率革命**:1M 上下文下,V4-Pro 仅需 V3.2 的 27% FLOPs 和 10% KV cache +- **百万上下文原生支持**:预训练后即可高效处理 1M token 序列 +- **混合注意力收益巨大**:相比 BF16 GQA8 基线,4.3 层 KV cache 仅约 2% +- **FP4 量化**:路由专家权重和 indexer QK 路径采用 FP4,理论可进一步提升 33% 效率 + +## 技术栈 + +| 组件 | 技术 | 创新点 | +|------|------|--------| +| 注意力 | CSA + HCA 混合 | 序列压缩 + 稀疏/密集混合 | +| 残差连接 | mHC | 双随机矩阵约束 | +| 优化器 | Muon | 混合 Newton-Schulz 迭代 | +| MoE | DeepSeekMoE | Hash 路由 + 无辅助损失 | +| 量化 | FP4 QAT | MoE 专家权重 FP4 | +| 后训练 | Specialist + OPD | 多教师全词表 KL 蒸馏 | + +## 相关概念 + +- [[compressed-sparse-attention]] — CSA:压缩稀疏注意力 +- [[heavily-compressed-attention]] — HCA:高强度压缩注意力 +- [[manifold-constrained-hyper-connections]] — mHC:流形约束超连接 +- [[muon-optimizer]] — Muon 优化器 +- [[on-policy-distillation]] — 在线策略蒸馏 +- [[mixture-of-experts]] — 混合专家模型 +- [[fp4-quantization-training]] — FP4 量化感知训练 +- [[multi-token-prediction]] — 多 Token 预测 +- [[test-time-scaling]] — 测试时扩展 +- [[million-token-context]] — 百万 Token 上下文 + +--- + +*Added: 2026-04-27 | Source: DeepSeek-AI Technical Report* +*See raw archive: [[../raw/papers/deepseek-ai-deepseek-v4-2026]]* diff --git a/papers/godel-incompleteness-tutorial.md b/papers/godel-incompleteness-tutorial.md new file mode 100644 index 0000000..de9e6fc --- /dev/null +++ b/papers/godel-incompleteness-tutorial.md @@ -0,0 +1,47 @@ +# 哥德尔不完备定理教程 + +- **类型**: 综合教程 +- **年份**: 2026年4月 +- **目标读者**: 数学系本科生 +- **原始文件**: [[raw/papers/godel-tutorial-2026|原始存档]] + +## 中文摘要 + +本教程系统阐述哥德尔不完备定理的完整图景:从 20 世纪初希尔伯特计划的历史背景出发,详解第一和第二不完备定理的精确陈述与证明技术([[godel-numbering]]、[[diagonalization-method]]、[[self-reference]]),并追踪该定理对[[hilberts-program|数学基础]]、[[halting-problem|计算机科学]]、[[lucas-penrose-argument|哲学与心智理论]]及[[chaitin-algorithmic-information-theory|现代信息论]]的跨学科影响。教程特别澄清了常见的误解与误用,在保持数学严谨性的同时以直观方式阐述证明的核心思想。 + +## 核心问题 + +希尔伯特计划能否实现?即:是否存在一个完备且一致的数学形式系统,能够证明所有数学真理并自我验证其一致性? + +## 方法论贡献 + +1. **哥德尔编码(Gödel Numbering)**:将符号、公式、证明序列唯一映射为自然数,实现「算术化元数学」 +2. **对角线自指构造**:通过 Sub 函数构造断言「我不可证」的哥德尔句子 G +3. **可表示性理论**:证明所有原始递归关系在 PA 中可表示,奠定编码的数学基础 +4. **内部形式化**:在形式系统 F 内部模拟第一不完备定理的证明,导出第二不完备定理 + +## 关键发现 + +1. **真 ≠ 可证**:任何足够强的一致形式系统必然不完备——存在真但不可证的命题 +2. **一致性不可自证**:系统无法在内部证明自身的一致性,终结希尔伯特计划的核心目标 +3. **不可判定性渗透到主流数学**:巴黎-哈灵顿定理和古德斯坦定理表明,不可判定性并非人工构造的逻辑玩具 +4. **信息论视角**:蔡廷定理揭示形式系统的证明能力受限于信息压缩的极限([[kolmogorov-complexity]]、[[chaitin-constant]]) + +## 跨学科影响 + +| 领域 | 核心影响 | +|------|----------| +| 数学基础 | 希尔伯特计划终结、连续统假设独立性、[[mathematical-pluralism]] | +| 计算机科学 | [[computability-theory]]、[[halting-problem]]、[[formal-verification]]、[[automated-theorem-proving]] | +| 哲学 | [[lucas-penrose-argument]]、数学真理本质、知识界限 | +| 物理学 | 哥德尔宇宙、万有理论的可完备性讨论 | +| 人工智能 | AGI 可能性边界、AI 系统自我验证的局限 | + +## 核心概念网络 + +- **核心**: [[godel-incompleteness-theorems]] → [[godel-numbering]] → [[self-reference]] +- **数学基础**: [[hilberts-program]] · [[peano-arithmetic]] · [[metamathematics]] · [[consistency-logic]] · [[completeness-logic]] · [[russells-paradox]] · [[continuum-hypothesis]] +- **技术方法**: [[diagonalization-method]] · [[primitive-recursive-functions]] +- **CS 影响**: [[halting-problem]] · [[computability-theory]] · [[formal-verification]] · [[automated-theorem-proving]] +- **哲学**: [[lucas-penrose-argument]] · [[mathematical-pluralism]] +- **现代发展**: [[chaitin-algorithmic-information-theory]] · [[chaitin-constant]] · [[kolmogorov-complexity]] · [[paris-harrington-theorem]] · [[goodsteins-theorem]] diff --git a/papers/llm-attention-survey-2026.md b/papers/llm-attention-survey-2026.md new file mode 100644 index 0000000..2ebdb4d --- /dev/null +++ b/papers/llm-attention-survey-2026.md @@ -0,0 +1,51 @@ +# 大语言模型注意力机制全面分析 + +- **类型**: 综述论文 +- **日期**: 2026年4月 +- **标签**: #attention-mechanism #LLM #survey + +## 中文摘要 + +本文从数学原理、机制分类、实际应用问题和解决方案四个维度,对LLM注意力机制进行全面综述。核心覆盖:[[multi-head-attention|MHA]] → [[multi-query-attention|MQA]] → [[grouped-query-attention|GQA]] → [[multi-head-latent-attention|MLA]] 的发展脉络;[[attention-entropy-collapse|注意力熵崩溃]]、[[lost-in-the-middle|Lost in the Middle]]和注意力漂移导致的幻觉三大核心挑战;[[flash-attention|FlashAttention]]、[[kv-cache-bottleneck|KV缓存压缩]]、[[sparse-attention-patterns|稀疏注意力]]、[[linear-attention-methods|线性注意力]]等前沿优化方案。 + +## 核心问题 + +LLM注意力机制面临三个结构性瓶颈: +1. **计算**: O(n²) 的二次复杂度随序列长度爆炸 +2. **内存**: KV缓存的线性增长限制批处理和上下文长度 +3. **质量**: 注意力退化、长上下文信息丢失、注意力漂移导致幻觉 + +## 方法论贡献 + +1. **统一数学框架** — 将各种注意力变体纳入核平滑(Kernel Smoothing)的统一形式 +2. **变体演化谱系** — 系统梳理 MHA → MQA → GQA → MLA 的演进逻辑 +3. **问题诊断体系** — 建立"二次复杂度-缓存瓶颈-熵崩溃-Lost in Middle-注意力漂移"五维问题框架 +4. **方案分类矩阵** — 覆盖硬件优化([[flash-attention]])、压缩([[kv-cache-bottleneck|KV量化]])、稀疏化、架构替代四大路径 + +## 关键发现 + +1. **MLA标志性突破**: [[multi-head-latent-attention|MLA]]通过低秩压缩将KV缓存缩减至原来的数十分之一,是DeepSeek-V2/V3高效推理的关键 +2. **硬件协同设计**是最大杠杆:[[flash-attention|FlashAttention]]通过IO感知实现数量级加速,远优于纯算法优化 +3. **注意力退化**是一个被低估的问题:熵崩溃在深层中逐渐积累,导致注意力分布退化 +4. **替代架构崛起**: [[mamba-ssm|Mamba]]等状态空间模型证明线性复杂度序列建模的可行性 + +## 相关概念 + +- [[multi-head-attention]] — 标准多头注意力 (MHA) +- [[multi-query-attention]] — 多查询注意力 (MQA) +- [[grouped-query-attention]] — 分组查询注意力 (GQA) +- [[multi-head-latent-attention]] — 多潜在头注意力 (MLA) +- [[flash-attention]] — IO感知注意力优化 +- [[attention-entropy-collapse]] — 注意力熵崩溃 +- [[kv-cache-bottleneck]] — KV缓存瓶颈 +- [[lost-in-the-middle]] — 长上下文信息丢失 +- [[sparse-attention-patterns]] — 稀疏注意力 +- [[linear-attention-methods]] — 线性注意力 +- [[rotary-position-embedding]] — 旋转位置编码 +- [[attention-sinks]] — 注意力汇 + +## 外部链接 + +- [[deepseek-v4-million-token-context]] — DeepSeek-V4(MLA + CSA + HCA 的实际应用) +- [[subquadratic-transformer-alternatives]] — 次二次复杂度替代架构综述 +- [[hybrid-attention-architecture]] — DeepSeek-V4的CSA/HCA混合注意力 diff --git a/raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md b/raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md new file mode 100644 index 0000000..5a801ec --- /dev/null +++ b/raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md @@ -0,0 +1,77 @@ +# Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具 + +**来源**: 知乎专栏 +**作者**: 沈飞 +**链接**: https://zhuanlan.zhihu.com/p/717965307 +**获取日期**: 2024年(文章发布时间) +**文章类型**: 技术介绍 / 工具推荐 + +## 文章摘要 + +Crawl4AI 是一个专为大型语言模型(LLM)和 AI 应用设计的开源网页爬虫与数据提取工具。它能够自动将网页内容转换为结构化的 Markdown 格式,简化 RAG(检索增强生成)和模型微调所需的数据获取流程。 + +## 核心特性 + +### 1. 智能内容提取 +- **自动转换**: 将网页内容自动转换为结构化 Markdown 格式 +- **多种提取方式**: 支持 JSON CSS 提取、JSON XPath 提取、LLM 提取 +- **数据获取简化**: 专门为 RAG 和微调场景优化数据获取流程 + +### 2. 技术架构 +- **协议支持**: 支持 HTTP(S) 协议 +- **合规性**: 遵守 robots.txt 规则 +- **开源协议**: Apache 2.0 许可证 + +### 3. 配置灵活性 +- **自定义 User-Agent**: 支持自定义请求头标识 +- **代理设置**: 支持通过代理服务器访问 +- **会话管理**: 支持会话状态管理 + +### 4. 缓存机制 +- **多种缓存模式**: + - ENABLED(默认): 启用缓存 + - DISABLED: 禁用缓存 + - READ_ONLY: 只读模式 + - WRITE_ONLY: 只写模式 + - BYPASS: 绕过缓存 +- **缓存管理命令**: + - `aclear_cache()`: 清除缓存 + - `aflush_cache()`: 刷新缓存 + +## 应用场景 + +### 1. RAG 数据准备 +- 自动抓取和格式化网页内容用于知识库构建 +- 支持大规模数据采集和预处理 + +### 2. 模型微调 +- 获取高质量训练数据 +- 支持特定领域内容抓取 + +### 3. AI 应用开发 +- 为 AI 代理提供实时数据获取能力 +- 支持自动化信息检索流程 + +## 技术亮点 + +1. **LLM 友好**: 专为大型语言模型应用设计,输出格式直接可用 +2. **易于集成**: 简单的 API 设计,便于嵌入现有工作流 +3. **开源生态**: Apache 2.0 许可证,支持社区贡献和二次开发 +4. **灵活配置**: 丰富的配置选项适应不同场景需求 + +## 评价与意义 + +Crawl4AI 代表了 AI 时代数据获取工具的发展方向: +- **从通用到专用**: 专为 AI/LLM 工作流优化 +- **从原始到结构化**: 自动转换为 AI 可用的格式 +- **从复杂到简单**: 降低数据获取的技术门槛 + +## 相关资源 + +- **知乎原文**: https://zhuanlan.zhihu.com/p/717965307 +- **项目信息**: Crawl4AI 开源项目 +- **许可证**: Apache 2.0 + +--- +*创建时间: 2026-04-22* +*Wiki 集成: 已完成* diff --git a/raw/papers/deepseek-ai-deepseek-v4-2026.md b/raw/papers/deepseek-ai-deepseek-v4-2026.md new file mode 100644 index 0000000..b5303aa --- /dev/null +++ b/raw/papers/deepseek-ai-deepseek-v4-2026.md @@ -0,0 +1,62 @@ +# DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence + +> **Source**: Hugging Face (technical report) +> **Authors**: DeepSeek-AI +> **Date**: 2026 +> **Link**: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf +> **Models**: DeepSeek-V4-Pro (1.6T/49B activated), DeepSeek-V4-Flash (284B/13B activated) + +## Abstract + +We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context length of one million tokens. + +## Key Upgrades over DeepSeek-V3 + +1. **Hybrid attention architecture**: Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA) for long-context efficiency +2. **Manifold-Constrained Hyper-Connections (mHC)**: Upgrades conventional residual connections for stability and expressivity +3. **Muon optimizer**: Faster convergence and greater training stability + +## Architecture Summary + +- Retains DeepSeekMoE framework (fine-grained + shared experts) and Multi-Token Prediction (MTP) +- Hybrid CSA/HCA: CSA compresses KV cache along sequence dimension then applies sparse attention; HCA applies aggressive compression with dense attention +- mHC constrains residual mapping to doubly stochastic matrices (Birkhoff polytope) via Sinkhorn-Knopp algorithm +- Muon with hybrid Newton-Schulz orthogonalization for most modules; AdamW for embeddings, heads, biases, RMSNorm + +## Infrastructure Highlights + +- Fine-grained communication-computation overlap in Expert Parallelism (1.5-1.73x speedup) +- MegaMoE2 mega-kernel (open-sourced) +- TileLang DSL with Z3 SMT solver integration +- Batch-invariant and deterministic kernel libraries +- FP4 quantization-aware training for MoE experts +- Inference: heterogeneous KV cache with on-disk storage + +## Pre-Training + +- DeepSeek-V4-Flash: 32T tokens; DeepSeek-V4-Pro: 33T tokens +- Both natively support 1M-length contexts after pre-training + +## Post-Training Pipeline + +Two-stage paradigm: +1. **Specialist Training**: Independent expert models trained per domain (math, coding, agent, instruction following) via SFT + RL (GRPO) +2. **On-Policy Distillation (OPD)**: Multi-teacher reverse-KL distillation merging expert capabilities into unified model + +## Key Evaluation Results + +- **Knowledge (SimpleQA, MMLU-Pro, HLE, GPQA)**: Significantly outperforms open-source models; closing gap with Gemini-3.1-Pro +- **Reasoning**: Superior to GPT-5.2, Gemini-3.0-Pro; trails GPT-5.4/Gemini-3.1-Pro by ~3-6 months +- **Agent**: On par with Kimi-K2.6, GLM-5.1; outperforms Claude Sonnet 4.5 in internal eval +- **Long-Context**: Surpasses Gemini-3.1-Pro on academic benchmarks at 1M tokens +- **Chinese Writing**: 62.7% win rate vs Gemini-3.1-Pro + +## Efficiency (1M-token context vs DeepSeek-V3.2) + +- DeepSeek-V4-Pro: 27% FLOPs, 10% KV cache +- DeepSeek-V4-Flash: 10% FLOPs, 7% KV cache + +--- + +*Format: Raw paper archive. See [[deepseek-v4-million-token-context]] for the wiki page.* +*Last Updated: 2026-04-27* diff --git a/raw/papers/godel-tutorial-2026.md b/raw/papers/godel-tutorial-2026.md new file mode 100644 index 0000000..465625d --- /dev/null +++ b/raw/papers/godel-tutorial-2026.md @@ -0,0 +1,46 @@ +# 哥德尔不完备定理教程 — 原始存档 + +- **标题**: 哥德尔不完备定理教程:从哥德尔编号到人工智能的边界探索 +- **类型**: 综合教程/教学资料(面向数学系本科生) +- **年份**: 2026年4月 +- **语言**: 中文 +- **页数**: 43页(含附录) +- **来源**: PDF 直接提交 +- **文件**: godel_tutorial.pdf + +## 摘要 + +哥德尔不完备定理是 20 世纪数学与逻辑学中最深刻的成果之一。1931 年,年仅 25 岁的奥地利逻辑学家库尔特·哥德尔在其论文中证明了两条影响深远的定理: + +- **第一不完备定理**:任何包含皮亚诺算术的一致形式系统,必然存在在该系统中既不能被证明也不能被否证的真命题。 +- **第二不完备定理**:任何包含皮亚诺算术的一致形式系统,不能在该系统内部证明自身的一致性。 + +本教程面向数学系本科生,从希尔伯特计划的历史背景出发,系统地介绍哥德尔不完备定理的形成、核心内容、证明技术,及其对数学基础、计算机科学和哲学的深远影响。 + +## 章节结构 + +1. **历史背景**:希尔伯特计划与数学危机(集合论悖论、三大学派、哥德尔生平) +2. **哥德尔第一不完备定理**:形式系统、哥德尔编码、可表示性、原始递归函数、证明思路 +3. **哥德尔第二不完备定理**:一致性命题的形式化、证明概要 +4. **证明技术详解**:哥德尔编号、对角线替换函数 Sub、自指命题 G 的构造 +5. **对数学基础的影响**:希尔伯特计划终结、连续统假设独立性、形式主义衰落与多元主义 +6. **对计算机科学的影响**:可计算性理论、停机问题、形式验证、自动定理证明 +7. **哲学影响与人类思维**:数学真理本质、卢卡斯-彭罗斯论证、知识界限、哥德尔宇宙 +8. **应用与误用**:物理学讨论、AI 讨论、常见误解澄清 +9. **现代发展**:巴黎-哈灵顿定理、古德斯坦定理、蔡廷的算法信息论 + +## 关键概念 + +[[godel-incompleteness-theorems]] · [[godel-numbering]] · [[hilberts-program]] · [[peano-arithmetic]] · [[self-reference]] · [[diagonalization-method]] · [[halting-problem]] · [[lucas-penrose-argument]] · [[chaitin-algorithmic-information-theory]] · [[metamathematics]] + +## 参考文献精选 + +- Gödel, K. (1931). Über formal unentscheidbare Sätze... +- Nagel & Newman (1958). Gödel's Proof +- Hofstadter, D. R. (1979). Gödel, Escher, Bach +- Smullyan, R. M. (1992). Gödel's Incompleteness Theorems +- Franzén, T. (2005). Gödel's Theorem: An Incomplete Guide to Its Use and Abuse +- Paris & Harrington (1977). A Mathematical Incompleteness in Peano Arithmetic +- Chaitin, G. J. (1974). Information-Theoretic Limitations of Formal Systems +- Lucas, J. R. (1961). Minds, Machines and Gödel +- Penrose, R. (1989). The Emperor's New Mind diff --git a/raw/papers/llm-attention-survey-2026.md b/raw/papers/llm-attention-survey-2026.md new file mode 100644 index 0000000..623ffe2 --- /dev/null +++ b/raw/papers/llm-attention-survey-2026.md @@ -0,0 +1,38 @@ +# 大语言模型注意力机制全面分析 + +- **类型**: 综述论文 (Review Paper) +- **日期**: 2026年4月 +- **来源**: 直接上传 PDF +- **文件名**: LLM注意力机制全面分析 +- **标签**: #attention-mechanism #LLM #transformer #survey + +## 摘要 + +注意力机制是Transformer架构的核心组件,也是大语言模型(LLM)取得突破性进展的关键因素。本文从数学原理、机制分类、实际应用问题及解决方案等多个维度,对LLM中的注意力机制进行全面系统的综述分析。首先,从缩放点积注意力的数学基础出发,详细推导了自注意力、多头注意力及其各种变体的数学表达。其次,系统梳理了从标准多头注意力(MHA)到多查询注意力(MQA)、分组查询注意力(GQA)、多潜在头注意力(MLA)以及各类稀疏注意力和线性注意力架构的发展脉络。然后,深入分析了当前注意力机制面临的核心挑战,包括二次计算复杂度、KV缓存内存瓶颈、注意力熵崩溃、长上下文"Lost in the Middle"现象以及注意力漂移导致的幻觉问题。最后,全面介绍了FlashAttention系列、KV缓存压缩与量化、稀疏注意力优化、架构创新及训练策略优化等前沿解决方案。 + +## 关键概念 + +- [[multi-head-attention]] (MHA) — 标准多头注意力机制 +- [[multi-query-attention]] (MQA) — 共享KV头的注意力变体 +- [[grouped-query-attention]] (GQA) — MHA与MQA之间的折中方案 +- [[multi-head-latent-attention]] (MLA) — 低秩压缩KV缓存 +- [[flash-attention]] — IO感知的注意力优化 +- [[attention-entropy-collapse]] — 注意力退化与熵崩溃 +- [[kv-cache-bottleneck]] — KV缓存内存瓶颈 +- [[lost-in-the-middle]] — 长上下文中的信息丢失现象 +- [[sparse-attention-patterns]] — 稀疏注意力模式 +- [[linear-attention-methods]] — 线性注意力与替代架构 +- [[rotary-position-embedding]] — 旋转位置编码 +- [[attention-sinks]] — 注意力汇技术 + +## 结构 + +1. 注意力机制的数学原理 +2. 主要变体(MHA/MQA/GQA/MLA/稀疏/线性) +3. 挑战与问题(复杂度/缓存/熵崩溃/Lost in Middle/幻觉) +4. 优化策略(FlashAttention/KV压缩/稀疏优化/架构创新/训练策略) +5. 未来展望与结论 + +## 参考文献 + +共43篇,涵盖Vaswani 2017 (Attention is All You Need)、Shazeer 2019 (MQA)、Ainslie 2023 (GQA)、DeepSeek 2024 (MLA/V2)、Dao 2022 (FlashAttention)、Gu & Dao 2024 (Mamba) 等核心工作。 diff --git a/reviews/godel-tutorial-review-20260428.md b/reviews/godel-tutorial-review-20260428.md new file mode 100644 index 0000000..40e90f3 --- /dev/null +++ b/reviews/godel-tutorial-review-20260428.md @@ -0,0 +1,68 @@ +# 哥德尔不完备定理教程 — Review 报告 + +📌 **基本信息** +- 标题:哥德尔不完备定理教程:从哥德尔编号到人工智能的边界探索 +- 类型:综合教学资料(面向数学系本科生) +- 年份:2026年4月 | 添加时间:2026-04-28 +- 来源:PDF 直接提交(godel_tutorial.pdf) +- 页数:43页(9章 + 2附录) +- Wiki 页面:[[godel-incompleteness-tutorial|论文主页]] · [[raw/papers/godel-tutorial-2026|原始存档]] + +--- + +🎯 **核心概念(Tier 1 & 2)** + +**Tier 1 — 核心支柱** +1. **[[godel-incompleteness-theorems|哥德尔不完备定理]]** — 两条定理:任何足够强的一致形式系统必然不完备(第一定理),且不能自证一致性(第二定理)。直接终结希尔伯特计划。 +2. **[[godel-numbering|哥德尔编码]]** — 将形式系统的符号、公式和证明唯一映射为自然数,实现「算术化元数学」,是全部证明的技术基石。 + +**Tier 2 — 关键支撑** +3. **[[self-reference|自指]]** — 公式断言自身不可证的核心构造机制,哥德尔句子 G = ¬Prov(GN(G)) 的技术实现 +4. **[[diagonalization-method|对角线方法]]** — 从康托尔到图灵的统一证明技术谱系:实数不可数 → 罗素悖论 → 哥德尔定理 → 停机问题 +5. **[[hilberts-program|希尔伯特计划]]** — 20 世纪初希尔伯特的数学基础统一方案,被哥德尔定理致命打击但催生了证明论与模型论 +6. **[[halting-problem|停机问题]]** — 哥德尔定理在计算理论中的直接对应物,使用同样的对角线技巧 +7. **[[chaitin-algorithmic-information-theory|算法信息论]]** — 蔡廷的信息论视角:形式系统的证明能力受限于信息压缩极限 +8. **[[lucas-penrose-argument|卢卡斯-彭罗斯论证]]** — 哥德尔定理最著名的哲学应用(也是最富争议的误用) + +--- + +🔗 **概念网络** + +核心三角:`[[godel-incompleteness-theorems]] ↔ [[godel-numbering]] ↔ [[self-reference]]` + +技术谱系:`[[diagonalization-method]] → [[self-reference]] → [[halting-problem]]` + +历史链条:`[[russells-paradox]] → [[hilberts-program]] → [[godel-incompleteness-theorems]] → [[mathematical-pluralism]]` + +现代演进:`[[paris-harrington-theorem]] → [[goodsteins-theorem]] → [[chaitin-algorithmic-information-theory]] → [[chaitin-constant]]` + +跨学科辐射:数学基础 ↔ 计算机科学([[computability-theory]], [[formal-verification]], [[automated-theorem-proving]])↔ 哲学([[lucas-penrose-argument]])↔ AI 边界讨论 + +连接了 23 个核心概念,所有链接 100% 有效无断链。 + +--- + +📚 **Wiki 集成** + +| 指标 | 数值 | +|------|------| +| 新增页面 | 25(1 论文 + 1 原始存档 + 23 概念) | +| 完整概念页 | 6(Tier 1 & 关键 Tier 2) | +| 占位符概念 | 17(Tier 3 & 辅助 Tier 2) | +| 链接密度 | 核心概念平均 5-8 个双向链接 | +| 断链率 | 0%(所有新页面零断链) | +| 总规模 | 71 → 96 页 | + +--- + +💡 **关键洞察** + +1. **「真 ≠ 可证」是最深刻的认识论断裂**。哥德尔定理揭示的形式系统内在不完备性,不仅终结了希尔伯特的形式主义乌托邦,更从根本上区分了「数学真理」和「形式可证性」——这一洞见的冲击波至今仍在数学哲学、AI 理论(AGI 的可能性边界)和物理学(万有理论的可完备性)中回荡。 + +2. **对角线方法的统一谱系揭示了自指作为数学「硬限制」的普遍性**。从康托尔到哥德尔再到图灵,同一个对角线技巧不断现身——任何足够丰富的系统,一旦允许内部元素「谈论」自身,就必然产生超越系统表达能力的结果。这不是偶然,而是自指的内在属性。理解这一谱系,就把握了 20 世纪数学和计算理论最深层的结构性洞见。 + +3. **教程的 AI 相关讨论值得特别关注**。教程明确区分了哥德尔定理对 AI 的合法启示(边界意识、自我验证限制、形式系统的信息瓶颈)与常见误用(「AI 不能实现」是过度简化)。这与 sz 的知识库中长期关注的 [[hyperagents]]、[[clawless]] 等自我改进/安全验证主题形成了有趣的呼应——自我修改代理的内部一致性验证问题,本质上是哥德尔定理在行动空间中的现代回响。 + +--- + +*报告生成:2026-04-28 | 小赫 (hermes)* diff --git a/reviews/llm-attention-survey-review-20260429.md b/reviews/llm-attention-survey-review-20260429.md new file mode 100644 index 0000000..3c2ada5 --- /dev/null +++ b/reviews/llm-attention-survey-review-20260429.md @@ -0,0 +1,50 @@ +# Review: 大语言模型注意力机制全面分析 + +- **Review 日期**: 2026-04-29 +- **来源**: 用户直接上传 PDF + +--- + +📌 **基本信息** +- 标题:大语言模型注意力机制全面分析 +- 类型:综述论文 / Review Paper (2026年4月) +- 领域:LLM / 注意力机制 / Transformer 架构 +- 添加时间:2026-04-29 + +🎯 **核心概念** + +1. **MHA → MQA → GQA → MLA 演化谱系** — 从标准多头到低秩压缩的 KV 缓存优化路径。MLA 是最激进的突破:通过潜在空间压缩将 KV 缓存减少 10-20 倍。 +2. **FlashAttention** — 注意力计算效率的最大单次突破:IO感知而非纯算法优化,证明硬件协同设计是最强杠杆。 +3. **注意力熵崩溃** — 深层注意力退化的被低估问题:熵随层深递减,注意力失去区分度。 +4. **Lost in the Middle** — U形注意力分布导致中间 Token 被系统性忽略。 +5. **KV 缓存瓶颈** — 自回归推理的核心内存瓶颈,驱动了从 MQA 到 MLA 的所有结构创新。 + +🔗 **概念网络** + +- **核心连接**:[[multi-head-attention|MHA]] ↔ [[grouped-query-attention|GQA]] ↔ [[multi-head-latent-attention|MLA]] ↔ [[kv-cache-bottleneck|KV缓存]] +- **优化路径**:[[flash-attention]] → [[flash-attention-3]](IO优化线); [[sparse-attention-patterns]] → [[seer-attention]] → [[native-sparse-attention|NSA]](稀疏化线) +- **问题诊断**:[[attention-entropy-collapse|熵崩溃]] → [[lost-in-the-middle]] → [[attention-sinks|注意力汇]] +- **替代架构**:[[linear-attention-methods|线性注意力]] → [[mamba-ssm|Mamba]](非Transformer线) +- **已有概念桥接**:衔接 [[compressed-sparse-attention|CSA]]、[[heavily-compressed-attention|HCA]]、[[hybrid-attention-architecture|混合架构]]、[[kvcache-transfer|KVCache传输]] +- **修复断链**:创建了 19 个新概念页面,全部链接验证通过 + +📚 **Wiki 集成** + +- 新增页面:**21 个**(1 论文 + 19 概念 + 1 原始存档) +- Tier 1 核心:6 个(MHA, GQA, MLA, FlashAttention, 熵崩溃, KV缓存瓶颈) +- Tier 2 基础:5 个(MQA, 稀疏注意力, 线性注意力, RoPE, Lost in Middle) +- Tier 3 占位:8 个(注意力汇, FA3, Mamba, MoAS, DuoAttention, SeerAttn, NTK, NSA) +- 链接密度:核心概念平均 5+ 个跨页链接 +- 网络完整:✅ 100% 无断链 +- 总规模:**96 → 116 页** (+20.8%) + +💡 **关键洞察** + +1. **从工程到信息论的范式转换**:注意力优化经历了三代演进—— + - Gen 1: 头共享(MQA/GQA)— 工程直觉驱动的结构简化 + - Gen 2: 低秩压缩(MLA)— 信息论原理指导的压缩 + - Gen 3: 硬件协同(FlashAttention)— 从芯片层面重定义计算 + +2. **注意力退化是被低估的隐性成本**:当前社区主要关注 KV 缓存的「显性成本」,但熵崩溃和 Lost in the Middle 等「质量退化」随着上下文增长会变得更加致命。这指向一个趋势:未来注意力设计需要同时优化计算/内存/质量三个维度,而非单一维度。 + +3. **这篇综述填补了 wiki 的一个关键空白**:此前 wiki 有 DeepSeek-V4 的 CSA/HCA/MLA 具体实现,但缺少注意力机制的全景脉络。现在形成了「综述全景 → 具体实现」的纵向知识结构。