20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/reviews/godel-tutorial-review-20260428.md
+++ b/reviews/godel-tutorial-review-20260428.md
@@ -0,0 +1,68 @@
+# 哥德尔不完备定理教程 — Review 报告
+
+📌 **基本信息**
+- 标题：哥德尔不完备定理教程：从哥德尔编号到人工智能的边界探索
+- 类型：综合教学资料（面向数学系本科生）
+- 年份：2026年4月 | 添加时间：2026-04-28
+- 来源：PDF 直接提交（godel_tutorial.pdf）
+- 页数：43页（9章 + 2附录）
+- Wiki 页面：[[godel-incompleteness-tutorial|论文主页]] · [[raw/papers/godel-tutorial-2026|原始存档]]
+
+---
+
+🎯 **核心概念（Tier 1 & 2）**
+
+**Tier 1 — 核心支柱**
+1. **[[godel-incompleteness-theorems|哥德尔不完备定理]]** — 两条定理：任何足够强的一致形式系统必然不完备（第一定理），且不能自证一致性（第二定理）。直接终结希尔伯特计划。
+2. **[[godel-numbering|哥德尔编码]]** — 将形式系统的符号、公式和证明唯一映射为自然数，实现「算术化元数学」，是全部证明的技术基石。
+
+**Tier 2 — 关键支撑**
+3. **[[self-reference|自指]]** — 公式断言自身不可证的核心构造机制，哥德尔句子 G = ¬Prov(GN(G)) 的技术实现
+4. **[[diagonalization-method|对角线方法]]** — 从康托尔到图灵的统一证明技术谱系：实数不可数 → 罗素悖论 → 哥德尔定理 → 停机问题
+5. **[[hilberts-program|希尔伯特计划]]** — 20 世纪初希尔伯特的数学基础统一方案，被哥德尔定理致命打击但催生了证明论与模型论
+6. **[[halting-problem|停机问题]]** — 哥德尔定理在计算理论中的直接对应物，使用同样的对角线技巧
+7. **[[chaitin-algorithmic-information-theory|算法信息论]]** — 蔡廷的信息论视角：形式系统的证明能力受限于信息压缩极限
+8. **[[lucas-penrose-argument|卢卡斯-彭罗斯论证]]** — 哥德尔定理最著名的哲学应用（也是最富争议的误用）
+
+---
+
+🔗 **概念网络**
+
+核心三角：`[[godel-incompleteness-theorems]] ↔ [[godel-numbering]] ↔ [[self-reference]]`
+
+技术谱系：`[[diagonalization-method]] → [[self-reference]] → [[halting-problem]]`
+
+历史链条：`[[russells-paradox]] → [[hilberts-program]] → [[godel-incompleteness-theorems]] → [[mathematical-pluralism]]`
+
+现代演进：`[[paris-harrington-theorem]] → [[goodsteins-theorem]] → [[chaitin-algorithmic-information-theory]] → [[chaitin-constant]]`
+
+跨学科辐射：数学基础 ↔ 计算机科学（[[computability-theory]], [[formal-verification]], [[automated-theorem-proving]]）↔ 哲学（[[lucas-penrose-argument]]）↔ AI 边界讨论
+
+连接了 23 个核心概念，所有链接 100% 有效无断链。
+
+---
+
+📚 **Wiki 集成**
+
+| 指标 | 数值 |
+|------|------|
+| 新增页面 | 25（1 论文 + 1 原始存档 + 23 概念） |
+| 完整概念页 | 6（Tier 1 & 关键 Tier 2） |
+| 占位符概念 | 17（Tier 3 & 辅助 Tier 2） |
+| 链接密度 | 核心概念平均 5-8 个双向链接 |
+| 断链率 | 0%（所有新页面零断链） |
+| 总规模 | 71 → 96 页 |
+
+---
+
+💡 **关键洞察**
+
+1. **「真 ≠ 可证」是最深刻的认识论断裂**。哥德尔定理揭示的形式系统内在不完备性，不仅终结了希尔伯特的形式主义乌托邦，更从根本上区分了「数学真理」和「形式可证性」——这一洞见的冲击波至今仍在数学哲学、AI 理论（AGI 的可能性边界）和物理学（万有理论的可完备性）中回荡。
+
+2. **对角线方法的统一谱系揭示了自指作为数学「硬限制」的普遍性**。从康托尔到哥德尔再到图灵，同一个对角线技巧不断现身——任何足够丰富的系统，一旦允许内部元素「谈论」自身，就必然产生超越系统表达能力的结果。这不是偶然，而是自指的内在属性。理解这一谱系，就把握了 20 世纪数学和计算理论最深层的结构性洞见。
+
+3. **教程的 AI 相关讨论值得特别关注**。教程明确区分了哥德尔定理对 AI 的合法启示（边界意识、自我验证限制、形式系统的信息瓶颈）与常见误用（「AI 不能实现」是过度简化）。这与 sz 的知识库中长期关注的 [[hyperagents]]、[[clawless]] 等自我改进/安全验证主题形成了有趣的呼应——自我修改代理的内部一致性验证问题，本质上是哥德尔定理在行动空间中的现代回响。
+
+---
+
+*报告生成：2026-04-28 | 小赫 (hermes)*
--- a/reviews/llm-attention-survey-review-20260429.md
+++ b/reviews/llm-attention-survey-review-20260429.md
@@ -0,0 +1,50 @@
+# Review: 大语言模型注意力机制全面分析
+
+- **Review 日期**: 2026-04-29
+- **来源**: 用户直接上传 PDF
+
+---
+
+📌 **基本信息**
+- 标题：大语言模型注意力机制全面分析
+- 类型：综述论文 / Review Paper (2026年4月)
+- 领域：LLM / 注意力机制 / Transformer 架构
+- 添加时间：2026-04-29
+
+🎯 **核心概念**
+
+1. **MHA → MQA → GQA → MLA 演化谱系** — 从标准多头到低秩压缩的 KV 缓存优化路径。MLA 是最激进的突破：通过潜在空间压缩将 KV 缓存减少 10-20 倍。
+2. **FlashAttention** — 注意力计算效率的最大单次突破：IO感知而非纯算法优化，证明硬件协同设计是最强杠杆。
+3. **注意力熵崩溃** — 深层注意力退化的被低估问题：熵随层深递减，注意力失去区分度。
+4. **Lost in the Middle** — U形注意力分布导致中间 Token 被系统性忽略。
+5. **KV 缓存瓶颈** — 自回归推理的核心内存瓶颈，驱动了从 MQA 到 MLA 的所有结构创新。
+
+🔗 **概念网络**
+
+- **核心连接**：[[multi-head-attention|MHA]] ↔ [[grouped-query-attention|GQA]] ↔ [[multi-head-latent-attention|MLA]] ↔ [[kv-cache-bottleneck|KV缓存]]
+- **优化路径**：[[flash-attention]] → [[flash-attention-3]]（IO优化线）; [[sparse-attention-patterns]] → [[seer-attention]] → [[native-sparse-attention|NSA]]（稀疏化线）
+- **问题诊断**：[[attention-entropy-collapse|熵崩溃]] → [[lost-in-the-middle]] → [[attention-sinks|注意力汇]]
+- **替代架构**：[[linear-attention-methods|线性注意力]] → [[mamba-ssm|Mamba]]（非Transformer线）
+- **已有概念桥接**：衔接 [[compressed-sparse-attention|CSA]]、[[heavily-compressed-attention|HCA]]、[[hybrid-attention-architecture|混合架构]]、[[kvcache-transfer|KVCache传输]]
+- **修复断链**：创建了 19 个新概念页面，全部链接验证通过
+
+📚 **Wiki 集成**
+
+- 新增页面：**21 个**（1 论文 + 19 概念 + 1 原始存档）
+- Tier 1 核心：6 个（MHA, GQA, MLA, FlashAttention, 熵崩溃, KV缓存瓶颈）
+- Tier 2 基础：5 个（MQA, 稀疏注意力, 线性注意力, RoPE, Lost in Middle）
+- Tier 3 占位：8 个（注意力汇, FA3, Mamba, MoAS, DuoAttention, SeerAttn, NTK, NSA）
+- 链接密度：核心概念平均 5+ 个跨页链接
+- 网络完整：✅ 100% 无断链
+- 总规模：**96 → 116 页** (+20.8%)
+
+💡 **关键洞察**
+
+1. **从工程到信息论的范式转换**：注意力优化经历了三代演进——
+   - Gen 1: 头共享（MQA/GQA）— 工程直觉驱动的结构简化
+   - Gen 2: 低秩压缩（MLA）— 信息论原理指导的压缩
+   - Gen 3: 硬件协同（FlashAttention）— 从芯片层面重定义计算
+   
+2. **注意力退化是被低估的隐性成本**：当前社区主要关注 KV 缓存的「显性成本」，但熵崩溃和 Lost in the Middle 等「质量退化」随着上下文增长会变得更加致命。这指向一个趋势：未来注意力设计需要同时优化计算/内存/质量三个维度，而非单一维度。
+
+3. **这篇综述填补了 wiki 的一个关键空白**：此前 wiki 有 DeepSeek-V4 的 CSA/HCA/MLA 具体实现，但缺少注意力机制的全景脉络。现在形成了「综述全景 → 具体实现」的纵向知识结构。