20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/log.md
+++ b/log.md
@@ -5,6 +5,31 @@
 > 操作类型：ingest, update, query, lint, create, archive, delete
 > 当此文件超过 500 条记录时，轮换：重命名为 log-YYYY.md，重新开始。

+## [2026-04-27] ingest | DeepSeek-V4 技术报告 (HuggingFace)
+- 来源：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
+- 作者：DeepSeek-AI
+- PDF：4.4MB，提取 4906 行文本
+- 新增文件 (14 个)：
+  - `raw/papers/deepseek-ai-deepseek-v4-2026.md` — 原始论文存档
+  - `papers/deepseek-v4-million-token-context.md` — 论文主页面
+  - Tier 1 核心概念 (5 个)：
+    - `concepts/compressed-sparse-attention.md` — CSA 压缩稀疏注意力
+    - `concepts/heavily-compressed-attention.md` — HCA 高强度压缩注意力
+    - `concepts/manifold-constrained-hyper-connections.md` — mHC 流形约束超连接
+    - `concepts/muon-optimizer.md` — Muon 优化器
+    - `concepts/on-policy-distillation.md` — OPD 在线策略蒸馏
+  - Tier 2 基础概念 (4 个)：
+    - `concepts/hybrid-attention-architecture.md` — 混合注意力架构
+    - `concepts/mixture-of-experts.md` — MoE 混合专家
+    - `concepts/fp4-quantization-training.md` — FP4 量化感知训练
+    - `concepts/specialist-training-pipeline.md` — 专家训练流水线
+  - Tier 3 占位符概念 (3 个)：
+    - `concepts/multi-token-prediction.md` — MTP 多 Token 预测
+    - `concepts/test-time-scaling.md` — 测试时扩展
+    - `concepts/million-token-context.md` — 百万 Token 上下文
+- 关键概念：CSA/HCA 混合注意力、mHC 双随机矩阵约束、Muon 优化器、OPD 多教师蒸馏
+- 更新 index.md：总页面数 57 → 71
+
 ## [2026-04-20] merge | 合并 /home/ubuntu/wiki 到 /home/ubuntu/wikiplace
 - 来源：旧 wiki 路径（默认回退路径 ~/wiki）
 - 操作：将 wiki 独有的文件合并到 wikiplace
@@ -168,3 +193,83 @@
  - concepts/worst-case-threat-model.md — 最坏情况威胁模型概念
 - 更新 index.md：总页面数 46 → 53
 - 关键概念：ClawLess、AI代理安全、形式化安全模型、用户空间内核、BPF系统调用拦截、安全容器、最坏情况威胁模型
+
+## [2026-04-22] ingest | Crawl4AI: 开源智能网页爬虫与数据提取工具
+- 来源：知乎专栃 https://zhuanlan.zhihu.com/p/717965307
+- 作者：沈飞
+- 保存至：raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md
+- 创建页面：
+  - articles/crawl4ai-open-source-web-crawler.md — Crawl4AI 文章主页面
+  - concepts/crawl4ai.md — Crawl4AI 工具概念页面
+  - concepts/rag-systems.md — RAG 系统概念页面
+  - concepts/llm-applications.md — LLM 应用概念页面
+- 更新 index.md：总页面数 53 → 57
+- 关键概念：Crawl4AI、网页爬虫、数据提取、RAG、LLM应用、Markdown转换
+
+---
+
+## 2026-04-28 | 哥德尔不完备定理教程
+
+- **来源**: PDF 直接提交 (godel_tutorial.pdf)，2026年4月综合教程
+- **作者**: 无明确单一作者（面向数学系本科生的教学资料）
+- **新增页面**: 25 个（1 论文 + 1 原始存档 + 23 概念）
+  - raw/papers/godel-tutorial-2026.md — 原始存档
+  - papers/godel-incompleteness-tutorial.md — 论文主页面
+  - concepts/godel-incompleteness-theorems.md — 哥德尔不完备定理
+  - concepts/godel-numbering.md — 哥德尔编码
+  - concepts/hilberts-program.md — 希尔伯特计划
+  - concepts/peano-arithmetic.md — 皮亚诺算术
+  - concepts/self-reference.md — 自指
+  - concepts/diagonalization-method.md — 对角线方法
+  - concepts/halting-problem.md — 停机问题
+  - concepts/lucas-penrose-argument.md — 卢卡斯-彭罗斯论证
+  - concepts/chaitin-algorithmic-information-theory.md — 算法信息论
+  - concepts/metamathematics.md — 元数学
+  - concepts/primitive-recursive-functions.md — 原始递归函数
+  - concepts/computability-theory.md — 可计算性理论
+  - concepts/formal-systems.md — 形式系统
+  - concepts/automated-theorem-proving.md — 自动定理证明
+  - concepts/paris-harrington-theorem.md — 巴黎-哈灵顿定理
+  - concepts/goodsteins-theorem.md — 古德斯坦定理
+  - concepts/russells-paradox.md — 罗素悖论
+  - concepts/continuum-hypothesis.md — 连续统假设
+  - concepts/consistency-logic.md — 一致性
+  - concepts/completeness-logic.md — 完备性
+  - concepts/mathematical-pluralism.md — 数学多元主义
+  - concepts/chaitin-constant.md — 蔡廷常数
+  - concepts/kolmogorov-complexity.md — 柯尔莫哥洛夫复杂度
+- 更新 index.md：总页面数 71 → 96
+- 关键概念：哥德尔不完备定理、哥德尔编码、自指、对角线方法、停机问题、希尔伯特计划、可计算性、形式系统
+## [2026-04-29] ingest | 大语言模型注意力机制全面分析 (综述论文)
+- 来源：用户直接上传 PDF (LLM注意力机制全面分析.pdf)
+- 类型：综述论文 / Review Paper，2026年4月
+- PDF：1385 行文本提取
+- 新增文件 (21 个)：
+  - `raw/papers/llm-attention-survey-2026.md` — 原始论文存档
+  - `papers/llm-attention-survey-2026.md` — 论文主页面
+  - Tier 1 核心概念 (6 个)：
+    - `concepts/multi-head-attention.md` — MHA 标准多头注意力
+    - `concepts/grouped-query-attention.md` — GQA 分组查询注意力
+    - `concepts/multi-head-latent-attention.md` — MLA 多潜在头注意力
+    - `concepts/flash-attention.md` — FlashAttention IO感知优化
+    - `concepts/attention-entropy-collapse.md` — 注意力熵崩溃
+    - `concepts/kv-cache-bottleneck.md` — KV缓存内存瓶颈
+  - Tier 2 基础概念 (5 个)：
+    - `concepts/multi-query-attention.md` — MQA 多查询注意力
+    - `concepts/sparse-attention-patterns.md` — 稀疏注意力模式
+    - `concepts/linear-attention-methods.md` — 线性注意力方法
+    - `concepts/rotary-position-embedding.md` — RoPE 旋转位置编码
+    - `concepts/lost-in-the-middle.md` — Lost in the Middle 现象
+  - Tier 3 占位概念 (8 个)：
+    - `concepts/attention-sinks.md` — 注意力汇
+    - `concepts/flash-attention-3.md` — FlashAttention-3
+    - `concepts/mamba-ssm.md` — Mamba 状态空间模型
+    - `concepts/mixture-of-attention-schemes.md` — MoAS 注意力方案混合
+    - `concepts/duo-attention.md` — DuoAttention 双模式注意力
+    - `concepts/seer-attention.md` — SeerAttention 可学习稀疏
+    - `concepts/ntk-aware-interpolation.md` — NTK-aware 位置插值
+    - `concepts/native-sparse-attention.md` — NSA 原生稀疏注意力
+- 更新 index.md：总页面数 96 → 116
+- 关键概念：注意力机制演化谱系 (MHA→MQA→GQA→MLA)、FlashAttention、注意力退化、KV缓存瓶颈、Lost in the Middle
+- 网络连接：与已有概念 CSA、HCA、混合注意力架构、DeepSeek-V4 等形成密集交叉引用
+