20260429:一些新东西

This commit is contained in:
2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions

105
log.md
View File

@@ -5,6 +5,31 @@
> 操作类型ingest, update, query, lint, create, archive, delete
> 当此文件超过 500 条记录时,轮换:重命名为 log-YYYY.md重新开始。
## [2026-04-27] ingest | DeepSeek-V4 技术报告 (HuggingFace)
- 来源https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
- 作者DeepSeek-AI
- PDF4.4MB,提取 4906 行文本
- 新增文件 (14 个)
- `raw/papers/deepseek-ai-deepseek-v4-2026.md` — 原始论文存档
- `papers/deepseek-v4-million-token-context.md` — 论文主页面
- Tier 1 核心概念 (5 个)
- `concepts/compressed-sparse-attention.md` — CSA 压缩稀疏注意力
- `concepts/heavily-compressed-attention.md` — HCA 高强度压缩注意力
- `concepts/manifold-constrained-hyper-connections.md` — mHC 流形约束超连接
- `concepts/muon-optimizer.md` — Muon 优化器
- `concepts/on-policy-distillation.md` — OPD 在线策略蒸馏
- Tier 2 基础概念 (4 个)
- `concepts/hybrid-attention-architecture.md` — 混合注意力架构
- `concepts/mixture-of-experts.md` — MoE 混合专家
- `concepts/fp4-quantization-training.md` — FP4 量化感知训练
- `concepts/specialist-training-pipeline.md` — 专家训练流水线
- Tier 3 占位符概念 (3 个)
- `concepts/multi-token-prediction.md` — MTP 多 Token 预测
- `concepts/test-time-scaling.md` — 测试时扩展
- `concepts/million-token-context.md` — 百万 Token 上下文
- 关键概念CSA/HCA 混合注意力、mHC 双随机矩阵约束、Muon 优化器、OPD 多教师蒸馏
- 更新 index.md总页面数 57 → 71
## [2026-04-20] merge | 合并 /home/ubuntu/wiki 到 /home/ubuntu/wikiplace
- 来源:旧 wiki 路径(默认回退路径 ~/wiki
- 操作:将 wiki 独有的文件合并到 wikiplace
@@ -168,3 +193,83 @@
- concepts/worst-case-threat-model.md — 最坏情况威胁模型概念
- 更新 index.md总页面数 46 → 53
- 关键概念ClawLess、AI代理安全、形式化安全模型、用户空间内核、BPF系统调用拦截、安全容器、最坏情况威胁模型
## [2026-04-22] ingest | Crawl4AI: 开源智能网页爬虫与数据提取工具
- 来源:知乎专栃 https://zhuanlan.zhihu.com/p/717965307
- 作者:沈飞
- 保存至raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md
- 创建页面:
- articles/crawl4ai-open-source-web-crawler.md — Crawl4AI 文章主页面
- concepts/crawl4ai.md — Crawl4AI 工具概念页面
- concepts/rag-systems.md — RAG 系统概念页面
- concepts/llm-applications.md — LLM 应用概念页面
- 更新 index.md总页面数 53 → 57
- 关键概念Crawl4AI、网页爬虫、数据提取、RAG、LLM应用、Markdown转换
---
## 2026-04-28 | 哥德尔不完备定理教程
- **来源**: PDF 直接提交 (godel_tutorial.pdf)2026年4月综合教程
- **作者**: 无明确单一作者(面向数学系本科生的教学资料)
- **新增页面**: 25 个1 论文 + 1 原始存档 + 23 概念)
- raw/papers/godel-tutorial-2026.md — 原始存档
- papers/godel-incompleteness-tutorial.md — 论文主页面
- concepts/godel-incompleteness-theorems.md — 哥德尔不完备定理
- concepts/godel-numbering.md — 哥德尔编码
- concepts/hilberts-program.md — 希尔伯特计划
- concepts/peano-arithmetic.md — 皮亚诺算术
- concepts/self-reference.md — 自指
- concepts/diagonalization-method.md — 对角线方法
- concepts/halting-problem.md — 停机问题
- concepts/lucas-penrose-argument.md — 卢卡斯-彭罗斯论证
- concepts/chaitin-algorithmic-information-theory.md — 算法信息论
- concepts/metamathematics.md — 元数学
- concepts/primitive-recursive-functions.md — 原始递归函数
- concepts/computability-theory.md — 可计算性理论
- concepts/formal-systems.md — 形式系统
- concepts/automated-theorem-proving.md — 自动定理证明
- concepts/paris-harrington-theorem.md — 巴黎-哈灵顿定理
- concepts/goodsteins-theorem.md — 古德斯坦定理
- concepts/russells-paradox.md — 罗素悖论
- concepts/continuum-hypothesis.md — 连续统假设
- concepts/consistency-logic.md — 一致性
- concepts/completeness-logic.md — 完备性
- concepts/mathematical-pluralism.md — 数学多元主义
- concepts/chaitin-constant.md — 蔡廷常数
- concepts/kolmogorov-complexity.md — 柯尔莫哥洛夫复杂度
- 更新 index.md总页面数 71 → 96
- 关键概念:哥德尔不完备定理、哥德尔编码、自指、对角线方法、停机问题、希尔伯特计划、可计算性、形式系统
## [2026-04-29] ingest | 大语言模型注意力机制全面分析 (综述论文)
- 来源:用户直接上传 PDF (LLM注意力机制全面分析.pdf)
- 类型:综述论文 / Review Paper2026年4月
- PDF1385 行文本提取
- 新增文件 (21 个)
- `raw/papers/llm-attention-survey-2026.md` — 原始论文存档
- `papers/llm-attention-survey-2026.md` — 论文主页面
- Tier 1 核心概念 (6 个)
- `concepts/multi-head-attention.md` — MHA 标准多头注意力
- `concepts/grouped-query-attention.md` — GQA 分组查询注意力
- `concepts/multi-head-latent-attention.md` — MLA 多潜在头注意力
- `concepts/flash-attention.md` — FlashAttention IO感知优化
- `concepts/attention-entropy-collapse.md` — 注意力熵崩溃
- `concepts/kv-cache-bottleneck.md` — KV缓存内存瓶颈
- Tier 2 基础概念 (5 个)
- `concepts/multi-query-attention.md` — MQA 多查询注意力
- `concepts/sparse-attention-patterns.md` — 稀疏注意力模式
- `concepts/linear-attention-methods.md` — 线性注意力方法
- `concepts/rotary-position-embedding.md` — RoPE 旋转位置编码
- `concepts/lost-in-the-middle.md` — Lost in the Middle 现象
- Tier 3 占位概念 (8 个)
- `concepts/attention-sinks.md` — 注意力汇
- `concepts/flash-attention-3.md` — FlashAttention-3
- `concepts/mamba-ssm.md` — Mamba 状态空间模型
- `concepts/mixture-of-attention-schemes.md` — MoAS 注意力方案混合
- `concepts/duo-attention.md` — DuoAttention 双模式注意力
- `concepts/seer-attention.md` — SeerAttention 可学习稀疏
- `concepts/ntk-aware-interpolation.md` — NTK-aware 位置插值
- `concepts/native-sparse-attention.md` — NSA 原生稀疏注意力
- 更新 index.md总页面数 96 → 116
- 关键概念:注意力机制演化谱系 (MHA→MQA→GQA→MLA)、FlashAttention、注意力退化、KV缓存瓶颈、Lost in the Middle
- 网络连接:与已有概念 CSA、HCA、混合注意力架构、DeepSeek-V4 等形成密集交叉引用