20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/index.md
+++ b/index.md
@@ -2,7 +2,7 @@

 > 内容目录。每个 wiki 页面按类型列出，附单行摘要。
 > 首先阅读此文件以查找任何查询的相关页面。
-> 最后更新：2026-04-22 | 总页面数：53
+> 最后更新：2026-04-29 | 总页面数：116

 ## Entities（实体）
 <!-- 按字母顺序排列 -->
@@ -13,49 +13,107 @@
 ## Concepts（概念）
 - [[ai-agent-security]] — AI 代理安全：保护自主AI代理及其运行环境免受恶意攻击、滥用和意外危害的安全实践和技术
 - [[ai-alignment]] — AI 对齐：确保 AI 系统与人类价值观一致的研究领域
- [[ai-safety]] — AI 安全：确保 AI 系统安全可靠的研究领域
 - [[ai-mathematics]] - AI 与数学的交叉研究，以数学为 "沙盒"探索 AI 能力
+- [[ai-safety]] — AI 安全：确保 AI 系统安全可靠的研究领域
 - [[agent-mediated-deception]] — 代理中介欺骗 (AMD) 攻击模式与防御
+- [[attention-entropy-collapse]] — 注意力熵崩溃：深层 Transformer 中注意力分布退化现象
+- [[attention-sinks]] — 注意力汇：利用初始Token的注意力吸引特性稳定长序列推理与优化KV缓存淘汰
+- [[automated-theorem-proving]] — 自动定理证明：开发能够自动发现数学证明的计算机程序，AI 与数理逻辑的交叉领域
 - [[bpf-syscall-interception]] — BPF系统调用拦截：使用BPF技术拦截、监控和控制系统调用的方法，用于安全策略执行和行为监控
+- [[chaitin-algorithmic-information-theory]] — 算法信息论：蔡廷将哥德尔不完备性与信息论结合的研究领域（K(x)、Ω）
+- [[chaitin-constant]] — 蔡廷常数 Ω：通用图灵机的停机概率，不可计算且包含最大信息量
 - [[clawless]] — ClawLess：针对自主AI代理的安全框架，在最坏情况威胁模型下对AI代理强制执行形式化验证的安全策略
 - [[cognitive-architecture]] — 认知架构：人类或AI系统认知过程的理论框架和计算实现，支持感知、学习、记忆、推理等功能
+- [[completeness-logic]] — 完备性（逻辑学）：形式系统能否证明所有真命题的性质
+- [[computability-theory]] — 可计算性理论：研究「什么是可计算的」及其边界的学科
 - [[computerized-adaptive-testing]] — 计算机化自适应测试综述：ML 方法如何优化测量模型、选题策略、题库构建和测试控制
+- [[compressed-sparse-attention]] — CSA：压缩稀疏注意力，先压缩 KV 再在压缩后表示上执行稀疏注意力
+- [[consistency-logic]] — 一致性（逻辑学）：形式系统不能同时证明 φ 和 ¬φ 的性质
+- [[continuum-hypothesis]] — 连续统假设 CH：不存在基数严格介于自然数和实数之间的集合
 - [[cramer-rao-lower-bound]] — 参数估计的理论方差下界，由 Fisher 信息量的倒数给出，是 MLE 和 CAT 的数学基础
+- [[crawl4ai]] — Crawl4AI：为 LLM 和 AI 应用设计的开源网页爬虫与数据提取工具，支持智能内容转换为 Markdown 格式
 - [[curvine-distributed-cache]] — Curvine 云原生分布式缓存系统
 - [[darwin-godel-machine]] — 达尔文·哥德尔机：通过生成和评估自我修改变体实现编码领域自我改进的框架
 - [[depth-scaling-signal-degradation]] — LLM 深度扩展与信号退化问题
+- [[diagonalization-method]] — 对角线方法：通过自我参照构造揭示系统内在限制的证明技术（康托尔→罗素→哥德尔→图灵）
+- [[duo-attention]] — DuoAttention：区分检索头和流式头的双模式注意力，按需分配全注意力或局部缓存
 - [[eml-operator]] - EML (Exp-Minus-Log) 算子，连续数学中的 Sheffer 算子
 - [[evolutionary-algorithms]] — 进化算法：基于自然选择和遗传原理的优化算法家族
 - [[few-shot-learning]] — 少样本学习：从少量示例中学习新概念的机器学习方法
+- [[flash-attention]] — FlashAttention：IO感知的精确注意力优化，通过Tiling和Recomputation实现数量级加速
+- [[flash-attention-3]] — FlashAttention-3：异步计算和FP8低精度的最新版本
 - [[formal-security-model]] — 形式化安全模型：使用数学方法精确描述和验证安全属性的方法论
+- [[formal-systems]] — 形式系统：由字母表、语法规则、公理和推理规则组成的数学系统
 - [[formal-verification]] - 使用形式化方法验证数学证明正确性
+- [[fp4-quantization-training]] — FP4 量化感知训练：在 MoE 专家权重和注意力路径中应用 4 位浮点量化以降低内存和计算开销
 - [[genetic-programming]] — 遗传编程：通过模拟自然选择自动生成计算机程序的进化计算技术
+- [[godel-incompleteness-theorems]] — 哥德尔不完备定理：任何足够强的一致形式系统必然不完备且不能自证一致性
+- [[godel-numbering]] — 哥德尔编码：将形式系统的符号、公式和证明唯一映射为自然数的技术
+- [[goodsteins-theorem]] — 古德斯坦定理：所有古德斯坦序列最终到达 0，但在 PA 中不可证
 - [[gravitino-unified-metadata]] — Gravitino 统一元数据管理方案
+- [[grouped-query-attention]] — GQA：分组查询注意力，MHA与MQA的折中方案，Llama 3系列采用
+- [[halting-problem]] — 停机问题：判定程序是否终止的不可判定问题，哥德尔定理在计算理论中的对应物
+- [[heavily-compressed-attention]] — HCA：高强度压缩注意力，对 KV 激进压缩但保持密集注意力以最大化全局上下文效率
+- [[hilberts-program]] — 希尔伯特计划：20 世纪初提出的数学基础统一方案，被哥德尔定理终结
 - [[human-agent-trust]] — 人机信任建立与脆弱性研究
 - [[human-centered-ai]] - 以增强人类能力为核心目标的 AI 发展哲学
+- [[hybrid-attention-architecture]] — 混合注意力架构：组合 CSA 和 HCA 的分层注意力方案，在计算效率和上下文覆盖间取得最优平衡
 - [[hyperagents]] — 超智能体：自指代理，集成任务解决和自我修改，支持元认知自我修改
 - [[knowledge-bank]] — AI 辅助开发时代的知识管理系统，3D 分类 (scope + source + type) 与自动捕获生命周期
+- [[kolmogorov-complexity]] — 柯尔莫哥洛夫复杂度 K(x)：输出字符串 x 的最短程序长度
+- [[kv-cache-bottleneck]] — KV缓存瓶颈：自回归推理中的核心内存瓶颈，驱动MQA/GQA/MLA等结构优化
 - [[kvcache-transfer]] — KVCache 传输与优化技术
+- [[linear-attention-methods]] — 线性注意力：通过核分解将注意力复杂度从O(n²)降至O(n)的方法族
+- [[llm-applications]] — LLM 应用：基于大型语言模型的各类实际应用系统，包括文本生成、对话系统、RAG 和代理系统
+- [[lost-in-the-middle]] — Lost in the Middle：LLM长上下文中中间位置信息被系统性忽略的U形注意力分布现象
+- [[lucas-penrose-argument]] — 卢卡斯-彭罗斯论证：基于哥德尔定理论证人类心智超越机器的哲学论证
+- [[mamba-ssm]] — Mamba：选择性状态空间模型，线性复杂度的Transformer替代架构
+- [[manifold-constrained-hyper-connections]] — mHC：流形约束超连接，将残差映射约束到 Birkhoff 多面体确保深层训练的数值稳定性
+- [[mathematical-pluralism]] — 数学多元主义：接受不存在唯一数学真理的哲学立场
 - [[memory-caching-rnn]] — 通过缓存 RNN 隐藏状态检查点扩展有效记忆容量的技术
- [[metacognitive-self-modification]] — 元认知自我修改：AI 系统改进其自身改进机制的能力，实现递归改进
 - [[meta-learning]] — 元学习：学习如何学习的机器学习方法，支持快速适应新任务
+- [[metacognitive-self-modification]] — 元认知自我修改：AI 系统改进其自身改进机制的能力，实现递归改进
+- [[metamathematics]] — 元数学：使用数学方法研究形式系统性质的学科
+- [[million-token-context]] — 百万 Token 上下文：LLM 高效处理 1M token 序列的能力，DeepSeek-V4 的核心突破之一
+- [[mixture-of-attention-schemes]] — MoAS：注意力方案混合路由，根据Token复杂度动态分配MHA/MQA/GQA
 - [[mixture-of-depths-attention]] — MoDA 跨层注意力机制
+- [[mixture-of-experts]] — MoE 混合专家：通过稀疏激活路由实现参数规模扩展而控制计算开销的架构范式
+- [[multi-head-attention]] — MHA：标准多头注意力，h个并行头学习不同子空间后拼接融合
+- [[multi-head-latent-attention]] — MLA：多潜在头注意力，通过低秩压缩将KV缓存缩减至MHA的1/10~1/20
+- [[multi-query-attention]] — MQA：多查询注意力，所有Q头共享单个KV头以实现极低KV缓存
+- [[multi-token-prediction]] — MTP 多 Token 预测：训练时同时预测多个后续 token 的策略
+- [[muon-optimizer]] — Muon 优化器：基于矩阵正交化的优化器，比 AdamW 收敛更快、训练更稳定
+- [[native-sparse-attention]] — NSA：硬件对齐的原生可训练稀疏注意力，DeepSeek 2025提出
 - [[neuroscience]] — 神经科学：研究神经系统结构和功能的科学
+- [[ntk-aware-interpolation]] — NTK-aware插值：通过NTK理论调整RoPE旋转频率实现上下文窗口外推
+- [[on-policy-distillation]] — OPD 在线策略蒸馏：多教师模型通过反向 KL 散度在学生轨迹上融合领域专家知识的技术
+- [[paris-harrington-theorem]] — 巴黎-哈灵顿定理：首个自然数学命题中发现的 PA 不可判定性
+- [[peano-arithmetic]] — 皮亚诺算术 PA：哥德尔定理中使用的一阶算术公理系统
 - [[prefill-as-a-service]] — PrfaaS 跨数据中心 LLM 服务架构
 - [[prefill-decode-disaggregation]] — Prefill-Decode 分离架构演进
+- [[primitive-recursive-functions]] — 原始递归函数：通过复合和原始递归构造的函数类
 - [[program-synthesis]] — 程序合成：从高级规范自动生成满足这些规范的程序的过程
+- [[rag-systems]] — RAG 系统：检索增强生成架构，将信息检索与生成式 AI 结合以提高输出质量和准确性
 - [[recursive-self-improvement]] — 递归自我改进：AI系统改进其自身改进能力，可能导致能力爆炸的理论概念
+- [[rotary-position-embedding]] — RoPE：旋转位置编码，通过旋转变换将相对位置信息编码到注意力计算中
+- [[russells-paradox]] — 罗素悖论：不包含自身的集合组成的集合导致矛盾，触发第三次数学危机
 - [[secure-containers]] — 安全容器：提供增强安全特性的容器技术，保护主机系统免受容器内应用程序的攻击
+- [[seer-attention]] — SeerAttention：可学习稀疏注意力，训练预测网络预估注意力热点区域
 - [[self-improving-ai]] — 自我改进人工智能：能够通过学习改进自身学习过程、问题解决能力或认知架构的 AI 系统
+- [[self-reference]] — 自指：命题或系统指向自身的能力，哥德尔句子的核心构造机制
 - [[singularity]] — 技术奇点：假设的未来时间点，技术进步变得如此迅速和深刻，以至于人类无法预测或理解其后的世界
+- [[sparse-attention-patterns]] — 稀疏注意力：限制每个Token只关注序列子集，复杂度从O(n²)降至O(n·k)
+- [[specialist-training-pipeline]] — 专家训练流水线：DeepSeek-V4 后训练第一阶段，针对每个领域独立训练专家模型
 - [[spurious-predictability]] — 金融机器学习中的虚假可预测性：自适应搜索产生的统计伪影
 - [[subquadratic-transformer-alternatives]] — Transformer 的次二次复杂度替代架构综述
 - [[symbolic-regression]] — 从数据中发现数学表达式的机器学习技术
+- [[test-time-scaling]] — 测试时扩展：通过增加推理计算资源提升模型性能的范式，DeepSeek-V4 的高效长上下文使其更加可行
 - [[transfer-learning]] — 迁移学习：将从一个任务学到的知识应用到另一个相关任务的机器学习方法
 - [[userspace-kernel]] — 用户空间内核：在用户空间提供内核功能，增强系统安全的技术
 - [[worst-case-threat-model]] — 最坏情况威胁模型：假设系统将面临最坏可能攻击场景的安全设计方法论

 ## Articles（文章）
+- [[crawl4ai-open-source-web-crawler]] — Crawl4AI：赋能AI用户的开源智能网页爬虫与数据提取工具（知乎专栏）
 - [[oppo-multimodal-data-lake]] — OPPO 多模态数据湖架构实践 (Gravitino + Curvine)

 ## Comparisons（对比）
@@ -63,7 +121,10 @@
 ## Papers（论文）
 - [[behrouz-memory-caching-rnn]] — Memory Caching 技术：通过缓存 RNN 隐藏状态实现可增长记忆 (arXiv:2602.24281, 2026)
 - [[clawless-ai-agent-security]] — ClawLess: AI 代理安全模型，形式化验证与运行时执行框架 (arXiv:2604.06284, 2026)
+- [[deepseek-v4-million-token-context]] — DeepSeek-V4：高效百万Token上下文智能，CSA+HCA混合注意力、mHC、Muon优化器 (HuggingFace, 2026)
+- [[godel-incompleteness-tutorial]] — 哥德尔不完备定理教程：从哥德尔编号到 AI 边界探索的综合教学资料 (2026)
 - [[li-amd-human-perception]] — 人类对 LLM Agent 欺骗的感知脆弱性实证研究 (arXiv:2602.21127, 2026)
+- [[llm-attention-survey-2026]] — 大语言模型注意力机制全面分析综述：MHA→GQA→MLA演化、熵崩溃、FlashAttention优化 (2026年4月)
 - [[Mathematical methods and human thought in the age of AI]] - 陶哲轩与 Klowden 关于 AI 哲学的深度论文 (arXiv:2603.26524, 2026)
 - [[nikolopoulos-spurious-predictability]] — 金融机器学习中的虚假可预测性：证伪审计框架 (arXiv:2604.15531, 2026)
 - [[odrzywolek-eml-single-operator]] - EML 算子：单一二元算子生成所有初等函数 (arXiv:2603.21852, 2026)