20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/ace-router-review-20260619.md
+++ b/reviews/ace-router-review-20260619.md
@@ -0,0 +1,40 @@
+---
+title: "ACE-Router Review"
+created: 2026-06-19
+type: review
+---
+
+# 📌 基本信息
+
+- **论文**：ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web
+- **作者**：Zhiyuan Yao 等 (ZJU/SJTU/SYSU/NTU/HDU/Huawei)
+- **arXiv**：2601.08276 (v2, 2026-04-19)
+- **领域**：cs.AI
+- **添加时间**：2026-06-19
+
+# 🎯 核心概念
+
+1. **[[ace-router|ACE-Router]]** — 训练专用路由器的三阶段框架
+2. **[[history-aware-routing|历史感知路由]]** — 显式使用多轮历史而非静态查询匹配
+3. **[[candidate-graph|候选图]]** — 语义相似图 + 自进化变异扩展候选空间（627→2005）
+4. **[[self-evolutionary-mutation|自进化变异]]** — 五种变异算子生成功能相似工具
+5. **[[trajectory-synthesis|轨迹合成]]** — 四角色多 Agent 模拟生成 15K 训练样本
+6. **[[light-routing-agent|轻量路由 Agent]]** — 两个工具的可插拔路由模块
+7. **[[agent-web|Agent Web]]** — 开放协作 Agent 网络的未来愿景
+
+# 🔗 概念网络
+
+- **三阶段串联**：候选图→轨迹合成→轻量路由 Agent
+- **MCP 工具选择三篇的完成**：MCP-Zero（主动请求）→ Dynamic ReAct（meta-tools）→ ACE-Router（训练路由器）
+- **关键桥接**：Agent Web 概念连接了 MCP 协议、Agent Skills、Agent Harness 的讨论
+
+# 📚 Wiki 集成
+
+- **新增页面**：9 个（1 论文 + 1 raw + 7 概念）
+- **Wiki 总规模**：1049 → 1058 页
+
+# 💡 关键洞察
+
+1. **8B 专用 > 巨型通用**：ACE-Router (Qwen3-8B, 53.4%) > GPT-4o (47.4%) > Gemini-2.5-Pro (49.8%)。证明了一个重要原则：**工具选择的瓶颈不是推理能力，而是训练数据的覆盖度和结构化**。这对 Agent Harness 设计的启示是——"操作维度"的精确路由应该交给专门的轻量模型，而非依赖通用 LLM。
+
+2. **三篇 MCP 论文的互补完成**：MCP-Zero（范式）→ Dynamic ReAct（工程）→ ACE-Router（训练）构成了工具选择的完整谱系。三篇共同指向一个方向：**被动工具注入已死，主动/智能/训练的工具选择是 Agent 规模化的必经之路。**
--- a/reviews/agent-skills-survey-review-20260619.md
+++ b/reviews/agent-skills-survey-review-20260619.md
@@ -0,0 +1,48 @@
+---
+title: "Agent Skills Survey Review"
+created: 2026-06-19
+type: review
+---
+
+# 📌 基本信息
+
+- **论文**：A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications
+- **作者**：Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin (CUHK-Shenzhen)
+- **arXiv**：2605.07358 (v3, 2026-05-26)
+- **领域**：cs.IR / Agent Systems
+- **添加时间**：2026-06-19
+
+# 🎯 核心概念
+
+1. **[[agent-skill|Agent Skill]]** — 形式化定义 S = (M, R, C)：主指令 + 辅助资源 + 适用条件。可复用的过程性构件，编码"怎么做"的显式知识
+2. **[[procedural-gap|过程性鸿沟]]** — 工具访问能力与鲁棒任务执行之间的核心瓶颈：拥有工具 ≠ 知道何时/如何/怎样编排和验证
+3. **[[skill-lifecycle|Skill 生命周期]]** — 四阶段框架：Representation → Acquisition → Retrieval → Evolution，各阶段紧密耦合
+4. **[[skill-representation|Skill 表示]]** — 三种形态：文本型、代码型、混合型，决定检索和选择阶段暴露的信号
+5. **[[skill-acquisition|Skill 获取]]** — 四种路径：人工、经验（最活跃）、任务、语料，互补而非竞争
+6. **[[skill-retrieval|Skill 检索]]** — 稠密嵌入/稀疏关键词/生成式/结构感知（层级+依赖图），关键洞察：skill 检索 ≠ 文档检索
+7. **[[skill-selection|Skill 选择]]** — 上下文感知/组合/成本效用/反馈驱动，本质是策略问题而非排序问题
+8. **[[skill-evolution|Skill 演化]]** — 五阶段：修订→验证→策略耦合→仓库演化→运行时治理
+9. **[[skill-composition|Skill 组合]]** — 多 skill 编排为序列/工作流，引入接口兼容性和错误传播等新挑战
+10. **[[agent-skill-ecosystem|Agent Skill 生态]]** — SkillNet(300k+) / ClawHub(40k+) / SkillHub(80k+) / SkillsMP(700k+) / Skills.sh(90k+)
+11. **[[passive-vs-active-knowledge|被动 vs 主动知识]]** — agent 知识二分法，skill 定位在主动知识的操作层
+12. **[[runtime-governance|运行时治理]]** — 检索→路由→信任检查→执行→退役的闭环，弥合演化与实际行为之间的最后一段
+
+# 🔗 概念网络
+
+- **核心连接**：Agent Skill ↔ 过程性鸿沟 ↔ Skill 生命周期（所有概念沿生命周期展开）
+- **层级结构**：生命周期 → 表示/获取/检索/选择/演化 → 各子维度
+- **跨领域桥接**：与 Hermes skill 体系、MCP、工具学习、agent 架构形成紧密关联
+- **新增概念**：12 个全新概念——此前 wiki 中无任何 agent skill 领域概念
+- **网络完整**：所有 wikilink 目标可解析
+
+# 📚 Wiki 集成
+
+- **新增页面**：14 个（1 论文 + 1 raw + 12 概念）
+- **链接密度**：核心概念间双向链接密集，生命周期四阶段形成完整覆盖
+- **与 Hermes 关联**：论文的 S = (M, R, C) 形式化与 Hermes 的 SKILL.md + references/templates/scripts 结构高度对应
+
+# 💡 关键洞察
+
+1. **Skill 是 Agent 的肌肉记忆**：论文将 skill 定位为 agent 系统的操作层——agent 决定"做什么"，skill 执行"怎么做"。这个分层思想与 Hermes 的 skill 机制设计理念完全一致。
+
+2. **演化 ≠ 积累**：论文最深刻的洞察是区分了 acquisition 和 evolution——acquisition 解释"如何获得新技能"，evolution 关注"如何让已有技能持续变好"。当前领域在安全退役和重写方面远弱于添加——这对 Hermes 的 skill 治理方向有直接启示。
--- a/reviews/arbor-htr-20260624.md
+++ b/reviews/arbor-htr-20260624.md
@@ -0,0 +1,39 @@
+---
+title: "Review: Arbor — Autonomous Research via Hypothesis-Tree Refinement"
+created: 2026-06-24
+updated: 2026-06-24
+type: review
+paper: "[[arbor-htr-2026]]"
+---
+
+# 📌 基本信息
+- **论文标题**：Toward Generalist Autonomous Research via Hypothesis-Tree Refinement
+- **作者**：Jin†‡, Hu†, Qiu, Dai, Luo, Dong, Li, Zhao, Ma, Zhang, Wu, Liu, Yang, Li, Wang, Qian, Zhu, Dou*（人大/Microsoft Research）
+- **领域**：cs.CL / cs.AI（自主科研 Agent、树搜索、知识管理）
+- **arXiv ID**：2606.11926v1 | 添加时间：2026-06-24
+- **代码**：https://github.com/RUC-NLPIR/Arbor
+
+# 🎯 核心概念
+
+1. **Hypothesis Tree Refinement (HTR)** — Observe→Ideate→Select→Dispatch→Backpropagate 五步循环，将自主科研从局部尝试序列转化为累积过程
+2. **Coordinator-Executor Architecture** — 持久 Coordinator 管理全局树、短生命周期 Executor 在隔离 worktree 中测试假设
+3. **Autonomous Optimization (AO)** — P=(M0, O, Edev, Etest) 形式化，dev 探索、test held-out 准入
+4. **Insight Backpropagation** — 叶子洞察沿祖先路径向上抽象，从局部实验结果到全局 compact understanding
+
+# 🔗 概念网络
+
+**核心连接**：
+- HTR ↔ Coordinator-Executor（方法 ↔ 架构实现）
+- Research Hypothesis Tree ↔ Insight Backpropagation（数据结构 ↔ 更新机制）
+- AO ↔ HTR（任务定义 ↔ 解决方案）
+- Coordinator-Executor 与 Agent Harness 设计哲学共振
+
+# 📚 Wiki 集成
+- 新增页面：7 个（1 论文 + 5 概念 + 1 Review）
+- 总规模：1202 → 1210 页
+
+# 💡 关键洞察
+
+1. **研究树的三种角色合一** — 搜索前沿 + 长期记忆 + 可审计记录。这解决了自主科研的核心瓶颈：不是模型不够聪明，而是缺少持久化的方向组织和经验传承机制。对 sz 的 Agent Harness 设计而言，这提供了一个具体的参考架构——Coordinator-Executor 分离+假设树作为持久状态。
+
+2. **洞察 ≠ 执行日志** — Insight 的抽象层次（"轴统计量不够"而非"loss=0.043"）是树保持紧凑且可复用的关键。这与 Atlas 记忆系统中的 episodic→semantic consolidation 异曲同工——都是在原始事件和可复用知识之间插入抽象层。两者对照：Arbor 用树结构组织 direction-level 洞察，Atlas 用索引分型组织 memory-level 事实。
--- a/reviews/dao-transformers-are-ssms-review-20260618.md
+++ b/reviews/dao-transformers-are-ssms-review-20260618.md
@@ -0,0 +1,59 @@
+---
+title: "Review: Transformers are SSMs (Mamba-2)"
+created: 2026-06-18
+updated: 2026-06-18
+type: review
+source: dao-transformers-are-ssms-2024
+---
+
+# 📌 基本信息
+
+- **论文标题**：Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
+- **作者**：Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
+- **领域**：cs.LG
+- **会议**：ICML 2024
+- **arXiv ID**：2405.21060
+- **添加时间**：2026-06-18
+
+# 🎯 核心概念
+
+1. **[[structured-state-space-duality|SSD 框架]]** — SSM ↔ Attention 的统一对偶框架，通过半可分矩阵连接
+2. **[[semiseparable-matrices|半可分矩阵]]** — 子二次参数和乘法的结构化矩阵，SSM 和 Attention 的数学桥梁
+3. **[[structured-masked-attention|结构化掩码注意力（SMA）]]** — 线性注意力的推广，数据依赖的位置掩码
+4. **[[mamba-2|Mamba-2]]** — 基于 SSD 的新架构，2-8x 快于 Mamba
+5. **[[ssd-algorithm|SSD 算法]]** — 块分解混合算法，利用 GPU Tensor Core 的同时保持线性复杂度
+6. **[[linear-attention|线性注意力]]** — "Transformers are RNNs" 的对偶起源
+7. **[[selective-state-space-models|选择性 SSM]]** — 输入依赖的时变参数，Mamba 的核心创新
+8. **[[head-structure-ssm|SSM 多头结构]]** — MIS/MVA/GVA，将 Transformer head 概念引入 SSM
+9. **[[tensor-contraction-duality|张量收缩对偶]]** — SSD 的数学基础视角之一
+
+# 🔗 概念网络
+
+这篇论文建立了 **SSM 和 Attention 之间的桥梁**，概念网络体现了三大支柱：
+
+```
+数学桥梁: semiseparable-matrices
+              ↓
+框架统一: structured-state-space-duality
+         ↙          ↓           ↘
+    SSM 侧        算法侧       Attention 侧
+selective-SSM   ssd-algorithm   structured-masked-attention
+mamba-ssm       tensor-contraction-duality   linear-attention
+mamba-2         head-structure-ssm
+```
+
+论文与此前集成的 **Mozer et al. (2026)** 形成深层互补：
+- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
+- Dao & Gu: 展示了 SSM（循环架构）与 Transformer（注意力架构）的数学统一 → 循环可以做得和注意力一样好且更快
+
+# 📚 Wiki 集成
+
+- **新增页面**：10 个（1 论文 + 9 概念）
+- **更新已有**：2 个（`mamba-ssm`, `state-space-models` — 添加 Mamba-2 反向链接）
+- **复用页面**：5 个（`state-space-models`, `mamba-ssm`, `step-recurrence`, `flash-attention`, `enhanced-state-space-models`）
+
+# 💡 关键洞察
+
+1. **理论优雅 → 工程实干**：SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core，这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
+
+2. **"XXX are YYY" 的递进**：Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"（线性注意力），RetNet/GateLoop 推广到更一般的 L 结构，而 Dao & Gu 证明 **Transformers are SSMs** 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。
--- a/reviews/dcgwm-2026-06-23.md
+++ b/reviews/dcgwm-2026-06-23.md
@@ -0,0 +1,76 @@
+---
+title: "Review: DCGWM — 结构防止目标干扰坍缩的双通道接地世界建模"
+created: 2026-06-23
+updated: 2026-06-23
+type: review
+tags: ["review", "world-modeling", "representation-learning", "jepa", "collapse-prevention"]
+paper: "hazare-dcgwm-2026"
+---
+
+# Review: DCGWM
+
+> Akshay Hazare, "Dual-Channel Grounded World Modeling (DCGWM): Structural Prevention of Objective Interference Collapse", arXiv:2606.18688, 2026
+
+---
+
+## 📌 基本信息
+
+- **论文**: DCGWM — Structural Prevention of Objective Interference Collapse
+- **作者**: Akshay Hazare (Independent Researcher)
+- **领域**: cs.LG / cs.AI — 世界建模 × 表示学习 × 梯度干涉
+- **arXiv**: 2606.18688v1
+- **类型**: Position paper (实验验证进行中)
+- **添加时间**: 2026-06-23
+
+---
+
+## 🎯 核心概念
+
+1. **Objective Interference Collapse (OIC)** — 新识别的第五种表示坍缩模态：当物理接地（稀疏高幅值梯度）和行为接地（弥散低幅值梯度）在共享潜在空间中联合学习时，主导通道坍缩从属通道的表示子空间。损失权重无法修复——冲突是几何的。
+
+2. **DCGWM 架构** — 分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流：物理通道仅更新 Z_p，行为通道仅更新 Z_b。四个架构不变量保证梯度隔离。
+
+3. **Inward-Only Gradient Flow** — 与梯度投影（混在一起再过滤）不同，内向流在梯度流拓扑层面定义允许路径——**根本不混**。
+
+4. **Asymmetric Grounding Adherence Loss (L_AGA)** — 首个针对异质接地源的 rollout drift 损失：物理用硬铰链（范畴错误），行为用软 KL（分布距离）。不对称性反映接地统计的结构性不兼容。
+
+5. **Isolation Necessity Theorem** — 在假设 A1-A2 下，任何 α > 0 生成梯度导致世界模型漂移 → 唯一解是架构隔离（α = 0）。
+
+---
+
+## 🔗 概念网络
+
+**核心连接**：
+```
+objective-interference-collapse ←→ dcgwm (问题→解决方案)
+dcgwm ←→ inward-only-gradient-flow (核心机制)
+dcgwm ←→ asymmetric-grounding-adherence-loss (漂移防止)
+dcgwm ←→ isolation-necessity-theorem (形式保证)
+dcgwm ←→ jepa (基础架构)
+rollout-drift ←→ L_AGA (问题→解决方案)
+```
+
+**扩展网络**：
+- 连接已有概念: `jepa`, `vicreg`, `world-models-rl`, `representation-collapse`, `rlhf-alignment-amplification`, `leworldmodel`, `sigreg`
+- 新建 8 个概念页: `objective-interference-collapse`, `dcgwm`, `inward-only-gradient-flow`, `asymmetric-grounding-adherence-loss`, `rollout-drift`, `isolation-necessity-theorem`
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 8 个（1 论文 + 6 概念 + 1 Review）
+- **论文页**: `papers/hazare-dcgwm-2026.md`
+- **概念页**: `objective-interference-collapse`, `dcgwm`, `inward-only-gradient-flow`, `asymmetric-grounding-adherence-loss`, `rollout-drift`, `isolation-necessity-theorem`
+- **复用已有概念**: `jepa`, `vicreg`, `world-models-rl`, `representation-collapse`
+
+---
+
+## 💡 关键洞察
+
+**1. "Structural over Scalar" — 架构级解决方案超越损失调权**
+
+这是 DCGWM 最深刻的哲学立场。当两个接地信号的梯度几何结构不兼容时，标量重加权（α·g_p + β·g_b）仅改变幅度比例，不改变冲突的几何结构。在任何固定 (α, β) 下，一个通道在其梯度集中的维度上仍占主导。正确解决方式是**结构性**的——通过分区参数空间使梯度不可交互。这呼应了 Domain Expansion 和 GradOPS 的发现（结构分区 > 损失加权），但将其从内部任务冲突推广到外部信号统计不兼容这一新问题。
+
+**2. 精确的局限陈述作为方法论美德**
+
+论文的局限部分是一种罕见的诚实：零实验验证、OIC 是猜想（非形式证明）、Isolation Necessity 依赖未证明假设 A2、接口收敛未证明、行为编码器保真度未验证——全部精确列出，不做最小化。这使论文成为诚实的"位置+架构"贡献，而非过度宣称的理论突破。但其核心结构洞察——分区 + 内向梯度流防止 OIC——即使猜想未经证明，架构设计本身是可实现和可验证的。
--- a/reviews/dynamic-react-review-20260619.md
+++ b/reviews/dynamic-react-review-20260619.md
@@ -0,0 +1,39 @@
+---
+title: "Dynamic ReAct Review"
+created: 2026-06-19
+type: review
+---
+
+# 📌 基本信息
+
+- **论文**：Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments
+- **作者**：Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj (agentr.dev)
+- **arXiv**：2509.20386 (v1, 2025-09-22)
+- **领域**：cs.SE, cs.AI, cs.IR
+- **添加时间**：2026-06-19
+
+# 🎯 核心概念
+
+1. **[[dynamic-react|Dynamic ReAct]]** — meta-tools + 语义搜索，让 ReAct Agent 在数千工具的 MCP 环境中按需加载
+2. **[[meta-tools|Meta Tools]]** — 管理工具的工具（search_tools, load_tools），将被动选择转化为主动管理
+3. **[[search-and-load|Search and Load]]** ★ — 五架构中的最优方案：两次额外调用，LLM 精选 < 5 个工具，加载量 -50%
+4. **[[context-enriched-embeddings|上下文增强嵌入]]** — Sonnet 4 生成增强描述，Top-5 40%→60%（+50% 相对提升）
+5. **[[default-tools|Default Tools]]** — create_table + web_search 始终可用，避免通用任务浪费搜索
+6. **[[tool-registry|工具注册表]]** — 全量工具仓库 + 向量索引，描述质量是检索精度的关键杠杆
+
+# 🔗 概念网络
+
+- **核心连接**：Dynamic ReAct ↔ Meta Tools ↔ Search and Load ↔ 向量检索优化
+- **跨论文桥接**：与 [[fei-mcp-zero-2025|MCP-Zero]] 直接互引——共同反对被动工具注入，路线互补
+- **操作维度贡献**：在 Agent Harness 的"操作维度"中，提供了 MCP 工具选择的基础设施方案
+
+# 📚 Wiki 集成
+
+- **新增页面**：8 个（1 论文 + 1 raw + 6 概念）
+- **Wiki 总规模**：1042 → 1050 页
+
+# 💡 关键洞察
+
+1. **工程务实性**：Dynamic ReAct 不追求理论优雅，而是通过五架构实验（每个都有真实查询案例和失败模式）找到工程最优。Search and Load 的设计决策——多查询合并、k1/k2 分层、LLM 精选——都来自实操教训而非理论推导。
+
+2. **描述 > 模型**：最有价值的发现是"换描述比换 embedding 模型更有效"——context enrichment 贡献 12pp，模型切换贡献 8pp。这对所有依赖语义检索的系统（包括 Skill 检索）都有推广价值。
--- a/reviews/engram-conditional-memory-20260625.md
+++ b/reviews/engram-conditional-memory-20260625.md
@@ -0,0 +1,42 @@
+---
+title: "Engram Review — 条件记忆作为 Transformer 的新稀疏轴"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: ["review", "conditional-memory", "sparsity", "scaling-law"]
+sources:
+  - "[[engram-conditional-memory-2026]]"
+---
+
+📌 基本信息
+- 论文：Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LLMs
+- 作者：Cheng et al. (PKU / DeepSeek-AI)
+- arXiv：2601.07372 | 2026-01-12
+- 领域：cs.CL, cs.AI (模型架构 / 稀疏性)
+- 代码：github.com/deepseek-ai/Engram
+
+🎯 核心概念
+
+1. [[conditional-memory|Conditional Memory]] — 与 MoE 的条件计算互补的新稀疏轴：通过稀疏查找而非稀疏激活来扩展模型容量
+2. [[engram|Engram 模块]] — 现代化 N-gram 嵌入：词表压缩 → 多头哈希 → 上下文感知门控 → 深度可分离卷积
+3. [[sparsity-allocation|Sparsity Allocation]] — U 形缩放律：纯 MoE 和纯 Engram 都不如混合，最优 ρ≈75-80%
+4. [[ngram-embedding|N-gram Embedding]] — 经典技术的现代化复兴：局部静态模式天然适合 O(1) 查找
+5. [[memory-compute-decoupling|Memory-Compute Decoupling]] — 确定性寻址使嵌入表可卸载到主机内存，开销 <3%
+
+🔗 概念网络
+
+- 核心连接：conditional-memory ↔ engram ↔ sparsity-allocation ↔ ngram-embedding ↔ memory-compute-decoupling
+- 桥接已有概念：[[mixture-of-experts]]（MoE 的条件计算轴）、[[long-context-understanding]]（注意力容量释放效果）
+- 扩展方向：与 [[lu-kv]]（KV Cache 淘汰）的潜在交叉——如果 N-gram 嵌入接管局部依赖，KV Cache 是否可以缩小？
+
+📚 Wiki 集成
+
+- 新增页面：6 个（1 论文 + 5 概念）
+- 链接密度：核心概念平均 4 个链接
+- 总规模：从 ~1145 页 + 6 = ~1151 页
+
+💡 关键洞察
+
+1. **最大的收益不在知识，在推理** — Engram 的 MMLU +3.4 符合直觉，但 BBH +5.0 和 HumanEval +3.0 揭示了一个更深刻的事实：记忆模块的真正价值不是"存更多事实"，而是释放计算深度。早期层不再被迫重建静态查找表，剩余层有效加深。
+
+2. **U 形律说明单一稀疏轴不够** — MoE 是当前主流，但 ρ=1（纯 MoE）被实验证明是次优的。条件记忆不是 MoE 的替代，是其结构必要性补全。这为下一代稀疏模型架构指明方向：两个稀疏轴都需要一等原语地位。
--- a/reviews/fisher-width-2026-06-23.md
+++ b/reviews/fisher-width-2026-06-23.md
@@ -0,0 +1,76 @@
+---
+title: "Review: Fisher Width — 统计流形上的几何复杂度"
+created: 2026-06-23
+updated: 2026-06-23
+type: review
+tags: ["review", "information-geometry", "complexity-measure", "generalization-theory"]
+paper: "vu-fisher-width-2026"
+---
+
+# Review: Fisher Width
+
+> Vu Khac Ky, "Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds", arXiv:2606.18306, 2026
+
+---
+
+## 📌 基本信息
+
+- **论文**: Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds
+- **作者**: Vu Khac Ky (FPT University, Vietnam)
+- **领域**: cs.LG / stat.ML — 信息几何 × 学习理论 × 高维概率
+- **arXiv**: 2606.18306v1
+- **添加时间**: 2026-06-23
+
+---
+
+## 🎯 核心概念
+
+1. **Fisher Width** — Gaussian width 在统计流形上的 Fisher-几何对应物，通过局部 Fisher 度量 G(θ)^{1/2} 重标度方向，使宽度对统计曲率敏感
+
+2. **Lifting Identity** — 中心结构定理：w_G(T;θ) = w(G(θ)^{1/2} T)，将 Fisher width 转化为 Fisher 重标度后集合的 Gaussian width
+
+3. **Fisher-Lipschitz** — 假设类的 Fisher-几何光滑性条件，用 Fisher 度量替代欧几里得距离定义 Lipschitz 连续性
+
+4. **Empirical Fisher** — 用样本分数构建经验 Fisher 矩阵，配合低秩近似使 Fisher width 在实践中可计算
+
+5. **Gaussian Width** — 欧几里得复杂度度量的经典基础，Fisher width 的参照对象和性质来源
+
+---
+
+## 🔗 概念网络
+
+**核心连接**：
+```
+fisher-width ←→ gaussian-width (通过 lifting-identity)
+fisher-width ←→ statistical-manifold (几何载体)
+fisher-width ←→ fisher-lipschitz (泛化界条件)
+fisher-width ←→ empirical-fisher (计算实现)
+fisher-width ←→ fisher-information-metric (度量来源)
+```
+
+**扩展网络**：
+- 连接了 4 个已有概念: `fisher-information-metric`, `information-geometry`, `generalization-bounds`, `natural-gradient-descent`
+- 连接了 `pac-bayesian-bounds` (间接)
+- 新建 6 个概念页: `fisher-width`, `gaussian-width`, `statistical-manifold`, `fisher-lipschitz`, `lifting-identity`, `empirical-fisher`
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 7 个（1 论文 + 6 概念 + 1 Review）
+- **论文页**: `papers/vu-fisher-width-2026.md`
+- **概念页**: `fisher-width`, `gaussian-width`, `statistical-manifold`, `fisher-lipschitz`, `lifting-identity`, `empirical-fisher`
+- **复用已有概念**: `fisher-information-metric`, `information-geometry`, `generalization-bounds`, `natural-gradient-descent`
+- **网络完整**: 建立双向交叉引用，覆盖信息几何→复杂度度量→泛化理论的完整链路
+
+---
+
+## 💡 关键洞察
+
+**1. "Fisher width 之于统计流形，正如 Gaussian width 之于欧几里得凸体"**
+
+这是论文最简洁的自我定位，也是对信息几何和高维概率两个领域的**精确桥接**。此前这两个领域各自发展——Amari 的信息几何研究散度、投影、曲率；Vershynin 的高维概率研究 Gaussian width、浓度、chaining。Fisher width 通过 Lifting Identity 这一精巧结构，让 Gaussian width 的全部理论武器可被"搬运"到统计流形上。
+
+**2. 从"平坦"到"弯曲"的复杂度度量范式转换**
+
+传统学习理论（Rademacher 复杂度、Gaussian width、VC 维）默认参数空间是欧几里得的。但现代模型——从指数族到神经网络——天然携带 Fisher 度量。Fisher width 让复杂度度量**从模型几何中获得信息**：同一假设类在不同参数位置有不同的有效宽度，统计上敏感的方向贡献更多。这打开了"几何感知的泛化理论"方向。
--- a/reviews/gan-bifurcation-eos-20260623.md
+++ b/reviews/gan-bifurcation-eos-20260623.md
@@ -0,0 +1,50 @@
+---
+title: "Review: Gan Bifurcation EoS"
+created: 2026-06-23
+type: review
+paper: gan-bifurcation-eos
+---
+
+# Review: A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability
+
+📌 **基本信息**
+- 论文：A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability
+- 作者：Eric Gan (Independent Researcher)
+- 领域：cs.LG
+- arXiv：2606.15551v1
+- 添加时间：2026-06-23
+
+🎯 **核心概念**
+
+1. **[[edge-of-stability|Edge of Stability]]** — 梯度下降在 sharpness 超过 2/η 时仍稳定训练的深度学习中反直觉现象
+2. **[[flip-bifurcation|Flip 分岔]]** — Jacobian 临界特征值 λ = -1 时触发的倍周期分岔，EoS 振荡的数学根源
+3. **[[first-lyapunov-coefficient|第一 Lyapunov 系数]]** — 决定 flip 分岔超临界/亚临界性质的标量判据，c₁ > 0 保证稳定
+4. **[[manifold-of-minimizers|极小值流形]]** — 过参数化网络损失景观中连续全局极小集的几何结构
+5. **[[normal-tangent-decomposition|法向-切向分解]]** — 将 GD 动力学沿 M 分解为法向振荡 + 切向漂移
+6. **[[sharpness|Sharpness]]** — Hessian 最大特征值，EoS 训练中在 2/η 阈值附近振荡
+7. **[[product-stability|乘积稳定性]]** — Gan (2026) 的标量条件，被证明是 flip 分岔 c₁ > 0 的特例
+8. **[[center-manifold-theorem|中心流形定理]]** — 将高维动力学约化到临界子空间的分岔理论工具
+
+🔗 **概念网络**
+
+- **核心连接**：edge-of-stability ↔ flip-bifurcation ↔ first-lyapunov-coefficient → 稳定性判据链
+- **几何维度**：manifold-of-minimizers ↔ normal-tangent-decomposition → 分解框架
+- **历史统一**：product-stability → first-lyapunov-coefficient → gan-bifurcation-eos → 极简分析归入一般框架
+- **工具链**：center-manifold-theorem → flip-bifurcation → first-lyapunov-coefficient → sharpness
+
+**新增概念**：8 个（全部新建，为 wiki 的全新子领域）
+**复用已有概念**：0（该领域在 wiki 中此前完全空白）
+
+📚 **Wiki 集成**
+
+- 新增页面：10 个（1 论文 + 8 概念 + 1 Review）
+- 链接密度：核心概念平均 5+ 个交叉引用
+- 总规模：前 → 后（待 index 更新后确认）
+
+💡 **关键洞察**
+
+1. **从"稳定性条件"到"稳定性机制"的范式升级**：以往 EoS 分析关注 *是否* 收敛，本文揭示了 *为何* 收敛——flip 分岔提供法向稳定，sharpness 梯度驱动力提供切向收敛
+
+2. **过参数化的几何特征被首次系统融入 EoS 理论**：极小值流形不是 EoS 分析的障碍，而是产生切向漂移的根源——这一视角解释了为什么过参数化网络天然适合 EoS 训练
+
+3. **统一性贡献**：乘积稳定性 (Gan 2026) 作为本框架特例被证明，意味着极简分析和一般框架走到了同一条路上
--- a/reviews/gan-tnt-review-20260618.md
+++ b/reviews/gan-tnt-review-20260618.md
@@ -0,0 +1,60 @@
+---
+title: "Review: Thinking-Based Non-Thinking (TNT)"
+created: 2026-06-18
+updated: 2026-06-18
+type: review
+source: gan-thinking-based-non-thinking-2026
+---
+
+# 📌 基本信息
+
+- **论文标题**：Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
+- **作者**：Siyuan Gan, Jiaheng Liu, Boyan Wang 等（南京大学 + 九天研究院 + 上海 AI Lab）
+- **领域**：cs.AI
+- **arXiv ID**：2601.04805
+- **类型**：方法论文（RL + 混合推理训练优化）
+- **添加时间**：2026-06-18
+
+# 🎯 核心概念
+
+1. **[[hybrid-reasoning-models|混合推理模型]]** — 能根据查询复杂度自动选择思考/非思考模式的模型
+2. **[[reward-hacking|Reward Hacking]]** — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励
+3. **[[overthinking|过度思考]]** — LRM 对简单查询也产生冗长 CoT，浪费计算资源
+4. **[[thinking-based-non-thinking|TNT]]** — "基于思考的非思考"：利用思考模式 solution 长度动态设定非思考模式 token 上限
+5. **[[dynamic-token-limit|动态 Token 限制]]** — 每个查询独立计算非思考模式最大 token，而非统一上限
+6. **[[ellipsis-prompt|省略号提示]]** — 无需修改 tokenizer 即可实现非思考模式采样的提示技术
+7. **[[large-reasoning-models|大推理模型]]** — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型
+8. **[[token-level-policy-gradient|Token 级策略梯度]]** — GRPO 在 token 级的细粒度信用分配
+
+# 🔗 概念网络
+
+```
+overthinking                      reward-hacking
+     ↓                                  ↓
+hybrid-reasoning-models ←────── 混合推理的动机
+     ↓                                  ↓
+large-reasoning-models ──→ thinking-mode + non-thinking-mode
+                                   ↓
+                            ellipsis-prompt (实现)
+                                   ↓
+                            dynamic-token-limit ← thinking solution length
+                                   ↓
+                            thinking-based-non-thinking (TNT)
+                                   ↓
+                            token-level-policy-gradient → GRPO
+```
+
+概念特点：围绕一个清晰的**优化链**展开——
+问题（overthinking）→ 方案方向（hybrid reasoning）→ 训练障碍（reward hacking）→ TNT 解决（dynamic token limit from thinking）→ RL 实现（token-level GRPO）
+
+# 📚 Wiki 集成
+
+- **新增页面**：11 个（1 论文 + 10 概念）
+- **复用页面**：4 个（token-efficiency, grpo, reinforcement-learning, chain-of-thought）
+- **总增量**：+11 页
+
+# 💡 关键洞察
+
+1. **优雅的对称性**：TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效，且不引入额外训练阶段。
+
+2. **奖励函数设计的精妙**：非思考 + hacking → -2（无论对错）的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益（+2），与 token 级策略梯度结合形成细粒度的行为矫正。
--- a/reviews/jordan-collectivist-ai-review-20260621.md
+++ b/reviews/jordan-collectivist-ai-review-20260621.md
@@ -0,0 +1,46 @@
+---
+title: "Review: A Collectivist, Economic Perspective on AI"
+created: 2026-06-21
+updated: 2026-06-21
+type: review
+---
+
+# 📌 基本信息
+
+- **论文**：A Collectivist, Economic Perspective on AI
+- **作者**：Michael I. Jordan (Inria Paris / UC Berkeley)
+- **arXiv**：2507.06268v3 | cs.CY / cs.AI / stat.ML
+- **发表**：2025-07-08 | 更新 2025-12-15
+- **类型**：立场论文（position paper）
+
+# 🎯 核心概念
+
+1. **三种思维方式的融合** — 计算思维（模块化/抽象）+ 推断思维（不确定性量化）+ 经济思维（激励/博弈均衡）→ 构成集体主义 AI 的方法论基础
+2. **LLM 作为集体主义制品** — 每次 LLM 交互是与数十亿贡献微数据个体的隐式对话，文化而非个人是更恰当的类比
+3. **统计合同理论** — Bates et al. (2024) 核心定理：激励相容 ⇔ E-values，将推断概念与经济概念等价关联
+4. **预测驱动推断 (PPI)** — 混合局部 ground-truth 与全局基础模型预测，纠正知识边界上的系统性偏倚（Angelopoulos et al., Science 2023）
+5. **概率匹配作为种群均衡** — 小鼠迷宫实验的集体主义重释：个体"非最优"行为是种群 Nash 均衡
+
+# 🔗 概念网络
+
+**与已有概念的连接**：
+- 核心框架继承 [[collectivist-ai]]，补充了数学案例支撑
+- PPI 连接 [[prediction-driven-inference]] + [[foundation-model-frontier-bias]]
+- 统计合同理论连接 [[e-values]]（推断工具与经济激励的等价）
+- 三层数据市场连接 [[data-markets]]（Stackelberg 博弈中的隐私-收入权衡）
+- 概率匹配连接 [[uncertainty-taxonomy]] 的"种群语境"维度
+- 跨领域连接 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]]（同一思想体系的对话表达）
+- 与 [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] 共享信息生态批判视角
+
+# 📚 Wiki 集成
+
+- **新增**：1 论文 (papers/) + 4 概念 + 1 Review
+- **更新已有概念**：[[collectivist-ai]]（追加案例）、[[prediction-driven-inference]]（追加 PPI 学术溯源）
+- **面试集成交叉**：与已创建的 MLST 访谈（articles/）形成"论文 → 访谈"双向关联
+- **新增概念**：[[statistical-contract-theory]]、[[e-values]]、[[data-markets]]、[[probability-matching]]
+
+# 💡 关键洞察
+
+**最重要的观点**："AI 匹敌的隐喻不是搜索引擎或聊天机器人，而是**市场**。"这不仅是修辞——论文通过统计合同理论、三层数据市场和概率匹配三个案例，从数学层面展示了经济思维如何补全 AI 系统设计的盲区。
+
+**对领域的意义**：Jordan 这篇论文是对 AI 学科身份的重新定义。他不说"AI 不够好，需要更多数据和算力"，而是说"AI 的**概念基础**不完整——我们缺少经济学和推断论的思维维度"。在 AGI 叙事两极化的当下，这是一个罕见的**从学科层面拓展 AI 定义边界**的论证，而非在现有边界内的优化。
--- a/reviews/large-language-gibbs-2026-06-25.md
+++ b/reviews/large-language-gibbs-2026-06-25.md
@@ -0,0 +1,46 @@
+---
+title: "Large Language Gibbs Review"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: [mcmc, llm, gibbs-sampling, probabilistic-inference]
+sources:
+  - "[[large-language-gibbs]]"
+---
+
+# Large Language Gibbs — Review
+
+📌 **基本信息**
+- 论文：Structured Inference with Large Language Gibbs
+- 作者：Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer（University of Edinburgh, CIFAR）
+- 领域：概率推断 / LLM（cs.LG, cs.CL）
+- arXiv：2606.19264
+- 添加时间：2026-06-25
+
+🎯 **核心概念**
+
+1. **[[llm-mcmc]]** — 将 LLM 条件分布用作 MCMC 转移算子的伞形框架
+2. **[[barker-gibbs]]** — LLM 偏好比较 + Barker 规则的判别式 Gibbs 核
+3. **[[gambling-gibbs]]** — 将接受/拒绝转化为赌博决策，仅需二值判断
+4. **[[order-bias-removal]]** — 随机排列消除自回归生成的顺序偏差
+5. **[[llm-consistent-reasoning]]** — Gibbs 迭代更新确保相关问题答案一致性
+
+🔗 **概念网络**
+
+- **新增概念**：5 个
+- **核心连接**：large-language-gibbs ↔ llm-mcmc ↔ barker-gibbs / gambling-gibbs / order-bias-removal ↔ llm-consistent-reasoning
+
+📚 **Wiki 集成**
+
+- 新增页面：6 个（1 论文 + 5 概念）
+- 链接密度：核心概念平均 4+ 交叉引用
+
+💡 **关键洞察**
+
+1. **LLM 不是生成器，是条件分布 oracle**：这篇论文的核心范式转变在于——不把 LLM 当作"一次生成完整答案"的系统，而是当作"给定其他变量，这个变量最可能是什么"的条件查询引擎。Gibbs 迭代将这种查询转化为从隐式联合分布中的采样。
+
+2. **随机排列是廉价且有效的偏差消除器**：消除自回归 LLM 的顺序偏差不需要训练或微调——只需在每次条件查询前把其他变量随机打乱。这个简单的技巧配合期望聚合，在理论上将任意顺序的条件映射到对称化的联合分布。
+
+3. **判别 vs 生成的 LLM 能力分离**：Barker Gibbs 和 Gambling Gibbs 都利用 LLM 的判别能力（"哪个更合理？"）而非生成能力。对于 RLHF 后概率校准不佳的指令模型，这是关键实用贡献——二选一比生成完整样本可靠得多。
+
+4. **贝叶斯先验引出是 LLM 的结构化知识提取路径**：第 5.2 节的 DAG 结构学习展示了 LLM 如何在不产生最终答案的情况下贡献价值——作为先验信息源，在数据稀缺时为贝叶斯推断提供额外的结构约束。这比"让 LLM 直接回答因果问题"更 principled。
--- a/reviews/latent-cot-supervision-2026-06-25.md
+++ b/reviews/latent-cot-supervision-2026-06-25.md
@@ -0,0 +1,50 @@
+---
+title: "Latent CoT Supervision Review"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: [latent-cot, information-theory, reasoning, supervision]
+sources:
+  - "[[latent-cot-supervision]]"
+---
+
+# Latent CoT Supervision — Review
+
+📌 **基本信息**
+- 论文：What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
+- 作者：Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen（EIT / PolyU）
+- 领域：潜推理 / 信息论（cs.LG, cs.CL）
+- 会议：ICML 2026
+- arXiv：2606.20075
+- 添加时间：2026-06-25
+
+🎯 **核心概念**
+
+1. **[[dual-collapse]]** — Outcome supervision 的双重崩溃：梯度衰减 + 表征漂移
+2. **[[trajectory-supervision]]** — 渐进式局部推理信号注入，最大化学步互信息
+3. **[[space-supervision]]** — 语义空间锚定，分 GC（几何压缩，破坏性）和 GR（生成式重建，保留信息）
+4. **[[unified-latent-probe]]** — 变分探针量化 I(L_t; S_t)，提供跨方法可比信息度量
+5. **[[information-performance-binding]]** — 推理能力被潜链互信息严格上界约束
+6. **[[generative-reconstruction-latent]]** — 符号空间重建：flexible semantic tether
+7. **[[geometric-compression-latent]]** — 潜空间对齐：rigid destructive constraint
+
+🔗 **概念网络**
+
+- **核心连接**：latent-cot-supervision ↔ dual-collapse → broken by trajectory-supervision + space-supervision → validated by unified-latent-probe → reveals information-performance-binding
+- **GR ↔ GC 对比**：generative-reconstruction-latent（superior）vs geometric-compression-latent（destructive）
+- **新增概念**：7 个
+
+📚 **Wiki 集成**
+
+- 新增页面：8 个（1 论文 + 7 概念）
+- 链接密度：核心概念平均 6+ 交叉引用
+
+💡 **关键洞察**
+
+1. **Outcome supervision 在潜推理中本质上有缺陷**：不是因为模型不够强，而是因为梯度衰减和表征漂移是 outcome-only 优化的结构性问题——更深的网络、更多的数据都无法根本解决。
+
+2. **过程监督 ≠ 更多标签，而是信息注入的结构化策略**：论文将过程监督精确定义为两个独立维度（何时注入信息 vs 信息是否保留），这比通常模糊的"process reward model"概念更有操作性。
+
+3. **GR > GC 的信息论解释**：几何压缩用 MSE 做潜空间对齐，被论文证明是"破坏性约束"——它会坍缩高维推理流形。生成式重建通过最小化 H(S_t | L_t) 直接最大化互信息，是更 principled 的替代方案。这一结论对表示学习有超出 Latent CoT 的启示。
+
+4. **信息-性能绑定是推理系统的普适约束**：论文的核心发现——推理能力被保留的互信息严格上界约束——意味着任何不追求可解码内部状态的推理系统，要么在利用 shortcut，要么存在未被利用的推理能力。这对于 Agent 的 RL-based 推理训练有直接警示：仅优化最终 reward 可能导致"表面成功但推理退化"。
--- a/reviews/longmem-eval-20250625.md
+++ b/reviews/longmem-eval-20250625.md
@@ -0,0 +1,45 @@
+---
+title: "LongMemEval Review — 长期交互记忆的系统性评测框架"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: ["review", "memory-benchmark", "evaluation", "chat-assistant"]
+sources:
+  - "[[longmem-eval-2025]]"
+---
+
+📌 基本信息
+- 论文：LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
+- 作者：Wu et al. (UCLA / Tencent AI Lab / UCSD)
+- 会议：ICLR 2025 | arXiv:2410.10813
+- 领域：cs.CL (记忆评测 / 聊天助手)
+- 代码：github.com/xiaowu0162/LongMemEval
+
+🎯 核心概念
+
+1. [[long-term-interactive-memory|Long-Term Interactive Memory]] — 聊天助手在持续交互中积累、回忆和推理个人知识的能力
+2. [[longmem-eval|LongMemEval Benchmark]] — 500 题 × 5 能力（提取/跨会话/时间/更新/遗忘）× 2 规模（S=115k, M=1.5M tokens）
+3. [[memory-indexing-retrieval-reading|Indexing → Retrieval → Reading]] — 统一记忆框架：三阶段 × 四控制点（Value/Key/Query/Reading）
+4. [[fact-augmented-key-expansion|Fact-Augmented Key Expansion]] — LLM 提取结构化事实作索引键（+9.4% recall, +5.4% QA）
+5. [[time-aware-query-expansion|Time-Aware Query Expansion]] — 时间戳 + 搜索范围缩小（时间推理召回 +6.8-11.3%）
+
+🔗 概念网络
+
+- 核心连接：long-term-interactive-memory ↔ longmem-eval ↔ memory-indexing-retrieval-reading
+- 已有概念桥接：[[atlas-memory-system]]（三阶段→Atlas write/recall 管线映射），[[agent-memory-taxonomy]]（mem type × 评测能力对应），[[memory-consolidation]]（≈ fact-augmented key expansion）
+- 扩展方向：与 [[per-index-time-decay]] 的互补——decay 做背景沉底，time expansion 做精确窗口
+
+📚 Wiki 集成
+
+- 新增页面：6 个（1 论文 + 5 概念）
+- 链接密度：核心概念平均 4 个跨引用链接
+- 与记忆系统簇的连接：bridge 到 Atlas (5 links), Memory Taxonomy (3 links)
+- 总规模：1216 → 1222 页
+
+💡 关键洞察
+
+1. **Abstention 是评测设计的新维度**——所有已有记忆基准都隐含假设"答案存在"，LongMemEval 第一个要求模型说"我不知道"。这对生产系统至关重要：记忆系统不应只追求召回率，还要精确识别信息缺失。
+
+2. **三阶段框架 + 四控制点提供了一个设计语言**——不再笼统讨论"记忆好不好"，而是在具体控制点上做 ablation：Round vs Session 粒度、Fact Key vs Raw Key、Time Query vs Raw Query。这是工程记忆系统可以逐项优化的 checklist。
+
+3. **LongMemEval 可以直接评测 Atlas**——在论文描述的实验管线中，将 Atlas 的 recall_memory 放在 Retrieval 阶段、consolidation 输出作为 Indexing 阶段的 fact key，然后在 LongMemEval 的 500 题上跑 eval——直接得到 Atlas 在五种记忆能力上的分数。
--- a/reviews/lukv-review-20260618.md
+++ b/reviews/lukv-review-20260618.md
@@ -0,0 +1,77 @@
+---
+title: "Review: LU-KV — Global Combinatorial Optimization for KV Cache Eviction"
+created: 2026-06-18
+type: review
+tags: ["kv-cache", "combinatorial-optimization", "llm-inference"]
+---
+
+# LU-KV Review
+
+📌 基本信息
+- **论文标题**：Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction
+- **作者**：Ziyao Tang, Pengkun Jiao, Xinhang Chen, Wei Liu, Shiyong Li, Jingjing Chen
+- **机构**：复旦大学 + 百度百舸 AI Team
+- **发表**：ICML 2026, PMLR 306
+- **arXiv ID**：2602.08585v2
+- **领域**：cs.LG / cs.AI — 大模型推理优化
+- **Wiki 添加时间**：2026-06-18
+
+🎯 核心概念
+
+1. [[oracle-importance]] — 基于未来解码窗口中 token 对输出向量的最大潜在贡献定义的真实重要性度量，是评估所有启发式指标的金标准
+2. [[optimality-gap]] — 启发式指标 π 与 Oracle 指标 π* 之间的性能差距，严格分解为 Hits/Misses/False Positives 三类
+3. [[long-horizon-utility]] — LU-KV 的核心视角：从未来解码步骤评估 token 的真实贡献，而非依赖 prefill 瞬时的注意力分数
+4. [[global-combinatorial-optimization]] — 将 head 级预算分配形式化为约束全局优化问题，最小化聚合驱逐损失
+5. [[marginal-utility]] — 每增加一单位预算对长期语义信息保存的边际增益，是驱动贪心分配策略的核心信号
+6. [[convex-hull-relaxation]] — PAVA 保序回归将非凸离散损失序列凸化，使贪心解达到 DP 最优
+7. [[offline-profiling]] — 三阶段离线校准协议（合成上下文 → Oracle 计算 → Profile 聚合），桥接理论与部署
+
+🔗 概念网络
+
+**核心连接链**：
+```
+[[kv-cache]] → [[kv-cache-eviction]]
+  → [[intra-head-eviction]] + [[cross-head-budget-allocation]]
+    → [[head-level-budget-allocation]]
+      → [[global-combinatorial-optimization]]
+        → [[convex-hull-relaxation]] + [[marginal-utility]]
+          → [[oracle-importance]] → [[optimality-gap]]
+            → [[long-horizon-utility]]
+              → [[offline-profiling]] → [[lukv]]
+```
+
+**方法基线链**：
+```
+[[heuristic-metric]] ← [[snapkv]], [[keydiff]]
+[[cross-head-budget-allocation]] ← [[pyramidkv]], [[adkv]], [[lukv]]
+```
+
+- **扩展网络**：连接了 18 个新概念 + 论文主页面，新增 19 个页面
+- **概念密度**：核心概念平均 5-8 个双向链接，形成紧密交叉引用网络
+- **新增概念**：18 个（全部为此论文首次引入 wiki）
+
+📚 Wiki 集成
+
+- **新增页面**：19 个（1 论文页 `tang-lukv` + 18 概念页）
+- **论文页面**：[[tang-lukv]] — 包含完整方法框架、实验总结和相关概念链接
+- **raw 存档**：`raw/papers/tang-lukv-2026.md`
+- **概念分类**：
+  - 基础概念（2）：[[kv-cache]], [[kv-cache-eviction]]
+  - 框架核心（6）：[[lukv]], [[oracle-importance]], [[optimality-gap]], [[long-horizon-utility]], [[marginal-utility]], [[heuristic-metric]]
+  - 方法论（4）：[[global-combinatorial-optimization]], [[convex-hull-relaxation]], [[offline-profiling]], [[head-level-budget-allocation]]
+  - 范式组件（2）：[[intra-head-eviction]], [[cross-head-budget-allocation]]
+  - 基线方法（4）：[[snapkv]], [[pyramidkv]], [[adkv]], [[keydiff]]
+
+💡 关键洞察
+
+1. **范式转换：从"被动丢弃"到"战略性投资"**
+   
+   LU-KV 最大的贡献不是某个具体的驱逐算法，而是**重新概念化了 KV Cache 驱逐问题**。传统方法问"哪些 token 可以丢掉？"，LU-KV 问"如何在各 head 间最优配预算以实现长期信息保存最大化？"——这是经济学 ROI 思维在系统优化中的精巧应用。
+
+2. **指标无关设计的工程智慧**
+
+   与其发明第 N+1 个更好的 token 评分指标，LU-KV 选择了一个"元层面"的切入：接受任何指标的不完美，通过显式建模其与 Oracle 的对齐程度来"扬长避短"——将预算集中到指标-现实对齐度高的 head。这种 decoupling 策略在实际部署中极为实用：已有的 SnapKV/KeyDiff 用户可零改动接入 LU-KV 获得性能提升。
+
+3. **ICML 2026 的实用主义信号**
+
+   本文发表于 ICML 2026，体现了一个趋势：顶级 ML 会议越来越接纳"将经典优化技术（凸松弛、贪心算法）精巧应用于 LLM 系统瓶颈"的工作，而非只追求全新的神经网络架构。这对研究方向有启示意义。
--- a/reviews/mainecoon-review-20260620.md
+++ b/reviews/mainecoon-review-20260620.md
@@ -0,0 +1,51 @@
+---
+title: "MaineCoon Review"
+created: 2026-06-20
+updated: 2026-06-20
+type: review
+tags: ["review", "audio-visual", "streaming", "world-model", "social"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+paper: "mainecoon"
+---
+
+# MaineCoon Review — 2026-06-20
+
+📌 **基本信息**
+- **论文**：MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model
+- **作者**：Catnip AI Team (Lichen Bai et al., 17 人)
+- **领域**：cs.CV / 音视频生成 / 流式推理
+- **arXiv**：2606.17800 (2026-06-16)
+- **规模**：22B 参数，32 页，13 图，3 表
+
+🎯 **核心概念**
+1. **[[social-world-model|Social World Model]]** — 新生成范式：从物理世界模拟转向人类社交动态的实时音视频参与
+2. **[[self-resampling|Self-Resampling]]** — 消除自回归 train-test gap，以模型自身退化历史训练
+3. **[[reinforced-online-policy-distillation|ROPD]]** — 自适应专家合并：verifier 自动调节域专家权重
+4. **[[agentic-cache-manager|Agentic Cache Manager]]** — 单持久 KV-cache + bounded keep-set + AdaStat drift control
+5. **[[agentic-streaming-inference|Agentic Streaming Inference]]** — 训练无关三层控制器 (Director / Cache / Buffer) 包裹冻结生成器
+
+🔗 **概念网络**
+- **核心连接**：[[social-world-model]] ↔ [[self-resampling]] ↔ [[agentic-streaming-inference]] ↔ [[agentic-cache-manager]] ↔ [[reinforced-online-policy-distillation|ROPD]]
+- **伞概念锚定**：连接 [[streaming-generation]]、[[autoregressive-video-generation]]、[[audio-visual-generation]]、[[diffusion-transformer]]、[[social-video]]
+- **跨域链接**：[[jepa|V-JEPA 2]]、[[kv-cache]]、[[flow-matching]]、[[dpo]]、[[world-models-rl]]、[[world-model-lecun]]
+- **辅助概念**：[[forward-repair-ladder]]、[[look-ahead-buffer-controller]]、[[socialvideo-bench]]、[[drifting|Temporal Drift]]
+
+📚 **Wiki 集成**
+- **新增页面**：16 页（1 paper + 15 concepts）
+- **伞概念**：5 个（audio-visual-generation, autoregressive-video-generation, streaming-generation, diffusion-transformer, social-video）
+- **论文专属**：10 个（social-world-model, self-resampling, ROPD, agentic-streaming-inference, agentic-cache-manager, look-ahead-buffer-controller, forward-repair-ladder, socialvideo-bench, audio-visual-representation-alignment, domain-aware-preference-optimization）+ drifting
+- **复用已有**：5 个（world-models-rl, world-model-lecun, jepa, kv-cache, flow-matching, dpo）
+- **链接密度**：核心概念平均 5-8 个交叉引用
+- **网络完整**：100% 无断链（待验证）
+
+💡 **关键洞察**
+
+1. **范式转变：从生产工具到社交参与者**
+   MaineCoon 不仅仅是更快/更强的视频生成模型——它重新定义了生成模型在社会中的角色。传统模型是「内容生产工具」，MaineCoon 定义了「社交世界模型」范式，使 AI 成为人类社交的**主动参与者**。这一转变的意义不亚于 GPT 将语言模型从「翻译/摘要工具」变成「对话/推理 agent」。
+
+2. **架构哲学的「分离-治理」设计**
+   训练阶段 (forcing-free native streaming) 和推理阶段 (agentic controller) 展现了优雅的分离设计：generator 只负责以固定节奏持续生成；认知（规划/观察/修复）、记忆（缓存管理）、时间（节奏控制）由三个 agentic 控制器治理。这种分离使每层独立优化且无循环依赖——类似于操作系统中进程调度、内存管理、I/O 的分离。
+
+3. **社交视频的特殊性被正视**
+   论文最关键的前提判断是：社交视频 ≠ 电影视频。社交视频的价值在 liveness（临场感）而非视觉奇观。这一洞见驱动了整个技术栈的设计——从数据管线（筛选真人说话片段而非剧情片段）到评估基准（9 项指标含社交和谐度）再到模型架构（音视频联合、实时流式）。
+
--- a/reviews/mamba-review-20260618.md
+++ b/reviews/mamba-review-20260618.md
@@ -0,0 +1,70 @@
+---
+title: "Review: Mamba — Linear-Time Sequence Modeling with Selective State Spaces"
+created: 2026-06-18
+type: review
+tags: ["ssm", "mamba", "linear-complexity", "architecture"]
+---
+
+# Mamba Review
+
+📌 基本信息
+- **论文标题**：Mamba: Linear-Time Sequence Modeling with Selective State Spaces
+- **作者**：Albert Gu (CMU), Tri Dao (Princeton)
+- **发表**：2023-12（preprint）
+- **arXiv ID**：2312.00752v2
+- **领域**：cs.LG — 序列建模架构
+- **代码**：https://github.com/state-spaces/mamba
+- **Wiki 添加时间**：2026-06-18
+
+🎯 核心概念
+
+1. [[selective-state-space]]（S6）— 将 SSM 参数 B, C, Δ 变为输入依赖，从 LTI 升级为选择性
+2. [[hardware-aware-algorithm]] — GPU 内存层次优化的并行关联扫描
+3. [[content-based-reasoning]] — Mamba 识别并解决的 LTI 模型核心弱点
+4. [[selective-copy]] + [[induction-heads]] — 两个精确诊断内容感知能力的合成任务
+
+🔗 概念网络
+
+**核心连接链**：
+```
+[[hippo]] → [[structured-state-space-models]] (S4)
+  → [[selective-state-space]] (S6)
+    → [[mamba-ssm]] (Mamba 架构)
+      → [[gu-mamba]] (论文页)
+```
+
+**横向连接**：
+```
+[[content-based-reasoning]] ← Mamba 解决的核心问题
+  ↓
+[[selective-state-space]] + [[hardware-aware-algorithm]]
+  ↓
+[[selective-copy]] + [[induction-heads]] ← 诊断基准
+```
+
+- **连接已有概念**：[[state-space-models]]（已有），[[mamba-ssm]]（已有，已更新）
+- **网络密度**：新概念之间 3-5 个双向链接
+
+📚 Wiki 集成
+
+- **新增页面**：9 个（1 论文 `gu-mamba` + 7 新概念 + 1 Review）
+- **更新页面**：2 个（[[mamba-ssm]] 大幅扩充，[[state-space-models]] 追加引用）
+- **概念分布**：
+  - 核心机制（3）：[[selective-state-space]], [[hardware-aware-algorithm]], [[content-based-reasoning]]
+  - 前身与基础（2）：[[structured-state-space-models]], [[hippo]]
+  - 诊断任务（2）：[[selective-copy]], [[induction-heads]]
+  - 已有复用（2）：[[mamba-ssm]]（更新），[[state-space-models]]（更新）
+
+💡 关键洞察
+
+1. **"LTI 是牢笼，选择性是钥匙"**
+
+   Mamba 最深刻的洞察不是技术细节，而是对问题的诊断：**LTI 本身就是 LTI 模型的最大瓶颈**。这个诊断比 S6 本身更有价值——它解释了为什么 S4、H3、Hyena、RWKV-4 等所有基于 LTI 的方法在语言任务上始终无法追上 Transformer。内容感知不是在 SSM 上的"锦上添花"，而是**质变的前提**。
+
+2. **从"不能做 X"到"如何做 X"的范式转变**
+
+   在 Mamba 之前，SSM 文献主要在讨论如何让 SSM 更好地压缩历史、更快地计算。Mamba 转换了问题：不再问"如何更好地记住一切"，而是问"如何学会选择性地忘记"。这个 reframing 将 SSM 从信号处理的思路拉回了语言建模的核心需求。
+
+3. **工程与理论的完美协同**
+
+   选择机制 → 不能卷积 → 需要 scan → IO 感知优化。Mamba 的贡献链展示了理论诊断 → 算法创新 → 系统优化的完整闭环。缺少任何一环都不成立：没有选择性，不需要硬件优化；没有硬件优化，选择性不可训练。
--- a/reviews/mcp-zero-review-20260619.md
+++ b/reviews/mcp-zero-review-20260619.md
@@ -0,0 +1,40 @@
+---
+title: "MCP-Zero Review"
+created: 2026-06-19
+type: review
+---
+
+# 📌 基本信息
+
+- **论文**：MCP-Zero: Active Tool Discovery for Autonomous LLM Agents
+- **作者**：Xiang Fei, Xiawu Zheng, Hao Feng (厦大/中科大)
+- **arXiv**：2506.01056 (v4, 2025-06-24)
+- **领域**：cs.AI, cs.SE
+- **添加时间**：2026-06-19
+
+# 🎯 核心概念
+
+1. **[[active-tool-discovery|主动工具发现]]** — 范式转变：从"全量注入让模型选"翻转为"模型自主请求，系统匹配"
+2. **[[active-tool-request|Active Tool Request]]** — 结构化请求：server + tool 字段，在工具文档语义空间中→对齐度优于用户查询
+3. **[[hierarchical-semantic-routing|层次语义路由]]** — 两级检索：server 匹配→tool 排序，O(n)→O(m+k)
+4. **[[iterative-capability-extension|迭代能力扩展]]** — 多轮 toolchain：读文件→编辑→执行，天然容错和自纠正
+5. **[[mcp-protocol|MCP 协议]]** — 标准化工具接口：JSON-RPC，解决了互操作性但留下了过程性鸿沟
+6. **[[mcp-tools-dataset|MCP-tools 数据集]]** — 308 servers, 2,797 tools, 248.1K tokens
+
+# 🔗 概念网络
+
+- **核心连接**：主动工具发现 ↔ Active Tool Request ↔ 层次路由 ↔ 迭代扩展
+- **向外桥接**：MCP 协议 → Agent Skill（过程层）；主动发现 ↔ Skill 检索（"主动选择而非全加载"的共同理念）
+- **与 Agent Harness 关联**：解决操作维度中的工具发现问题——不是预加载 300 个 tool schema，而是运行时按需请求
+- **新增概念**：6 个全新概念，补全了 wiki 在 MCP/工具发现领域的基础
+
+# 📚 Wiki 集成
+
+- **新增页面**：8 个（1 论文 + 1 raw + 6 概念）
+- **Wiki 总规模**：1034 → 1042 页
+
+# 💡 关键洞察
+
+1. **范式价值 > 工程优化**：MCP-Zero 的真正贡献不是"省了 98% token"（虽然这很重要），而是重新定义了 Agent 与工具的关系——从被动消费者变为自主能力构建者。这与 [[agent-skill|Agent Skills 综述]]中 Agent-Skill 的分层思想高度一致：Agent 负责"知道自己需要什么"，系统负责"精确匹配和执行"。
+
+2. **主动请求的语义优势**：最被低估的发现是 cos(e_request, e_tool) > cos(e_query, e_tool)——Agent 生成的请求天然在工具文档语义空间中。这意味着不仅是减少 token，更是提升了匹配精度。这一洞察可直接推广到 [[skill-retrieval|Skill 检索]]中。
--- a/reviews/me2-trm-reasoning-20260624.md
+++ b/reviews/me2-trm-reasoning-20260624.md
@@ -0,0 +1,41 @@
+---
+title: "Review: ME² + TRM — Complex Reasoning Optimization"
+created: 2026-06-24
+updated: 2026-06-24
+type: review
+paper: "[[me2-trm-reasoning-2026]]"
+---
+
+# 📌 基本信息
+- **论文标题**：Characterizing, Evaluating, and Optimizing Complex Reasoning
+- **作者**：Zhang, Li, Wang, Wang, Zhang, Qu, Cheng（SJTU/上海AI Lab/CUHK 等）
+- **领域**：cs.CL（推理评估、奖励模型、RL）
+- **会议**：ICML 2026 | arXiv:2602.08498v2
+- **代码**：https://github.com/Simplified-Reasoning/TRM
+
+# 🎯 核心概念
+
+1. **ME² Principle** — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征
+2. **DAG-based Reasoning Evaluation** — 将推理轨迹抽象为 DAG，捕获分支/合并结构，消除直接评估的大量 ties
+3. **Thinking Reward Model (TRM)** — 仅训练于 verified-correct 推理对，与答案正确性解耦的推理质量评估模型
+4. **Reasoning Quality Optimization** — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径
+
+# 🔗 概念网络
+
+**核心连接**：
+- ME² Principle → DAG Evaluation → TRM（原则 → 建模 → 模型）
+- TRM → Reasoning Quality Optimization（模型 → 应用）
+- TRM ↔ reward-model, GRPO（已有概念衔接）
+
+**复用已有概念**：[[large-reasoning-models]]、[[reward-model]]、[[grpo]]
+
+# 📚 Wiki 集成
+- 新增页面：7 个（1 论文 + 5 概念 + 1 Review）
+- 复用已有概念：3 个
+- 总规模：1195 → 1203 页
+
+# 💡 关键洞察
+
+1. **推理质量的独立可评估性** — TRM 仅在正确推理对上训练偏好，证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下，判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充：thinking reward 在答案正确的多条路径中选择更好的那一条，而不是简单地 reward 对错。
+
+2. **结构信号的意义** — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零，说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构：结构（DAG 拓扑）比内容（步骤文本）承载更多区分信息。
--- a/reviews/mozer-topological-trouble-review-20260618.md
+++ b/reviews/mozer-topological-trouble-review-20260618.md
@@ -0,0 +1,62 @@
+---
+title: "Review: The Topological Trouble With Transformers"
+created: 2026-06-18
+updated: 2026-06-18
+type: review
+source: mozer-topological-trouble-transformers-2026
+---
+
+# 📌 基本信息
+
+- **论文标题**：The Topological Trouble With Transformers
+- **作者**：Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu (Google DeepMind)
+- **领域**：cs.LG, cs.AI
+- **arXiv ID**：2604.17121
+- **类型**：立场性综述 (Position Paper)
+- **添加时间**：2026-06-18
+
+# 🎯 核心概念
+
+1. **[[state-tracking|状态追踪]]** — 迭代更新反映变化环境的潜变量，是语言理解和推理的核心能力
+2. **[[feedforward-depth-limitation|前馈深度局限]]** — 前馈架构迫使状态表示逐层上移，最终耗尽模型深度
+3. **[[recurrence-taxonomy|循环分类法]]** — 两维度（循环轴 × 输入/循环步比例）系统化分类所有循环 Transformer 架构
+4. **[[depth-recurrence|深度循环]]** — 沿层深度轴的循环（Looped Transformer），增强表达力但状态仍上移
+5. **[[step-recurrence|步级循环]]** — 层内跨输入步的状态传播（Mamba, DeltaNet, RWKV-7）
+6. **[[enhanced-state-space-models|增强状态空间模型]]** — 超越标准 Transformer 表达力的 SSM（DeltaNet 负特征值扩展等）
+7. **[[latent-thought-models|隐式思考模型]]** — 多步自回归处理单个 token，不消耗上下文窗口
+8. **[[coarse-grained-recurrence|粗粒度循环]]** — 句子/块级别的循环，降低 token 级循环的计算负担
+
+# 🔗 概念网络
+
+## 核心连接
+```
+state-tracking ← feedforward-depth-limitation ← depth-dilemma
+      ↓
+recurrent-transformer-architectures ← recurrence-taxonomy
+      ↓                    ↓
+depth-recurrence    step-recurrence ← state-space-models
+      ↓                    ↓
+representational-alignment  enhanced-state-space-models
+      ↓
+attractor-dynamics ← latent-thought-models
+      ↓
+coarse-grained-recurrence → sequential-dependency → autoregressive-unrolling
+```
+
+## 扩展网络
+- 连接了 16 个新增概念 + 复用 1 个已有概念（chain-of-thought）
+- 核心链接密度：平均每概念 4-6 个双向链接
+- 建立跨概念连接：深度↔步级、状态追踪↔信念状态、分类法↔架构成分
+
+# 📚 Wiki 集成
+
+- **新增页面**：17 个（1 论文 + 16 概念）
+- **复用页面**：1 个（[[chain-of-thought|思维链]]）
+- **链接完整性**：待验证
+- **总规模变化**：增量 +17 页
+
+# 💡 关键洞察
+
+1. **"拓扑性麻烦"的本质**：Transformer 的问题不是"做不到"状态追踪，而是前馈拓扑的**结构属性**——状态必须逐层上移，这并非偶然的工程缺陷，而是架构的必然结果。这个洞察比任何具体解决方案都更有价值。
+
+2. **从外化到内化**：论文最锐利的论点是：CoT 作为"对自己说话"的机制，对于深层消歧（如 bank 的词义）这类人类自动完成的微认知而言是怪异的。真正的方向是**隐式激活动力学**而非显式思维轨迹——这从根本上挑战了当前"更多 thinking tokens = 更好推理"的范式。
--- a/reviews/nano-filter-20260622.md
+++ b/reviews/nano-filter-20260622.md
@@ -0,0 +1,40 @@
+---
+title: "NANO Filter Review"
+created: 2026-06-22
+type: review
+paper: nano-filter
+---
+
+# NANO Filter — 自然梯度高斯近似滤波
+
+📌 基本信息
+- 论文: Nonlinear Bayesian Filtering with Natural Gradient Gaussian Approximation
+- 作者: Wenhan Cao, Tianyi Zhang, Zeju Sun, Chang Liu, Stephen S.-T. Yau, Shengbo Eben Li（清华/北大/BIMSA）
+- arXiv: 2410.15832 (eess.SY), v4 (2026-03)
+- 添加时间: 2026-06-22
+
+🎯 核心概念
+1. **NANO filter** — 在 Gaussian 流形上用自然梯度下降直接优化更新代价，替代传统线性化+KF 的使能框架
+2. **优化视角 Bayesian 滤波** — 将预测步和更新步重构为两个独立变分问题，利用 Stein 引理解析驻点条件
+3. **自然梯度在 Gaussian 流形上** — 利用 Fisher 信息矩阵的解析逆校正梯度方向，补偿参数空间曲率
+4. **Gibbs 后验鲁棒扩展** — 用 Pseudo-Huber 损失/加权似然替代标准似然，处理模型误设和离群值
+5. **收敛性与误差界** — 局部收敛证明 + 近线性条件下误差指数有界（超鞅构造）
+
+🔗 概念网络
+- 核心连接: NANO ↔ [[natural-gradient-descent|自然梯度]] ↔ [[gaussian-manifold|高斯流形]] ↔ [[bayesian-filtering|贝叶斯滤波]]
+- 方法对比链: KF → EKF → UKF/PLF → NANO（线性化框架 → 直接优化框架）
+- 理论基础链: [[stein-lemma|Stein 引理]] → 驻点解析解 → 自然梯度迭代
+- 鲁棒扩展链: [[gibbs-posterior|Gibbs 后验]] → [[pseudo-huber-loss|Pseudo-Huber 损失]] → 鲁棒 NANO
+
+📚 Wiki 集成
+- 新增页面: 12 个（1 论文 + 11 概念）
+- 伞概念新建: 6 个（bayesian-filtering, kalman-filter, natural-gradient-descent, gaussian-filtering, stein-lemma, gibbs-posterior）
+- 论文专属概念: 4 个（gaussian-manifold, moment-matching-filter, pseudo-huber-loss, posterior-linearization-filter）
+- 论文主页面: nano-filter
+- 链接密度: 论文页 8 个 wikilink，概念页间密集交叉引用
+
+💡 关键洞察
+1. **跳出线性化框架** — NANO 的根本贡献不是又一个"更好的线性化"，而是完全重构了 Gaussian 滤波的范式：从「先近似模型再计算后验」变为「直接在高斯流形上优化后验」。这在方法论上是质的飞跃，类比于从间接推断到直接优化的转变。
+2. **线性 Gaussian 系统的优雅退化** — NANO 在线性系统中一次迭代即收敛到精确 KF 解，且与初始化无关。这种"向下兼容"的性质是其数学结构正确的有力印证，也为工程部署提供了安全网：在最坏情况下不差于 KF。
+
+实验亮点：相对于 EKF/UKF/IEKF/PLF，平均 RMSE 降 45%，计算负担可比。
--- a/reviews/personalization-trap-20260624.md
+++ b/reviews/personalization-trap-20260624.md
@@ -0,0 +1,44 @@
+---
+title: "Review: The Personalization Trap"
+created: 2026-06-24
+updated: 2026-06-24
+type: review
+paper: "[[personalization-trap-2025]]"
+---
+
+# 📌 基本信息
+- **论文标题**：The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
+- **作者**：Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy（Amazon）
+- **领域**：cs.AI / cs.CL（AI 安全、偏见、个性化）
+- **arXiv ID**：2510.09905v2 | 添加时间：2026-06-24
+- **代码/数据**：https://github.com/personalization-trap
+
+# 🎯 核心概念
+
+1. **Personalization Trap** — 为增强共情而引入的个性化，可能放大社会不平等。优势画像在相同场景下获得更准确的情感解读
+2. **User Memory Bias** — LLM 融入用户记忆后，对用户无关任务产生基于画像的系统性偏差
+3. **Emotional Reasoning Bias** — 情感推理中的人口统计学偏见：宗教（穆斯林）、性别（非二元）、年龄（65+）系统性效应
+4. **Intersectional Persona Evaluation** — 通过交叉性画像 + 混合效应模型，隔离并量化各人口统计维度的独立偏见效应
+5. **Persona-Invariant Reasoning** — 推理质量不应随用户画像而变化的理想；Thinking 模型天然更接近此理想
+
+# 🔗 概念网络
+
+**核心连接**：
+- Personalization Trap ↔ User Memory Bias ↔ Emotional Reasoning Bias（现象 → 机制 → 具体表现）
+- Social Capital Framework → Personalization Trap（社会学理论 → AI 偏见验证）
+- Intersectional Persona Evaluation → Emotional Reasoning Bias（方法论 → 发现）
+- DPO Bias Mitigation → Persona-Invariant Reasoning（缓解手段 → 理想目标）
+
+**复用已有概念**：[[dpo]]
+
+# 📚 Wiki 集成
+- 新增页面：9 个（1 论文 + 7 概念 + 1 Review）
+- 复用已有概念：1 个（dpo）
+- 链接密度：核心概念平均 3+ 双向链接
+- 总规模：1167 → 1176 页
+
+# 💡 关键洞察
+
+1. **个性化是一把双刃剑** — 这篇论文对 Agent 记忆系统设计提供了直接警示。当 Agent 记住用户是"富人"还是"单亲妈妈"时，即使面对相同的情绪表达，它可能给出系统性不同的解读。这不是训练数据的问题，而是架构本身的问题——个人化机制可能在无意中将社会等级编码进推理过程。
+
+2. **记忆系统的安全边界** — 对 sz 正在构建的 Agent Harness 系统而言，这篇论文提出了一个关键设计约束：用户记忆应在何时被允许影响推理？答案是：仅当任务本身是用户相关的（如偏好推荐），而在用户无关的标准化任务中，记忆应被隔离。这需要记忆系统的"上下文门控"——决定哪些记忆进入推理循环，哪些不进。
--- a/reviews/rwkv7-review-20260618.md
+++ b/reviews/rwkv7-review-20260618.md
@@ -0,0 +1,65 @@
+---
+title: "Review: RWKV-7 Goose — Expressive Dynamic State Evolution"
+created: 2026-06-18
+type: review
+tags: ["rwkv", "rnn", "delta-rule", "state-tracking", "expressiveness"]
+---
+
+# RWKV-7 Review
+
+📌 基本信息
+- **论文标题**：RWKV-7 "Goose" with Expressive Dynamic State Evolution
+- **作者**：Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人，RWKV Project + EleutherAI + 多所大学)
+- **arXiv ID**：2503.14456v2
+- **发表**：2025-03（preprint）
+- **代码**：https://github.com/RWKV/RWKV-LM（Apache 2.0）
+- **模型**：https://huggingface.co/RWKV
+- **Wiki 添加时间**：2026-06-18
+
+🎯 核心概念
+
+1. [[generalized-delta-rule]] — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
+2. [[vector-valued-gating]] — 逐通道动态衰减，每个状态维度独立速率
+3. [[in-context-learning-rate]] — 从标量 α → 向量 a_t，Delta 规则视角的选择性
+4. [[regular-language-recognition]] — 理论里程碑：首个超越 TC^0 的并行化可训练 RNN
+
+🔗 概念网络
+
+```
+delta-rule → generalized-delta-rule
+  → vector-valued-gating + in-context-learning-rate
+    → dynamic-state-evolution
+      → regular-language-recognition (NC^1)
+
+rwkv → token-shift → wkv-time-mixing
+  → peng-rwkv7 (论文)
+```
+
+**与已有概念连接**：
+- [[enhanced-state-space-models]]（更新 RWKV-7 小节）
+- [[state-space-models]]、[[state-tracking]]、[[step-recurrence]]（已有引用）
+- 与 Mamba（[[selective-state-space]]）形成门控机制的跨范式对比
+
+📚 Wiki 集成
+
+- **新增页面**：10 个（1 论文 + 8 概念 + 1 Review）
+- **更新页面**：1 个（`enhanced-state-space-models`，RWKV-7 小节扩充）
+- **概念分布**：
+  - Delta 规则线：[[delta-rule]] → [[generalized-delta-rule]] → [[in-context-learning-rate]]
+  - 门控/状态线：[[vector-valued-gating]] → [[dynamic-state-evolution]]
+  - 架构线：[[rwkv]] → [[token-shift]] → [[wkv-time-mixing]]
+  - 理论线：[[regular-language-recognition]]
+
+💡 关键洞察
+
+1. **"Delta 规则是 RNN 的正确数学语言"**
+
+   RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下：门控 = 逐通道衰减（w_t）、选择性 = 逐通道学习率（a_t）、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角：RNN 状态更新本质上是在做在线优化。
+
+2. **理论突破来自对规则的松弛，而非对规模的信仰**
+
+   RWKV-7 证明超越 Transformer（TC^0→NC^1）的关键不是更多参数或更深的网络，而是三个具体的、可分析的数学松弛：标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。
+
+3. **开源生态的闭环**
+
+   RWKV-7 不仅发布了模型权重和代码，还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。
--- a/reviews/unlimited-ocr-works-20260624.md
+++ b/reviews/unlimited-ocr-works-20260624.md
@@ -0,0 +1,45 @@
+---
+title: "Review: Unlimited OCR Works"
+created: 2026-06-24
+updated: 2026-06-24
+type: review
+paper: "[[unlimited-ocr-works-2026]]"
+---
+
+# 📌 基本信息
+- **论文标题**：Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing
+- **作者**：Youyang Yin, Huanhuan Liu*, YY†, et al.（Baidu Inc.）
+- **领域**：cs.CV / cs.CL（OCR、注意力机制、高效推理）
+- **arXiv ID**：2606.23050 | 添加时间：2026-06-24
+- **代码**：https://github.com/baidu/Unlimited-OCR
+
+# 🎯 核心概念
+
+1. **Reference Sliding Window Attention (R-SWA)** — 模仿人类解析工作记忆的注意力机制：token 关注全部参考 token + 前 n 个输出 token，参考 token 不参与状态转移，KV cache 恒定
+2. **Constant KV Cache** — R-SWA 的核心数学性质：KV cache = Lm + n（有界常数），与标准 MHA 的 O(T) 线性增长形成根本性对比
+3. **Long-Horizon Parsing** — 一次前向解析数十页文档的能力，区别于逐页 for-loop 的外部调度模式
+4. **DeepEncoder** — 16× 视觉 token 压缩的编码器（级联窗口注意 ViT + 全局注意），决定 prefill 长度上限
+5. **DeepSeek OCR** — 基线模型，DeepEncoder + MoE Decoder (3B/500M)，标准 MHA 导致 KV cache 线性膨胀
+
+# 🔗 概念网络
+
+**核心连接**：
+- R-SWA ↔ Constant KV Cache ↔ Long-Horizon Parsing（注意力机制 → 数学性质 → 能力涌现）
+- R-SWA ↔ DeepEncoder（解码器效率 + 编码器压缩率 = 长程 OCR 的两个支点）
+- Unlimited OCR ↔ DeepSeek OCR（继承 DeepEncoder，替换 MHA → R-SWA）
+
+**扩展网络**：连接到 [[kv-cache]]、[[mixture-of-experts]]、[[flash-attention]]、[[flash-attention-3]]、[[rolling-kv-cache]]、[[long-horizon-utility]]、[[long-horizon-evaluation]] 等已有概念
+
+**新增概念**：10 个（8 核心 + 2 stub：megatron-lm, sglang）
+
+# 📚 Wiki 集成
+- 新增页面：11 个（1 论文 + 10 概念）
+- 复用已有概念：5 个（kv-cache, mixture-of-experts, flash-attention, flash-attention-3, rolling-kv-cache）
+- 链接密度：核心概念平均 4+ 双向链接
+- 总规模：1155 → 1167 页
+
+# 💡 关键洞察
+
+1. **认知启发的架构极简** — R-SWA 的本质洞察是：人类长程抄写时不需要全量历史，仅需附近上下文 + 永久参考。将所有 MHA 替换为 R-SWA 后性能无损（"lossless"），证明 soft forgetting 通过滑动窗口传递信息已足够。这是「少即是多」的 elegant design。
+
+2. **从 O(T) 到 O(1) 的相变** — KV cache 从线性增长到有界常数不是量变而是质变。它使 OCR 从「延长上下文需要更多硬件」的 scaling 思维，转向「恒定资源处理变长输入」的 engineering 思维。这一范式对 RAG、Agent 等需要长程处理的场景有直接启示：恒定资源的处理能力比可扩展但衰减的性能更有生产价值。
--- a/reviews/vla-jepa-20260624.md
+++ b/reviews/vla-jepa-20260624.md
@@ -0,0 +1,42 @@
+---
+title: "Review: VLA-JEPA"
+created: 2026-06-24
+updated: 2026-06-24
+type: review
+paper: "[[vla-jepa-2026]]"
+---
+
+# 📌 基本信息
+- **论文标题**：VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
+- **作者**：Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen†（USTC/SJTU/Tsinghua 等）
+- **领域**：cs.RO / cs.CV（机器人学习、JEPA、世界模型）
+- **arXiv ID**：2602.10098v2 | 添加时间：2026-06-24
+- **代码**：https://github.com/ginwind/VLA-JEPA/
+
+# 🎯 核心概念
+
+1. **Leakage-Free State Prediction** — 核心设计原则：未来帧仅作监督目标，永不作为模型输入。直接修复 latent-action 预训练中的信息泄漏问题
+2. **Latent World Model** — JEPA 风格的 latent space 世界模型：V-JEPA2 frozen target encoder + autoregressive Transformer predictor，在语义空间预测状态转移
+3. **Latent-Action Pretraining 的四类失败** — 外观偏见、噪声运动放大、信息泄漏、多阶段脆弱性
+4. **JEPA for Robotics** — JEPA 从视频表示学习扩展到 embodied AI 的自然延伸：latent space prediction 天然鲁棒于像素噪声
+
+# 🔗 概念网络
+
+**核心连接**：
+- Leakage-Free State Prediction ↔ Information Leakage（问题 → 修复）
+- Latent World Model ↔ JEPA（架构 → 范式）
+- Appearance Bias ↔ Latent-Action Pretraining（失败模式 → 被修复范式）
+- JEPA for Robotics ↔ World Model (LeCun)（embodied 实例化 → 理论框架）
+
+**复用已有概念**：[[jepa]]、[[vla-vision-language-action]]、[[world-model-lecun]]、[[flow-matching]]
+
+# 📚 Wiki 集成
+- 新增页面：9 个（1 论文 + 7 概念 + 1 Review）
+- 复用已有概念：4 个
+- 总规模：1177 → 1186 页
+
+# 💡 关键洞察
+
+1. **学对目标 > 学更多数据** — VLA-JEPA 用 villa-X 不到 1% 的训练数据超越了它。不是因为模型更大或数据更多，而是因为学对了目标（latent space state transition vs pixel variation）。这与 sz 的 wiki 中 "Harness > SSM > Attention" 的优先级哲学一致：架构设计（消除信息泄漏）的杠杆远大于堆数据。
+
+2. **JEPA 从感知到行动的跨越** — VLA-JEPA 证明了 JEPA 不仅适用于视频表示学习，在需要生成动作的 embodied AI 场景同样有效。关键在于 latent space prediction 对机器人特有的相机/光照扰动天然鲁棒——这不只是更好的表示学习，而是更适合 embodied 场景的架构选择。
--- a/reviews/wan-streamer-2026-06-25.md
+++ b/reviews/wan-streamer-2026-06-25.md
@@ -0,0 +1,50 @@
+---
+title: "Wan-Streamer v0.1 Review"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: [multimodal, real-time, foundation-model, streaming, full-duplex]
+sources:
+  - "[[wan-streamer]]"
+---
+
+# Wan-Streamer v0.1 — Review
+
+📌 **基本信息**
+- 论文：Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
+- 作者：Wan Team, Alibaba Group（24 位作者）
+- 领域：多模态基础模型（cs.CV / cs.AI / cs.GR / cs.SD）
+- arXiv：2606.25041
+- 添加时间：2026-06-25
+
+🎯 **核心概念**
+
+1. **[[block-causal-attention]]** — 块内双向、块间因果的注意力模式，为流式多模态 token 调度设计
+2. **[[full-duplex-interaction]]** — 用户与 Agent 同时感知和表达的全双工交互范式
+3. **[[thinker-performer-pipeline]]** — Thinker（感知+状态更新+解码）和 Performer（flow-matching 去噪）的流水线推理架构
+4. **[[causal-multimodal-vae]]** — 严格因果的音频/视频变分自编码器，支持流式逐帧编码
+5. **[[end-to-end-streaming-interaction]]** — 感知、推理、生成、时机、同步全部联合学习的端到端流式范式
+
+🔗 **概念网络**
+
+- **核心连接**：wan-streamer ↔ block-causal-attention ↔ full-duplex-interaction ↔ thinker-performer-pipeline ↔ causal-multimodal-vae
+- **已有概念桥接**：→ [[flow-matching]]（条件流匹配用于联合音视频生成）→ [[kv-cache]]（Thinker-Performer KV 交换）→ [[diffusion-transformer]]（统一 DiT 骨干）→ [[native-streaming-ar-training]]（原生流式训练）
+- **新增概念**：5 个
+- **更新已有概念**：4 个（flow-matching, kv-cache, diffusion-transformer, native-streaming-ar-training）
+
+📚 **Wiki 集成**
+
+- 新增页面：6 个（1 论文 + 5 概念）
+- 更新已有概念：4 个
+- 链接密度：核心概念平均 5+ 个交叉引用
+- 网络完整：待验证
+
+💡 **关键洞察**
+
+1. **流式是建模约束而非服务优化**：Wan-Streamer 的核心方法论突破在于认识到：为离线编码器、双向解码器、回合制对话设计的系统，无法通过工程手段恢复低延迟全双工行为。流式（streamability）必须从底层架构开始设计——因果 VAE、因果编解码器、block-causal attention 不可事后修补。
+
+2. **单 Transformer 统一音视频交互的可行性验证**：将语言、音频、视频的感知和生成全部放入一个 Transformer，不依赖外部 ASR/TTS/动画模块，在 550ms 端到端延迟下实现自然交互——这证明了"联合学习 > 级联"在真实延迟约束下是可行的。
+
+3. **Thinker-Performer 分离是实用的工程权衡**：虽然训练时是单一模型，推理时拆分为两个 GPU 进程，通过 KV-cache 交换维持统一状态——这在不牺牲模型统一性的前提下，通过流水线重叠实现了 160ms 单元的实时吞吐。
+
+4. **全双工不只是一个 protocol feature**：通过在全双工交互数据上训练（而非规则化的话轮管理），模型学会了中断处理、主动说话、聆听反馈——这些都是级联系列无法通过独立模块学习的行为。