20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/papers/arbor-htr-2026.md
+++ b/papers/arbor-htr-2026.md
@@ -0,0 +1,104 @@
+---
+title: "Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026)"
+created: 2026-06-24
+updated: 2026-06-24
+type: paper
+tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor"]
+sources:
+  - "https://arxiv.org/abs/2606.11926"
+code: "https://github.com/RUC-NLPIR/Arbor"
+---
+
+# Arbor: Autonomous Research via Hypothesis-Tree Refinement
+
+> Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026
+
+## 问题
+
+AI Agent 做自主科研面临三个系统性需求：
+1. **分支且有结构**：多方向必须并存但不能退化为无结构日志
+2. **全局策略 + 局部执行**：战略决策依赖全局证据，但单假设实现是短程工程任务
+3. **探索与 held-out 准入**：dev 反馈引导搜索，但进展只在 transfer 到 test 时才被承认
+
+现有 Agent（Codex, Claude Code）将科研视为局部尝试的序列，缺乏累积机制。
+
+## [[hypothesis-tree-refinement|Hypothesis Tree Refinement (HTR)]]
+
+Arbor 的核心创新：将自主科研的中间状态从"最新产物 + 分数"升级为**持久化的假设树**。
+
+### 树的节点 = ⟨h, ι, µ⟩
+
+| 字段 | 含义 | 作用 |
+|------|------|------|
+| **h (Hypothesis)** | 可验证/可证伪的改进主张 | 粒度随深度细化（根=方向，叶=具体干预） |
+| **ι (Insight)** | 可复用的证据解读 | 紧凑语义记忆，非执行日志 |
+| **µ (Metadata)** | 状态/分数/git ref | 链接到可验证的外部产物 |
+
+### 三种角色合一
+1. **搜索前沿**：记录活跃/验证/剪枝的方向
+2. **长期记忆**：存储成功+失败的复用证据
+3. **可审计记录**：每个产物变更可追溯到动机假设
+
+### Insight Backpropagation
+叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding
+
+## [[coordinator-executor-architecture|Coordinator ↔ Executor 架构]]
+
+```
+Coordinator (持久)              Executor (短生命周期, 隔离 worktree)
+├── 维护全局树                   ├── 接收单个节点
+├── 决定扩展/选择/剪枝/合并      ├── 在隔离环境中物化实现
+├── 传播洞察                    ├── 运行评估
+└── 管理搜索前沿                └── 返回结构化报告 (分数+事实+洞察+产物引用)
+```
+
+关键边界：Executor 不修改共享树、不重定向搜索目标；Coordinator 不直接执行低层实现。
+
+## [[autonomous-optimization-ao|Autonomous Optimization (AO)]]
+
+AO = (M0, O, Edev, Etest) 的形式化任务定义：
+- M0：可变产物（通常为代码库 + 数据）
+- O：改进目标（指标方向）
+- Edev：开发评估器（搜索期间自由使用）
+- Etest：held-out 评估器（仅用于 merge gate）
+
+目标：返回 max Stest(M') 的产物 M⋆，且 Etest 未被用作探索 oracle。
+
+## 关键结果
+
+### 六项真实科研任务
+
+| 任务类型 | Arbor 表现 |
+|---------|-----------|
+| Math Synthesis (AIME) | Test: +6.32% |
+| Harness Engineering (TerminalBench) | Test: +7.55 |
+| BrowseComp | Test: +22.34 |
+| Model Training | Best held-out |
+| Architecture Search | Best held-out |
+
+### 对比
+
+| 方法 | 平均相对 held-out 增益 (归一化) |
+|------|-------------------------------|
+| Codex | 1.0× |
+| Claude Code | 0.8× |
+| **Arbor** | **2.5×** |
+
+### MLE-Bench Lite
+
+GPT-5.5 + Arbor → **86.36%** Any Medal（对比中最强）
+
+### Ablation 关键发现
+
+假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。
+
+## 核心洞察
+
+1. **将研究状态从"最新产物"升级为"搜索树"** — 自主科研的核心瓶颈不是模型能力，而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
+
+2. **Coordinator-Executor 分离** — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
+
+3. **洞察 ≠ 日志** — Insight 是紧凑语义记忆（"轴统计量单独不够；替换 NS 会破坏全矩阵几何"），不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。
+
+## 来源
+[原始存档](raw/papers/arbor-htr-2026.md) | [arXiv](https://arxiv.org/abs/2606.11926) | [GitHub](https://github.com/RUC-NLPIR/Arbor)
--- a/papers/dao-transformers-are-ssms-2024.md
+++ b/papers/dao-transformers-are-ssms-2024.md
@@ -0,0 +1,90 @@
+---
+title: "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+authors:
+  - Tri Dao (Princeton University)
+  - Albert Gu (Carnegie Mellon University)
+source: arXiv
+source_id: 2405.21060
+published: 2024-05-31
+venue: ICML 2024
+categories:
+  - cs.LG
+---
+
+# Transformers are SSMs
+
+> Dao & Gu (2024) — arXiv:2405.21060, **ICML 2024**
+
+## 核心命题
+
+**Transformer 和 SSM 本质上是同一类模型的对偶形式。** 通过 [[semiseparable-matrices|半可分矩阵]] 这一数学桥梁，Dao & Gu 构建了统一框架——[[structured-state-space-duality|结构化状态空间对偶（SSD）]]。
+
+## SSD 框架：三重视角
+
+```
+SSM (线性/循环) ────→ 半可分矩阵 ←──── Attention (二次/并行)
+   O(T) 训练              M_ij 结构          O(T²) 训练
+   常数状态推理                              GPU Tensor Core
+```
+
+两种互补的数学视角：
+1. **矩阵变换视角**：SSM = 参数化矩阵乘法 Y = M·X
+2. **[[tensor-contraction-duality|张量收缩视角]]**：导出 SSM ↔ Attention 的对偶关系
+
+## SSD 层的双重计算
+
+### 循环形式（线性复杂度）
+- [[selective-state-space-models|选择性 SSM]] 的简化：A 从对角阵退化为标量
+- Head 维度 P = 64/128（类似 Transformer）
+
+### 对偶形式（二次复杂度）
+```
+Y = (L ○ QK^T) · V
+L_ij = a_i × ... × a_{j+1}
+```
+- 去掉 Softmax，增加**数据依赖的位置掩码** L
+- L 替代启发式位置编码：a_t 在信息密集处接近 0（重置）
+
+## 核心贡献：[[ssd-algorithm|SSD 算法]]
+
+利用半可分矩阵的**块分解**实现最优权衡：
+- **块内**：矩阵乘法（GPU Tensor Core 优化）
+- **块间**：循环传播（保持线性复杂度）
+
+| 指标 | vs Mamba | vs FlashAttention-2 |
+|------|:--:|:--:|
+| 速度 | **2-8x** | 16K 时 **6x** |
+| 状态大小 | **8x** 支持 | — |
+| 交叉点 | — | 2K 序列 |
+
+## [[mamba-2|Mamba-2 架构]]
+
+基于 SSD 原则设计的新架构：
+- [[head-structure-ssm|GVA Head 结构]]：分组值注意力，介于 MHA 和 MQA 之间
+- **Tensor Parallelism 原生支持**：同步点减半
+- **变长序列训练**：无需 padding
+- **Chinchilla 缩放**：2.7B 参数 → 超越 Pythia-2.8B 和 6.9B
+
+## 概念网络
+
+```
+state-space-models ──→ selective-state-space-models ──→ mamba-ssm
+        ↓                          ↓                         ↓
+semiseparable-matrices ←── structured-state-space-duality ──→ mamba-2
+        ↓                          ↓                         ↓
+structured-masked-attention    tensor-contraction-duality   ssd-algorithm
+        ↓                          ↓                         ↓
+linear-attention              matrix-transformation      head-structure-ssm
+                                                          (GVA/MIS/MVA)
+```
+
+## 影响力
+
+这是连接 SSM 和 Attention 两大范式的**里程碑工作**（ICML 2024）。不仅在理论上统一了两者，更展示了"理论→工程"的直接转化——SSD 算法让 SSM 能用上 Transformer 生态积累的硬件优化（Tensor Core, TP, FlashAttention 模式），推动了 Mamba-2 实现 2-8x 的加速。
+
+## 来源
+
+[arXiv:2405.21060](https://arxiv.org/abs/2405.21060) | [代码: state-spaces/mamba](https://github.com/state-spaces/mamba) | [原始存档](raw/papers/dao-transformers-are-ssms-2024.md)
--- a/papers/engram-conditional-memory-2026.md
+++ b/papers/engram-conditional-memory-2026.md
@@ -0,0 +1,89 @@
+---
+title: "Engram: Conditional Memory via Scalable Lookup (Cheng et al., PKU/DeepSeek-AI, 2026)"
+created: 2026-06-25
+updated: 2026-06-25
+type: paper
+tags: ["conditional-memory", "sparsity", "ngram", "mixture-of-experts", "scaling-law"]
+sources:
+  - "https://arxiv.org/abs/2601.07372"
+code: "https://github.com/deepseek-ai/Engram"
+---
+
+# Engram: Conditional Memory via Scalable Lookup
+
+> Cheng et al. | Peking University / DeepSeek-AI | arXiv:2601.07372 | Jan 2026
+
+## 问题
+
+[[mixture-of-experts|MoE]] 通过条件计算扩展容量，但 Transformer **缺少原生的知识查找原语**——它被迫用计算来模拟检索。语言建模包含两类性质不同的子任务：组合推理（需要深层动态计算）和知识检索（大量文本模式是局部的、静态的、高度模板化的）。经典 N-gram 模型在捕获局部依赖上的有效性说明这些规律天然适合廉价查找，但现有 LLM 用昂贵的 Transformer 层去重建静态查找表。
+
+## 核心思想：[[conditional-memory|Conditional Memory]]
+
+提出 **条件记忆** 作为条件计算（MoE）的互补稀疏轴：
+
+| 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) |
+|------|------|------|
+| 激活方式 | 稀疏激活参数处理动态逻辑 | 稀疏查找检索静态嵌入 |
+| 开销 | 随专家数增长 | O(1) 常数查找 |
+| 适用 | 组合推理、动态上下文 | 命名实体、公式化模式、局部依赖 |
+
+## [[engram|Engram 模块]]
+
+Engram 将经典 [[ngram-embedding|N-gram 嵌入]] 现代化为 Transformer 的条件记忆模块：
+
+### 1. Tokenizer Compression（词表压缩）
+预计算满射函数 P: V → V'，基于 NFKC 归一化+小写化将原始 token ID 映射到规范 ID，实现 23% 的有效词表缩减。
+
+### 2. Multi-Head Hashing（多头哈希）
+每个 N-gram 阶数 n 用 K 个独立哈希头，通过乘性 XOR 哈希将压缩上下文映射到嵌入表 E_{n,k}（素数大小），拼接所有检索向量为最终记忆向量 e_t。
+
+### 3. Context-aware Gating（上下文感知门控）
+检索到的静态嵌入 e_t 缺乏上下文适应性。用当前隐藏状态 h_t 作为动态 Query，e_t 为 Key/Value，通过标量门控 α_t = σ(Q·K^T/√d) 抑制与上下文矛盾的记忆噪声。
+
+### 4. Depthwise Causal Convolution
+对门控后的值序列应用短深度可分离因果卷积（kernel=4, dilation=max N-gram order, SiLU），扩展感受野。
+
+### 集成方式
+Engram 以残差连接插入特定 Transformer 层：H ← H + Y，后跟标准 Attention 和 MoE。**并非所有层都加**——由系统延迟约束决定。
+
+## [[sparsity-allocation|Sparsity Allocation]]：U 形缩放律
+
+定义分配比 ρ ∈ [0,1]：MoE 占非活动参数的比例。实验结果：
+
+- **U 形关系**：纯 MoE (ρ=1) 和纯 Engram (ρ=0) 都不如混合
+- **最优 ρ ≈ 75-80%**：将约 20-25% 的稀疏参数预算重分配给 Engram 效果最佳
+- **稳定性**：最优分配比在不同计算规模下保持一致
+- **无限内存扩展**：Engram 槽数扩大遵循严格幂律，提供可预测的扩展旋钮
+
+## 关键结果
+
+**全部 iso-parameter & iso-FLOPs**：Engram-27B vs MoE-27B vs Dense-4B，激活参数均为 3.8B。
+
+| 领域 | 基准 | Engram 增益 |
+|------|------|-----------|
+| 知识 | MMLU | +3.4 |
+| 知识 | CMMLU | +4.0 |
+| 推理 | BBH | **+5.0** |
+| 推理 | ARC-Challenge | +3.7 |
+| 推理 | DROP | +3.3 |
+| 代码 | HumanEval | +3.0 |
+| 数学 | MATH | +2.4 |
+
+**长上下文**：Multi-Query NIAH 97.0 vs 84.2 (MoE)，Variable Tracking 89.0 vs 77.0。
+
+## 机理解释
+
+1. **释放早期层**：LogitLens + CKA 分析表明 Engram 解脱了 backbone 早期层对静态知识的重建负担，有效加深了可用于复杂推理的网络深度
+2. **释放注意力容量**：局部依赖被委托给查找，注意力聚焦全局上下文，长上下文检索大幅提升
+3. **基础设施感知效率**：[[memory-compute-decoupling|确定性寻址]] 支持运行时从主机内存预取，100B 嵌入表卸载开销 <3%
+
+## 核心洞察
+
+1. **条件记忆是 MoE 的必然互补**——语言信号的异质性意味着单一稀疏轴不够。N-gram 嵌入这个看似简单的静态机制，当被当作一等建模原语对待时，能产生超越纯 MoE 的增益。
+
+2. **内存≠冗余**——Engram 的最大收益不在知识密集型任务（那只是直觉预期），而在推理和编码任务。因为它不是"存更多事实"，而是"释放计算深度用于推理"。
+
+3. **U 形律揭示了一个深层结构事实**：在给定的总参数预算下，计算和记忆之间存在一个确定的最优比例，该比例在不同规模下稳定。
+
+## 来源
+[原始存档](raw/papers/engram-conditional-memory-2026.md) | [arXiv](https://arxiv.org/abs/2601.07372) | [GitHub](https://github.com/deepseek-ai/Engram)
--- a/papers/fei-mcp-zero-2025.md
+++ b/papers/fei-mcp-zero-2025.md
@@ -0,0 +1,71 @@
+---
+title: "MCP-Zero：主动工具发现"
+created: 2026-06-19
+updated: 2026-06-19
+type: paper
+tags: [active-tool-discovery, mcp, llm-agents, tool-use, semantic-routing, context-efficiency]
+sources:
+  - https://arxiv.org/abs/2506.01056
+  - https://github.com/xfey/MCP-Zero
+---
+
+# MCP-Zero：主动工具发现
+
+> **Xiang Fei, Xiawu Zheng, Hao Feng** (厦大/中科大) · 2025 · arXiv:2506.01056
+
+## 核心问题
+
+当前 LLM Agent 的工具使用范式本质上是**被动的**——将所有 tool schema 注入 context，让模型从预定义选项中挑选。两个致命后果：
+
+1. **上下文膨胀**：单个 GitHub MCP server 4600+ tokens，全 MCP 生态 248K tokens
+2. **自主权剥夺**：模型从"自主能力构建者"退化为"被动选择器"
+
+## 核心策略：主动工具发现
+
+> **从"给你所有工具自己挑"翻转为"告诉我你需要什么，我来找"。**
+
+```
+被动范式：  所有 tool schema → Context → LLM 选择
+主动范式：  LLM 生成 <tool_request> → 语义匹配 → 返回精确工具
+```
+
+## 三大机制
+
+### 1. [[active-tool-request|Active Tool Request]]
+模型自主生成结构化请求，指定 server（平台/权限域）和 tool（操作类型+目标），请求在工具文档的语义空间中——对齐度天然优于原始用户查询。
+
+### 2. [[hierarchical-semantic-routing|Hierarchical Semantic Routing]]
+两级检索：先匹配 server（含增强摘要），再在选中 server 内排序 tool。复杂度 O(n)→O(m+k)，m+k ≪ n。
+
+### 3. [[iterative-capability-extension|Iterative Capability Extension]]
+多轮迭代构建跨域 toolchain：读文件→编辑代码→执行验证。工具不足时自主优化请求重新检索，天然容错。
+
+## 关键数据
+
+| 指标 | 数值 |
+|------|------|
+| MCP-tools 数据集 | 308 servers, 2,797 tools |
+| APIBank token 节省 | **-98%** |
+| 搜索空间 | 248.1K tokens |
+| 准确率 | 保持高准确率 |
+
+## 理论贡献
+
+- 主动发现建模为 **active learning**：r* = arg max I(T*; r|s_t)
+- 语义对齐优势：cos(e_r, e_t) > cos(e_q, e_t)，agent 请求在工具描述空间中
+- 注意力效率：被动 O(1/n) → 主动 O(1/k)
+
+## 与 Agent Harness 的关联
+
+MCP-Zero 直接解决了 [[agent-skill|Agent Skills]] 框架中"操作维度"的工具发现问题：不是预加载 300 个 tool schema，而是让 Agent 在运行时按需请求。这与 [[skill-retrieval|Skill Retrieval]] 的"检索而非全加载"思路一脉相承。
+
+## 关键概念
+
+- [[active-tool-discovery|主动工具发现]] — 范式转变
+- [[active-tool-request|Active Tool Request]] — 结构化请求机制
+- [[hierarchical-semantic-routing|层次语义路由]] — 两级匹配
+- [[iterative-capability-extension|迭代能力扩展]] — 跨域 toolchain
+- [[mcp-protocol|MCP 协议]] — 标准化工具接口
+- [[mcp-tools-dataset|MCP-tools 数据集]]
+
+来源：[原始存档](raw/papers/fei-mcp-zero-2025.md)
--- a/papers/gan-bifurcation-eos.md
+++ b/papers/gan-bifurcation-eos.md
@@ -0,0 +1,73 @@
+---
+title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability"
+created: 2026-06-23
+updated: 2026-06-23
+type: paper
+arxiv: "2606.15551v1"
+category: cs.LG
+author: "Eric Gan"
+venue: Preprint
+tags: [EoS, bifurcation-theory, gradient-descent, optimization, overparameterization, loss-landscape]
+---
+
+# 分岔理论框架下的梯度下降稳定边缘分析
+
+> Eric Gan, arXiv:2606.15551v1, 2026
+
+## 摘要
+
+Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个**分岔理论框架**，直接适用于过参数化神经网络：将训练动力学沿极小值流形 M 分解为法向和切向分量，揭示 EoS 稳定性源自法向的 **flip 分岔**（由第一 Lyapunov 系数 c₁ 控制），同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下，证明了在 EoS 阈值处（η = 2/λ_max(x*)）收敛到极小值流形。
+
+## 核心问题
+
+以往严格的 EoS 分析（Zhu et al., Wang et al., Song & Yun, Gan 2026）局限于低维、结构特殊的损失函数，无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——[[manifold-of-minimizers|极小值流形]]（连续全局极小集）带来的 Hessian 秩亏。
+
+## 方法论：法向-切向分解
+
+在极小值流形 M 上的任意点 x* 处：
+
+1. **法向动力学**：经历 [[flip-bifurcation|flip 分岔]]（Jacobian 临界特征值 λ = -1），稳定性由 [[first-lyapunov-coefficient|第一 Lyapunov 系数 c₁]] 决定
+   - c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道
+   - c₁ < 0 → 亚临界分岔 → 发散
+
+2. **切向动力学**：两步迭代沿 M 漂移，方向为 **sharpness 梯度** 的反方向：
+   ```
+   Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]²
+   ```
+   这意味着 [[sharpness]] 沿训练**单调递减**
+
+借助 [[center-manifold-theorem|中心流形定理]]，高维动力学可约化到低维临界子空间。
+
+## 核心结论：Theorem 4.4
+
+在以下条件下（对所有 x* ∈ M）：
+1. **c₁(x*) > 0**（超临界分岔 —— 早期实证表明 MLP 满足此条件）
+2. **Π_T ∇³L(x*)[v_max]² ≠ 0**（切向漂移非退化）
+
+梯度下降以 η = 2/λ_max(x*) 从 x* 的邻域初始化时，**收敛到极小值流形 M**。
+
+## 与乘积稳定性的统一
+
+本文的第 5 节证明 [[product-stability|Gan (2026) 乘积稳定性]] 是本框架的特例：对于 L(x,y) = f(xy) 形式的损失，第一 Lyapunov 系数 c₁ 由 α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导。这建立了极简标量分析与一般分岔框架之间的直接桥梁。
+
+## 开放问题
+
+- 为什么实际网络的极小值处 c₁ > 0？尚无第一性原理解释
+- Progressive Sharpening 的底层机制仍待解决
+- SGD 噪声下的推广
+
+## 相关概念
+
+- [[edge-of-stability|Edge of Stability]]
+- [[flip-bifurcation|Flip 分岔]]
+- [[first-lyapunov-coefficient|第一 Lyapunov 系数]]
+- [[manifold-of-minimizers|极小值流形]]
+- [[normal-tangent-decomposition|法向-切向分解]]
+- [[sharpness|Sharpness]]
+- [[product-stability|乘积稳定性]]
+- [[center-manifold-theorem|中心流形定理]]
+
+## 来源
+
+[arXiv:2606.15551](https://arxiv.org/abs/2606.15551)
+[原始存档](raw/papers/gan-bifurcation-eos-2026.md)
--- a/papers/gan-thinking-based-non-thinking-2026.md
+++ b/papers/gan-thinking-based-non-thinking-2026.md
@@ -0,0 +1,90 @@
+---
+title: "Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+authors:
+  - Siyuan Gan (Nanjing University)
+  - Jiaheng Liu (Nanjing University)
+  - Boyan Wang (Nanjing University)
+  - Tianpei Yang (Nanjing University)
+  - Runqing Miao (Jiutian Research)
+  - Yuyao Zhang (Jiutian Research)
+  - Fanyu Meng (Jiutian Research)
+  - Junlan Feng (Jiutian Research)
+  - Linjian Meng (Shanghai AI Laboratory)
+  - Jing Huo (Nanjing University)
+  - Yang Gao (Nanjing University)
+source: arXiv
+source_id: 2601.04805
+published: 2026-01-08
+categories:
+  - cs.AI
+---
+
+# Thinking-Based Non-Thinking (TNT)
+
+> Gan et al. (2026) — arXiv:2601.04805
+
+## 核心问题
+
+用 RL 训练[[hybrid-reasoning-models|混合推理模型]]（自动决定思考/非思考）时，模型会 **Reward Hacking**：在非思考格式中嵌入思考内容，获取不应得的更高奖励。现有方案或计算成本过高（大规模 SFT），或效果有限（统一 token 上限）。
+
+## TNT 的核心思路
+
+**以思考定非思考**：利用思考模式响应的 solution 部分长度，为**每个查询动态设定**非思考模式的 token 上限。
+
+### 为什么这可行
+
+[[large-reasoning-models|LRM]] 的思考模式训练确保 `</think>` 之后的 solution **不含额外思考**——与真正的非思考模式输出高度一致。因此 thinking solution 长度是 non-thinking 自然长度的可靠估计。
+
+### 算法
+
+```
+对每个查询 x：
+  1. 采样 K 个响应（用省略号提示）
+  2. 从思考模式响应集 M_T^x 计算平均 solution 长度
+  3. L_N^x = ω × avg(h(y)) — 动态上限（ω=2）
+  4. 非思考响应超过 L_N^x → Reward Hacking → -2 惩罚
+```
+
+## 奖励函数设计
+
+| 模式 | 正确 | 错误 |
+|------|:--:|:--:|
+| 思考模式 | +1 | 0 |
+| 非思考 + 无 hacking | **+2** | -1 |
+| 非思考 + Reward Hacking | **-2** | **-2** |
+
+核心：**超过 token 上限一律 -2**——无论对错，强力抑制 hacking。
+
+## 实验亮点
+
+| 指标 | TNT vs Base |
+|------|------------|
+| Token 使用 | **↓ ~50%** |
+| 准确率 | **↑ 4.1%** |
+| Reward Hacking 率 | **< 10%** |
+| 效率权衡 | **最优**（所有方法中） |
+
+5 个数学基准测试：AIME24, AIME25, Minerva, AMC23, Olympiad。基础模型：DeepSeek-R1-Distill-Qwen-1.5B/7B, DeepScaleR-1.5B。
+
+## 概念网络
+
+```
+overthinking → hybrid-reasoning-models → reward-hacking
+     ↓                    ↓                     ↓
+large-reasoning-models   thinking-mode    dynamic-token-limit
+                         non-thinking-mode     ↓
+                         ellipsis-prompt  thinking-based-non-thinking (TNT)
+                                               ↓
+                                    token-level-policy-gradient → GRPO
+```
+
+## 兼容性
+
+TNT 只关注 token 上限设定，与 RL 算法解耦：GRPO, PPO, DAPO, Dr.GRPO, GSPO 均可使用。也可与 CoT Compression、Batch-Level Reward Balancing、Length-Aware Reward 等技术组合。
+
+## 来源
+
+[arXiv:2601.04805](https://arxiv.org/abs/2601.04805) | [原始存档](raw/papers/gan-thinking-based-non-thinking-2026.md)
--- a/papers/gaurav-dynamic-react-2025.md
+++ b/papers/gaurav-dynamic-react-2025.md
@@ -0,0 +1,74 @@
+---
+title: "Dynamic ReAct：大规模 MCP 工具选择"
+created: 2026-06-19
+updated: 2026-06-19
+type: paper
+tags: [dynamic-tool-selection, mcp, react-agent, meta-tools, tool-retrieval]
+sources:
+  - https://arxiv.org/abs/2509.20386
+---
+
+# Dynamic ReAct：大规模 MCP 工具选择
+
+> **Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj** · 2025 · arXiv:2509.20386
+
+## 核心问题
+
+MCP 生态增长到数百/数千工具时，ReAct Agent 无法全量加载——上下文有限。需要**按需的动态工具选择**。
+
+## 五架构渐进演化
+
+| # | 架构 | 核心机制 | 关键问题 |
+|---|------|---------|---------|
+| 1 | Direct Semantic Search | 用户查询→向量库→top-k | 噪声严重，跨域失效 |
+| 2 | Meta-Tool Query Construction | LLM 构造原子搜索查询 | 仍需大 k，精度有限 |
+| 3 | **Search and Load** ★ | search_tools + load_tools | **最优平衡** |
+| 4 | Application-Aware | 先搜 app 再搜 tool | 额外调用收益有限 |
+| 5 | Fixed Tool Set | 固定 meta-tool 动态访问 | 长对话退化 |
+
+### ★ Search and Load（生产选择）
+
+```
+用户查询 → LLM构造多查询 → search_tools(k1=20, k2=5/每应用)
+  → 去重返回 → LLM精选 → load_tools(< 5个工具) → 执行
+```
+
+优势：
+- 多查询合并一次 `search_tools` 调用
+- 去重 + 每应用上限 k2=5 控制候选规模
+- LLM 精选后通常**加载不到 5 个**工具（vs baseline 的 10+）
+- 工具加载减少 **50%**，准确率保持
+
+## [[context-enriched-embeddings|上下文增强嵌入]]
+
+从 baseline 的 Top-5 40% → 60%（+50% 相对提升）：
+
+- Sonnet 4 生成增强描述（隐式功能 + 用例）
+- voyage-context-3 嵌入 + Sonnet context
+- BM25 混合提升 recall 但降 precision（关键词误匹配）
+
+## [[meta-tools|Meta-Tool 设计]]
+
+四个核心 meta-tool：
+- **search_tools**：两级搜索（k1 候选 → 去重 → k2 每应用上限）
+- **load_tools**：LLM 精选后显式加载
+- **search_apps**：先定位应用（可选，收益有限）
+- **get_tool_info / call_tool**：Fixed Tool Set 模式的动态访问
+
+## [[default-tools|Default Tools]]
+
+**create_table** + **web_search** 始终可用——避免为通用任务浪费搜索（如 LLM 搜索 "financial APIs" 来找财报，有了 web_search 直接搜即可）。
+
+## 与 MCP-Zero 的对比
+
+| | Dynamic ReAct | [[fei-mcp-zero-2025|MCP-Zero]] |
+|---|---|---|
+| 核心机制 | meta-tool + 语义搜索 | Agent 主动请求 + 层次路由 |
+| 工具加载 | search→load 两阶段 | 请求→路由→注入 |
+| 向量策略 | context-enriched embeddings | OpenAI text-embedding-3-large |
+| 多轮 | ReAct 框架内迭代 | Iterative Capability Extension |
+| 共性 | 都追求"按需而非全量" | 都反对被动注入 |
+
+Dynamic ReAct 论文直接引用了 MCP-Zero（ref [2]）——两篇构成 MCP 工具选择的互补视角。
+
+来源：[原始存档](raw/papers/gaurav-dynamic-react-2025.md)
--- a/papers/gu-mamba.md
+++ b/papers/gu-mamba.md
@@ -0,0 +1,95 @@
+---
+title: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+tags: ["state-space-models", "linear-complexity", "sequence-modeling", "architecture"]
+sources: ["https://arxiv.org/abs/2312.00752"]
+---
+
+# Mamba：选择性状态空间的线性时间序列建模
+
+## 核心问题
+
+[[state-space-models|状态空间模型（SSM）]]作为 Transformer 的线性复杂度替代方案，在连续信号（音频、视觉）上表现出色，但在离散信息密集数据（如文本）上从未达到 Transformer 质量。Gu & Dao (2024) 识别出根本原因：**缺乏内容感知推理**——传统 SSM 的动力学是时间不变的（LTI），每个 token 的处理规则完全相同，无法选择性关注或忽略信息。
+
+## 核心贡献：选择机制（S6）
+
+Mamba 的关键创新是将 SSM 从 **LTI（线性时间不变）升级为选择性（Selective）**：
+
+```
+S4 (LTI):    B, C, Δ 对所有时间步固定 → 卷积 OR 循环
+S6 (Selective): B_t, C_t, Δ_t 是输入 x_t 的函数 → 仅循环 (需 scan)
+```
+
+### 算法对比（核心直觉）
+
+| 算法 | B | C | Δ | 性质 |
+|------|---|---|---|------|
+| S4 | Parameter (D, N) | Parameter (D, N) | τ(Parameter) | LTI, 可用卷积 |
+| **S6** | s_B(x_t): (B, L, N) | s_C(x_t): (B, L, N) | τ(Δ + s_Δ(x_t)) | **时间变化**, 需 scan |
+
+效果：S6 模型能**根据当前 token 内容**决定是传播还是遗忘信息——这就是选择性。
+
+### 为什么这很重要
+
+在 [[selective-copy|选择复制]]任务中，传统 LTI 模型只能在 token 间距固定时成功（只需时间感知，不需内容感知）。一旦间距随机变化，只有能"看到内容再决定是否记住"的模型才能胜任。Mamba 的选择机制天然支持这种内容感知。
+
+## 第二个创新：硬件感知算法
+
+选择机制带来了计算挑战：时间变化的 SSM **不能再用卷积**（卷积要求 LTI）。Mamba 通过以下方式解决：
+
+1. **并行关联扫描（parallel associative scan / Blelloch scan）**：将循环更新展开为前缀和操作，可在 GPU 上并行
+2. **IO 感知的 kernel fusion**：在 SRAM 中完成 scan 和离散化，避免将扩展状态写入 HBM
+3. **重计算（recomputation）**：反向传播时不保留中间状态，直接重算
+
+这三个技巧使 Mamba 比所有卷积 SSM 快 **3×**（A100 GPU）。
+
+## 架构：极简设计
+
+Mamba block 结构：
+
+```
+x → LayerNorm
+  → Linear(d → 2d) → Conv1d → SiLU  [门控分支]
+  → Linear(d → 2d_N) → SSM(S6)       [SSM 分支]
+  → 逐元素乘法 → Linear(2d → d)
+  → + x (残差)
+```
+
+关键设计哲学：
+- **无注意力、无 MLP**：单一块类型统管整个模型
+- **扩展比 E=2**：计算量可控
+- **同质架构**：所有层结构相同，仅参数不同
+
+与 H3 的关系：H3 使用两个 LTI SSM + 门控，Mamba 将门控 SSM 融合为单一选择性 SSM。
+
+## 实验结果总结
+
+| 模态 | 结果 |
+|------|------|
+| 语言 | Mamba-3B > Pythia-3B，匹敌 Pythia-7B；5× 推理吞吐 |
+| 合成任务 | Selective Copying + Induction Heads 外推至 >1M tokens |
+| 音频 | SC09 语音生成 FID 降低 >50% |
+| 基因组学 | >HyenaDNA，>Transformer |
+
+## 关键概念网络
+
+- [[selective-state-space]] — S6 选择机制
+- [[hardware-aware-algorithm]] — GPU 优化并行 scan
+- [[structured-state-space-models]] — S4 前身
+- [[content-based-reasoning]] — Mamba 解决的 LTI 弱点
+- [[selective-copy]] — 动机合成任务
+- [[induction-heads]] — LLM 关键机制
+- [[hippo]] — SSM 数学基础
+- [[mamba-ssm]] — 概念主页（已有，需更新）
+- [[state-space-models]] — SSM 家族总览（已有）
+
+## 代码
+
+https://github.com/state-spaces/mamba
+
+## 来源
+
+- [arXiv:2312.00752](https://arxiv.org/abs/2312.00752)
+- [原始存档](raw/papers/gu-mamba-2024.md)
--- a/papers/hazare-dcgwm-2026.md
+++ b/papers/hazare-dcgwm-2026.md
@@ -0,0 +1,105 @@
+---
+title: "DCGWM: 双通道接地世界建模 — 结构防止目标干扰坍缩"
+created: 2026-06-23
+updated: 2026-06-23
+type: paper
+tags: ["world-modeling", "jepa", "representation-learning", "collapse-prevention", "gradient-interference"]
+authors: ["Akshay Hazare"]
+venue: "arXiv"
+year: 2026
+arxiv: "2606.18688"
+note: "Position paper. Experimental validation in progress."
+sources: ["https://arxiv.org/abs/2606.18688v1"]
+---
+
+# DCGWM: Dual-Channel Grounded World Modeling
+
+> Akshay Hazare · arXiv:2606.18688 · 2026 · Position paper (experimental validation ongoing)
+
+## 核心问题
+
+[[jepa|JEPA]] 是世界模型表示学习的前沿方法。但当一个 JEPA 需要同时接地两个**定性不同的外部信号**时——物理动力学（稀疏、高幅值、满足约束的梯度修正）和社交行为动力学（弥散、分布匹配的梯度修正）——会发生什么？
+
+Hazare 识别出这一设定下的一种新失效模式：**[[objective-interference-collapse|Objective Interference Collapse (OIC)]]**——在共享潜在空间中联合学习时，主导通道系统性地坍缩从属通道的表示子空间。损失权重**无法解决**此问题，因为冲突是几何的而非量级的。
+
+## 方法论贡献
+
+### 1. OIC 的形式化
+
+物理梯度 g_p 是低熵的（集中在特定维度，高幅值），行为梯度 g_b 是高熵的（弥散在多个维度，低幅值）。联合更新 ∝ g_p + g_b 导致：
+- 物理主导时 → Z → Z_p*，物理损失 → 0
+- 行为梯度在 Z_p* 处非零 → 行为更新扰动物理子空间
+- 下一轮物理修正覆盖行为结构 → 行为子空间永远无法形成稳定满秩
+
+标量重加权（α·g_p + β·g_b）改变幅度但不改变冲突的**几何结构**。
+
+### 2. DCGWM 架构
+
+核心设计：**分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流**
+
+```
+物理测量 → PGC [内向∇] → Z_p ┐
+                              ├→ LWME → detach() → GRL → 用户
+社交模拟 → SBGC [内向∇] → Z_b ┘
+```
+
+**四个架构不变量**：
+1. **Inv1**: Z_p 和 Z_b 无共享参数，无直接梯度路径
+2. **Inv2**: PGC 梯度仅更新 W_p；SBGC 梯度仅更新 W_b
+3. **Inv3**: 接口模块不传播跨子空间梯度
+4. **Inv4**: GRL 接收 detach() 的潜在表示，生成损失不回流
+
+**物理接地通道 (PGC)**：通过 [[vicreg|VICReg]] 风格对齐将物理测量映射到 Z_p，使用方差/协方差正则化维持子空间满秩。
+
+**行为接地通道 (SBGC)**：将紧急性多智能体模拟的输出作为外部接地信号注入 Z_b——行为分布来自 N 个交互智能体的群体级紧急性轨迹，不可约化为单模型预测。
+
+**接口模块**：通过一致性 + 解耦的双目标（无跨子空间梯度）捕获物理-行为相关性。
+
+### 3. Asymmetric Grounding Adherence Loss (L_AGA)
+
+[[rollout-drift|Rollout drift]] 是多步潜在预测累积误差导致轨迹偏离接地流形的失效模式。[[asymmetric-grounding-adherence-loss|L_AGA]] 是首个针对异质接地源、具有不兼容容忍结构的 drift 防止损失：
+
+- **物理 Adherence**：平方铰链惩罚 `max(0, d_p − ε_p)²`——物理定律是硬约束，超过容忍阈值即范畴错误
+- **行为 Adherence**：软 KL 散度 `KL(q_b ∥ p_b)`——行为随机性是预期的，与分布距离成比例的连续惩罚
+
+不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容。
+
+### 4. Isolation Necessity Theorem
+
+[[isolation-necessity-theorem|隔离必要性定理]]：设 L_gen 为任何奖励保留高频感知统计的生成目标，L_pred 为奖励丢弃不可预测高频内容的 JEPA 预测目标。若 LWME 在 L_pred 下有唯一最优点 Z*，且 Z* 位于 L_gen 在高频子空间中的鞍点，则对任何 α > 0，梯度优化将驱动 Z 偏离 Z*。
+
+→ 唯一解决方案是架构隔离（α = 0）：GRL 在 LWME 参数冻结的单独优化阶段训练。
+
+### 5. 对 LLM 世界建模的结构性批判
+
+DCGWM 不仅是新架构提议——它阐明了一个关于 LLM 作为世界模型的结构性论证：
+
+- **NTP 诱导的子空间坍缩**（Zhao et al., 2024）：NTP 隐式求解秩约束优化，相同下一 token 支持集的上下文表示收敛到近共线方向
+- **RLHF 复合而非修复**：RLHF 在已坍缩的表示上操作，进一步压缩有效秩
+- **缩放使问题更严重**：更大模型更完全地最小化 NTP 损失 → 更完全地坍缩
+
+DCGWM 通过用 JEPA 掩码预测替代 NTP 目标来规避这些——不是修复 LLM，而是从根本上使用不同的训练目标。
+
+## 局限性与开放问题
+
+Hazare 精确陈述了局限——不做最小化：
+
+1. **零经验验证**：所有声明是理论或结构性的；实验验证进行中
+2. **OIC 是猜想**：论证是直觉的，未包含自适应优化器、批量归一化动力学等
+3. **隔离必要性依赖未证明假设 A2**：Z* 在 L_gen 高频子空间中是鞍点的假设
+4. **接口收敛未证明**：L_I 是否有稳定均衡未知
+5. **行为编码器保真度未验证**：enc_b 是否能忠实地映射群体紧急性轨迹未知
+
+## 参考
+
+- [原始存档](raw/papers/hazare-dcgwm-2026.md)
+- [[jepa|JEPA]]
+- [[objective-interference-collapse|Objective Interference Collapse]]
+- [[dcgwm|DCGWM]]
+- [[inward-only-gradient-flow|Inward-Only Gradient Flow]]
+- [[asymmetric-grounding-adherence-loss|L_AGA]]
+- [[rollout-drift|Rollout Drift]]
+- [[isolation-necessity-theorem|Isolation Necessity]]
+- [[vicreg|VICReg]]
+- [[world-models-rl|World Models]]
+- [[representation-collapse|Representation Collapse]]
--- a/papers/jordan-collectivist-ai-2025.md
+++ b/papers/jordan-collectivist-ai-2025.md
@@ -0,0 +1,56 @@
+---
+title: "AI 的集体主义经济学视角（Jordan, 2025）"
+created: 2026-06-21
+updated: 2026-06-21
+type: paper
+tags:
+  - ai-economics
+  - collective-intelligence
+  - uncertainty
+  - mechanism-design
+sources:
+  - arXiv:2507.06268
+  - MLST 2026
+---
+
+# AI 的集体主义经济学视角
+
+> Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268v3 (cs.CY/cs.AI/stat.ML), 2025.
+
+## 核心主张
+
+LLM 不仅是"接近人类的智能体"——它们同样是**集体主义制品**：每次交互都在与数十亿贡献微数据的个体进行隐式对话。"AI 匹敌的隐喻不是搜索引擎或聊天机器人，而是**市场**。"
+
+## 三种思维方式
+
+论文提出了计算、推断、经济三种思维方式的深度融合框架。详见 [[collectivist-ai|集体主义 AI]]。
+
+## 核心案例
+
+| 案例 | 章节 | 核心概念 |
+|------|------|---------|
+| 数据库推断设计 | §2 | 从描述到推断——对"新患者"而非"旧数据"做预测 |
+| 统计合同理论 | §3 | [[statistical-contract-theory]] + [[e-values|E-values]] |
+| 三层数据市场 | §4.2 | [[data-markets|数据市场]]的隐私-收入权衡 |
+| 基础模型前沿偏倚 | §4.3 | [[prediction-driven-inference|PPI]] 纠正 [[foundation-model-frontier-bias]] |
+| 概率匹配 | App.C | [[probability-matching|概率匹配]]作为种群纳什均衡 |
+
+## 数学亮点
+
+**E-values 与激励相容**：Bates et al. (2024) 证明统计合同激励相容 ⇔ 选项可表达为 E-values。E-value 是非负上鞅，在零假设下期望 ≤1，本质是"证据随时间的累积"——将推断概念与经济概念等价关联。
+
+**概率匹配作为纳什均衡**：小鼠在 2:1 食物比下以 2/3 vs 1/3 概率选择左右——这不是次优行为，而是种群层面的纳什均衡，避免资源浪费。
+
+## 教育实践
+
+UC Berkeley **Data 8** 课程（2015 年起，每学期 1500+ 学生），融合计算思维（Python 编程）+ 推断思维（置换检验），让学生用算法回答真实世界问题。
+
+## 论文定位
+
+这是一篇**立场论文（position paper）**，非技术贡献型。Jordan 的核心动作不是提出新算法，而是**重新定义 AI 的学科边界**——主张将经济与推断原则融入算法设计的 DNA。这与 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]] 中的论点完全一致，论文提供了更系统的学术展开。
+
+## 参考文献
+
+- Bates et al. (2024). Principal-Agent Hypothesis Testing. arXiv:2205.06812
+- Angelopoulos et al. (2023). Prediction-Powered Inference. *Science* 383, 669–674
+- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697
--- a/papers/large-language-gibbs.md
+++ b/papers/large-language-gibbs.md
@@ -0,0 +1,87 @@
+---
+title: "Structured Inference with Large Language Gibbs"
+created: 2026-06-25
+updated: 2026-06-25
+type: paper
+tags: [mcmc, gibbs-sampling, llm, probabilistic-inference, bayesian, structure-learning, reasoning]
+sources:
+  - https://arxiv.org/abs/2606.19264
+  - https://github.com/hyeok9855/large-language-gibbs
+---
+
+# Large Language Gibbs
+
+**Large Language Gibbs** 是由 Edinburgh 团队（Choi, Gouk, Whitammer）提出的结构化概率推断框架。核心创新在于：**将 LLM 的条件分布作为 Gibbs 采样的转移算子**，通过迭代重采样消除自回归生成的顺序偏差，实现更可靠的联合分布采样。
+
+## 核心方法论
+
+### 1. Gibbs 采样与 LLM 条件分布
+
+标准 Gibbs 采样从联合分布中采样：随机选择变量 i，从 p(X_i | X_{-i}) 重采样。Large Language Gibbs 用 LLM 的 next-token conditional 近似这些单变量条件分布：
+
+```
+q_i^LM(X_i | X_{-i}) = E_{σ_{-i}}[p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i])]
+```
+
+**关键设计**：每次重采样前将其他变量**随机排列**（random permutation），消除固定序列顺序的偏差。
+
+### 2. 稳态分布 q^sym
+
+论文证明了链的稳态分布为：
+
+```
+q^sym(X) = E_σ[p^LM(seq(X, σ))]
+```
+
+即：对所有变量排列下 LLM 似然的期望。当 LLM 满足排列不变性假设时，q^sym 的各单变量条件与 LLM 的条件分布一致。即使假设不完全成立，随机排列也显著降低了顺序偏差。
+
+### 3. 三类核变体
+
+| 核 | 机制 | 优势 |
+|----|------|------|
+| **Basic Gibbs** | 直接从 LLM 的条件分布采样 | 最直接 |
+| **[[barker-gibbs|Barker Gibbs]]** | LLM 在 current 和 candidate 之间做偏好比较，Barker 规则决定接受率 | 利用判别能力，克服 base model 采样偏差 |
+| **[[gambling-gibbs|Gambling Gibbs]]** | LLM 判断是否愿意对 candidate 下注，greedy decoding | 无需校准概率，仅需二值判断 |
+
+### 4. 实用变体
+
+- **Sweeping Gibbs**：按固定顺序循环更新（加速收敛）
+- **Block Gibbs**：一次重采样 B>1 个变量（在高度相关变量中跳出局部模式）
+
+## 应用
+
+### 合成分布采样（§4）
+
+LLM 独立采样有强偏差（如 Llama-3.1-8B 对 Uniform 分布的采样偏向低值），批量采样有高自相关。Gibbs 迭代更新显著纠正了这两种问题。
+
+### 一致性推理（§5.1）
+
+在 TruthfulQA 和 GSM8K-Verification 上，Gibbs 采样通过迭代条件更新确保相关问题的答案一致性。相比 ICM 的启发式最大化，Gibbs 提供了有理论保证的替代方案。
+
+### 贝叶斯结构学习（§5.2）
+
+使用 Gibbs 生成合成数据 D_LLM，构造 world-knowledge 驱动的先验：
+
+```
+P(G | D; D_LLM, γ) ∝ P_0(G) P(D_LLM | G)^γ P(D | G)
+```
+
+在 limited data 下，LLM 先验帮助消歧义马尔可夫等价的 DAG 结构。
+
+## 算法流程
+
+1. **初始化**：自回归生成所有变量的初值 X_1, ..., X_n
+2. **迭代**（t = 1, ..., T）：
+   - 随机选择变量 i
+   - 随机排列其他变量 σ_{-i}
+   - 从 p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i]) 重采样 X_i
+3. **后处理**：burn-in 丢弃 + thinning 间隔采样
+
+## 参考
+
+- [原始存档](raw/papers/large-language-gibbs-2026.md)
+- [[barker-gibbs]]
+- [[gambling-gibbs]]
+- [[llm-mcmc]]
+- [[order-bias-removal]]
+- [[llm-consistent-reasoning]]
--- a/papers/latent-cot-supervision.md
+++ b/papers/latent-cot-supervision.md
@@ -0,0 +1,77 @@
+---
+title: "What Makes Effective Supervision in Latent Chain-of-Thought"
+created: 2026-06-25
+updated: 2026-06-25
+type: paper
+tags: [latent-cot, information-theory, mutual-information, reasoning, supervision, representation-learning]
+sources:
+  - https://arxiv.org/abs/2606.20075
+  - https://github.com/EIT-NLP/Supervision-in-Latent-CoT
+---
+
+# Latent CoT Supervision
+
+**Latent CoT Supervision** 是 ICML 2026 的工作（Chen et al.），从信息论角度系统分析了 Latent Chain-of-Thought 的有效监督机制。核心贡献在于识别 outcome supervision 的失败机理，并将过程监督分解为两个互补维度。
+
+## 核心发现
+
+### 1. Outcome Supervision 的双重崩溃
+
+仅使用最终答案损失训练 Latent CoT 失败于两个机制：
+
+| 机制 | 现象 | 后果 |
+|------|------|------|
+| **[[dual-collapse|梯度衰减]]** | 监督信号集中于 L1，L2...L6 梯度接近零 | 模型依赖浅层位置，深层不参与推理 |
+| **[[dual-collapse|表征漂移]]** | 潜状态在训练中偏离语义参考区 | 失去语义锚定，进入无结构区域 |
+
+两者的交互效应：梯度衰减导致深层潜状态未受充分训练 → 它们在参数空间中"漂移" → 最终 answer loss 通过捷径（shortcut）最小化，而非通过真正的多步推理。
+
+### 2. 过程监督的二维分解
+
+**[[trajectory-supervision|Trajectory Supervision]]**（轨迹监督）：
+- 逐步注入推理信号：阶段 k 训练时，前 k 步使用连续潜状态 L_{≤k}，后续使用显式 token
+- 目标：最大化局部互信息 I(L_{≤k}; S_{k+1})
+- 关键发现：仅 Trajectory Supervision（无 Space Supervision）已显著优于 Outcome-only
+
+**[[space-supervision|Space Supervision]]**（空间监督）：
+- **[[geometric-compression-latent|Geometric Compression (GC)]]**：MSE 对齐潜状态到静态嵌入 → **破坏性约束**，坍缩高维推理流形
+- **[[generative-reconstruction-latent|Generative Reconstruction (GR)]]**：辅助解码器从潜状态恢复文本 → **语义锚定**，保留信息容量
+
+GR 的信息论优势：最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的变分下界。
+
+### 3. Unified Latent Probe (ULP)
+
+[[unified-latent-probe|ULP]] 是一个轻量解码器 q_φ(S_t | L_t)，冻结模型后训练在所有 baseline 的潜状态上。
+其重建损失 L_Info 提供了一个严格的信息度量：
+- L_Info 低 → 潜状态保留了可恢复的推理语义
+- L_Info 高 → 潜状态退化到高熵无结构区域
+
+### 4. Information-Performance Binding
+
+[[information-performance-binding]]：推理精度与 ULP 重建损失呈严格的**反比关系**。即推理能力被潜链中的互信息上界严格约束。
+
+实验中 PS-GR（Trajectory + Generative Reconstruction）达到最优前沿：最大化 I(L_t; S_t) 并保持 I(L_{≤k}; S_{k+1}) 的可预测性。
+
+## 方法论要点
+
+- **渐进式训练**（Progressive Training）：从完全显式 CoT 逐步过渡到完全 Latent CoT
+- **粒度（Granularity g）**：g 个 token 合并为一个潜向量。g=1（逐 token 潜向量）效果最优但计算昂贵
+- **优化器重置**：过渡到连续状态时重置优化器 → "探索冲击"（exploration shock）帮助逃离局部最优
+- **信息衰减**：自回归潜生成存在 position-wise 信息衰减，GR 通过可重建性约束周期性"重置"语义漂移
+
+## 局限
+
+- 模型规模仅限于 GPT-2，需在更大模型上验证
+- 依赖过程标注（ground-truth reasoning steps），限制可扩展性
+- MI 估计受限于变分探针容量，可能保守
+
+## 参考
+
+- [原始存档](raw/papers/latent-cot-supervision-2026.md)
+- [[dual-collapse]]
+- [[trajectory-supervision]]
+- [[space-supervision]]
+- [[unified-latent-probe]]
+- [[information-performance-binding]]
+- [[generative-reconstruction-latent]]
+- [[geometric-compression-latent]]
--- a/papers/longmem-eval-2025.md
+++ b/papers/longmem-eval-2025.md
@@ -0,0 +1,91 @@
+---
+title: "LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Wu et al., UCLA/Tencent, ICLR 2025)"
+created: 2026-06-25
+updated: 2026-06-25
+type: paper
+tags: ["memory-benchmark", "chat-assistant", "long-term-memory", "evaluation"]
+sources:
+  - "https://arxiv.org/abs/2410.10813"
+code: "https://github.com/xiaowu0162/LongMemEval"
+---
+
+# LongMemEval: Benchmarking Long-Term Interactive Memory in Chat Assistants
+
+> Wu et al. | UCLA / Tencent AI Lab Seattle / UC San Diego | ICLR 2025 | arXiv:2410.10813
+
+## 问题
+
+LLM 驱动的聊天助手已集成记忆组件来追踪交互历史，但其在**持续交互中的长期记忆能力**缺乏系统评估。现有基准有两个缺陷：
+1. 对话历史过短（几千 tokens），无法挑战现代系统的记忆能力
+2. 问题覆盖面窄——缺少跨会话推理、时间推理、知识更新、信息遗忘等关键能力
+
+## [[longmem-eval|LongMemEval 基准]]
+
+### 问题形式化
+
+每个评测实例为 4-元组 (S, q, t_q, a)：
+- **S** = [(t₁, S₁), ..., (t_N, S_N)]：按时间排序的 N 个历史会话，每个 S_i 是多轮用户-助手交互
+- **q**：问题
+- **t_q**：提问时间戳
+- **a**：答案
+
+### 五种核心记忆能力 (500 题)
+
+| 能力 | 说明 | 例子 |
+|------|------|------|
+| **Information Extraction** | 从单/多会话提取隐藏信息 | "我上次去博物馆是什么时候？" |
+| **Multi-Session Reasoning** | 跨多个会话综合信息 | "我目前拥有多少乐器？"（分散在 4 个会话中） |
+| **Temporal Reasoning** | 基于时间参考的推理 | "距离我上次和朋友去博物馆过去了几个月？" |
+| **Knowledge Updates** | 处理用户信息的更新/矛盾 | 用户先说过敏花生→后来说不过敏 |
+| **Abstention** | 识别无法回答的问题 | 问 30-gallon 鱼缸的鱼数——但用户只有 10-gallon |
+
+### 两种标准设置
+
+| 设置 | 规模 | 难度 |
+|------|------|------|
+| LongMemEval **S** | ~115k tokens/problem | 长上下文 LLM 下降 30-60% |
+| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模长时间交互 |
+
+## 统一记忆设计框架：[[memory-indexing-retrieval-reading|索引→检索→阅读]]
+
+将记忆系统分解为三个阶段 × 四个控制点：
+
+```
+会话 → [Value 粒度] → [Key 索引] → 存储
+                                    ↓
+查询 → [Query 展开] → 检索 → [Reading 策略] → 答案
+```
+
+**三阶段**：Indexing（索引写入）、Retrieval（检索召回）、Reading（阅读利用）
+**四控制点**：Value（存储粒度）、Key（索引键）、Query（查询）、Reading Strategy（利用策略）
+
+## 关键实验发现
+
+### 1. 粒度：Round > Session > User Fact
+
+Session 级别的存储信息损失严重。最优粒度是 **round**（单轮交互），但进一步压缩为 user facts 会在总体精度上反降——尽管它提升了多会话推理准确度。
+
+### 2. [[fact-augmented-key-expansion|事实增强的 Key 展开]]
+
+用提取的用户事实（而非仅对话原文）作为索引键：
+- 记忆召回 +9.4% (recall@k)
+- 下游 QA 准确度 +5.4%
+
+### 3. [[time-aware-query-expansion|时间感知的 Query 展开]]
+
+直接把时间戳关联到事实并缩小搜索范围：
+- 时间推理召回 +6.8%～11.3%（当使用强 LLM 展开查询时）
+
+### 4. Reading 策略：Chain-of-Note + 结构化格式
+
+即使完美召回，准确利用检索到的项目仍非易事。Chain-of-Note + 结构化数据格式在三类 LLM 上提升 QA 达 **10 个绝对百分点**。
+
+## 核心洞察
+
+1. **记忆评测需要覆盖"遗忘"**——Abstention 是 LongMemEval 的独特贡献：模型必须学会说"我不知道"，而非幻想答案
+2. **三阶段框架统一了记忆设计空间**——indexing/retrieval/reading 的分拆使不同优化策略可以在独立控制点上叠加
+3. **Key 展开的价值大于 Query 展开**——在索引阶段用结构化事实增强 key 比在查询阶段做 rewrite 更高效（+9.4% vs +6.8-11.3%）
+4. **与 Atlas 的对接点**：LongMemEval 的三阶段框架可以直接映射到 Atlas 的 ES 记忆管线——round 粒度 → episodic 索引，fact-augmented key 对应 semantic 索引的 consolidation 输出
+
+## 来源
+[原始存档](raw/papers/longmem-eval-2025.md) | [arXiv](https://arxiv.org/abs/2410.10813) | [GitHub](https://github.com/xiaowu0162/LongMemEval)
--- a/papers/maineCoon.md
+++ b/papers/maineCoon.md
@@ -0,0 +1,85 @@
+---
+title: "MaineCoon: Real-Time Audio-Visual Social World Model"
+created: 2026-06-20
+updated: 2026-06-20
+type: paper
+tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+venue: "arXiv preprint (cs.CV, 2026)"
+authors: "Catnip AI Team"
+---
+
+# MaineCoon: Real-Time Audio-Visual Social World Model
+
+> **一句话**：首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU)，定义并首次实现 [[social-world-model|社交世界模型]] 范式。
+
+## 核心贡献
+
+MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变：
+
+| 维度 | 传统 DiT 视频模型 | MaineCoon |
+|------|------------------|-----------|
+| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
+| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
+| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
+| 长度 | 数秒 | **千秒级 (~45 分钟)** |
+| 成本 | 高昂 | **<$0.001/秒** |
+| 交互 | 无 | **亚秒级交互** |
+
+### 范式定义：Social World Model
+
+[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型（[[world-models-rl]]）或 LeCun 的感知世界模型（[[world-model-lecun]]），社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
+
+## 方法要点
+
+### 1. 无需 Teacher Forcing 的流式训练
+传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练：
+- [[self-resampling|Self-Resampling]]：模型以自己生成的**退化历史**为条件，而非纯净 ground-truth
+- 消除 train-test gap，使模型对部署时的长时退化鲁棒
+
+### 2. 跨模态表示对齐
+通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练：
+- 对齐视觉 token 之间的**成对关系**，而非绝对特征值
+- 仅在视觉流上施加，音频流不受约束
+- 大幅加速语义结构的涌现
+
+### 3. Specialize-then-Consolidate 后训练
+- **Phase 1**：5 个域（远镜、多人对话、运动、动画、舞蹈）各训一个 LoRA DPO expert
+- **Phase 2**：[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
+  - Verifier 对学生候选打分 → 自动加权域专家干预程度
+  - 全部失败→最大专家权重(α)；全部成功→零专家干预
+
+### 4. Agentic 流式推理框架
+三个 agentic 控制器包裹冻结生成器（训练无关）：
+- **Director (Planner & Observer)**：Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
+- **Cache Manager**：管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
+- **Buffer Controller**：pace gate 管理生成 lead，吸收抖动，保护播放流畅度
+
+## SocialVideo Bench
+
+首个专注社交视频生成的 benchmark，9 项指标覆盖：
+- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
+- MaineCoon 在所有指标上超越 7 个开源 baseline
+
+## 开源与资源
+
+- 项目主页：https://mainecoon.tech/
+- 论文：https://arxiv.org/abs/2606.17800
+- 基础模型：LTX-2.3 (22B 开源 DiT)
+
+## 相关概念
+- [[social-world-model|社交世界模型]] — 核心范式
+- [[self-resampling|Self-Resampling]] — 训练技术
+- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
+- [[agentic-streaming-inference|Agentic 流式推理]]
+- [[agentic-cache-manager|Agentic 缓存管理]]
+- [[look-ahead-buffer-controller|缓冲控制]]
+- [[forward-repair-ladder|前向修复]]
+- [[socialvideo-bench|SocialVideo Bench]]
+- [[audio-visual-representation-alignment|音视频表示对齐]]
+- [[domain-aware-preference-optimization|域感知 DPO]]
+- [[diffusion-transformer|DiT]]
+- [[audio-visual-generation|音视频生成]]
+- [[autoregressive-video-generation|自回归视频生成]]
+- [[streaming-generation|流式生成]]
+- [[social-video|社交视频]]
--- a/papers/me2-trm-reasoning-2026.md
+++ b/papers/me2-trm-reasoning-2026.md
@@ -0,0 +1,77 @@
+---
+title: "ME² + TRM: Complex Reasoning Optimization (Zhang et al., ICML 2026)"
+created: 2026-06-24
+updated: 2026-06-24
+type: paper
+tags: ["reasoning", "reward-model", "dag", "grpo", "test-time-scaling"]
+sources:
+  - "https://arxiv.org/abs/2602.08498"
+code: "https://github.com/Simplified-Reasoning/TRM"
+---
+
+# ME² + TRM: 复杂推理的表征、评估与优化
+
+> Zhang et al. | ICML 2026 | arXiv:2602.08498v2 | cs.CL
+
+## 动机
+
+[[large-reasoning-models|LRMs]] 的推理轨迹越来越长且结构复杂，但缺乏统一的答案回答三个问题：(1) 什么是高质量推理？(2) 如何可靠评估？(3) 如何用评估信号优化推理？
+
+现有方法的局限：PRMs 依赖步骤级绝对评分，无法捕获长程依赖和非线性结构；ORMs 设计用于对齐最终响应（helpful/honest/harmless），而非评估结构化推理质量。
+
+## 核心框架
+
+### [[me2-principle|ME² 原则]]
+
+两个正交维度：
+
+| | Macro（全局） | Micro（局部） |
+|---|---|---|
+| **Effectiveness** | 结构组织是否合理、无冗余分支 | 步骤是否正确、有逻辑 |
+| **Efficiency** | 推理路径是否简洁、无绕路 | 步骤是否精简、无赘述 |
+
+推理质量 = Macro-Effectiveness × Macro-Efficiency × Micro-Effectiveness × Micro-Efficiency
+
+### [[dag-reasoning-evaluation|DAG 推理建模]]
+
+将推理轨迹抽象为 DAG：
+- 节点：推理步骤
+- 边：逻辑依赖关系
+- DAG vs Tree：Tree 无法表达合并（多前驱节点），DAG 是表达力与可处理性的实用平衡
+
+### [[thinking-reward-model|Thinking Reward Model (TRM)]]
+
+训练流程：
+1. 生成多条候选推理轨迹 → 构建 DAG → ME² pairwise preference 标注（DeepSeek-V3.2）
+2. 构建 [[trm-preference-dataset|TRM-Preference]]（103K 训练对，1.5K 验证）
+3. 训练 TRM：Llama-3.1-8B + scalar head，Bradley-Terry loss
+
+**核心设计**：TRM 仅训练于 verified-correct 推理对——与答案正确性解耦，纯评估推理质量。
+
+### [[reasoning-quality-optimization|推理质量优化]]
+
+**Test-Time Scaling**：TRM Best-of-N selection → +19.3%（AIME24, N=16, Qwen3-8B: 44.7%→64.0%）
+**RL Training**：TRM-guided GRPO with gated reward shaping：
+
+$$r = r_v \cdot (1 - \alpha + \alpha \cdot \text{Sigmoid}(r_t))$$
+
+r_v = outcome reward, r_t = thinking reward, α = balance weight
+→ +3.9% across diverse tasks
+
+## 关键结果
+
+| 方法 | 验证集准确率 |
+|------|------------|
+| Qwen2.5-Math-PRM-7B | 46.3% |
+| ReasonFlux-PRM-7B | 62.5% |
+| PromptOnly (DeepSeek-V3.2) | 78.6% |
+| **TRM (ours)** | **88.6%** |
+
+## 核心洞察
+
+1. **将推理质量与答案正确性解耦** — TRM 仅训练于正确推理的偏好对，证明推理质量可独立于答案正确性评估
+2. **DAG 比 Tree 更适合推理建模** — 推理中的合并（多步归结为一个结论）是常见模式，Tree 无法表达
+3. **Structural signals matter** — 直接 prompt-based 比较产生大量 ties (232/1497)，但去除 ties 后准确率 93%。DAG 结构化后 ties 归零，证明结构信号是关键区分器
+
+## 来源
+[原始存档](raw/papers/me2-trm-reasoning-2026.md) | [arXiv](https://arxiv.org/abs/2602.08498) | [GitHub](https://github.com/Simplified-Reasoning/TRM)
--- a/papers/mozer-topological-trouble-transformers-2026.md
+++ b/papers/mozer-topological-trouble-transformers-2026.md
@@ -0,0 +1,78 @@
+---
+title: "The Topological Trouble With Transformers"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+authors:
+  - Michael C. Mozer (Google DeepMind)
+  - Shoaib Ahmed Siddiqui (Google DeepMind)
+  - Rosanne Liu (Google DeepMind)
+source: arXiv
+source_id: 2604.17121
+published: 2026-04-18
+categories:
+  - cs.LG
+  - cs.AI
+---
+
+# The Topological Trouble With Transformers
+
+> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
+
+## 核心问题
+
+Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入，状态表示就被推到更深的层，最终耗尽模型深度。
+
+## 关键论证
+
+### 1. 拓扑性限制
+Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突：
+- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
+- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
+- 经 t 步后，浅层无法访问最新的状态信息
+
+### 2. 实证失败模式
+- **Twenty Questions 不一致**：模型无法维持一致的隐藏状态
+- **多义词翻转**（bank → river bank / money bank）：消歧在深层完成但浅层已做出错误预测
+- **多轮对话崩溃**、多智能体通信断裂
+
+### 3. Chain-of-Thought 是变通方案，不是解决方案
+显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行：
+> "如果认知能从显式思维轨迹转向隐式激活动力学，模型将更强大"
+
+## 核心贡献：循环 Transformer 分类法
+
+按两个维度系统化分类：
+
+| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
+|---|---|---|---|
+| **深度** | Looped Transformer, RINS | — | — |
+| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — |
+| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
+
+分类表中的空单元格是**有前景的研究方向**。
+
+## 五大研究方向
+
+1. **[[enhanced-state-space-models|增强状态空间模型]]**：DeltaNet 负特征值扩展、RWKV-7、PaTH Attention
+2. **前馈近似训练**：通过特殊训练目标和结构先验引导状态追踪
+3. **[[coarse-grained-recurrence|粗粒度循环]]**：句子/块级别而非 token 级别
+4. **[[representational-alignment|表征对齐]]**：利用残差连接的自然对齐降低循环适配成本
+5. **高效循环训练**：分阶段训练 + 截断梯度 + 循环反向传播
+
+## 关键概念网络
+
+- [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]]
+- [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
+- [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]]
+- [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]]
+- [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]]
+- [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]]
+
+## 影响力评估
+
+这是一篇**立场性综述（position paper）**，来自 Google DeepMind 三位研究者。核心贡献不是新算法，而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。
+
+## 来源
+
+[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)
--- a/papers/nano-filter.md
+++ b/papers/nano-filter.md
@@ -0,0 +1,66 @@
+---
+title: "NANO Filter: 非线性贝叶斯滤波的自然梯度高斯近似"
+created: 2026-06-22
+updated: 2026-06-22
+type: paper
+tags: [state-estimation, bayesian-filtering, natural-gradient, gaussian-filtering, nonlinear-filtering]
+arxiv: "2410.15832"
+authors: ["Wenhan Cao", "Tianyi Zhang", "Zeju Sun", "Chang Liu", "Stephen S.-T. Yau", "Shengbo Eben Li"]
+venue: "arXiv (eess.SY), 2024 (v4: 2026-03)"
+sources: ["https://arxiv.org/abs/2410.15832"]
+---
+
+# NANO Filter
+
+**Natural Gradient Gaussian Approximation Filter** — 一种面向非线性系统的迭代高斯滤波器，核心创新在于跳出「线性化 → KF」的传统使能框架，直接在 [[gaussian-manifold|高斯流形]]上用 [[natural-gradient-descent|自然梯度下降]]求解最优 Gaussian 近似。
+
+## 核心问题
+
+传统 [[gaussian-filtering|Gaussian filter]]（[[extended-kalman-filter|EKF]], [[unscented-kalman-filter|UKF]], [[posterior-linearization-filter|PLF]]）遵循两阶段设计：(i) 将非线性模型近似为线性高斯形式，(ii) 在线性模型上运行 [[kalman-filter|KF]]。不同滤波器间的差异本质上是**线性化策略**的不同——但线性化误差始终存在。
+
+## 方法论贡献
+
+### 1. 优化视角重构 Bayesian 滤波
+
+将 [[bayesian-filtering|贝叶斯滤波]]的预测步和更新步分别解释为两个变分优化问题：
+- **预测步**：最大化候选密度在转移概率下的期望对数似然 → 最优解即[[moment-matching-filter|矩匹配]]
+- **更新步**：最小化期望负对数似然 + KL 散度
+
+利用 [[stein-lemma|Stein 引理]]，将两个变分问题的驻点条件转化为有限维优化。
+
+### 2. 自然梯度更新步
+
+NANO 的核心算法创新：不在更新步做线性化，而是在 [[gaussian-manifold|高斯流形]]上直接用 [[natural-gradient-descent|自然梯度]]迭代最小化更新代价 $J(\hat{x}_t, P_t)$。
+
+迭代公式（利用高斯分布 Fisher 矩阵 $F_v$ 的解析逆）：
+$$
+P_{t}^{-1,(i+1)} = P_{t|t-1}^{-1} + E_{N(x_t; \hat{x}_t^{(i)}, P_t^{(i)})}\left[\frac{\partial^2 \ell(x_t, y_t)}{\partial x_t^2}\right]
+$$
+$$
+\hat{x}_t^{(i+1)} = \hat{x}_t^{(i)} - P_t^{(i+1)} \cdot E_{N(\cdot)}\left[\frac{\partial \ell(x_t, y_t)}{\partial x_t}\right] - P_t^{(i+1)} P_{t|t-1}^{-1}(\hat{x}_t^{(i)} - \hat{x}_{t|t-1})
+$$
+
+### 3. 理论保证
+
+- **局部收敛**：NANO 的自然梯度迭代在二阶近似下保证更新代价单调递减
+- **线性 Gaussian 一致性**：在线性系统中，**一次迭代**即收敛到 KF 精确解，与初始化无关
+- **指数误差界**：在近线性测量方程和低噪声条件下，估计误差被证明为指数有界（通过构造跨时间步的超鞅性质）
+
+### 4. 鲁棒扩展
+
+基于 [[gibbs-posterior|Gibbs 后验]]框架，将标准似然替换为广义损失函数以处理模型误设：
+- **[[pseudo-huber-loss|Pseudo-Huber 损失]]**：大残差时线性增长，抑制离群值影响
+- **加权对数似然**：按数据依赖权重缩放似然贡献
+
+## 实验
+
+在真实系统实验（包括目标跟踪和导航场景）中，NANO 相对于 EKF、UKF、IEKF、PLF 等主流 Gaussian filter，**平均 RMSE 降低约 45%**，计算负担可比。
+
+## 参考
+- [原始存档](raw/papers/cao-nano-filter-2024.md)
+- [[bayesian-filtering|Bayesian Filtering]]
+- [[natural-gradient-descent|Natural Gradient Descent]]
+- [[gaussian-manifold|Gaussian Manifold]]
+- [[moment-matching-filter|Moment-Matching Filter]]
+- [[stein-lemma|Stein's Lemma]]
+- [[gibbs-posterior|Gibbs Posterior]]
--- a/papers/peng-rwkv7.md
+++ b/papers/peng-rwkv7.md
@@ -0,0 +1,100 @@
+---
+title: "RWKV-7 Goose: Expressive Dynamic State Evolution"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+tags: ["rwkv", "rnn", "linear-complexity", "delta-rule", "state-tracking"]
+sources: ["https://arxiv.org/abs/2503.14456"]
+---
+
+# RWKV-7 "Goose"
+
+## 核心定位
+
+RWKV-7（代号 "Goose"）是 RWKV 序列建模架构的第七代版本，核心创新在于将 Delta 规则从标量形式**广义化**为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑：**第一个被证明超越 Transformer（TC^0）的并行化可训练 RNN**。
+
+## 核心创新
+
+### 广义 Delta 规则
+
+传统 Delta 规则（[[delta-rule|DeltaNet]]）通过梯度下降更新矩阵状态：
+```
+S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
+```
+
+RWKV-7 的三个扩展：
+
+| 维度 | DeltaNet | RWKV-7 |
+|------|---------|--------|
+| 学习率 α | 标量 | **向量 a_t（逐通道）** |
+| 衰减 w | 固定/标量 | **动态 w_t + 附加项** |
+| Key 解耦 | k_t 同时用于移除和添加 | **分离 k_remove / k_add** |
+
+完整状态更新：
+```
+S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
+```
+
+### 向量值门控（Vector-Valued Gating）
+
+门控信号从标量扩展为向量 → 模型可**逐通道**决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。
+
+### 上下文学习率（In-Context Learning Rate）
+
+a_t 是输入依赖的向量学习率，使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。
+
+### 松弛值替换规则
+
+解耦移除 key 和添加 key：
+- `k_remove`：决定从状态中移除什么
+- `k_add`：决定向状态中添加什么
+
+这允许更灵活的信息管理——移除和添加是独立操作。
+
+## 理论贡献：超越 TC^0
+
+RWKV-7 的理论结果具有里程碑意义：
+
+| 架构 | 复杂度类 | 正则语言 | 状态追踪 |
+|------|---------|---------|---------|
+| Transformer (standard) | TC^0 | ✗ | ✗ |
+| RWKV-4/5/6 | TC^0 | ✗ | ✗ |
+| **RWKV-7** | **NC^1** | **✓ 全部** | **✓ S5** |
+
+在 TC^0 ≠ NC^1 猜想下，RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。
+
+## 实验结果
+
+- **2.9B 多语言 SoTA**：尽管训练 token 少于同类，多语言基准上达到新 3B SoTA
+- **RWKV World v3**：3.1T token 多语言开放数据集
+- **模型升级**：从 RWKV-5/6 checkpoint 升级而非从头训练
+- **长上下文**：O(1) 推理内存，不受序列长度影响
+- **开源**：Apache 2.0，权重 + 代码 + 数据集组件全部公开
+
+## 概念网络
+
+```
+delta-rule → generalized-delta-rule → dynamic-state-evolution
+  → vector-valued-gating + in-context-learning-rate
+  → regular-language-recognition
+
+rwkv → token-shift → wkv-time-mixing
+```
+
+## 相关已有概念
+
+- [[state-space-models]] — RWKV-7 作为增强 SSM/RNN 的代表
+- [[enhanced-state-space-models]] — 已有 RWKV-7 小节
+- [[step-recurrence]] — RWKV-7 属于步级循环
+- [[state-tracking]] — RWKV-7 理论上完整体支持
+
+## 代码与模型
+
+- 代码：https://github.com/RWKV/RWKV-LM
+- 模型：https://huggingface.co/RWKV
+- 许可证：Apache 2.0
+
+## 参考
+
+- [arXiv:2503.14456](https://arxiv.org/abs/2503.14456)
+- [原始存档](raw/papers/peng-rwkv7-goose-2025.md)
--- a/papers/personalization-trap-2025.md
+++ b/papers/personalization-trap-2025.md
@@ -0,0 +1,76 @@
+---
+title: "The Personalization Trap (Fang et al., Amazon, 2025)"
+created: 2026-06-24
+updated: 2026-06-24
+type: paper
+tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"]
+sources:
+  - "https://arxiv.org/abs/2510.09905"
+code: "https://github.com/personalization-trap"
+---
+
+# The Personalization Trap
+
+> Fang et al., Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL | Oct 2025 (updated Jun 2026)
+
+## 问题
+
+个性化 AI 系统融入长期 [[user-memory-bias|用户记忆]]，但记忆如何影响情感推理？相同的场景 + 不同的用户画像 → 系统性地分歧的情感解读。
+
+理论框架：Bourdieu 的 [[social-capital-framework|社会资本理论]] — 经济/文化/社会维度上的社会位置塑造他人对我们行为和情感的解读方式。AI 引入用户背景信息时，可能复制这些社会偏见。
+
+## 方法
+
+### 用户画像
+- **显式画像**：PersonaHub 30 个基础画像 × 2 版本（advantaged/disadvantaged），基于社会资本四维度（人口统计/家庭背景/社会关系/个人资产）
+- **[[intersectional-persona-evaluation|交叉性画像]]**：PRISM 数据集 → 81 个画像（性别×年龄×宗教×种族交叉）
+
+### 评估工具
+- **[[situational-test-emotional-understanding|STEU]]**：42 个情感理解场景，标准答案
+- **改良 STEM**：44 个第一人称情绪管理建议场景
+- 人类标注：93% 画像真实度（vs PersonaHub），经 9 位标注员移除画像敏感题目
+
+### 混合效应模型
+固定效应（人口统计变量）+ 随机效应（题目级变异），以白/基督徒/男/34-65 作为基线。
+
+## 关键结果
+
+### 发现 1：[[personalization-trap|用户记忆系统性影响情感理解]]
+
+| 模型 | 无记忆 | 优势画像 | 劣势画像 |
+|------|--------|---------|---------|
+| Claude 3.7 Sonnet | 90.91 | 80.10*† | 77.37* |
+| DeepSeek-R1 | 84.85 | 81.62*† | 76.57* |
+| Llama 3.2 90B | 84.85 | 64.91*† | 62.24* |
+
+*†: 优势-劣势差距显著 (p<0.05)
+
+### 发现 2：[[emotional-reasoning-bias|人口统计学偏见]]
+
+- **宗教**：穆斯林画像系统性地得分偏低（Mistral: β=-0.061, p<0.001）
+- **性别**：非二元性别效果因模型而异（Claude 3.7 no-think: β=+0.018; Qwen3-4B think: β=-0.030）
+- **年龄**：65+ 画像在部分模型中得分显著降低
+- **种族**：效应较弱但存在
+
+### 发现 3：偏见在情绪建议中持续
+
+Claude 3.7 对女性/非二元性别的建议质量显著低于男性（β=-0.102, p<0.001）。
+
+### [[dpo-bias-mitigation|DPO 偏见缓解]]
+
+| 模型 | STEU Before | STEU After | Bias ∆ Before | Bias ∆ After |
+|------|-----------|-----------|-------------|-------------|
+| Gemma-2-2B | 59.50% | 63.70% | 5.50% | -2.30% |
+| Qwen-3-1.7B | 60.90% | 60.30% | 1.70% | 0.40% |
+
+仅 500 训练样本即有效减少偏见。MMLU 同时提升，但指令遵循下降——存在 bias resistance vs instruction adherence 的 trade-off。
+
+## 核心洞察
+
+1. **个性化陷阱** — 为增强共情而引入的个性化，可能放大社会不平等。优劣势画像在相同场景下得到系统性不同的情感解读
+2. **[[persona-invariant-reasoning|画像无关推理]]的理想** — 在用户无关的任务上，模型应保持推理一致，但用户记忆不恰当地渗入了通用推理
+3. **Thinking 模型的保护效应** — 推理能力似乎提供了部分偏见抵抗
+
+## 来源
+
+[原始存档](raw/papers/personalization-trap-2025.md) | [arXiv](https://arxiv.org/abs/2510.09905) | [GitHub](https://github.com/personalization-trap)
--- a/papers/tang-lukv.md
+++ b/papers/tang-lukv.md
@@ -0,0 +1,101 @@
+---
+title: "LU-KV: Predicting Future Utility for KV Cache Eviction"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+tags: ["kv-cache", "llm-inference", "combinatorial-optimization", "attention"]
+sources: ["https://arxiv.org/abs/2602.08585"]
+---
+
+# LU-KV：基于未来效用预测的 KV Cache 驱逐框架
+
+## 核心问题
+
+大模型推理中，[[kv-cache]] 随序列长度线性增长，成为吞吐量瓶颈。现有 [[kv-cache-eviction]] 方法依赖瞬时启发式指标判断 token 重要性，忽略了不同注意力头在预测保真度上的**异质性**——某些 head 的瞬时注意力分数与其长期贡献严重失配。
+
+## 核心洞察
+
+LU-KV 的核心论点是：最优预算分配不应基于绝对分数，而应由**边际效用**（[[marginal-utility]]）驱动——即「每增加一单位预算，能保存多少长期语义信息」。这类似于经济学中的投资回报（ROI）思维：如果某个 head 的启发式指标与 [[oracle-importance]] 失配严重，继续向其分配预算的边际回报会急剧递减。
+
+## 方法框架
+
+### 两阶段范式
+
+LU-KV 框架建立在 [[kv-cache-eviction]] 的两阶段分解之上：
+
+1. **[[intra-head-eviction]]**：在每个 head 内使用任意启发式指标 π（如 SnapKV、KeyDiff）对 token 排序
+2. **[[cross-head-budget-allocation]]**：在 head 之间分配全局缓存预算 {b_{ℓ,h}}
+
+### 形式化分析
+
+核心贡献是严格分解了驱逐损失（eviction loss）：
+
+```
+Eviction Loss = Oracle Metric Loss（固定，受压缩率约束）
+               + Optimality Gap Loss（指标 π 与 Oracle 之间的差距）
+```
+
+即：`L(M^π) = L(M^*) + Δ(π, π*, b)`，其中 [[optimality-gap]] Δ 随预算和指标变化。
+
+### Oracle 重要性
+
+[[oracle-importance]] I_{ℓ,h,j} 定义为 token j 在未来解码窗口中对输出向量的**最大潜在贡献**：涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。
+
+### 全局组合优化
+
+将 head 级预算分配形式化为 [[global-combinatorial-optimization]]：
+
+```
+min Σ L(M^π(b_{ℓ,h}))  subject to  Σ b_{ℓ,h} = B_total
+```
+
+该问题是**非凸离散组合优化**，通过 [[convex-hull-relaxation]] 求解：
+
+1. 对每个 head 的离散损失序列用 PAVA（Pool Adjacent Violators Algorithm）做保序回归
+2. 从凸化后的损失序列计算有效边际增益 g_{ℓ,h}(i)
+3. 全局贪心：每次从边际增益最大的 head 分配一个 token 位置
+4. 贪心解与最优 DP 解完全一致（理论保证）
+
+### 离线 Profiling
+
+[[offline-profiling]] 三阶段协议桥接理论与部署：
+
+1. **上下文生成**：构造约 4K tokens 的合成叙述文本（与评测集无重叠）
+2. **Oracle 计算**：生成 M=30 个多样化查询，通过全注意力解码获取 ground-truth Oracle 重要性
+3. **Profile 聚合**：在密集的全局压缩率网格上求解每个查询的最优配置，取平均得到静态 profile Φ(π)
+
+关键经验发现：各 head 的最优压缩率在不同任务间**高度一致**，使离线 profile 可迁移。
+
+## 核心贡献
+
+| 贡献 | 说明 |
+|------|------|
+| 问题重定义 | 将 KV 驱逐从"被动丢弃"转为"战略性投资分配" |
+| [[optimality-gap]] 分解 | 严格分离 Oracle 损失和指标差距 |
+| [[convex-hull-relaxation]] | PAVA 保序回归 + 贪心求解，达到 DP 最优 |
+| [[offline-profiling]] | 三阶段协议，profile 跨任务可迁移 |
+| 指标无关 | 适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π |
+
+## 实验结果
+
+- **LongBench**：80% 压缩率下，LU-KV 在所有模型（Llama-3.1-8B、Mistral-7B、Qwen2.5-32B）上优于 Uniform、PyramidKV、AdaKV 等基线
+- **RULER**：4K–128K 扩展上下文窗口下保持鲁棒检索性能
+- **兼容性**：与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升
+- **推理开销**：在线仅需查表 → 预算计算 → 驱逐三步，额外开销可忽略
+
+## 相关概念
+
+- [[long-horizon-utility]] — 长视界效用 vs 瞬时注意力分数
+- [[heuristic-metric]] — 启发式指标（SnapKV、KeyDiff 等）
+- [[marginal-utility]] — 边际效用驱动的分配策略
+- [[snapkv]] — 基于累积注意力的 intra-head 指标
+- [[pyramidkv]] — 基于信息漏斗假说的静态分配
+- [[adkv]] — 基于注意熵的动态全局 Top-K 分配
+- [[keydiff]] — 基于 Key 向量几何特征的指标
+
+## 参考
+
+- 原始存档：[原始论文](raw/papers/tang-lukv-2026.md)
+- arXiv: https://arxiv.org/abs/2602.08585
+- 发表：ICML 2026, PMLR 306
+- 机构：复旦大学 + 百度百舸 AI Team
--- a/papers/unlimited-ocr-works-2026.md
+++ b/papers/unlimited-ocr-works-2026.md
@@ -0,0 +1,66 @@
+---
+title: "Unlimited OCR Works (Yin et al., Baidu, 2026)"
+created: 2026-06-24
+updated: 2026-06-24
+type: paper
+tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"]
+sources:
+  - "https://arxiv.org/abs/2606.23050"
+code: "https://github.com/baidu/Unlimited-OCR"
+---
+
+# Unlimited OCR Works
+
+> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026
+
+## 问题
+
+端到端 OCR 模型用 LLM 解码器利用语言先验提升精度，但 KV cache 随输出长度线性膨胀，推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。
+
+## 核心创新：[[reference-sliding-window-attention|R-SWA]]
+
+**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制：
+
+- 每个 token 关注**全部参考 token**（视觉 token + prompt）＋ **前 n 个输出 token**（n=128）
+- 参考 token **不参与状态转移**（避免视觉特征逐渐模糊）
+- **[[constant-kv-cache|KV cache 恒定]]**：始终为 Lm + n，O(1) 而非 O(T)
+
+与标准 SWA 的关键区别：视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口，会导致视觉特征随解码推进而模糊退化。
+
+## 模型架构
+
+以 [[deepseek-ocr|DeepSeek OCR]] 为基线：
+- 保留 [[deepencoder|DeepEncoder]]（16× 压缩率，级联窗口注意 ViT + 全局注意）
+- 替换 decoder 所有注意力层为 R-SWA
+- 3B 参数，[[mixture-of-experts|MoE]] 架构，激活仅 500M
+- 训练：4000 步，8×16 A800，DeepEP EP=4，[[megatron-lm|Megatron-LM]]
+- 推理：支持 Transformers + [[sglang|SGLang]]，恒定 TPS 和 GPU 内存
+
+## 关键结果
+
+### 通用 OCR（[[omnidocbench|OmniDocBench]]）
+| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
+|------|--------------|-------------|------|
+| v1.5 Overall | **93.23** | 87.01 | +6.22 |
+| v1.6 Overall | 93.54 | — | SOTA 级别 |
+
+### [[long-horizon-parsing|长程解析]]
+2-40+ 页书籍，单次前向解析，Distinct-n > 96%，Edit Distance < 0.11。
+
+### 推理效率
+6000 token 时 TPS 比 DeepSeek OCR 高 **35%**，且全程保持恒定。
+
+## 核心洞察
+
+1. **认知启发** — R-SWA 模仿人类抄写行为：不回溯全部已写内容，仅关注附近上下文维持空间定向
+2. **架构极简** — 将所有标准 attention 替换为 R-SWA，性能无损（"lossless"），证明历史信息通过滑动窗口的 soft forgetting 足够
+3. **通用性** — R-SWA 是通用解析注意力机制，适用于 ASR、翻译等所有基于参考的长程任务
+
+## 局限性
+
+- 受 prefill 长度限制（32K），非真正无限
+- 未来：训练更长上下文（128K）+ prefill pool 模拟翻页
+
+## 来源
+
+[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)
--- a/papers/vla-jepa-2026.md
+++ b/papers/vla-jepa-2026.md
@@ -0,0 +1,81 @@
+---
+title: "VLA-JEPA (Sun et al., 2026)"
+created: 2026-06-24
+updated: 2026-06-24
+type: paper
+tags: ["vla", "jepa", "world-model", "robot-learning", "pretraining", "latent-action"]
+sources:
+  - "https://arxiv.org/abs/2602.10098"
+code: "https://github.com/ginwind/VLA-JEPA/"
+---
+
+# VLA-JEPA
+
+> Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† | arXiv:2602.10098 | cs.RO / cs.CV | Feb 2026
+
+## 问题
+
+[[vla-vision-language-action|VLA]] 的 [[latent-action-pretraining|latent-action 预训练]] 从互联网视频学习机器人策略是一个有吸引力的方向。但当前的 latent-action 目标存在系统性缺陷：锚定在**像素变化**而非**动作相关的状态转移**上。
+
+四种失败模式：
+
+| 模式 | 描述 |
+|------|------|
+| [[appearance-bias-vla|外观偏见]] | 像素级目标偏向纹理/光照/背景，而非可控自由度 |
+| 噪声运动放大 | 相机运动和无关背景变化主导信号 |
+| [[information-leakage-vla|信息泄漏]] | 未来帧作为输入 → latent action 坍缩为编码未来而非转移动态 |
+| 多阶段复杂性 | 三阶段+流水线的工程脆弱性 |
+
+## 核心方案：[[leakage-free-state-prediction|Leakage-free State Prediction]]
+
+VLA-JEPA 将 [[jepa|JEPA]] 范式引入 VLA：**在 latent space 预测而非 pixel space**。
+
+### 架构
+
+- **VLM Backbone**：Qwen3-VL-2B，输出 latent action tokens
+- **[[latent-world-model|Latent World Model]]**：V-JEPA2 encoder（frozen target）+ autoregressive Transformer（predictor）
+- **Action Head**：[[flow-matching|Conditional Flow-Matching]]
+
+### 关键设计
+
+```
+Target Encoder (frozen, no grad)     Student (VLM backbone)
+      ↓                                    ↓
+  Future frames → latent targets       Current observation only
+      ↓                                    ↓
+              JEPA alignment loss
+         (predict in latent space)
+```
+
+**未来帧仅作监督目标，永不作为输入**——消除信息泄漏捷径。
+
+### 训练
+
+- 预训练：Something-Something-v2（220K 人类视频）+ Droid（76K 机器人轨迹）
+- 微调：LIBERO（~2K 专家演示）/ Fractal + BridgeV2 / 100 真实演示
+- 8×A100，Qwen3-VL-2B backbone
+
+## 关键结果
+
+### LIBERO
+
+| Method | Spatial | Object | Goal | Long | Avg |
+|--------|---------|--------|------|------|-----|
+| VLA-JEPA | 96.2 | 99.6 | 99.6 | 97.2 | **98.2** |
+| π0.5 | 97.5 | 91.5 | 74.5 | 90.1 | 88.9 |
+| OpenVLA-OFT | 97.6 | 97.9 | 94.5 | 96.8 | 96.7 |
+
+### SimplerEnv
+Google Robot 平均最高；WidowX 平均第二。使用 villa-X 不到 1% 的训练数据。
+
+### Robustness (LIBERO-Plus)
+在 7 个扰动维度（光照/纹理/颜色/相机/…）下保持强劲性能。
+
+## 核心洞察
+
+1. **JEPA 的 embodied 应用** — 将 JEPA 从视频表示学习扩展到机器人动作策略，证明了 latent-space prediction 对 embodied AI 的通用价值
+2. **信息泄漏是根本问题** — 当前 latent-action 方法的失败根源不是模型容量不足，而是架构缺陷（未来信息泄漏）。修复架构比堆数据更有效
+3. **数据效率** — 用更少数据超越用更多数据的对比方法，证明学对目标比学更多数据更重要
+
+## 来源
+[原始存档](raw/papers/vla-jepa-2026.md) | [arXiv](https://arxiv.org/abs/2602.10098) | [GitHub](https://github.com/ginwind/VLA-JEPA/)
--- a/papers/vu-fisher-width-2026.md
+++ b/papers/vu-fisher-width-2026.md
@@ -0,0 +1,90 @@
+---
+title: "Fisher Width: 统计流形上的几何复杂度度量"
+created: 2026-06-23
+updated: 2026-06-23
+type: paper
+tags: ["information-geometry", "complexity-measure", "generalization-theory", "riemannian-geometry"]
+authors: ["Vu Khac Ky"]
+venue: "arXiv"
+year: 2026
+arxiv: "2606.18306"
+sources: ["https://arxiv.org/abs/2606.18306v1"]
+---
+
+# Fisher Width: 统计流形上的几何复杂度度量
+
+> Vu Khac Ky (FPT University, Vietnam) — arXiv:2606.18306, 2026
+
+## 核心问题
+
+[[gaussian-width|Gaussian width]] 是压缩感知、凸优化、学习理论中的核心复杂度度量——它通过随机方向上的平均投影来量化集合的"有效维度"。但 Gaussian width **本质上是欧几里得的**，它假设所有方向等权。然而，统计模型（指数族、神经网络、VAE）天然携带 [[fisher-information-metric|Fisher 信息度量]] 诱导的黎曼几何——不同方向上的参数变化对统计可区分性的影响截然不同。
+
+**Fisher width** 是 Gaussian width 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。
+
+## 方法论贡献
+
+### 1. Fisher Width 定义
+
+在参数点 θ₀ 处，Fisher width 将欧几里得恒等矩阵替换为局部 Fisher 度量张量 G(θ₀)^{1/2}：
+
+```
+w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
+```
+
+核心的 [[lifting-identity|Lifting Identity]]：
+
+```
+w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
+```
+
+这意味着：在固定基点，Fisher width **恰好是 Fisher 重标度后集合的 Gaussian width**。Gaussian width 的所有经典性质可通过局部度量变形转移到 Fisher 设定中。
+
+### 2. 结构理论
+
+- **浓度不等式**：Fisher width 在随机采样下集中
+- **度量扰动稳定性**：Fisher width 对局部度量变化具有 Lipschitz 连续性
+- **谱比较界**：λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T)
+- **经验 Fisher 稳定性**：当经验 Fisher 矩阵在算子范数下集中时，Fisher width 可被一致估计
+
+### 3. 泛化界
+
+对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类，一致偏差被以下量控制：
+
+```
+w_G(T−T; θ₀) / √n
+```
+
+对局部指数族似然模型，该界在常数意义下是**紧的**。Fisher width 在 Fisher-几何学习界中扮演的角色，与 Gaussian width/Rademacher 复杂度在欧几里得设定中的角色完全相同。
+
+### 4. 计算估计
+
+- **全经验 Fisher 估计器**：用样本分数构建经验 Fisher 矩阵，计算重标度后集合的宽度
+- **低秩近似**：利用 Fisher 谱的快速衰减性质做截断 SVD
+- **分数范数估计器**：针对欧几里得球的特化高效版本
+- **MNIST 验证**：在逻辑回归、softmax 回归、岭回归上评估精度和稳定性
+
+## 关键发现
+
+1. **Fisher 曲率效应**：同一欧几里得集合在不同参数位置的 Fisher width 可显著不同——Fisher width 不仅能测量集合形状，还能测量该形状在 Fisher 几何下"被看到"的方式
+2. **各向异性检测**：Fisher width 捕获了欧几里得度量不可见的各向异性几何效应
+3. **与 Gaussian width 的谱关系**：λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T)，表明 Fisher 度量的条件数决定了 Fisher width 与 Gaussian width 的偏差范围
+4. **计算可行性**：低秩近似在实践中高度准确，Fisher 谱的快速衰减使估计器高效
+
+## 与现有工作的关系
+
+- **Fisher-Rao Norm** (Liang et al., 2019)：衡量**单个参数向量**的 Fisher 长度；Fisher width 衡量**整个集合**的 Fisher-几何大小
+- **自然梯度**：优化算法利用 Fisher 度量改进下降方向；Fisher width 则利用 Fisher 度量定义复杂度泛函
+- **PAC-Bayes**：以概率距离度量复杂度；Fisher width 以集合的几何大小度量复杂度
+
+## 参考
+
+- [原始存档](raw/papers/vu-fisher-width-2026.md)
+- [[gaussian-width|Gaussian Width]]
+- [[statistical-manifold|Statistical Manifold]]
+- [[fisher-information-metric|Fisher Information Metric]]
+- [[information-geometry|Information Geometry]]
+- [[fisher-lipschitz|Fisher-Lipschitz]]
+- [[lifting-identity|Lifting Identity]]
+- [[empirical-fisher|Empirical Fisher]]
+- [[generalization-bounds|Generalization Bounds]]
+- [[natural-gradient-descent|Natural Gradient Descent]]
--- a/papers/wan-streamer.md
+++ b/papers/wan-streamer.md
@@ -0,0 +1,79 @@
+---
+title: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models"
+created: 2026-06-25
+updated: 2026-06-25
+type: paper
+tags: [multimodal, real-time, foundation-model, streaming, full-duplex, audio-visual, transformer]
+sources:
+  - https://arxiv.org/abs/2606.25041
+  - https://wan-streamer.com
+---
+
+# Wan-Streamer v0.1
+
+**Wan-Streamer** 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型，支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步**全部联合学习在一个 Transformer 中**，摒弃了传统级联系统（VAD → ASR → LLM → TTS → 动画生成）的模块架构。
+
+## 核心贡献
+
+### 1. 统一的端到端流式架构
+
+Wan-Streamer 将用户输入和 Agent 输出视为**一条因果时间线**上的交织序列（interleaved visual, audio, text tokens），使用 [[block-causal-attention|block-causal attention]] 实现增量流式生成。一个 Transformer 承担所有模态的编解码，不依赖外部语言、语音、化身或视频生成模块。
+
+### 2. 全因果多模态架构
+
+为支持流式实时交互，整个架构从底层设计为因果的：
+- **[[causal-multimodal-vae|因果多模态 VAE]]**：严格因果的音频和视频变分自编码器，用于流式潜编码
+- **因果编码器/解码器**：因果音视频编码器和解码器
+- **[[block-causal-attention]]**：块因果注意力机制，协调多模态 token 的流式调度
+- **全历史自回归流式**：每个生成的单元被立即提交回交互历史
+
+### 3. Thinker-Performer 推理流水线
+
+推理时，模型拆分为两个协作进程：
+
+| 角色 | 职责 | 关键操作 |
+|------|------|----------|
+| **Thinker** | 感知、状态更新、前帧解码发射 | 因果编码器 → Transformer → KV cache 更新 → 解码发射 |
+| **Performer** | 潜变量生成（flow-matching） | 接收 KV slice → flow-matching solver → 返回 clean latents |
+
+通过 **KV-cache 交换** 维持统一因果状态，实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的**流水线重叠**。在 160ms 流式单元内完成一轮完整循环。
+
+**延迟指标**：
+- 模型侧响应延迟：~200ms
+- 端到端交互延迟（含 350ms 双向网络）：~550ms
+- 输出帧率：25 FPS
+
+### 4. 全双工交互能力
+
+通过在全双工交互数据上训练，模型学会了：
+- **连续感知**：即使正在说话，也持续消费用户的音视频观测
+- **中断处理**：用户自然打断时停止或重新规划响应
+- **主动说话**：当视觉流中出现显著事件时，主动发起评论或提问
+- **非语言反馈**：空闲时的身份保持、凝视、姿态；聆听时的点头、微表情
+
+## 方法论要点
+
+- **条件流匹配**：音频和视频响应以连续潜变量形式，通过 [[flow-matching|conditional flow matching]] 联合生成
+- **三阶段训练**：独立任务预训练 → 多模态联合训练 → 端到端双工交互微调
+- **数据混合**：理解数据（图像/音频/视频理解、ASR、TTS） + 生成数据（图像/音频/视频生成） + 端到端双工交互数据
+
+## 实验对比
+
+与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示：Wan-Streamer 是**唯一同时支持文本/音频/视频输入输出的单一端到端模型**，且响应延迟处于领先水平。
+
+## 局限
+
+当前 v0.1 版本输出分辨率为 192p，作为概念验证；扩展到更高分辨率留待未来工作。
+
+## 参考
+
+- [原始存档](raw/papers/wan-streamer-2026.md)
+- [[flow-matching]]
+- [[kv-cache]]
+- [[diffusion-transformer]]
+- [[native-streaming-ar-training]]
+- [[full-duplex-interaction]]
+- [[block-causal-attention]]
+- [[thinker-performer-pipeline]]
+- [[causal-multimodal-vae]]
+- [[end-to-end-streaming-interaction]]
--- a/papers/yao-ace-router-2026.md
+++ b/papers/yao-ace-router-2026.md
@@ -0,0 +1,69 @@
+---
+title: "ACE-Router：历史感知路由"
+created: 2026-06-19
+updated: 2026-06-19
+type: paper
+tags: [router-training, history-aware, mcp, tool-selection, agent-web, candidate-graph]
+sources:
+  - https://arxiv.org/abs/2601.08276
+  - https://github.com/euyis1019/ACE-Router
+---
+
+# ACE-Router：历史感知路由
+
+> **Zhiyuan Yao, Zishan Xu, Yifu Guo 等** · 2026 · arXiv:2601.08276
+
+## 核心问题
+
+MCP 工具生态爆炸式增长，现有方案各有限制：
+- **静态注入**：上下文窗口有限，无法规模化
+- **Embedding 检索**：静态语义匹配，缺乏多轮历史感知
+- **通用 LLM**：推理强但缺乏精确工具辨识力
+
+## 核心方案：训练一个 Router
+
+ACE-Router 不从零推理——直接**训练一个专门的路由器**，将多轮对话历史对齐到正确的路由决策。
+
+## 三阶段框架
+
+### 1. [[candidate-graph|Candidate Graph + 自进化变异]]
+构建语义相似图 → 五种变异算子扩展候选空间 → 627→2005 工具
+
+### 2. [[trajectory-synthesis|多 Agent 轨迹合成]]
+候选图采样 → 四角色模拟（Planner/User/Assistant/Tool Agent）→ 15,092 训练样本。环境无关：LLM 模拟执行，无需真实 API。
+
+### 3. [[light-routing-agent|Light Routing Agent]]
+仅两个工具：`router_invoke` + `tool_execute`。路由与执行解耦，可插拔适配工具选择和 Agent 选择。
+
+## 关键数据
+
+| 指标 | ACE-Router | Best Baseline |
+|------|:---:|:---:|
+| MCP-Universe | **53.44%** | 49.79% (Gemini-2.5-Pro) |
+| MCP-Mark | **60.00%** | ~50% (ReAct) |
+| 扩展候选池 | **53.02%** (稳定) | 36.47% (ReAct 崩溃) |
+| 噪声环境 | **56.00%** | 32% (Gemini-2.5-Pro) |
+| 多 Agent 泛化 | **88-92%** | — (零训练迁移) |
+
+**8B 专用路由器 > 巨型通用模型**（GPT-4o, Gemini-2.5-Pro）——证明了精确工具辨识不是靠扩大推理能力，而是靠专门训练。
+
+## MCP 工具选择三篇之比较
+
+| | [[fei-mcp-zero-2025|MCP-Zero]] | [[gaurav-dynamic-react-2025|Dynamic ReAct]] | ACE-Router |
+|---|---|---|---|---|
+| 机制 | 主动请求 + 层次路由 | meta-tools + 语义搜索 | **训练专用路由器** |
+| 历史感知 | 迭代请求（隐式） | ReAct 框架内 | **显式训练对齐** |
+| 规模适应 | 理论 O(m+k) | 工程验证 | **训练+噪声双重验证** |
+| 泛化 | MCP 工具 | MCP 工具 | **工具→Agent 零训练迁移** |
+
+## 关键概念
+
+- [[ace-router|ACE-Router 框架]]
+- [[history-aware-routing|历史感知路由]]
+- [[candidate-graph|候选图]]
+- [[self-evolutionary-mutation|自进化变异]]
+- [[trajectory-synthesis|轨迹合成]]
+- [[light-routing-agent|轻量路由 Agent]]
+- [[agent-web|Agent Web]]
+
+来源：[原始存档](raw/papers/yao-ace-router-2026.md)
--- a/papers/zhou-agent-skills-survey-2026.md
+++ b/papers/zhou-agent-skills-survey-2026.md
@@ -0,0 +1,93 @@
+---
+title: "A Comprehensive Survey on Agent Skills — 综述"
+created: 2026-06-19
+updated: 2026-06-19
+type: paper
+tags: [agent-skills, survey, skill-lifecycle, llm-agents, procedural-knowledge]
+sources:
+  - https://arxiv.org/abs/2605.07358
+  - https://github.com/JayLZhou/Awesome-Agent-Skills
+---
+
+# Agent Skills 综述：分类、技术与应用
+
+> **Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin** (CUHK-Shenzhen) · 2026 · arXiv:2605.07358
+
+## 核心问题
+
+LLM agent 在实际部署中面临一个核心瓶颈：**过程性鸿沟（procedural gap）**——仅靠工具访问（tool access）不等同于知道何时调用、如何编排、怎样验证。这篇综述以 **agent skill** 为中心视角，定义其为"可复用的过程性构件，在任务特定约束下协调工具、内存和运行时上下文"。
+
+## 核心洞察
+
+Agent 与 skill 是互补的层级关系：
+- **Agent** 负责高层推理和规划（"做什么"）
+- **Skill** 构成操作层，负责可靠、可复用、可组合的执行（"怎么做"）
+
+Skill 可视为 agent 的"肌肉记忆"——将过程性 know-how 外化为可持久化、可检索、可修订的显式构件。
+
+## 方法论框架
+
+论文围绕 skill 生命周期的四个阶段组织文献：
+
+### 1. Skill Representation（表示）
+基于资源类型分类：
+- **文本型（Text-Based）**：参考文档、模板、检查清单
+- **代码型（Code-Backed）**：可执行脚本、包装器、API
+- **混合型（Hybrid）**：文本 + 代码结合，兼顾可解释性和执行确定性
+
+形式化定义：**S = (M, R, C)**——指令文档 + 辅助资源 + 适用条件。
+
+### 2. Skill Acquisition（获取）
+四种获取路径：
+- **人工来源（Human-Derived）**：领域专家编写，精度高但扩展性差
+- **经验来源（Experience-Derived）**：从执行轨迹中抽象（选择→摘要→记忆组织→过程打包），研究最活跃
+- **任务来源（Task-Derived）**：按需构建，新任务无法等待专家或经验积累时使用
+- **语料来源（Corpus-Derived）**：从文档、仓库、数据集、接口轨迹中提取
+
+四种路径互补而非竞争——最强大的 skill 库来自它们的组合。
+
+### 3. Skill Retrieval & Selection（检索与选择）
+分为两阶段：
+- **检索**：稠密嵌入、稀疏关键词、生成式、结构感知（层级 + 依赖图）
+- **选择**：上下文感知、技能组合、成本/效用感知、反馈驱动重排序
+
+关键洞察：skill 检索不同于文档检索——skill 是可执行单元，语义相关不等于可执行。必须考虑前置条件、组合兼容性、成本收益。
+
+### 4. Skill Evolution（演化）
+五个子阶段：
+- **Skill Revision**：反馈驱动的技能修订
+- **Skill Validation**：修订后的生存检查（测试、回滚）
+- **Policy Coupling**：策略与技能库共同优化（如 SkillRL）
+- **Repository Evolution**：跨 artifact 的规模化演化
+- **Runtime Governance**：检索→路由→信任检查→执行→退役的安全闭环
+
+## 代表性平台
+
+| 平台 | 规模 |
+|------|------|
+| SkillNet | 300k+ |
+| ClawHub | 40k+ |
+| SkillHub | 80k+ |
+| SkillsMP | 700k+ |
+| Skills.sh | 90k+ |
+
+## 与 Hermes 的关联
+
+Hermes 的 skill 体系（SKILL.md + references/templates/scripts）天然覆盖了论文中定义的核心结构 (M, R, C)。论文列出的开放挑战——统一 skill schema、资源感知联合优化、因果诊断、生命周期鲁棒性——也是 Hermes skill 系统可以演进的方向。
+
+## 关键概念
+
+- [[agent-skill|Agent Skill]] — 形式化定义与核心属性
+- [[procedural-gap|过程性鸿沟]] — 工具访问与鲁棒执行之间的桥梁
+- [[skill-lifecycle|Skill 生命周期]] — 四阶段框架
+- [[skill-representation|Skill 表示]] — 文本/代码/混合三种形态
+- [[skill-acquisition|Skill 获取]] — 四种获取路径
+- [[skill-retrieval|Skill 检索]] — 稠密/稀疏/生成/结构感知
+- [[skill-selection|Skill 选择]] — 上下文/组合/效用/反馈
+- [[skill-evolution|Skill 演化]] — 修订→验证→策略耦合→仓库演化→治理
+- [[skill-composition|Skill 组合]] — 多技能编排与组装
+- [[agent-skill-ecosystem|Agent Skill 生态]] — 平台与基础设施
+- [[passive-vs-active-knowledge|被动 vs 主动知识]] — agent 知识二分类
+- [[runtime-governance|运行时治理]] — 检索-信任-执行-退役闭环
+
+来源：[原始存档](raw/papers/zhou-agent-skills-survey-2026.md)