20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

104
papers/arbor-htr-2026.md Normal file
View File

@@ -0,0 +1,104 @@
---
title: "Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor"]
sources:
- "https://arxiv.org/abs/2606.11926"
code: "https://github.com/RUC-NLPIR/Arbor"
---
# Arbor: Autonomous Research via Hypothesis-Tree Refinement
> Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026
## 问题
AI Agent 做自主科研面临三个系统性需求:
1. **分支且有结构**:多方向必须并存但不能退化为无结构日志
2. **全局策略 + 局部执行**:战略决策依赖全局证据,但单假设实现是短程工程任务
3. **探索与 held-out 准入**dev 反馈引导搜索,但进展只在 transfer 到 test 时才被承认
现有 AgentCodex, Claude Code将科研视为局部尝试的序列缺乏累积机制。
## [[hypothesis-tree-refinement|Hypothesis Tree Refinement (HTR)]]
Arbor 的核心创新:将自主科研的中间状态从"最新产物 + 分数"升级为**持久化的假设树**。
### 树的节点 = ⟨h, ι, µ⟩
| 字段 | 含义 | 作用 |
|------|------|------|
| **h (Hypothesis)** | 可验证/可证伪的改进主张 | 粒度随深度细化(根=方向,叶=具体干预) |
| **ι (Insight)** | 可复用的证据解读 | 紧凑语义记忆,非执行日志 |
| **µ (Metadata)** | 状态/分数/git ref | 链接到可验证的外部产物 |
### 三种角色合一
1. **搜索前沿**:记录活跃/验证/剪枝的方向
2. **长期记忆**:存储成功+失败的复用证据
3. **可审计记录**:每个产物变更可追溯到动机假设
### Insight Backpropagation
叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding
## [[coordinator-executor-architecture|Coordinator ↔ Executor 架构]]
```
Coordinator (持久) Executor (短生命周期, 隔离 worktree)
├── 维护全局树 ├── 接收单个节点
├── 决定扩展/选择/剪枝/合并 ├── 在隔离环境中物化实现
├── 传播洞察 ├── 运行评估
└── 管理搜索前沿 └── 返回结构化报告 (分数+事实+洞察+产物引用)
```
关键边界Executor 不修改共享树、不重定向搜索目标Coordinator 不直接执行低层实现。
## [[autonomous-optimization-ao|Autonomous Optimization (AO)]]
AO = (M0, O, Edev, Etest) 的形式化任务定义:
- M0可变产物通常为代码库 + 数据)
- O改进目标指标方向
- Edev开发评估器搜索期间自由使用
- Etestheld-out 评估器(仅用于 merge gate
目标:返回 max Stest(M') 的产物 M⋆且 Etest 未被用作探索 oracle。
## 关键结果
### 六项真实科研任务
| 任务类型 | Arbor 表现 |
|---------|-----------|
| Math Synthesis (AIME) | Test: +6.32% |
| Harness Engineering (TerminalBench) | Test: +7.55 |
| BrowseComp | Test: +22.34 |
| Model Training | Best held-out |
| Architecture Search | Best held-out |
### 对比
| 方法 | 平均相对 held-out 增益 (归一化) |
|------|-------------------------------|
| Codex | 1.0× |
| Claude Code | 0.8× |
| **Arbor** | **2.5×** |
### MLE-Bench Lite
GPT-5.5 + Arbor → **86.36%** Any Medal对比中最强
### Ablation 关键发现
假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。
## 核心洞察
1. **将研究状态从"最新产物"升级为"搜索树"** — 自主科研的核心瓶颈不是模型能力而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
2. **Coordinator-Executor 分离** — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
3. **洞察 ≠ 日志** — Insight 是紧凑语义记忆("轴统计量单独不够;替换 NS 会破坏全矩阵几何"),不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。
## 来源
[原始存档](raw/papers/arbor-htr-2026.md) | [arXiv](https://arxiv.org/abs/2606.11926) | [GitHub](https://github.com/RUC-NLPIR/Arbor)

View File

@@ -0,0 +1,90 @@
---
title: "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality"
created: 2026-06-18
updated: 2026-06-18
type: paper
authors:
- Tri Dao (Princeton University)
- Albert Gu (Carnegie Mellon University)
source: arXiv
source_id: 2405.21060
published: 2024-05-31
venue: ICML 2024
categories:
- cs.LG
---
# Transformers are SSMs
> Dao & Gu (2024) — arXiv:2405.21060, **ICML 2024**
## 核心命题
**Transformer 和 SSM 本质上是同一类模型的对偶形式。** 通过 [[semiseparable-matrices|半可分矩阵]] 这一数学桥梁Dao & Gu 构建了统一框架——[[structured-state-space-duality|结构化状态空间对偶SSD]]。
## SSD 框架:三重视角
```
SSM (线性/循环) ────→ 半可分矩阵 ←──── Attention (二次/并行)
O(T) 训练 M_ij 结构 O(T²) 训练
常数状态推理 GPU Tensor Core
```
两种互补的数学视角:
1. **矩阵变换视角**SSM = 参数化矩阵乘法 Y = M·X
2. **[[tensor-contraction-duality|张量收缩视角]]**:导出 SSM ↔ Attention 的对偶关系
## SSD 层的双重计算
### 循环形式(线性复杂度)
- [[selective-state-space-models|选择性 SSM]] 的简化A 从对角阵退化为标量
- Head 维度 P = 64/128类似 Transformer
### 对偶形式(二次复杂度)
```
Y = (L ○ QK^T) · V
L_ij = a_i × ... × a_{j+1}
```
- 去掉 Softmax增加**数据依赖的位置掩码** L
- L 替代启发式位置编码a_t 在信息密集处接近 0重置
## 核心贡献:[[ssd-algorithm|SSD 算法]]
利用半可分矩阵的**块分解**实现最优权衡:
- **块内**矩阵乘法GPU Tensor Core 优化)
- **块间**:循环传播(保持线性复杂度)
| 指标 | vs Mamba | vs FlashAttention-2 |
|------|:--:|:--:|
| 速度 | **2-8x** | 16K 时 **6x** |
| 状态大小 | **8x** 支持 | — |
| 交叉点 | — | 2K 序列 |
## [[mamba-2|Mamba-2 架构]]
基于 SSD 原则设计的新架构:
- [[head-structure-ssm|GVA Head 结构]]:分组值注意力,介于 MHA 和 MQA 之间
- **Tensor Parallelism 原生支持**:同步点减半
- **变长序列训练**:无需 padding
- **Chinchilla 缩放**2.7B 参数 → 超越 Pythia-2.8B 和 6.9B
## 概念网络
```
state-space-models ──→ selective-state-space-models ──→ mamba-ssm
↓ ↓ ↓
semiseparable-matrices ←── structured-state-space-duality ──→ mamba-2
↓ ↓ ↓
structured-masked-attention tensor-contraction-duality ssd-algorithm
↓ ↓ ↓
linear-attention matrix-transformation head-structure-ssm
(GVA/MIS/MVA)
```
## 影响力
这是连接 SSM 和 Attention 两大范式的**里程碑工作**ICML 2024。不仅在理论上统一了两者更展示了"理论→工程"的直接转化——SSD 算法让 SSM 能用上 Transformer 生态积累的硬件优化Tensor Core, TP, FlashAttention 模式),推动了 Mamba-2 实现 2-8x 的加速。
## 来源
[arXiv:2405.21060](https://arxiv.org/abs/2405.21060) | [代码: state-spaces/mamba](https://github.com/state-spaces/mamba) | [原始存档](raw/papers/dao-transformers-are-ssms-2024.md)

View File

@@ -0,0 +1,89 @@
---
title: "Engram: Conditional Memory via Scalable Lookup (Cheng et al., PKU/DeepSeek-AI, 2026)"
created: 2026-06-25
updated: 2026-06-25
type: paper
tags: ["conditional-memory", "sparsity", "ngram", "mixture-of-experts", "scaling-law"]
sources:
- "https://arxiv.org/abs/2601.07372"
code: "https://github.com/deepseek-ai/Engram"
---
# Engram: Conditional Memory via Scalable Lookup
> Cheng et al. | Peking University / DeepSeek-AI | arXiv:2601.07372 | Jan 2026
## 问题
[[mixture-of-experts|MoE]] 通过条件计算扩展容量,但 Transformer **缺少原生的知识查找原语**——它被迫用计算来模拟检索。语言建模包含两类性质不同的子任务:组合推理(需要深层动态计算)和知识检索(大量文本模式是局部的、静态的、高度模板化的)。经典 N-gram 模型在捕获局部依赖上的有效性说明这些规律天然适合廉价查找,但现有 LLM 用昂贵的 Transformer 层去重建静态查找表。
## 核心思想:[[conditional-memory|Conditional Memory]]
提出 **条件记忆** 作为条件计算MoE的互补稀疏轴
| 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) |
|------|------|------|
| 激活方式 | 稀疏激活参数处理动态逻辑 | 稀疏查找检索静态嵌入 |
| 开销 | 随专家数增长 | O(1) 常数查找 |
| 适用 | 组合推理、动态上下文 | 命名实体、公式化模式、局部依赖 |
## [[engram|Engram 模块]]
Engram 将经典 [[ngram-embedding|N-gram 嵌入]] 现代化为 Transformer 的条件记忆模块:
### 1. Tokenizer Compression词表压缩
预计算满射函数 P: V → V',基于 NFKC 归一化+小写化将原始 token ID 映射到规范 ID实现 23% 的有效词表缩减。
### 2. Multi-Head Hashing多头哈希
每个 N-gram 阶数 n 用 K 个独立哈希头,通过乘性 XOR 哈希将压缩上下文映射到嵌入表 E_{n,k}(素数大小),拼接所有检索向量为最终记忆向量 e_t。
### 3. Context-aware Gating上下文感知门控
检索到的静态嵌入 e_t 缺乏上下文适应性。用当前隐藏状态 h_t 作为动态 Querye_t 为 Key/Value通过标量门控 α_t = σ(Q·K^T/√d) 抑制与上下文矛盾的记忆噪声。
### 4. Depthwise Causal Convolution
对门控后的值序列应用短深度可分离因果卷积kernel=4, dilation=max N-gram order, SiLU扩展感受野。
### 集成方式
Engram 以残差连接插入特定 Transformer 层H ← H + Y后跟标准 Attention 和 MoE。**并非所有层都加**——由系统延迟约束决定。
## [[sparsity-allocation|Sparsity Allocation]]U 形缩放律
定义分配比 ρ ∈ [0,1]MoE 占非活动参数的比例。实验结果:
- **U 形关系**:纯 MoE (ρ=1) 和纯 Engram (ρ=0) 都不如混合
- **最优 ρ ≈ 75-80%**:将约 20-25% 的稀疏参数预算重分配给 Engram 效果最佳
- **稳定性**:最优分配比在不同计算规模下保持一致
- **无限内存扩展**Engram 槽数扩大遵循严格幂律,提供可预测的扩展旋钮
## 关键结果
**全部 iso-parameter & iso-FLOPs**Engram-27B vs MoE-27B vs Dense-4B激活参数均为 3.8B。
| 领域 | 基准 | Engram 增益 |
|------|------|-----------|
| 知识 | MMLU | +3.4 |
| 知识 | CMMLU | +4.0 |
| 推理 | BBH | **+5.0** |
| 推理 | ARC-Challenge | +3.7 |
| 推理 | DROP | +3.3 |
| 代码 | HumanEval | +3.0 |
| 数学 | MATH | +2.4 |
**长上下文**Multi-Query NIAH 97.0 vs 84.2 (MoE)Variable Tracking 89.0 vs 77.0。
## 机理解释
1. **释放早期层**LogitLens + CKA 分析表明 Engram 解脱了 backbone 早期层对静态知识的重建负担,有效加深了可用于复杂推理的网络深度
2. **释放注意力容量**:局部依赖被委托给查找,注意力聚焦全局上下文,长上下文检索大幅提升
3. **基础设施感知效率**[[memory-compute-decoupling|确定性寻址]] 支持运行时从主机内存预取100B 嵌入表卸载开销 <3%
## 核心洞察
1. **条件记忆是 MoE 的必然互补**——语言信号的异质性意味着单一稀疏轴不够N-gram 嵌入这个看似简单的静态机制当被当作一等建模原语对待时能产生超越纯 MoE 的增益
2. **内存≠冗余**——Engram 的最大收益不在知识密集型任务那只是直觉预期而在推理和编码任务因为它不是"存更多事实"而是"释放计算深度用于推理"。
3. **U 形律揭示了一个深层结构事实**在给定的总参数预算下计算和记忆之间存在一个确定的最优比例该比例在不同规模下稳定
## 来源
[原始存档](raw/papers/engram-conditional-memory-2026.md) | [arXiv](https://arxiv.org/abs/2601.07372) | [GitHub](https://github.com/deepseek-ai/Engram)

View File

@@ -0,0 +1,71 @@
---
title: "MCP-Zero主动工具发现"
created: 2026-06-19
updated: 2026-06-19
type: paper
tags: [active-tool-discovery, mcp, llm-agents, tool-use, semantic-routing, context-efficiency]
sources:
- https://arxiv.org/abs/2506.01056
- https://github.com/xfey/MCP-Zero
---
# MCP-Zero主动工具发现
> **Xiang Fei, Xiawu Zheng, Hao Feng** (厦大/中科大) · 2025 · arXiv:2506.01056
## 核心问题
当前 LLM Agent 的工具使用范式本质上是**被动的**——将所有 tool schema 注入 context让模型从预定义选项中挑选。两个致命后果
1. **上下文膨胀**:单个 GitHub MCP server 4600+ tokens全 MCP 生态 248K tokens
2. **自主权剥夺**:模型从"自主能力构建者"退化为"被动选择器"
## 核心策略:主动工具发现
> **从"给你所有工具自己挑"翻转为"告诉我你需要什么,我来找"。**
```
被动范式: 所有 tool schema → Context → LLM 选择
主动范式: LLM 生成 <tool_request> → 语义匹配 → 返回精确工具
```
## 三大机制
### 1. [[active-tool-request|Active Tool Request]]
模型自主生成结构化请求,指定 server平台/权限域)和 tool操作类型+目标),请求在工具文档的语义空间中——对齐度天然优于原始用户查询。
### 2. [[hierarchical-semantic-routing|Hierarchical Semantic Routing]]
两级检索:先匹配 server含增强摘要再在选中 server 内排序 tool。复杂度 O(n)→O(m+k)m+k ≪ n。
### 3. [[iterative-capability-extension|Iterative Capability Extension]]
多轮迭代构建跨域 toolchain读文件→编辑代码→执行验证。工具不足时自主优化请求重新检索天然容错。
## 关键数据
| 指标 | 数值 |
|------|------|
| MCP-tools 数据集 | 308 servers, 2,797 tools |
| APIBank token 节省 | **-98%** |
| 搜索空间 | 248.1K tokens |
| 准确率 | 保持高准确率 |
## 理论贡献
- 主动发现建模为 **active learning**r* = arg max I(T*; r|s_t)
- 语义对齐优势cos(e_r, e_t) > cos(e_q, e_t)agent 请求在工具描述空间中
- 注意力效率:被动 O(1/n) → 主动 O(1/k)
## 与 Agent Harness 的关联
MCP-Zero 直接解决了 [[agent-skill|Agent Skills]] 框架中"操作维度"的工具发现问题:不是预加载 300 个 tool schema而是让 Agent 在运行时按需请求。这与 [[skill-retrieval|Skill Retrieval]] 的"检索而非全加载"思路一脉相承。
## 关键概念
- [[active-tool-discovery|主动工具发现]] — 范式转变
- [[active-tool-request|Active Tool Request]] — 结构化请求机制
- [[hierarchical-semantic-routing|层次语义路由]] — 两级匹配
- [[iterative-capability-extension|迭代能力扩展]] — 跨域 toolchain
- [[mcp-protocol|MCP 协议]] — 标准化工具接口
- [[mcp-tools-dataset|MCP-tools 数据集]]
来源:[原始存档](raw/papers/fei-mcp-zero-2025.md)

View File

@@ -0,0 +1,73 @@
---
title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability"
created: 2026-06-23
updated: 2026-06-23
type: paper
arxiv: "2606.15551v1"
category: cs.LG
author: "Eric Gan"
venue: Preprint
tags: [EoS, bifurcation-theory, gradient-descent, optimization, overparameterization, loss-landscape]
---
# 分岔理论框架下的梯度下降稳定边缘分析
> Eric Gan, arXiv:2606.15551v1, 2026
## 摘要
Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个**分岔理论框架**,直接适用于过参数化神经网络:将训练动力学沿极小值流形 M 分解为法向和切向分量,揭示 EoS 稳定性源自法向的 **flip 分岔**(由第一 Lyapunov 系数 c₁ 控制),同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下,证明了在 EoS 阈值处(η = 2/λ_max(x*))收敛到极小值流形。
## 核心问题
以往严格的 EoS 分析Zhu et al., Wang et al., Song & Yun, Gan 2026局限于低维、结构特殊的损失函数无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——[[manifold-of-minimizers|极小值流形]](连续全局极小集)带来的 Hessian 秩亏。
## 方法论:法向-切向分解
在极小值流形 M 上的任意点 x* 处:
1. **法向动力学**:经历 [[flip-bifurcation|flip 分岔]]Jacobian 临界特征值 λ = -1稳定性由 [[first-lyapunov-coefficient|第一 Lyapunov 系数 c₁]] 决定
- c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道
- c₁ < 0 亚临界分岔 发散
2. **切向动力学**两步迭代沿 M 漂移方向为 **sharpness 梯度** 的反方向
```
Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]²
```
这意味着 [[sharpness]] 沿训练**单调递减**
借助 [[center-manifold-theorem|中心流形定理]]高维动力学可约化到低维临界子空间
## 核心结论Theorem 4.4
在以下条件下对所有 x* M
1. **c₁(x*) > 0**超临界分岔 —— 早期实证表明 MLP 满足此条件
2. **Π_T ∇³L(x*)[v_max]² ≠ 0**切向漂移非退化
梯度下降以 η = 2/λ_max(x*) x* 的邻域初始化时**收敛到极小值流形 M**。
## 与乘积稳定性的统一
本文的第 5 节证明 [[product-stability|Gan (2026) 乘积稳定性]] 是本框架的特例对于 L(x,y) = f(xy) 形式的损失第一 Lyapunov 系数 c α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导这建立了极简标量分析与一般分岔框架之间的直接桥梁
## 开放问题
- 为什么实际网络的极小值处 c > 0尚无第一性原理解释
- Progressive Sharpening 的底层机制仍待解决
- SGD 噪声下的推广
## 相关概念
- [[edge-of-stability|Edge of Stability]]
- [[flip-bifurcation|Flip 分岔]]
- [[first-lyapunov-coefficient|第一 Lyapunov 系数]]
- [[manifold-of-minimizers|极小值流形]]
- [[normal-tangent-decomposition|法向-切向分解]]
- [[sharpness|Sharpness]]
- [[product-stability|乘积稳定性]]
- [[center-manifold-theorem|中心流形定理]]
## 来源
[arXiv:2606.15551](https://arxiv.org/abs/2606.15551)
[原始存档](raw/papers/gan-bifurcation-eos-2026.md)

View File

@@ -0,0 +1,90 @@
---
title: "Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning"
created: 2026-06-18
updated: 2026-06-18
type: paper
authors:
- Siyuan Gan (Nanjing University)
- Jiaheng Liu (Nanjing University)
- Boyan Wang (Nanjing University)
- Tianpei Yang (Nanjing University)
- Runqing Miao (Jiutian Research)
- Yuyao Zhang (Jiutian Research)
- Fanyu Meng (Jiutian Research)
- Junlan Feng (Jiutian Research)
- Linjian Meng (Shanghai AI Laboratory)
- Jing Huo (Nanjing University)
- Yang Gao (Nanjing University)
source: arXiv
source_id: 2601.04805
published: 2026-01-08
categories:
- cs.AI
---
# Thinking-Based Non-Thinking (TNT)
> Gan et al. (2026) — arXiv:2601.04805
## 核心问题
用 RL 训练[[hybrid-reasoning-models|混合推理模型]](自动决定思考/非思考)时,模型会 **Reward Hacking**:在非思考格式中嵌入思考内容,获取不应得的更高奖励。现有方案或计算成本过高(大规模 SFT或效果有限统一 token 上限)。
## TNT 的核心思路
**以思考定非思考**:利用思考模式响应的 solution 部分长度,为**每个查询动态设定**非思考模式的 token 上限。
### 为什么这可行
[[large-reasoning-models|LRM]] 的思考模式训练确保 `</think>` 之后的 solution **不含额外思考**——与真正的非思考模式输出高度一致。因此 thinking solution 长度是 non-thinking 自然长度的可靠估计。
### 算法
```
对每个查询 x
1. 采样 K 个响应(用省略号提示)
2. 从思考模式响应集 M_T^x 计算平均 solution 长度
3. L_N^x = ω × avg(h(y)) — 动态上限(ω=2
4. 非思考响应超过 L_N^x → Reward Hacking → -2 惩罚
```
## 奖励函数设计
| 模式 | 正确 | 错误 |
|------|:--:|:--:|
| 思考模式 | +1 | 0 |
| 非思考 + 无 hacking | **+2** | -1 |
| 非思考 + Reward Hacking | **-2** | **-2** |
核心:**超过 token 上限一律 -2**——无论对错,强力抑制 hacking。
## 实验亮点
| 指标 | TNT vs Base |
|------|------------|
| Token 使用 | **↓ ~50%** |
| 准确率 | **↑ 4.1%** |
| Reward Hacking 率 | **< 10%** |
| 效率权衡 | **最优**所有方法中 |
5 个数学基准测试AIME24, AIME25, Minerva, AMC23, Olympiad基础模型DeepSeek-R1-Distill-Qwen-1.5B/7B, DeepScaleR-1.5B
## 概念网络
```
overthinking → hybrid-reasoning-models → reward-hacking
↓ ↓ ↓
large-reasoning-models thinking-mode dynamic-token-limit
non-thinking-mode ↓
ellipsis-prompt thinking-based-non-thinking (TNT)
token-level-policy-gradient → GRPO
```
## 兼容性
TNT 只关注 token 上限设定 RL 算法解耦GRPO, PPO, DAPO, Dr.GRPO, GSPO 均可使用也可与 CoT CompressionBatch-Level Reward BalancingLength-Aware Reward 等技术组合
## 来源
[arXiv:2601.04805](https://arxiv.org/abs/2601.04805) | [原始存档](raw/papers/gan-thinking-based-non-thinking-2026.md)

View File

@@ -0,0 +1,74 @@
---
title: "Dynamic ReAct大规模 MCP 工具选择"
created: 2026-06-19
updated: 2026-06-19
type: paper
tags: [dynamic-tool-selection, mcp, react-agent, meta-tools, tool-retrieval]
sources:
- https://arxiv.org/abs/2509.20386
---
# Dynamic ReAct大规模 MCP 工具选择
> **Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj** · 2025 · arXiv:2509.20386
## 核心问题
MCP 生态增长到数百/数千工具时ReAct Agent 无法全量加载——上下文有限。需要**按需的动态工具选择**。
## 五架构渐进演化
| # | 架构 | 核心机制 | 关键问题 |
|---|------|---------|---------|
| 1 | Direct Semantic Search | 用户查询→向量库→top-k | 噪声严重,跨域失效 |
| 2 | Meta-Tool Query Construction | LLM 构造原子搜索查询 | 仍需大 k精度有限 |
| 3 | **Search and Load** ★ | search_tools + load_tools | **最优平衡** |
| 4 | Application-Aware | 先搜 app 再搜 tool | 额外调用收益有限 |
| 5 | Fixed Tool Set | 固定 meta-tool 动态访问 | 长对话退化 |
### ★ Search and Load生产选择
```
用户查询 → LLM构造多查询 → search_tools(k1=20, k2=5/每应用)
→ 去重返回 → LLM精选 → load_tools(< 5个工具) → 执行
```
优势:
- 多查询合并一次 `search_tools` 调用
- 去重 + 每应用上限 k2=5 控制候选规模
- LLM 精选后通常**加载不到 5 个**工具vs baseline 的 10+
- 工具加载减少 **50%**,准确率保持
## [[context-enriched-embeddings|上下文增强嵌入]]
从 baseline 的 Top-5 40% → 60%+50% 相对提升):
- Sonnet 4 生成增强描述(隐式功能 + 用例)
- voyage-context-3 嵌入 + Sonnet context
- BM25 混合提升 recall 但降 precision关键词误匹配
## [[meta-tools|Meta-Tool 设计]]
四个核心 meta-tool
- **search_tools**两级搜索k1 候选 → 去重 → k2 每应用上限)
- **load_tools**LLM 精选后显式加载
- **search_apps**:先定位应用(可选,收益有限)
- **get_tool_info / call_tool**Fixed Tool Set 模式的动态访问
## [[default-tools|Default Tools]]
**create_table** + **web_search** 始终可用——避免为通用任务浪费搜索(如 LLM 搜索 "financial APIs" 来找财报,有了 web_search 直接搜即可)。
## 与 MCP-Zero 的对比
| | Dynamic ReAct | [[fei-mcp-zero-2025|MCP-Zero]] |
|---|---|---|
| 核心机制 | meta-tool + 语义搜索 | Agent 主动请求 + 层次路由 |
| 工具加载 | search→load 两阶段 | 请求→路由→注入 |
| 向量策略 | context-enriched embeddings | OpenAI text-embedding-3-large |
| 多轮 | ReAct 框架内迭代 | Iterative Capability Extension |
| 共性 | 都追求"按需而非全量" | 都反对被动注入 |
Dynamic ReAct 论文直接引用了 MCP-Zeroref [2])——两篇构成 MCP 工具选择的互补视角。
来源:[原始存档](raw/papers/gaurav-dynamic-react-2025.md)

95
papers/gu-mamba.md Normal file
View File

@@ -0,0 +1,95 @@
---
title: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
created: 2026-06-18
updated: 2026-06-18
type: paper
tags: ["state-space-models", "linear-complexity", "sequence-modeling", "architecture"]
sources: ["https://arxiv.org/abs/2312.00752"]
---
# Mamba选择性状态空间的线性时间序列建模
## 核心问题
[[state-space-models|状态空间模型SSM]]作为 Transformer 的线性复杂度替代方案,在连续信号(音频、视觉)上表现出色,但在离散信息密集数据(如文本)上从未达到 Transformer 质量。Gu & Dao (2024) 识别出根本原因:**缺乏内容感知推理**——传统 SSM 的动力学是时间不变的LTI每个 token 的处理规则完全相同,无法选择性关注或忽略信息。
## 核心贡献选择机制S6
Mamba 的关键创新是将 SSM 从 **LTI线性时间不变升级为选择性Selective**
```
S4 (LTI): B, C, Δ 对所有时间步固定 → 卷积 OR 循环
S6 (Selective): B_t, C_t, Δ_t 是输入 x_t 的函数 → 仅循环 (需 scan)
```
### 算法对比(核心直觉)
| 算法 | B | C | Δ | 性质 |
|------|---|---|---|------|
| S4 | Parameter (D, N) | Parameter (D, N) | τ(Parameter) | LTI, 可用卷积 |
| **S6** | s_B(x_t): (B, L, N) | s_C(x_t): (B, L, N) | τ(Δ + s_Δ(x_t)) | **时间变化**, 需 scan |
效果S6 模型能**根据当前 token 内容**决定是传播还是遗忘信息——这就是选择性。
### 为什么这很重要
在 [[selective-copy|选择复制]]任务中,传统 LTI 模型只能在 token 间距固定时成功(只需时间感知,不需内容感知)。一旦间距随机变化,只有能"看到内容再决定是否记住"的模型才能胜任。Mamba 的选择机制天然支持这种内容感知。
## 第二个创新:硬件感知算法
选择机制带来了计算挑战:时间变化的 SSM **不能再用卷积**(卷积要求 LTI。Mamba 通过以下方式解决:
1. **并行关联扫描parallel associative scan / Blelloch scan**:将循环更新展开为前缀和操作,可在 GPU 上并行
2. **IO 感知的 kernel fusion**:在 SRAM 中完成 scan 和离散化,避免将扩展状态写入 HBM
3. **重计算recomputation**:反向传播时不保留中间状态,直接重算
这三个技巧使 Mamba 比所有卷积 SSM 快 **3×**A100 GPU
## 架构:极简设计
Mamba block 结构:
```
x → LayerNorm
→ Linear(d → 2d) → Conv1d → SiLU [门控分支]
→ Linear(d → 2d_N) → SSM(S6) [SSM 分支]
→ 逐元素乘法 → Linear(2d → d)
→ + x (残差)
```
关键设计哲学:
- **无注意力、无 MLP**:单一块类型统管整个模型
- **扩展比 E=2**:计算量可控
- **同质架构**:所有层结构相同,仅参数不同
与 H3 的关系H3 使用两个 LTI SSM + 门控Mamba 将门控 SSM 融合为单一选择性 SSM。
## 实验结果总结
| 模态 | 结果 |
|------|------|
| 语言 | Mamba-3B > Pythia-3B匹敌 Pythia-7B5× 推理吞吐 |
| 合成任务 | Selective Copying + Induction Heads 外推至 >1M tokens |
| 音频 | SC09 语音生成 FID 降低 >50% |
| 基因组学 | >HyenaDNA>Transformer |
## 关键概念网络
- [[selective-state-space]] — S6 选择机制
- [[hardware-aware-algorithm]] — GPU 优化并行 scan
- [[structured-state-space-models]] — S4 前身
- [[content-based-reasoning]] — Mamba 解决的 LTI 弱点
- [[selective-copy]] — 动机合成任务
- [[induction-heads]] — LLM 关键机制
- [[hippo]] — SSM 数学基础
- [[mamba-ssm]] — 概念主页(已有,需更新)
- [[state-space-models]] — SSM 家族总览(已有)
## 代码
https://github.com/state-spaces/mamba
## 来源
- [arXiv:2312.00752](https://arxiv.org/abs/2312.00752)
- [原始存档](raw/papers/gu-mamba-2024.md)

105
papers/hazare-dcgwm-2026.md Normal file
View File

@@ -0,0 +1,105 @@
---
title: "DCGWM: 双通道接地世界建模 — 结构防止目标干扰坍缩"
created: 2026-06-23
updated: 2026-06-23
type: paper
tags: ["world-modeling", "jepa", "representation-learning", "collapse-prevention", "gradient-interference"]
authors: ["Akshay Hazare"]
venue: "arXiv"
year: 2026
arxiv: "2606.18688"
note: "Position paper. Experimental validation in progress."
sources: ["https://arxiv.org/abs/2606.18688v1"]
---
# DCGWM: Dual-Channel Grounded World Modeling
> Akshay Hazare · arXiv:2606.18688 · 2026 · Position paper (experimental validation ongoing)
## 核心问题
[[jepa|JEPA]] 是世界模型表示学习的前沿方法。但当一个 JEPA 需要同时接地两个**定性不同的外部信号**时——物理动力学(稀疏、高幅值、满足约束的梯度修正)和社交行为动力学(弥散、分布匹配的梯度修正)——会发生什么?
Hazare 识别出这一设定下的一种新失效模式:**[[objective-interference-collapse|Objective Interference Collapse (OIC)]]**——在共享潜在空间中联合学习时,主导通道系统性地坍缩从属通道的表示子空间。损失权重**无法解决**此问题,因为冲突是几何的而非量级的。
## 方法论贡献
### 1. OIC 的形式化
物理梯度 g_p 是低熵的(集中在特定维度,高幅值),行为梯度 g_b 是高熵的(弥散在多个维度,低幅值)。联合更新 ∝ g_p + g_b 导致:
- 物理主导时 → Z → Z_p*,物理损失 → 0
- 行为梯度在 Z_p* 处非零 → 行为更新扰动物理子空间
- 下一轮物理修正覆盖行为结构 → 行为子空间永远无法形成稳定满秩
标量重加权α·g_p + β·g_b改变幅度但不改变冲突的**几何结构**。
### 2. DCGWM 架构
核心设计:**分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流**
```
物理测量 → PGC [内向∇] → Z_p ┐
├→ LWME → detach() → GRL → 用户
社交模拟 → SBGC [内向∇] → Z_b ┘
```
**四个架构不变量**
1. **Inv1**: Z_p 和 Z_b 无共享参数,无直接梯度路径
2. **Inv2**: PGC 梯度仅更新 W_pSBGC 梯度仅更新 W_b
3. **Inv3**: 接口模块不传播跨子空间梯度
4. **Inv4**: GRL 接收 detach() 的潜在表示,生成损失不回流
**物理接地通道 (PGC)**:通过 [[vicreg|VICReg]] 风格对齐将物理测量映射到 Z_p使用方差/协方差正则化维持子空间满秩。
**行为接地通道 (SBGC)**:将紧急性多智能体模拟的输出作为外部接地信号注入 Z_b——行为分布来自 N 个交互智能体的群体级紧急性轨迹,不可约化为单模型预测。
**接口模块**:通过一致性 + 解耦的双目标(无跨子空间梯度)捕获物理-行为相关性。
### 3. Asymmetric Grounding Adherence Loss (L_AGA)
[[rollout-drift|Rollout drift]] 是多步潜在预测累积误差导致轨迹偏离接地流形的失效模式。[[asymmetric-grounding-adherence-loss|L_AGA]] 是首个针对异质接地源、具有不兼容容忍结构的 drift 防止损失:
- **物理 Adherence**:平方铰链惩罚 `max(0, d_p ε_p)²`——物理定律是硬约束,超过容忍阈值即范畴错误
- **行为 Adherence**:软 KL 散度 `KL(q_b ∥ p_b)`——行为随机性是预期的,与分布距离成比例的连续惩罚
不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容。
### 4. Isolation Necessity Theorem
[[isolation-necessity-theorem|隔离必要性定理]]:设 L_gen 为任何奖励保留高频感知统计的生成目标L_pred 为奖励丢弃不可预测高频内容的 JEPA 预测目标。若 LWME 在 L_pred 下有唯一最优点 Z*,且 Z* 位于 L_gen 在高频子空间中的鞍点,则对任何 α > 0梯度优化将驱动 Z 偏离 Z*。
→ 唯一解决方案是架构隔离(α = 0GRL 在 LWME 参数冻结的单独优化阶段训练。
### 5. 对 LLM 世界建模的结构性批判
DCGWM 不仅是新架构提议——它阐明了一个关于 LLM 作为世界模型的结构性论证:
- **NTP 诱导的子空间坍缩**Zhao et al., 2024NTP 隐式求解秩约束优化,相同下一 token 支持集的上下文表示收敛到近共线方向
- **RLHF 复合而非修复**RLHF 在已坍缩的表示上操作,进一步压缩有效秩
- **缩放使问题更严重**:更大模型更完全地最小化 NTP 损失 → 更完全地坍缩
DCGWM 通过用 JEPA 掩码预测替代 NTP 目标来规避这些——不是修复 LLM而是从根本上使用不同的训练目标。
## 局限性与开放问题
Hazare 精确陈述了局限——不做最小化:
1. **零经验验证**:所有声明是理论或结构性的;实验验证进行中
2. **OIC 是猜想**:论证是直觉的,未包含自适应优化器、批量归一化动力学等
3. **隔离必要性依赖未证明假设 A2**Z* 在 L_gen 高频子空间中是鞍点的假设
4. **接口收敛未证明**L_I 是否有稳定均衡未知
5. **行为编码器保真度未验证**enc_b 是否能忠实地映射群体紧急性轨迹未知
## 参考
- [原始存档](raw/papers/hazare-dcgwm-2026.md)
- [[jepa|JEPA]]
- [[objective-interference-collapse|Objective Interference Collapse]]
- [[dcgwm|DCGWM]]
- [[inward-only-gradient-flow|Inward-Only Gradient Flow]]
- [[asymmetric-grounding-adherence-loss|L_AGA]]
- [[rollout-drift|Rollout Drift]]
- [[isolation-necessity-theorem|Isolation Necessity]]
- [[vicreg|VICReg]]
- [[world-models-rl|World Models]]
- [[representation-collapse|Representation Collapse]]

View File

@@ -0,0 +1,56 @@
---
title: "AI 的集体主义经济学视角Jordan, 2025"
created: 2026-06-21
updated: 2026-06-21
type: paper
tags:
- ai-economics
- collective-intelligence
- uncertainty
- mechanism-design
sources:
- arXiv:2507.06268
- MLST 2026
---
# AI 的集体主义经济学视角
> Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268v3 (cs.CY/cs.AI/stat.ML), 2025.
## 核心主张
LLM 不仅是"接近人类的智能体"——它们同样是**集体主义制品**:每次交互都在与数十亿贡献微数据的个体进行隐式对话。"AI 匹敌的隐喻不是搜索引擎或聊天机器人,而是**市场**。"
## 三种思维方式
论文提出了计算、推断、经济三种思维方式的深度融合框架。详见 [[collectivist-ai|集体主义 AI]]。
## 核心案例
| 案例 | 章节 | 核心概念 |
|------|------|---------|
| 数据库推断设计 | §2 | 从描述到推断——对"新患者"而非"旧数据"做预测 |
| 统计合同理论 | §3 | [[statistical-contract-theory]] + [[e-values|E-values]] |
| 三层数据市场 | §4.2 | [[data-markets|数据市场]]的隐私-收入权衡 |
| 基础模型前沿偏倚 | §4.3 | [[prediction-driven-inference|PPI]] 纠正 [[foundation-model-frontier-bias]] |
| 概率匹配 | App.C | [[probability-matching|概率匹配]]作为种群纳什均衡 |
## 数学亮点
**E-values 与激励相容**Bates et al. (2024) 证明统计合同激励相容 ⇔ 选项可表达为 E-values。E-value 是非负上鞅,在零假设下期望 ≤1本质是"证据随时间的累积"——将推断概念与经济概念等价关联。
**概率匹配作为纳什均衡**:小鼠在 2:1 食物比下以 2/3 vs 1/3 概率选择左右——这不是次优行为,而是种群层面的纳什均衡,避免资源浪费。
## 教育实践
UC Berkeley **Data 8** 课程2015 年起,每学期 1500+ 学生融合计算思维Python 编程)+ 推断思维(置换检验),让学生用算法回答真实世界问题。
## 论文定位
这是一篇**立场论文position paper**非技术贡献型。Jordan 的核心动作不是提出新算法,而是**重新定义 AI 的学科边界**——主张将经济与推断原则融入算法设计的 DNA。这与 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]] 中的论点完全一致,论文提供了更系统的学术展开。
## 参考文献
- Bates et al. (2024). Principal-Agent Hypothesis Testing. arXiv:2205.06812
- Angelopoulos et al. (2023). Prediction-Powered Inference. *Science* 383, 669674
- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697

View File

@@ -0,0 +1,87 @@
---
title: "Structured Inference with Large Language Gibbs"
created: 2026-06-25
updated: 2026-06-25
type: paper
tags: [mcmc, gibbs-sampling, llm, probabilistic-inference, bayesian, structure-learning, reasoning]
sources:
- https://arxiv.org/abs/2606.19264
- https://github.com/hyeok9855/large-language-gibbs
---
# Large Language Gibbs
**Large Language Gibbs** 是由 Edinburgh 团队Choi, Gouk, Whitammer提出的结构化概率推断框架。核心创新在于**将 LLM 的条件分布作为 Gibbs 采样的转移算子**,通过迭代重采样消除自回归生成的顺序偏差,实现更可靠的联合分布采样。
## 核心方法论
### 1. Gibbs 采样与 LLM 条件分布
标准 Gibbs 采样从联合分布中采样:随机选择变量 i从 p(X_i | X_{-i}) 重采样。Large Language Gibbs 用 LLM 的 next-token conditional 近似这些单变量条件分布:
```
q_i^LM(X_i | X_{-i}) = E_{σ_{-i}}[p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i])]
```
**关键设计**:每次重采样前将其他变量**随机排列**random permutation消除固定序列顺序的偏差。
### 2. 稳态分布 q^sym
论文证明了链的稳态分布为:
```
q^sym(X) = E_σ[p^LM(seq(X, σ))]
```
即:对所有变量排列下 LLM 似然的期望。当 LLM 满足排列不变性假设时q^sym 的各单变量条件与 LLM 的条件分布一致。即使假设不完全成立,随机排列也显著降低了顺序偏差。
### 3. 三类核变体
| 核 | 机制 | 优势 |
|----|------|------|
| **Basic Gibbs** | 直接从 LLM 的条件分布采样 | 最直接 |
| **[[barker-gibbs|Barker Gibbs]]** | LLM 在 current 和 candidate 之间做偏好比较Barker 规则决定接受率 | 利用判别能力,克服 base model 采样偏差 |
| **[[gambling-gibbs|Gambling Gibbs]]** | LLM 判断是否愿意对 candidate 下注greedy decoding | 无需校准概率,仅需二值判断 |
### 4. 实用变体
- **Sweeping Gibbs**:按固定顺序循环更新(加速收敛)
- **Block Gibbs**:一次重采样 B>1 个变量(在高度相关变量中跳出局部模式)
## 应用
### 合成分布采样§4
LLM 独立采样有强偏差(如 Llama-3.1-8B 对 Uniform 分布的采样偏向低值批量采样有高自相关。Gibbs 迭代更新显著纠正了这两种问题。
### 一致性推理§5.1
在 TruthfulQA 和 GSM8K-Verification 上Gibbs 采样通过迭代条件更新确保相关问题的答案一致性。相比 ICM 的启发式最大化Gibbs 提供了有理论保证的替代方案。
### 贝叶斯结构学习§5.2
使用 Gibbs 生成合成数据 D_LLM构造 world-knowledge 驱动的先验:
```
P(G | D; D_LLM, γ) ∝ P_0(G) P(D_LLM | G)^γ P(D | G)
```
在 limited data 下LLM 先验帮助消歧义马尔可夫等价的 DAG 结构。
## 算法流程
1. **初始化**:自回归生成所有变量的初值 X_1, ..., X_n
2. **迭代**t = 1, ..., T
- 随机选择变量 i
- 随机排列其他变量 σ_{-i}
- 从 p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i]) 重采样 X_i
3. **后处理**burn-in 丢弃 + thinning 间隔采样
## 参考
- [原始存档](raw/papers/large-language-gibbs-2026.md)
- [[barker-gibbs]]
- [[gambling-gibbs]]
- [[llm-mcmc]]
- [[order-bias-removal]]
- [[llm-consistent-reasoning]]

View File

@@ -0,0 +1,77 @@
---
title: "What Makes Effective Supervision in Latent Chain-of-Thought"
created: 2026-06-25
updated: 2026-06-25
type: paper
tags: [latent-cot, information-theory, mutual-information, reasoning, supervision, representation-learning]
sources:
- https://arxiv.org/abs/2606.20075
- https://github.com/EIT-NLP/Supervision-in-Latent-CoT
---
# Latent CoT Supervision
**Latent CoT Supervision** 是 ICML 2026 的工作Chen et al.),从信息论角度系统分析了 Latent Chain-of-Thought 的有效监督机制。核心贡献在于识别 outcome supervision 的失败机理,并将过程监督分解为两个互补维度。
## 核心发现
### 1. Outcome Supervision 的双重崩溃
仅使用最终答案损失训练 Latent CoT 失败于两个机制:
| 机制 | 现象 | 后果 |
|------|------|------|
| **[[dual-collapse|梯度衰减]]** | 监督信号集中于 L1L2...L6 梯度接近零 | 模型依赖浅层位置,深层不参与推理 |
| **[[dual-collapse|表征漂移]]** | 潜状态在训练中偏离语义参考区 | 失去语义锚定,进入无结构区域 |
两者的交互效应:梯度衰减导致深层潜状态未受充分训练 → 它们在参数空间中"漂移" → 最终 answer loss 通过捷径shortcut最小化而非通过真正的多步推理。
### 2. 过程监督的二维分解
**[[trajectory-supervision|Trajectory Supervision]]**(轨迹监督):
- 逐步注入推理信号:阶段 k 训练时,前 k 步使用连续潜状态 L_{≤k},后续使用显式 token
- 目标:最大化局部互信息 I(L_{≤k}; S_{k+1})
- 关键发现:仅 Trajectory Supervision无 Space Supervision已显著优于 Outcome-only
**[[space-supervision|Space Supervision]]**(空间监督):
- **[[geometric-compression-latent|Geometric Compression (GC)]]**MSE 对齐潜状态到静态嵌入 → **破坏性约束**,坍缩高维推理流形
- **[[generative-reconstruction-latent|Generative Reconstruction (GR)]]**:辅助解码器从潜状态恢复文本 → **语义锚定**,保留信息容量
GR 的信息论优势:最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的变分下界。
### 3. Unified Latent Probe (ULP)
[[unified-latent-probe|ULP]] 是一个轻量解码器 q_φ(S_t | L_t),冻结模型后训练在所有 baseline 的潜状态上。
其重建损失 L_Info 提供了一个严格的信息度量:
- L_Info 低 → 潜状态保留了可恢复的推理语义
- L_Info 高 → 潜状态退化到高熵无结构区域
### 4. Information-Performance Binding
[[information-performance-binding]]:推理精度与 ULP 重建损失呈严格的**反比关系**。即推理能力被潜链中的互信息上界严格约束。
实验中 PS-GRTrajectory + Generative Reconstruction达到最优前沿最大化 I(L_t; S_t) 并保持 I(L_{≤k}; S_{k+1}) 的可预测性。
## 方法论要点
- **渐进式训练**Progressive Training从完全显式 CoT 逐步过渡到完全 Latent CoT
- **粒度Granularity g**g 个 token 合并为一个潜向量。g=1逐 token 潜向量)效果最优但计算昂贵
- **优化器重置**:过渡到连续状态时重置优化器 → "探索冲击"exploration shock帮助逃离局部最优
- **信息衰减**:自回归潜生成存在 position-wise 信息衰减GR 通过可重建性约束周期性"重置"语义漂移
## 局限
- 模型规模仅限于 GPT-2需在更大模型上验证
- 依赖过程标注ground-truth reasoning steps限制可扩展性
- MI 估计受限于变分探针容量,可能保守
## 参考
- [原始存档](raw/papers/latent-cot-supervision-2026.md)
- [[dual-collapse]]
- [[trajectory-supervision]]
- [[space-supervision]]
- [[unified-latent-probe]]
- [[information-performance-binding]]
- [[generative-reconstruction-latent]]
- [[geometric-compression-latent]]

View File

@@ -0,0 +1,91 @@
---
title: "LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Wu et al., UCLA/Tencent, ICLR 2025)"
created: 2026-06-25
updated: 2026-06-25
type: paper
tags: ["memory-benchmark", "chat-assistant", "long-term-memory", "evaluation"]
sources:
- "https://arxiv.org/abs/2410.10813"
code: "https://github.com/xiaowu0162/LongMemEval"
---
# LongMemEval: Benchmarking Long-Term Interactive Memory in Chat Assistants
> Wu et al. | UCLA / Tencent AI Lab Seattle / UC San Diego | ICLR 2025 | arXiv:2410.10813
## 问题
LLM 驱动的聊天助手已集成记忆组件来追踪交互历史,但其在**持续交互中的长期记忆能力**缺乏系统评估。现有基准有两个缺陷:
1. 对话历史过短(几千 tokens无法挑战现代系统的记忆能力
2. 问题覆盖面窄——缺少跨会话推理、时间推理、知识更新、信息遗忘等关键能力
## [[longmem-eval|LongMemEval 基准]]
### 问题形式化
每个评测实例为 4-元组 (S, q, t_q, a)
- **S** = [(t₁, S₁), ..., (t_N, S_N)]:按时间排序的 N 个历史会话,每个 S_i 是多轮用户-助手交互
- **q**:问题
- **t_q**:提问时间戳
- **a**:答案
### 五种核心记忆能力 (500 题)
| 能力 | 说明 | 例子 |
|------|------|------|
| **Information Extraction** | 从单/多会话提取隐藏信息 | "我上次去博物馆是什么时候?" |
| **Multi-Session Reasoning** | 跨多个会话综合信息 | "我目前拥有多少乐器?"(分散在 4 个会话中) |
| **Temporal Reasoning** | 基于时间参考的推理 | "距离我上次和朋友去博物馆过去了几个月?" |
| **Knowledge Updates** | 处理用户信息的更新/矛盾 | 用户先说过敏花生→后来说不过敏 |
| **Abstention** | 识别无法回答的问题 | 问 30-gallon 鱼缸的鱼数——但用户只有 10-gallon |
### 两种标准设置
| 设置 | 规模 | 难度 |
|------|------|------|
| LongMemEval **S** | ~115k tokens/problem | 长上下文 LLM 下降 30-60% |
| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模长时间交互 |
## 统一记忆设计框架:[[memory-indexing-retrieval-reading|索引→检索→阅读]]
将记忆系统分解为三个阶段 × 四个控制点:
```
会话 → [Value 粒度] → [Key 索引] → 存储
查询 → [Query 展开] → 检索 → [Reading 策略] → 答案
```
**三阶段**Indexing索引写入、Retrieval检索召回、Reading阅读利用
**四控制点**Value存储粒度、Key索引键、Query查询、Reading Strategy利用策略
## 关键实验发现
### 1. 粒度Round > Session > User Fact
Session 级别的存储信息损失严重。最优粒度是 **round**(单轮交互),但进一步压缩为 user facts 会在总体精度上反降——尽管它提升了多会话推理准确度。
### 2. [[fact-augmented-key-expansion|事实增强的 Key 展开]]
用提取的用户事实(而非仅对话原文)作为索引键:
- 记忆召回 +9.4% (recall@k)
- 下游 QA 准确度 +5.4%
### 3. [[time-aware-query-expansion|时间感知的 Query 展开]]
直接把时间戳关联到事实并缩小搜索范围:
- 时间推理召回 +6.8%11.3%(当使用强 LLM 展开查询时)
### 4. Reading 策略Chain-of-Note + 结构化格式
即使完美召回准确利用检索到的项目仍非易事。Chain-of-Note + 结构化数据格式在三类 LLM 上提升 QA 达 **10 个绝对百分点**
## 核心洞察
1. **记忆评测需要覆盖"遗忘"**——Abstention 是 LongMemEval 的独特贡献:模型必须学会说"我不知道",而非幻想答案
2. **三阶段框架统一了记忆设计空间**——indexing/retrieval/reading 的分拆使不同优化策略可以在独立控制点上叠加
3. **Key 展开的价值大于 Query 展开**——在索引阶段用结构化事实增强 key 比在查询阶段做 rewrite 更高效(+9.4% vs +6.8-11.3%
4. **与 Atlas 的对接点**LongMemEval 的三阶段框架可以直接映射到 Atlas 的 ES 记忆管线——round 粒度 → episodic 索引fact-augmented key 对应 semantic 索引的 consolidation 输出
## 来源
[原始存档](raw/papers/longmem-eval-2025.md) | [arXiv](https://arxiv.org/abs/2410.10813) | [GitHub](https://github.com/xiaowu0162/LongMemEval)

85
papers/maineCoon.md Normal file
View File

@@ -0,0 +1,85 @@
---
title: "MaineCoon: Real-Time Audio-Visual Social World Model"
created: 2026-06-20
updated: 2026-06-20
type: paper
tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
sources: ["https://arxiv.org/abs/2606.17800"]
venue: "arXiv preprint (cs.CV, 2026)"
authors: "Catnip AI Team"
---
# MaineCoon: Real-Time Audio-Visual Social World Model
> **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。
## 核心贡献
MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:
| 维度 | 传统 DiT 视频模型 | MaineCoon |
|------|------------------|-----------|
| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
| 长度 | 数秒 | **千秒级 (~45 分钟)** |
| 成本 | 高昂 | **<$0.001/秒** |
| 交互 | 无 | **亚秒级交互** |
### 范式定义Social World Model
[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
## 方法要点
### 1. 无需 Teacher Forcing 的流式训练
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:
- [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth
- 消除 train-test gap使模型对部署时的长时退化鲁棒
### 2. 跨模态表示对齐
通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练:
- 对齐视觉 token 之间的**成对关系**,而非绝对特征值
- 仅在视觉流上施加,音频流不受约束
- 大幅加速语义结构的涌现
### 3. Specialize-then-Consolidate 后训练
- **Phase 1**5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
- **Phase 2**[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
- Verifier 对学生候选打分 → 自动加权域专家干预程度
- 全部失败→最大专家权重(α);全部成功→零专家干预
### 4. Agentic 流式推理框架
三个 agentic 控制器包裹冻结生成器(训练无关):
- **Director (Planner & Observer)**Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
- **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
- **Buffer Controller**pace gate 管理生成 lead吸收抖动保护播放流畅度
## SocialVideo Bench
首个专注社交视频生成的 benchmark9 项指标覆盖:
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
- MaineCoon 在所有指标上超越 7 个开源 baseline
## 开源与资源
- 项目主页https://mainecoon.tech/
- 论文https://arxiv.org/abs/2606.17800
- 基础模型LTX-2.3 (22B 开源 DiT)
## 相关概念
- [[social-world-model|社交世界模型]] — 核心范式
- [[self-resampling|Self-Resampling]] — 训练技术
- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
- [[agentic-streaming-inference|Agentic 流式推理]]
- [[agentic-cache-manager|Agentic 缓存管理]]
- [[look-ahead-buffer-controller|缓冲控制]]
- [[forward-repair-ladder|前向修复]]
- [[socialvideo-bench|SocialVideo Bench]]
- [[audio-visual-representation-alignment|音视频表示对齐]]
- [[domain-aware-preference-optimization|域感知 DPO]]
- [[diffusion-transformer|DiT]]
- [[audio-visual-generation|音视频生成]]
- [[autoregressive-video-generation|自回归视频生成]]
- [[streaming-generation|流式生成]]
- [[social-video|社交视频]]

View File

@@ -0,0 +1,77 @@
---
title: "ME² + TRM: Complex Reasoning Optimization (Zhang et al., ICML 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["reasoning", "reward-model", "dag", "grpo", "test-time-scaling"]
sources:
- "https://arxiv.org/abs/2602.08498"
code: "https://github.com/Simplified-Reasoning/TRM"
---
# ME² + TRM: 复杂推理的表征、评估与优化
> Zhang et al. | ICML 2026 | arXiv:2602.08498v2 | cs.CL
## 动机
[[large-reasoning-models|LRMs]] 的推理轨迹越来越长且结构复杂,但缺乏统一的答案回答三个问题:(1) 什么是高质量推理?(2) 如何可靠评估?(3) 如何用评估信号优化推理?
现有方法的局限PRMs 依赖步骤级绝对评分无法捕获长程依赖和非线性结构ORMs 设计用于对齐最终响应helpful/honest/harmless而非评估结构化推理质量。
## 核心框架
### [[me2-principle|ME² 原则]]
两个正交维度:
| | Macro全局 | Micro局部 |
|---|---|---|
| **Effectiveness** | 结构组织是否合理、无冗余分支 | 步骤是否正确、有逻辑 |
| **Efficiency** | 推理路径是否简洁、无绕路 | 步骤是否精简、无赘述 |
推理质量 = Macro-Effectiveness × Macro-Efficiency × Micro-Effectiveness × Micro-Efficiency
### [[dag-reasoning-evaluation|DAG 推理建模]]
将推理轨迹抽象为 DAG
- 节点:推理步骤
- 边:逻辑依赖关系
- DAG vs TreeTree 无法表达合并多前驱节点DAG 是表达力与可处理性的实用平衡
### [[thinking-reward-model|Thinking Reward Model (TRM)]]
训练流程:
1. 生成多条候选推理轨迹 → 构建 DAG → ME² pairwise preference 标注DeepSeek-V3.2
2. 构建 [[trm-preference-dataset|TRM-Preference]]103K 训练对1.5K 验证)
3. 训练 TRMLlama-3.1-8B + scalar headBradley-Terry loss
**核心设计**TRM 仅训练于 verified-correct 推理对——与答案正确性解耦,纯评估推理质量。
### [[reasoning-quality-optimization|推理质量优化]]
**Test-Time Scaling**TRM Best-of-N selection → +19.3%AIME24, N=16, Qwen3-8B: 44.7%→64.0%
**RL Training**TRM-guided GRPO with gated reward shaping
$$r = r_v \cdot (1 - \alpha + \alpha \cdot \text{Sigmoid}(r_t))$$
r_v = outcome reward, r_t = thinking reward, α = balance weight
→ +3.9% across diverse tasks
## 关键结果
| 方法 | 验证集准确率 |
|------|------------|
| Qwen2.5-Math-PRM-7B | 46.3% |
| ReasonFlux-PRM-7B | 62.5% |
| PromptOnly (DeepSeek-V3.2) | 78.6% |
| **TRM (ours)** | **88.6%** |
## 核心洞察
1. **将推理质量与答案正确性解耦** — TRM 仅训练于正确推理的偏好对,证明推理质量可独立于答案正确性评估
2. **DAG 比 Tree 更适合推理建模** — 推理中的合并多步归结为一个结论是常见模式Tree 无法表达
3. **Structural signals matter** — 直接 prompt-based 比较产生大量 ties (232/1497),但去除 ties 后准确率 93%。DAG 结构化后 ties 归零,证明结构信号是关键区分器
## 来源
[原始存档](raw/papers/me2-trm-reasoning-2026.md) | [arXiv](https://arxiv.org/abs/2602.08498) | [GitHub](https://github.com/Simplified-Reasoning/TRM)

View File

@@ -0,0 +1,78 @@
---
title: "The Topological Trouble With Transformers"
created: 2026-06-18
updated: 2026-06-18
type: paper
authors:
- Michael C. Mozer (Google DeepMind)
- Shoaib Ahmed Siddiqui (Google DeepMind)
- Rosanne Liu (Google DeepMind)
source: arXiv
source_id: 2604.17121
published: 2026-04-18
categories:
- cs.LG
- cs.AI
---
# The Topological Trouble With Transformers
> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
## 核心问题
Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。
## 关键论证
### 1. 拓扑性限制
Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突:
- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
- 经 t 步后,浅层无法访问最新的状态信息
### 2. 实证失败模式
- **Twenty Questions 不一致**:模型无法维持一致的隐藏状态
- **多义词翻转**bank → river bank / money bank消歧在深层完成但浅层已做出错误预测
- **多轮对话崩溃**、多智能体通信断裂
### 3. Chain-of-Thought 是变通方案,不是解决方案
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:
> "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"
## 核心贡献:循环 Transformer 分类法
按两个维度系统化分类:
| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|---|---|---|---|
| **深度** | Looped Transformer, RINS | | |
| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | |
| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
分类表中的空单元格是**有前景的研究方向**。
## 五大研究方向
1. **[[enhanced-state-space-models|增强状态空间模型]]**DeltaNet 负特征值扩展RWKV-7PaTH Attention
2. **前馈近似训练**通过特殊训练目标和结构先验引导状态追踪
3. **[[coarse-grained-recurrence|粗粒度循环]]**句子/块级别而非 token 级别
4. **[[representational-alignment|表征对齐]]**利用残差连接的自然对齐降低循环适配成本
5. **高效循环训练**分阶段训练 + 截断梯度 + 循环反向传播
## 关键概念网络
- [[state-tracking|状态追踪]] [[feedforward-depth-limitation|前馈深度局限]] [[depth-dilemma|深度困境]]
- [[recurrent-transformer-architectures|循环 Transformer]] [[recurrence-taxonomy|循环分类法]] [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
- [[sequential-dependency|顺序依赖]] [[autoregressive-unrolling|自回归展开]]
- [[belief-state|信念状态]] [[attractor-dynamics|吸引子动力学]]
- [[latent-thought-models|隐式思考模型]] [[coarse-grained-recurrence|粗粒度循环]]
- [[state-space-models|状态空间模型]] [[enhanced-state-space-models|增强 SSM]]
## 影响力评估
这是一篇**立场性综述position paper**来自 Google DeepMind 三位研究者核心贡献不是新算法而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值
## 来源
[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)

66
papers/nano-filter.md Normal file
View File

@@ -0,0 +1,66 @@
---
title: "NANO Filter: 非线性贝叶斯滤波的自然梯度高斯近似"
created: 2026-06-22
updated: 2026-06-22
type: paper
tags: [state-estimation, bayesian-filtering, natural-gradient, gaussian-filtering, nonlinear-filtering]
arxiv: "2410.15832"
authors: ["Wenhan Cao", "Tianyi Zhang", "Zeju Sun", "Chang Liu", "Stephen S.-T. Yau", "Shengbo Eben Li"]
venue: "arXiv (eess.SY), 2024 (v4: 2026-03)"
sources: ["https://arxiv.org/abs/2410.15832"]
---
# NANO Filter
**Natural Gradient Gaussian Approximation Filter** — 一种面向非线性系统的迭代高斯滤波器,核心创新在于跳出「线性化 → KF」的传统使能框架直接在 [[gaussian-manifold|高斯流形]]上用 [[natural-gradient-descent|自然梯度下降]]求解最优 Gaussian 近似。
## 核心问题
传统 [[gaussian-filtering|Gaussian filter]][[extended-kalman-filter|EKF]], [[unscented-kalman-filter|UKF]], [[posterior-linearization-filter|PLF]])遵循两阶段设计:(i) 将非线性模型近似为线性高斯形式,(ii) 在线性模型上运行 [[kalman-filter|KF]]。不同滤波器间的差异本质上是**线性化策略**的不同——但线性化误差始终存在。
## 方法论贡献
### 1. 优化视角重构 Bayesian 滤波
将 [[bayesian-filtering|贝叶斯滤波]]的预测步和更新步分别解释为两个变分优化问题:
- **预测步**:最大化候选密度在转移概率下的期望对数似然 → 最优解即[[moment-matching-filter|矩匹配]]
- **更新步**:最小化期望负对数似然 + KL 散度
利用 [[stein-lemma|Stein 引理]],将两个变分问题的驻点条件转化为有限维优化。
### 2. 自然梯度更新步
NANO 的核心算法创新:不在更新步做线性化,而是在 [[gaussian-manifold|高斯流形]]上直接用 [[natural-gradient-descent|自然梯度]]迭代最小化更新代价 $J(\hat{x}_t, P_t)$。
迭代公式(利用高斯分布 Fisher 矩阵 $F_v$ 的解析逆):
$$
P_{t}^{-1,(i+1)} = P_{t|t-1}^{-1} + E_{N(x_t; \hat{x}_t^{(i)}, P_t^{(i)})}\left[\frac{\partial^2 \ell(x_t, y_t)}{\partial x_t^2}\right]
$$
$$
\hat{x}_t^{(i+1)} = \hat{x}_t^{(i)} - P_t^{(i+1)} \cdot E_{N(\cdot)}\left[\frac{\partial \ell(x_t, y_t)}{\partial x_t}\right] - P_t^{(i+1)} P_{t|t-1}^{-1}(\hat{x}_t^{(i)} - \hat{x}_{t|t-1})
$$
### 3. 理论保证
- **局部收敛**NANO 的自然梯度迭代在二阶近似下保证更新代价单调递减
- **线性 Gaussian 一致性**:在线性系统中,**一次迭代**即收敛到 KF 精确解,与初始化无关
- **指数误差界**:在近线性测量方程和低噪声条件下,估计误差被证明为指数有界(通过构造跨时间步的超鞅性质)
### 4. 鲁棒扩展
基于 [[gibbs-posterior|Gibbs 后验]]框架,将标准似然替换为广义损失函数以处理模型误设:
- **[[pseudo-huber-loss|Pseudo-Huber 损失]]**:大残差时线性增长,抑制离群值影响
- **加权对数似然**:按数据依赖权重缩放似然贡献
## 实验
在真实系统实验包括目标跟踪和导航场景NANO 相对于 EKF、UKF、IEKF、PLF 等主流 Gaussian filter**平均 RMSE 降低约 45%**,计算负担可比。
## 参考
- [原始存档](raw/papers/cao-nano-filter-2024.md)
- [[bayesian-filtering|Bayesian Filtering]]
- [[natural-gradient-descent|Natural Gradient Descent]]
- [[gaussian-manifold|Gaussian Manifold]]
- [[moment-matching-filter|Moment-Matching Filter]]
- [[stein-lemma|Stein's Lemma]]
- [[gibbs-posterior|Gibbs Posterior]]

100
papers/peng-rwkv7.md Normal file
View File

@@ -0,0 +1,100 @@
---
title: "RWKV-7 Goose: Expressive Dynamic State Evolution"
created: 2026-06-18
updated: 2026-06-18
type: paper
tags: ["rwkv", "rnn", "linear-complexity", "delta-rule", "state-tracking"]
sources: ["https://arxiv.org/abs/2503.14456"]
---
# RWKV-7 "Goose"
## 核心定位
RWKV-7代号 "Goose")是 RWKV 序列建模架构的第七代版本,核心创新在于将 Delta 规则从标量形式**广义化**为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑:**第一个被证明超越 TransformerTC^0的并行化可训练 RNN**。
## 核心创新
### 广义 Delta 规则
传统 Delta 规则([[delta-rule|DeltaNet]])通过梯度下降更新矩阵状态:
```
S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
```
RWKV-7 的三个扩展:
| 维度 | DeltaNet | RWKV-7 |
|------|---------|--------|
| 学习率 α | 标量 | **向量 a_t逐通道** |
| 衰减 w | 固定/标量 | **动态 w_t + 附加项** |
| Key 解耦 | k_t 同时用于移除和添加 | **分离 k_remove / k_add** |
完整状态更新:
```
S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
```
### 向量值门控Vector-Valued Gating
门控信号从标量扩展为向量 → 模型可**逐通道**决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。
### 上下文学习率In-Context Learning Rate
a_t 是输入依赖的向量学习率,使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。
### 松弛值替换规则
解耦移除 key 和添加 key
- `k_remove`:决定从状态中移除什么
- `k_add`:决定向状态中添加什么
这允许更灵活的信息管理——移除和添加是独立操作。
## 理论贡献:超越 TC^0
RWKV-7 的理论结果具有里程碑意义:
| 架构 | 复杂度类 | 正则语言 | 状态追踪 |
|------|---------|---------|---------|
| Transformer (standard) | TC^0 | ✗ | ✗ |
| RWKV-4/5/6 | TC^0 | ✗ | ✗ |
| **RWKV-7** | **NC^1** | **✓ 全部** | **✓ S5** |
在 TC^0 ≠ NC^1 猜想下RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。
## 实验结果
- **2.9B 多语言 SoTA**:尽管训练 token 少于同类,多语言基准上达到新 3B SoTA
- **RWKV World v3**3.1T token 多语言开放数据集
- **模型升级**:从 RWKV-5/6 checkpoint 升级而非从头训练
- **长上下文**O(1) 推理内存,不受序列长度影响
- **开源**Apache 2.0,权重 + 代码 + 数据集组件全部公开
## 概念网络
```
delta-rule → generalized-delta-rule → dynamic-state-evolution
→ vector-valued-gating + in-context-learning-rate
→ regular-language-recognition
rwkv → token-shift → wkv-time-mixing
```
## 相关已有概念
- [[state-space-models]] — RWKV-7 作为增强 SSM/RNN 的代表
- [[enhanced-state-space-models]] — 已有 RWKV-7 小节
- [[step-recurrence]] — RWKV-7 属于步级循环
- [[state-tracking]] — RWKV-7 理论上完整体支持
## 代码与模型
- 代码https://github.com/RWKV/RWKV-LM
- 模型https://huggingface.co/RWKV
- 许可证Apache 2.0
## 参考
- [arXiv:2503.14456](https://arxiv.org/abs/2503.14456)
- [原始存档](raw/papers/peng-rwkv7-goose-2025.md)

View File

@@ -0,0 +1,76 @@
---
title: "The Personalization Trap (Fang et al., Amazon, 2025)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"]
sources:
- "https://arxiv.org/abs/2510.09905"
code: "https://github.com/personalization-trap"
---
# The Personalization Trap
> Fang et al., Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL | Oct 2025 (updated Jun 2026)
## 问题
个性化 AI 系统融入长期 [[user-memory-bias|用户记忆]],但记忆如何影响情感推理?相同的场景 + 不同的用户画像 → 系统性地分歧的情感解读。
理论框架Bourdieu 的 [[social-capital-framework|社会资本理论]] — 经济/文化/社会维度上的社会位置塑造他人对我们行为和情感的解读方式。AI 引入用户背景信息时,可能复制这些社会偏见。
## 方法
### 用户画像
- **显式画像**PersonaHub 30 个基础画像 × 2 版本advantaged/disadvantaged基于社会资本四维度人口统计/家庭背景/社会关系/个人资产)
- **[[intersectional-persona-evaluation|交叉性画像]]**PRISM 数据集 → 81 个画像(性别×年龄×宗教×种族交叉)
### 评估工具
- **[[situational-test-emotional-understanding|STEU]]**42 个情感理解场景,标准答案
- **改良 STEM**44 个第一人称情绪管理建议场景
- 人类标注93% 画像真实度vs PersonaHub经 9 位标注员移除画像敏感题目
### 混合效应模型
固定效应(人口统计变量)+ 随机效应(题目级变异),以白/基督徒/男/34-65 作为基线。
## 关键结果
### 发现 1[[personalization-trap|用户记忆系统性影响情感理解]]
| 模型 | 无记忆 | 优势画像 | 劣势画像 |
|------|--------|---------|---------|
| Claude 3.7 Sonnet | 90.91 | 80.10*† | 77.37* |
| DeepSeek-R1 | 84.85 | 81.62*† | 76.57* |
| Llama 3.2 90B | 84.85 | 64.91*† | 62.24* |
*†: 优势-劣势差距显著 (p<0.05)
### 发现 2[[emotional-reasoning-bias|人口统计学偏见]]
- **宗教**穆斯林画像系统性地得分偏低Mistral: β=-0.061, p<0.001
- **性别**非二元性别效果因模型而异Claude 3.7 no-think: β=+0.018; Qwen3-4B think: β=-0.030
- **年龄**65+ 画像在部分模型中得分显著降低
- **种族**效应较弱但存在
### 发现 3偏见在情绪建议中持续
Claude 3.7 对女性/非二元性别的建议质量显著低于男性β=-0.102, p<0.001)。
### [[dpo-bias-mitigation|DPO 偏见缓解]]
| 模型 | STEU Before | STEU After | Bias Before | Bias After |
|------|-----------|-----------|-------------|-------------|
| Gemma-2-2B | 59.50% | 63.70% | 5.50% | -2.30% |
| Qwen-3-1.7B | 60.90% | 60.30% | 1.70% | 0.40% |
500 训练样本即有效减少偏见MMLU 同时提升但指令遵循下降——存在 bias resistance vs instruction adherence trade-off
## 核心洞察
1. **个性化陷阱** 为增强共情而引入的个性化可能放大社会不平等优劣势画像在相同场景下得到系统性不同的情感解读
2. **[[persona-invariant-reasoning|画像无关推理]]的理想** 在用户无关的任务上模型应保持推理一致但用户记忆不恰当地渗入了通用推理
3. **Thinking 模型的保护效应** 推理能力似乎提供了部分偏见抵抗
## 来源
[原始存档](raw/papers/personalization-trap-2025.md) | [arXiv](https://arxiv.org/abs/2510.09905) | [GitHub](https://github.com/personalization-trap)

101
papers/tang-lukv.md Normal file
View File

@@ -0,0 +1,101 @@
---
title: "LU-KV: Predicting Future Utility for KV Cache Eviction"
created: 2026-06-18
updated: 2026-06-18
type: paper
tags: ["kv-cache", "llm-inference", "combinatorial-optimization", "attention"]
sources: ["https://arxiv.org/abs/2602.08585"]
---
# LU-KV基于未来效用预测的 KV Cache 驱逐框架
## 核心问题
大模型推理中,[[kv-cache]] 随序列长度线性增长,成为吞吐量瓶颈。现有 [[kv-cache-eviction]] 方法依赖瞬时启发式指标判断 token 重要性,忽略了不同注意力头在预测保真度上的**异质性**——某些 head 的瞬时注意力分数与其长期贡献严重失配。
## 核心洞察
LU-KV 的核心论点是:最优预算分配不应基于绝对分数,而应由**边际效用**[[marginal-utility]]驱动——即「每增加一单位预算能保存多少长期语义信息」。这类似于经济学中的投资回报ROI思维如果某个 head 的启发式指标与 [[oracle-importance]] 失配严重,继续向其分配预算的边际回报会急剧递减。
## 方法框架
### 两阶段范式
LU-KV 框架建立在 [[kv-cache-eviction]] 的两阶段分解之上:
1. **[[intra-head-eviction]]**:在每个 head 内使用任意启发式指标 π(如 SnapKV、KeyDiff对 token 排序
2. **[[cross-head-budget-allocation]]**:在 head 之间分配全局缓存预算 {b_{,h}}
### 形式化分析
核心贡献是严格分解了驱逐损失eviction loss
```
Eviction Loss = Oracle Metric Loss固定受压缩率约束
+ Optimality Gap Loss指标 π 与 Oracle 之间的差距)
```
即:`L(M^π) = L(M^*) + Δ(π, π*, b)`,其中 [[optimality-gap]] Δ 随预算和指标变化。
### Oracle 重要性
[[oracle-importance]] I_{,h,j} 定义为 token j 在未来解码窗口中对输出向量的**最大潜在贡献**:涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。
### 全局组合优化
将 head 级预算分配形式化为 [[global-combinatorial-optimization]]
```
min Σ L(M^π(b_{,h})) subject to Σ b_{,h} = B_total
```
该问题是**非凸离散组合优化**,通过 [[convex-hull-relaxation]] 求解:
1. 对每个 head 的离散损失序列用 PAVAPool Adjacent Violators Algorithm做保序回归
2. 从凸化后的损失序列计算有效边际增益 g_{,h}(i)
3. 全局贪心:每次从边际增益最大的 head 分配一个 token 位置
4. 贪心解与最优 DP 解完全一致(理论保证)
### 离线 Profiling
[[offline-profiling]] 三阶段协议桥接理论与部署:
1. **上下文生成**:构造约 4K tokens 的合成叙述文本(与评测集无重叠)
2. **Oracle 计算**:生成 M=30 个多样化查询,通过全注意力解码获取 ground-truth Oracle 重要性
3. **Profile 聚合**:在密集的全局压缩率网格上求解每个查询的最优配置,取平均得到静态 profile Φ(π)
关键经验发现:各 head 的最优压缩率在不同任务间**高度一致**,使离线 profile 可迁移。
## 核心贡献
| 贡献 | 说明 |
|------|------|
| 问题重定义 | 将 KV 驱逐从"被动丢弃"转为"战略性投资分配" |
| [[optimality-gap]] 分解 | 严格分离 Oracle 损失和指标差距 |
| [[convex-hull-relaxation]] | PAVA 保序回归 + 贪心求解,达到 DP 最优 |
| [[offline-profiling]] | 三阶段协议profile 跨任务可迁移 |
| 指标无关 | 适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π |
## 实验结果
- **LongBench**80% 压缩率下LU-KV 在所有模型Llama-3.1-8B、Mistral-7B、Qwen2.5-32B上优于 Uniform、PyramidKV、AdaKV 等基线
- **RULER**4K128K 扩展上下文窗口下保持鲁棒检索性能
- **兼容性**:与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升
- **推理开销**:在线仅需查表 → 预算计算 → 驱逐三步,额外开销可忽略
## 相关概念
- [[long-horizon-utility]] — 长视界效用 vs 瞬时注意力分数
- [[heuristic-metric]] — 启发式指标SnapKV、KeyDiff 等)
- [[marginal-utility]] — 边际效用驱动的分配策略
- [[snapkv]] — 基于累积注意力的 intra-head 指标
- [[pyramidkv]] — 基于信息漏斗假说的静态分配
- [[adkv]] — 基于注意熵的动态全局 Top-K 分配
- [[keydiff]] — 基于 Key 向量几何特征的指标
## 参考
- 原始存档:[原始论文](raw/papers/tang-lukv-2026.md)
- arXiv: https://arxiv.org/abs/2602.08585
- 发表ICML 2026, PMLR 306
- 机构:复旦大学 + 百度百舸 AI Team

View File

@@ -0,0 +1,66 @@
---
title: "Unlimited OCR Works (Yin et al., Baidu, 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"]
sources:
- "https://arxiv.org/abs/2606.23050"
code: "https://github.com/baidu/Unlimited-OCR"
---
# Unlimited OCR Works
> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026
## 问题
端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。
## 核心创新:[[reference-sliding-window-attention|R-SWA]]
**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制:
- 每个 token 关注**全部参考 token**(视觉 token + prompt **前 n 个输出 token**n=128
- 参考 token **不参与状态转移**(避免视觉特征逐渐模糊)
- **[[constant-kv-cache|KV cache 恒定]]**:始终为 Lm + nO(1) 而非 O(T)
与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。
## 模型架构
以 [[deepseek-ocr|DeepSeek OCR]] 为基线:
- 保留 [[deepencoder|DeepEncoder]]16× 压缩率,级联窗口注意 ViT + 全局注意)
- 替换 decoder 所有注意力层为 R-SWA
- 3B 参数,[[mixture-of-experts|MoE]] 架构,激活仅 500M
- 训练4000 步8×16 A800DeepEP EP=4[[megatron-lm|Megatron-LM]]
- 推理:支持 Transformers + [[sglang|SGLang]],恒定 TPS 和 GPU 内存
## 关键结果
### 通用 OCR[[omnidocbench|OmniDocBench]]
| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
|------|--------------|-------------|------|
| v1.5 Overall | **93.23** | 87.01 | +6.22 |
| v1.6 Overall | 93.54 | — | SOTA 级别 |
### [[long-horizon-parsing|长程解析]]
2-40+ 页书籍单次前向解析Distinct-n > 96%Edit Distance < 0.11
### 推理效率
6000 token TPS DeepSeek OCR **35%**且全程保持恒定
## 核心洞察
1. **认知启发** R-SWA 模仿人类抄写行为不回溯全部已写内容仅关注附近上下文维持空间定向
2. **架构极简** 将所有标准 attention 替换为 R-SWA性能无损"lossless"证明历史信息通过滑动窗口的 soft forgetting 足够
3. **通用性** R-SWA 是通用解析注意力机制适用于 ASR翻译等所有基于参考的长程任务
## 局限性
- prefill 长度限制32K非真正无限
- 未来训练更长上下文128K+ prefill pool 模拟翻页
## 来源
[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)

81
papers/vla-jepa-2026.md Normal file
View File

@@ -0,0 +1,81 @@
---
title: "VLA-JEPA (Sun et al., 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["vla", "jepa", "world-model", "robot-learning", "pretraining", "latent-action"]
sources:
- "https://arxiv.org/abs/2602.10098"
code: "https://github.com/ginwind/VLA-JEPA/"
---
# VLA-JEPA
> Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† | arXiv:2602.10098 | cs.RO / cs.CV | Feb 2026
## 问题
[[vla-vision-language-action|VLA]] 的 [[latent-action-pretraining|latent-action 预训练]] 从互联网视频学习机器人策略是一个有吸引力的方向。但当前的 latent-action 目标存在系统性缺陷:锚定在**像素变化**而非**动作相关的状态转移**上。
四种失败模式:
| 模式 | 描述 |
|------|------|
| [[appearance-bias-vla|外观偏见]] | 像素级目标偏向纹理/光照/背景,而非可控自由度 |
| 噪声运动放大 | 相机运动和无关背景变化主导信号 |
| [[information-leakage-vla|信息泄漏]] | 未来帧作为输入 → latent action 坍缩为编码未来而非转移动态 |
| 多阶段复杂性 | 三阶段+流水线的工程脆弱性 |
## 核心方案:[[leakage-free-state-prediction|Leakage-free State Prediction]]
VLA-JEPA 将 [[jepa|JEPA]] 范式引入 VLA**在 latent space 预测而非 pixel space**。
### 架构
- **VLM Backbone**Qwen3-VL-2B输出 latent action tokens
- **[[latent-world-model|Latent World Model]]**V-JEPA2 encoderfrozen target+ autoregressive Transformerpredictor
- **Action Head**[[flow-matching|Conditional Flow-Matching]]
### 关键设计
```
Target Encoder (frozen, no grad) Student (VLM backbone)
↓ ↓
Future frames → latent targets Current observation only
↓ ↓
JEPA alignment loss
(predict in latent space)
```
**未来帧仅作监督目标,永不作为输入**——消除信息泄漏捷径。
### 训练
- 预训练Something-Something-v2220K 人类视频)+ Droid76K 机器人轨迹)
- 微调LIBERO~2K 专家演示)/ Fractal + BridgeV2 / 100 真实演示
- 8×A100Qwen3-VL-2B backbone
## 关键结果
### LIBERO
| Method | Spatial | Object | Goal | Long | Avg |
|--------|---------|--------|------|------|-----|
| VLA-JEPA | 96.2 | 99.6 | 99.6 | 97.2 | **98.2** |
| π0.5 | 97.5 | 91.5 | 74.5 | 90.1 | 88.9 |
| OpenVLA-OFT | 97.6 | 97.9 | 94.5 | 96.8 | 96.7 |
### SimplerEnv
Google Robot 平均最高WidowX 平均第二。使用 villa-X 不到 1% 的训练数据。
### Robustness (LIBERO-Plus)
在 7 个扰动维度(光照/纹理/颜色/相机/…)下保持强劲性能。
## 核心洞察
1. **JEPA 的 embodied 应用** — 将 JEPA 从视频表示学习扩展到机器人动作策略,证明了 latent-space prediction 对 embodied AI 的通用价值
2. **信息泄漏是根本问题** — 当前 latent-action 方法的失败根源不是模型容量不足,而是架构缺陷(未来信息泄漏)。修复架构比堆数据更有效
3. **数据效率** — 用更少数据超越用更多数据的对比方法,证明学对目标比学更多数据更重要
## 来源
[原始存档](raw/papers/vla-jepa-2026.md) | [arXiv](https://arxiv.org/abs/2602.10098) | [GitHub](https://github.com/ginwind/VLA-JEPA/)

View File

@@ -0,0 +1,90 @@
---
title: "Fisher Width: 统计流形上的几何复杂度度量"
created: 2026-06-23
updated: 2026-06-23
type: paper
tags: ["information-geometry", "complexity-measure", "generalization-theory", "riemannian-geometry"]
authors: ["Vu Khac Ky"]
venue: "arXiv"
year: 2026
arxiv: "2606.18306"
sources: ["https://arxiv.org/abs/2606.18306v1"]
---
# Fisher Width: 统计流形上的几何复杂度度量
> Vu Khac Ky (FPT University, Vietnam) — arXiv:2606.18306, 2026
## 核心问题
[[gaussian-width|Gaussian width]] 是压缩感知、凸优化、学习理论中的核心复杂度度量——它通过随机方向上的平均投影来量化集合的"有效维度"。但 Gaussian width **本质上是欧几里得的**它假设所有方向等权。然而统计模型指数族、神经网络、VAE天然携带 [[fisher-information-metric|Fisher 信息度量]] 诱导的黎曼几何——不同方向上的参数变化对统计可区分性的影响截然不同。
**Fisher width** 是 Gaussian width 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。
## 方法论贡献
### 1. Fisher Width 定义
在参数点 θ₀ 处Fisher width 将欧几里得恒等矩阵替换为局部 Fisher 度量张量 G(θ₀)^{1/2}
```
w_G(T; θ₀) = E_{gN(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
```
核心的 [[lifting-identity|Lifting Identity]]
```
w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
```
这意味着在固定基点Fisher width **恰好是 Fisher 重标度后集合的 Gaussian width**。Gaussian width 的所有经典性质可通过局部度量变形转移到 Fisher 设定中。
### 2. 结构理论
- **浓度不等式**Fisher width 在随机采样下集中
- **度量扰动稳定性**Fisher width 对局部度量变化具有 Lipschitz 连续性
- **谱比较界**λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T)
- **经验 Fisher 稳定性**:当经验 Fisher 矩阵在算子范数下集中时Fisher width 可被一致估计
### 3. 泛化界
对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类,一致偏差被以下量控制:
```
w_G(TT; θ₀) / √n
```
对局部指数族似然模型,该界在常数意义下是**紧的**。Fisher width 在 Fisher-几何学习界中扮演的角色,与 Gaussian width/Rademacher 复杂度在欧几里得设定中的角色完全相同。
### 4. 计算估计
- **全经验 Fisher 估计器**:用样本分数构建经验 Fisher 矩阵,计算重标度后集合的宽度
- **低秩近似**:利用 Fisher 谱的快速衰减性质做截断 SVD
- **分数范数估计器**:针对欧几里得球的特化高效版本
- **MNIST 验证**在逻辑回归、softmax 回归、岭回归上评估精度和稳定性
## 关键发现
1. **Fisher 曲率效应**:同一欧几里得集合在不同参数位置的 Fisher width 可显著不同——Fisher width 不仅能测量集合形状,还能测量该形状在 Fisher 几何下"被看到"的方式
2. **各向异性检测**Fisher width 捕获了欧几里得度量不可见的各向异性几何效应
3. **与 Gaussian width 的谱关系**λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T),表明 Fisher 度量的条件数决定了 Fisher width 与 Gaussian width 的偏差范围
4. **计算可行性**低秩近似在实践中高度准确Fisher 谱的快速衰减使估计器高效
## 与现有工作的关系
- **Fisher-Rao Norm** (Liang et al., 2019):衡量**单个参数向量**的 Fisher 长度Fisher width 衡量**整个集合**的 Fisher-几何大小
- **自然梯度**:优化算法利用 Fisher 度量改进下降方向Fisher width 则利用 Fisher 度量定义复杂度泛函
- **PAC-Bayes**以概率距离度量复杂度Fisher width 以集合的几何大小度量复杂度
## 参考
- [原始存档](raw/papers/vu-fisher-width-2026.md)
- [[gaussian-width|Gaussian Width]]
- [[statistical-manifold|Statistical Manifold]]
- [[fisher-information-metric|Fisher Information Metric]]
- [[information-geometry|Information Geometry]]
- [[fisher-lipschitz|Fisher-Lipschitz]]
- [[lifting-identity|Lifting Identity]]
- [[empirical-fisher|Empirical Fisher]]
- [[generalization-bounds|Generalization Bounds]]
- [[natural-gradient-descent|Natural Gradient Descent]]

79
papers/wan-streamer.md Normal file
View File

@@ -0,0 +1,79 @@
---
title: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models"
created: 2026-06-25
updated: 2026-06-25
type: paper
tags: [multimodal, real-time, foundation-model, streaming, full-duplex, audio-visual, transformer]
sources:
- https://arxiv.org/abs/2606.25041
- https://wan-streamer.com
---
# Wan-Streamer v0.1
**Wan-Streamer** 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型,支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步**全部联合学习在一个 Transformer 中**摒弃了传统级联系统VAD → ASR → LLM → TTS → 动画生成)的模块架构。
## 核心贡献
### 1. 统一的端到端流式架构
Wan-Streamer 将用户输入和 Agent 输出视为**一条因果时间线**上的交织序列interleaved visual, audio, text tokens使用 [[block-causal-attention|block-causal attention]] 实现增量流式生成。一个 Transformer 承担所有模态的编解码,不依赖外部语言、语音、化身或视频生成模块。
### 2. 全因果多模态架构
为支持流式实时交互,整个架构从底层设计为因果的:
- **[[causal-multimodal-vae|因果多模态 VAE]]**:严格因果的音频和视频变分自编码器,用于流式潜编码
- **因果编码器/解码器**:因果音视频编码器和解码器
- **[[block-causal-attention]]**:块因果注意力机制,协调多模态 token 的流式调度
- **全历史自回归流式**:每个生成的单元被立即提交回交互历史
### 3. Thinker-Performer 推理流水线
推理时,模型拆分为两个协作进程:
| 角色 | 职责 | 关键操作 |
|------|------|----------|
| **Thinker** | 感知、状态更新、前帧解码发射 | 因果编码器 → Transformer → KV cache 更新 → 解码发射 |
| **Performer** | 潜变量生成flow-matching | 接收 KV slice → flow-matching solver → 返回 clean latents |
通过 **KV-cache 交换** 维持统一因果状态,实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的**流水线重叠**。在 160ms 流式单元内完成一轮完整循环。
**延迟指标**
- 模型侧响应延迟:~200ms
- 端到端交互延迟(含 350ms 双向网络):~550ms
- 输出帧率25 FPS
### 4. 全双工交互能力
通过在全双工交互数据上训练,模型学会了:
- **连续感知**:即使正在说话,也持续消费用户的音视频观测
- **中断处理**:用户自然打断时停止或重新规划响应
- **主动说话**:当视觉流中出现显著事件时,主动发起评论或提问
- **非语言反馈**:空闲时的身份保持、凝视、姿态;聆听时的点头、微表情
## 方法论要点
- **条件流匹配**:音频和视频响应以连续潜变量形式,通过 [[flow-matching|conditional flow matching]] 联合生成
- **三阶段训练**:独立任务预训练 → 多模态联合训练 → 端到端双工交互微调
- **数据混合**:理解数据(图像/音频/视频理解、ASR、TTS + 生成数据(图像/音频/视频生成) + 端到端双工交互数据
## 实验对比
与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示Wan-Streamer 是**唯一同时支持文本/音频/视频输入输出的单一端到端模型**,且响应延迟处于领先水平。
## 局限
当前 v0.1 版本输出分辨率为 192p作为概念验证扩展到更高分辨率留待未来工作。
## 参考
- [原始存档](raw/papers/wan-streamer-2026.md)
- [[flow-matching]]
- [[kv-cache]]
- [[diffusion-transformer]]
- [[native-streaming-ar-training]]
- [[full-duplex-interaction]]
- [[block-causal-attention]]
- [[thinker-performer-pipeline]]
- [[causal-multimodal-vae]]
- [[end-to-end-streaming-interaction]]

View File

@@ -0,0 +1,69 @@
---
title: "ACE-Router历史感知路由"
created: 2026-06-19
updated: 2026-06-19
type: paper
tags: [router-training, history-aware, mcp, tool-selection, agent-web, candidate-graph]
sources:
- https://arxiv.org/abs/2601.08276
- https://github.com/euyis1019/ACE-Router
---
# ACE-Router历史感知路由
> **Zhiyuan Yao, Zishan Xu, Yifu Guo 等** · 2026 · arXiv:2601.08276
## 核心问题
MCP 工具生态爆炸式增长,现有方案各有限制:
- **静态注入**:上下文窗口有限,无法规模化
- **Embedding 检索**:静态语义匹配,缺乏多轮历史感知
- **通用 LLM**:推理强但缺乏精确工具辨识力
## 核心方案:训练一个 Router
ACE-Router 不从零推理——直接**训练一个专门的路由器**,将多轮对话历史对齐到正确的路由决策。
## 三阶段框架
### 1. [[candidate-graph|Candidate Graph + 自进化变异]]
构建语义相似图 → 五种变异算子扩展候选空间 → 627→2005 工具
### 2. [[trajectory-synthesis|多 Agent 轨迹合成]]
候选图采样 → 四角色模拟Planner/User/Assistant/Tool Agent→ 15,092 训练样本。环境无关LLM 模拟执行,无需真实 API。
### 3. [[light-routing-agent|Light Routing Agent]]
仅两个工具:`router_invoke` + `tool_execute`。路由与执行解耦,可插拔适配工具选择和 Agent 选择。
## 关键数据
| 指标 | ACE-Router | Best Baseline |
|------|:---:|:---:|
| MCP-Universe | **53.44%** | 49.79% (Gemini-2.5-Pro) |
| MCP-Mark | **60.00%** | ~50% (ReAct) |
| 扩展候选池 | **53.02%** (稳定) | 36.47% (ReAct 崩溃) |
| 噪声环境 | **56.00%** | 32% (Gemini-2.5-Pro) |
| 多 Agent 泛化 | **88-92%** | — (零训练迁移) |
**8B 专用路由器 > 巨型通用模型**GPT-4o, Gemini-2.5-Pro——证明了精确工具辨识不是靠扩大推理能力而是靠专门训练。
## MCP 工具选择三篇之比较
| | [[fei-mcp-zero-2025|MCP-Zero]] | [[gaurav-dynamic-react-2025|Dynamic ReAct]] | ACE-Router |
|---|---|---|---|---|
| 机制 | 主动请求 + 层次路由 | meta-tools + 语义搜索 | **训练专用路由器** |
| 历史感知 | 迭代请求(隐式) | ReAct 框架内 | **显式训练对齐** |
| 规模适应 | 理论 O(m+k) | 工程验证 | **训练+噪声双重验证** |
| 泛化 | MCP 工具 | MCP 工具 | **工具→Agent 零训练迁移** |
## 关键概念
- [[ace-router|ACE-Router 框架]]
- [[history-aware-routing|历史感知路由]]
- [[candidate-graph|候选图]]
- [[self-evolutionary-mutation|自进化变异]]
- [[trajectory-synthesis|轨迹合成]]
- [[light-routing-agent|轻量路由 Agent]]
- [[agent-web|Agent Web]]
来源:[原始存档](raw/papers/yao-ace-router-2026.md)

View File

@@ -0,0 +1,93 @@
---
title: "A Comprehensive Survey on Agent Skills — 综述"
created: 2026-06-19
updated: 2026-06-19
type: paper
tags: [agent-skills, survey, skill-lifecycle, llm-agents, procedural-knowledge]
sources:
- https://arxiv.org/abs/2605.07358
- https://github.com/JayLZhou/Awesome-Agent-Skills
---
# Agent Skills 综述:分类、技术与应用
> **Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin** (CUHK-Shenzhen) · 2026 · arXiv:2605.07358
## 核心问题
LLM agent 在实际部署中面临一个核心瓶颈:**过程性鸿沟procedural gap**——仅靠工具访问tool access不等同于知道何时调用、如何编排、怎样验证。这篇综述以 **agent skill** 为中心视角,定义其为"可复用的过程性构件,在任务特定约束下协调工具、内存和运行时上下文"。
## 核心洞察
Agent 与 skill 是互补的层级关系:
- **Agent** 负责高层推理和规划("做什么"
- **Skill** 构成操作层,负责可靠、可复用、可组合的执行("怎么做"
Skill 可视为 agent 的"肌肉记忆"——将过程性 know-how 外化为可持久化、可检索、可修订的显式构件。
## 方法论框架
论文围绕 skill 生命周期的四个阶段组织文献:
### 1. Skill Representation表示
基于资源类型分类:
- **文本型Text-Based**:参考文档、模板、检查清单
- **代码型Code-Backed**可执行脚本、包装器、API
- **混合型Hybrid**:文本 + 代码结合,兼顾可解释性和执行确定性
形式化定义:**S = (M, R, C)**——指令文档 + 辅助资源 + 适用条件。
### 2. Skill Acquisition获取
四种获取路径:
- **人工来源Human-Derived**:领域专家编写,精度高但扩展性差
- **经验来源Experience-Derived**:从执行轨迹中抽象(选择→摘要→记忆组织→过程打包),研究最活跃
- **任务来源Task-Derived**:按需构建,新任务无法等待专家或经验积累时使用
- **语料来源Corpus-Derived**:从文档、仓库、数据集、接口轨迹中提取
四种路径互补而非竞争——最强大的 skill 库来自它们的组合。
### 3. Skill Retrieval & Selection检索与选择
分为两阶段:
- **检索**:稠密嵌入、稀疏关键词、生成式、结构感知(层级 + 依赖图)
- **选择**:上下文感知、技能组合、成本/效用感知、反馈驱动重排序
关键洞察skill 检索不同于文档检索——skill 是可执行单元,语义相关不等于可执行。必须考虑前置条件、组合兼容性、成本收益。
### 4. Skill Evolution演化
五个子阶段:
- **Skill Revision**:反馈驱动的技能修订
- **Skill Validation**:修订后的生存检查(测试、回滚)
- **Policy Coupling**:策略与技能库共同优化(如 SkillRL
- **Repository Evolution**:跨 artifact 的规模化演化
- **Runtime Governance**:检索→路由→信任检查→执行→退役的安全闭环
## 代表性平台
| 平台 | 规模 |
|------|------|
| SkillNet | 300k+ |
| ClawHub | 40k+ |
| SkillHub | 80k+ |
| SkillsMP | 700k+ |
| Skills.sh | 90k+ |
## 与 Hermes 的关联
Hermes 的 skill 体系SKILL.md + references/templates/scripts天然覆盖了论文中定义的核心结构 (M, R, C)。论文列出的开放挑战——统一 skill schema、资源感知联合优化、因果诊断、生命周期鲁棒性——也是 Hermes skill 系统可以演进的方向。
## 关键概念
- [[agent-skill|Agent Skill]] — 形式化定义与核心属性
- [[procedural-gap|过程性鸿沟]] — 工具访问与鲁棒执行之间的桥梁
- [[skill-lifecycle|Skill 生命周期]] — 四阶段框架
- [[skill-representation|Skill 表示]] — 文本/代码/混合三种形态
- [[skill-acquisition|Skill 获取]] — 四种获取路径
- [[skill-retrieval|Skill 检索]] — 稠密/稀疏/生成/结构感知
- [[skill-selection|Skill 选择]] — 上下文/组合/效用/反馈
- [[skill-evolution|Skill 演化]] — 修订→验证→策略耦合→仓库演化→治理
- [[skill-composition|Skill 组合]] — 多技能编排与组装
- [[agent-skill-ecosystem|Agent Skill 生态]] — 平台与基础设施
- [[passive-vs-active-knowledge|被动 vs 主动知识]] — agent 知识二分类
- [[runtime-governance|运行时治理]] — 检索-信任-执行-退役闭环
来源:[原始存档](raw/papers/zhou-agent-skills-survey-2026.md)