20260625:很多新内容
This commit is contained in:
104
papers/arbor-htr-2026.md
Normal file
104
papers/arbor-htr-2026.md
Normal file
@@ -0,0 +1,104 @@
|
||||
---
|
||||
title: "Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: paper
|
||||
tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2606.11926"
|
||||
code: "https://github.com/RUC-NLPIR/Arbor"
|
||||
---
|
||||
|
||||
# Arbor: Autonomous Research via Hypothesis-Tree Refinement
|
||||
|
||||
> Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026
|
||||
|
||||
## 问题
|
||||
|
||||
AI Agent 做自主科研面临三个系统性需求:
|
||||
1. **分支且有结构**:多方向必须并存但不能退化为无结构日志
|
||||
2. **全局策略 + 局部执行**:战略决策依赖全局证据,但单假设实现是短程工程任务
|
||||
3. **探索与 held-out 准入**:dev 反馈引导搜索,但进展只在 transfer 到 test 时才被承认
|
||||
|
||||
现有 Agent(Codex, Claude Code)将科研视为局部尝试的序列,缺乏累积机制。
|
||||
|
||||
## [[hypothesis-tree-refinement|Hypothesis Tree Refinement (HTR)]]
|
||||
|
||||
Arbor 的核心创新:将自主科研的中间状态从"最新产物 + 分数"升级为**持久化的假设树**。
|
||||
|
||||
### 树的节点 = ⟨h, ι, µ⟩
|
||||
|
||||
| 字段 | 含义 | 作用 |
|
||||
|------|------|------|
|
||||
| **h (Hypothesis)** | 可验证/可证伪的改进主张 | 粒度随深度细化(根=方向,叶=具体干预) |
|
||||
| **ι (Insight)** | 可复用的证据解读 | 紧凑语义记忆,非执行日志 |
|
||||
| **µ (Metadata)** | 状态/分数/git ref | 链接到可验证的外部产物 |
|
||||
|
||||
### 三种角色合一
|
||||
1. **搜索前沿**:记录活跃/验证/剪枝的方向
|
||||
2. **长期记忆**:存储成功+失败的复用证据
|
||||
3. **可审计记录**:每个产物变更可追溯到动机假设
|
||||
|
||||
### Insight Backpropagation
|
||||
叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding
|
||||
|
||||
## [[coordinator-executor-architecture|Coordinator ↔ Executor 架构]]
|
||||
|
||||
```
|
||||
Coordinator (持久) Executor (短生命周期, 隔离 worktree)
|
||||
├── 维护全局树 ├── 接收单个节点
|
||||
├── 决定扩展/选择/剪枝/合并 ├── 在隔离环境中物化实现
|
||||
├── 传播洞察 ├── 运行评估
|
||||
└── 管理搜索前沿 └── 返回结构化报告 (分数+事实+洞察+产物引用)
|
||||
```
|
||||
|
||||
关键边界:Executor 不修改共享树、不重定向搜索目标;Coordinator 不直接执行低层实现。
|
||||
|
||||
## [[autonomous-optimization-ao|Autonomous Optimization (AO)]]
|
||||
|
||||
AO = (M0, O, Edev, Etest) 的形式化任务定义:
|
||||
- M0:可变产物(通常为代码库 + 数据)
|
||||
- O:改进目标(指标方向)
|
||||
- Edev:开发评估器(搜索期间自由使用)
|
||||
- Etest:held-out 评估器(仅用于 merge gate)
|
||||
|
||||
目标:返回 max Stest(M') 的产物 M⋆,且 Etest 未被用作探索 oracle。
|
||||
|
||||
## 关键结果
|
||||
|
||||
### 六项真实科研任务
|
||||
|
||||
| 任务类型 | Arbor 表现 |
|
||||
|---------|-----------|
|
||||
| Math Synthesis (AIME) | Test: +6.32% |
|
||||
| Harness Engineering (TerminalBench) | Test: +7.55 |
|
||||
| BrowseComp | Test: +22.34 |
|
||||
| Model Training | Best held-out |
|
||||
| Architecture Search | Best held-out |
|
||||
|
||||
### 对比
|
||||
|
||||
| 方法 | 平均相对 held-out 增益 (归一化) |
|
||||
|------|-------------------------------|
|
||||
| Codex | 1.0× |
|
||||
| Claude Code | 0.8× |
|
||||
| **Arbor** | **2.5×** |
|
||||
|
||||
### MLE-Bench Lite
|
||||
|
||||
GPT-5.5 + Arbor → **86.36%** Any Medal(对比中最强)
|
||||
|
||||
### Ablation 关键发现
|
||||
|
||||
假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **将研究状态从"最新产物"升级为"搜索树"** — 自主科研的核心瓶颈不是模型能力,而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
|
||||
|
||||
2. **Coordinator-Executor 分离** — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
|
||||
|
||||
3. **洞察 ≠ 日志** — Insight 是紧凑语义记忆("轴统计量单独不够;替换 NS 会破坏全矩阵几何"),不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。
|
||||
|
||||
## 来源
|
||||
[原始存档](raw/papers/arbor-htr-2026.md) | [arXiv](https://arxiv.org/abs/2606.11926) | [GitHub](https://github.com/RUC-NLPIR/Arbor)
|
||||
90
papers/dao-transformers-are-ssms-2024.md
Normal file
90
papers/dao-transformers-are-ssms-2024.md
Normal file
@@ -0,0 +1,90 @@
|
||||
---
|
||||
title: "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: paper
|
||||
authors:
|
||||
- Tri Dao (Princeton University)
|
||||
- Albert Gu (Carnegie Mellon University)
|
||||
source: arXiv
|
||||
source_id: 2405.21060
|
||||
published: 2024-05-31
|
||||
venue: ICML 2024
|
||||
categories:
|
||||
- cs.LG
|
||||
---
|
||||
|
||||
# Transformers are SSMs
|
||||
|
||||
> Dao & Gu (2024) — arXiv:2405.21060, **ICML 2024**
|
||||
|
||||
## 核心命题
|
||||
|
||||
**Transformer 和 SSM 本质上是同一类模型的对偶形式。** 通过 [[semiseparable-matrices|半可分矩阵]] 这一数学桥梁,Dao & Gu 构建了统一框架——[[structured-state-space-duality|结构化状态空间对偶(SSD)]]。
|
||||
|
||||
## SSD 框架:三重视角
|
||||
|
||||
```
|
||||
SSM (线性/循环) ────→ 半可分矩阵 ←──── Attention (二次/并行)
|
||||
O(T) 训练 M_ij 结构 O(T²) 训练
|
||||
常数状态推理 GPU Tensor Core
|
||||
```
|
||||
|
||||
两种互补的数学视角:
|
||||
1. **矩阵变换视角**:SSM = 参数化矩阵乘法 Y = M·X
|
||||
2. **[[tensor-contraction-duality|张量收缩视角]]**:导出 SSM ↔ Attention 的对偶关系
|
||||
|
||||
## SSD 层的双重计算
|
||||
|
||||
### 循环形式(线性复杂度)
|
||||
- [[selective-state-space-models|选择性 SSM]] 的简化:A 从对角阵退化为标量
|
||||
- Head 维度 P = 64/128(类似 Transformer)
|
||||
|
||||
### 对偶形式(二次复杂度)
|
||||
```
|
||||
Y = (L ○ QK^T) · V
|
||||
L_ij = a_i × ... × a_{j+1}
|
||||
```
|
||||
- 去掉 Softmax,增加**数据依赖的位置掩码** L
|
||||
- L 替代启发式位置编码:a_t 在信息密集处接近 0(重置)
|
||||
|
||||
## 核心贡献:[[ssd-algorithm|SSD 算法]]
|
||||
|
||||
利用半可分矩阵的**块分解**实现最优权衡:
|
||||
- **块内**:矩阵乘法(GPU Tensor Core 优化)
|
||||
- **块间**:循环传播(保持线性复杂度)
|
||||
|
||||
| 指标 | vs Mamba | vs FlashAttention-2 |
|
||||
|------|:--:|:--:|
|
||||
| 速度 | **2-8x** | 16K 时 **6x** |
|
||||
| 状态大小 | **8x** 支持 | — |
|
||||
| 交叉点 | — | 2K 序列 |
|
||||
|
||||
## [[mamba-2|Mamba-2 架构]]
|
||||
|
||||
基于 SSD 原则设计的新架构:
|
||||
- [[head-structure-ssm|GVA Head 结构]]:分组值注意力,介于 MHA 和 MQA 之间
|
||||
- **Tensor Parallelism 原生支持**:同步点减半
|
||||
- **变长序列训练**:无需 padding
|
||||
- **Chinchilla 缩放**:2.7B 参数 → 超越 Pythia-2.8B 和 6.9B
|
||||
|
||||
## 概念网络
|
||||
|
||||
```
|
||||
state-space-models ──→ selective-state-space-models ──→ mamba-ssm
|
||||
↓ ↓ ↓
|
||||
semiseparable-matrices ←── structured-state-space-duality ──→ mamba-2
|
||||
↓ ↓ ↓
|
||||
structured-masked-attention tensor-contraction-duality ssd-algorithm
|
||||
↓ ↓ ↓
|
||||
linear-attention matrix-transformation head-structure-ssm
|
||||
(GVA/MIS/MVA)
|
||||
```
|
||||
|
||||
## 影响力
|
||||
|
||||
这是连接 SSM 和 Attention 两大范式的**里程碑工作**(ICML 2024)。不仅在理论上统一了两者,更展示了"理论→工程"的直接转化——SSD 算法让 SSM 能用上 Transformer 生态积累的硬件优化(Tensor Core, TP, FlashAttention 模式),推动了 Mamba-2 实现 2-8x 的加速。
|
||||
|
||||
## 来源
|
||||
|
||||
[arXiv:2405.21060](https://arxiv.org/abs/2405.21060) | [代码: state-spaces/mamba](https://github.com/state-spaces/mamba) | [原始存档](raw/papers/dao-transformers-are-ssms-2024.md)
|
||||
89
papers/engram-conditional-memory-2026.md
Normal file
89
papers/engram-conditional-memory-2026.md
Normal file
@@ -0,0 +1,89 @@
|
||||
---
|
||||
title: "Engram: Conditional Memory via Scalable Lookup (Cheng et al., PKU/DeepSeek-AI, 2026)"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: paper
|
||||
tags: ["conditional-memory", "sparsity", "ngram", "mixture-of-experts", "scaling-law"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2601.07372"
|
||||
code: "https://github.com/deepseek-ai/Engram"
|
||||
---
|
||||
|
||||
# Engram: Conditional Memory via Scalable Lookup
|
||||
|
||||
> Cheng et al. | Peking University / DeepSeek-AI | arXiv:2601.07372 | Jan 2026
|
||||
|
||||
## 问题
|
||||
|
||||
[[mixture-of-experts|MoE]] 通过条件计算扩展容量,但 Transformer **缺少原生的知识查找原语**——它被迫用计算来模拟检索。语言建模包含两类性质不同的子任务:组合推理(需要深层动态计算)和知识检索(大量文本模式是局部的、静态的、高度模板化的)。经典 N-gram 模型在捕获局部依赖上的有效性说明这些规律天然适合廉价查找,但现有 LLM 用昂贵的 Transformer 层去重建静态查找表。
|
||||
|
||||
## 核心思想:[[conditional-memory|Conditional Memory]]
|
||||
|
||||
提出 **条件记忆** 作为条件计算(MoE)的互补稀疏轴:
|
||||
|
||||
| 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) |
|
||||
|------|------|------|
|
||||
| 激活方式 | 稀疏激活参数处理动态逻辑 | 稀疏查找检索静态嵌入 |
|
||||
| 开销 | 随专家数增长 | O(1) 常数查找 |
|
||||
| 适用 | 组合推理、动态上下文 | 命名实体、公式化模式、局部依赖 |
|
||||
|
||||
## [[engram|Engram 模块]]
|
||||
|
||||
Engram 将经典 [[ngram-embedding|N-gram 嵌入]] 现代化为 Transformer 的条件记忆模块:
|
||||
|
||||
### 1. Tokenizer Compression(词表压缩)
|
||||
预计算满射函数 P: V → V',基于 NFKC 归一化+小写化将原始 token ID 映射到规范 ID,实现 23% 的有效词表缩减。
|
||||
|
||||
### 2. Multi-Head Hashing(多头哈希)
|
||||
每个 N-gram 阶数 n 用 K 个独立哈希头,通过乘性 XOR 哈希将压缩上下文映射到嵌入表 E_{n,k}(素数大小),拼接所有检索向量为最终记忆向量 e_t。
|
||||
|
||||
### 3. Context-aware Gating(上下文感知门控)
|
||||
检索到的静态嵌入 e_t 缺乏上下文适应性。用当前隐藏状态 h_t 作为动态 Query,e_t 为 Key/Value,通过标量门控 α_t = σ(Q·K^T/√d) 抑制与上下文矛盾的记忆噪声。
|
||||
|
||||
### 4. Depthwise Causal Convolution
|
||||
对门控后的值序列应用短深度可分离因果卷积(kernel=4, dilation=max N-gram order, SiLU),扩展感受野。
|
||||
|
||||
### 集成方式
|
||||
Engram 以残差连接插入特定 Transformer 层:H ← H + Y,后跟标准 Attention 和 MoE。**并非所有层都加**——由系统延迟约束决定。
|
||||
|
||||
## [[sparsity-allocation|Sparsity Allocation]]:U 形缩放律
|
||||
|
||||
定义分配比 ρ ∈ [0,1]:MoE 占非活动参数的比例。实验结果:
|
||||
|
||||
- **U 形关系**:纯 MoE (ρ=1) 和纯 Engram (ρ=0) 都不如混合
|
||||
- **最优 ρ ≈ 75-80%**:将约 20-25% 的稀疏参数预算重分配给 Engram 效果最佳
|
||||
- **稳定性**:最优分配比在不同计算规模下保持一致
|
||||
- **无限内存扩展**:Engram 槽数扩大遵循严格幂律,提供可预测的扩展旋钮
|
||||
|
||||
## 关键结果
|
||||
|
||||
**全部 iso-parameter & iso-FLOPs**:Engram-27B vs MoE-27B vs Dense-4B,激活参数均为 3.8B。
|
||||
|
||||
| 领域 | 基准 | Engram 增益 |
|
||||
|------|------|-----------|
|
||||
| 知识 | MMLU | +3.4 |
|
||||
| 知识 | CMMLU | +4.0 |
|
||||
| 推理 | BBH | **+5.0** |
|
||||
| 推理 | ARC-Challenge | +3.7 |
|
||||
| 推理 | DROP | +3.3 |
|
||||
| 代码 | HumanEval | +3.0 |
|
||||
| 数学 | MATH | +2.4 |
|
||||
|
||||
**长上下文**:Multi-Query NIAH 97.0 vs 84.2 (MoE),Variable Tracking 89.0 vs 77.0。
|
||||
|
||||
## 机理解释
|
||||
|
||||
1. **释放早期层**:LogitLens + CKA 分析表明 Engram 解脱了 backbone 早期层对静态知识的重建负担,有效加深了可用于复杂推理的网络深度
|
||||
2. **释放注意力容量**:局部依赖被委托给查找,注意力聚焦全局上下文,长上下文检索大幅提升
|
||||
3. **基础设施感知效率**:[[memory-compute-decoupling|确定性寻址]] 支持运行时从主机内存预取,100B 嵌入表卸载开销 <3%
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **条件记忆是 MoE 的必然互补**——语言信号的异质性意味着单一稀疏轴不够。N-gram 嵌入这个看似简单的静态机制,当被当作一等建模原语对待时,能产生超越纯 MoE 的增益。
|
||||
|
||||
2. **内存≠冗余**——Engram 的最大收益不在知识密集型任务(那只是直觉预期),而在推理和编码任务。因为它不是"存更多事实",而是"释放计算深度用于推理"。
|
||||
|
||||
3. **U 形律揭示了一个深层结构事实**:在给定的总参数预算下,计算和记忆之间存在一个确定的最优比例,该比例在不同规模下稳定。
|
||||
|
||||
## 来源
|
||||
[原始存档](raw/papers/engram-conditional-memory-2026.md) | [arXiv](https://arxiv.org/abs/2601.07372) | [GitHub](https://github.com/deepseek-ai/Engram)
|
||||
71
papers/fei-mcp-zero-2025.md
Normal file
71
papers/fei-mcp-zero-2025.md
Normal file
@@ -0,0 +1,71 @@
|
||||
---
|
||||
title: "MCP-Zero:主动工具发现"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: paper
|
||||
tags: [active-tool-discovery, mcp, llm-agents, tool-use, semantic-routing, context-efficiency]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2506.01056
|
||||
- https://github.com/xfey/MCP-Zero
|
||||
---
|
||||
|
||||
# MCP-Zero:主动工具发现
|
||||
|
||||
> **Xiang Fei, Xiawu Zheng, Hao Feng** (厦大/中科大) · 2025 · arXiv:2506.01056
|
||||
|
||||
## 核心问题
|
||||
|
||||
当前 LLM Agent 的工具使用范式本质上是**被动的**——将所有 tool schema 注入 context,让模型从预定义选项中挑选。两个致命后果:
|
||||
|
||||
1. **上下文膨胀**:单个 GitHub MCP server 4600+ tokens,全 MCP 生态 248K tokens
|
||||
2. **自主权剥夺**:模型从"自主能力构建者"退化为"被动选择器"
|
||||
|
||||
## 核心策略:主动工具发现
|
||||
|
||||
> **从"给你所有工具自己挑"翻转为"告诉我你需要什么,我来找"。**
|
||||
|
||||
```
|
||||
被动范式: 所有 tool schema → Context → LLM 选择
|
||||
主动范式: LLM 生成 <tool_request> → 语义匹配 → 返回精确工具
|
||||
```
|
||||
|
||||
## 三大机制
|
||||
|
||||
### 1. [[active-tool-request|Active Tool Request]]
|
||||
模型自主生成结构化请求,指定 server(平台/权限域)和 tool(操作类型+目标),请求在工具文档的语义空间中——对齐度天然优于原始用户查询。
|
||||
|
||||
### 2. [[hierarchical-semantic-routing|Hierarchical Semantic Routing]]
|
||||
两级检索:先匹配 server(含增强摘要),再在选中 server 内排序 tool。复杂度 O(n)→O(m+k),m+k ≪ n。
|
||||
|
||||
### 3. [[iterative-capability-extension|Iterative Capability Extension]]
|
||||
多轮迭代构建跨域 toolchain:读文件→编辑代码→执行验证。工具不足时自主优化请求重新检索,天然容错。
|
||||
|
||||
## 关键数据
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| MCP-tools 数据集 | 308 servers, 2,797 tools |
|
||||
| APIBank token 节省 | **-98%** |
|
||||
| 搜索空间 | 248.1K tokens |
|
||||
| 准确率 | 保持高准确率 |
|
||||
|
||||
## 理论贡献
|
||||
|
||||
- 主动发现建模为 **active learning**:r* = arg max I(T*; r|s_t)
|
||||
- 语义对齐优势:cos(e_r, e_t) > cos(e_q, e_t),agent 请求在工具描述空间中
|
||||
- 注意力效率:被动 O(1/n) → 主动 O(1/k)
|
||||
|
||||
## 与 Agent Harness 的关联
|
||||
|
||||
MCP-Zero 直接解决了 [[agent-skill|Agent Skills]] 框架中"操作维度"的工具发现问题:不是预加载 300 个 tool schema,而是让 Agent 在运行时按需请求。这与 [[skill-retrieval|Skill Retrieval]] 的"检索而非全加载"思路一脉相承。
|
||||
|
||||
## 关键概念
|
||||
|
||||
- [[active-tool-discovery|主动工具发现]] — 范式转变
|
||||
- [[active-tool-request|Active Tool Request]] — 结构化请求机制
|
||||
- [[hierarchical-semantic-routing|层次语义路由]] — 两级匹配
|
||||
- [[iterative-capability-extension|迭代能力扩展]] — 跨域 toolchain
|
||||
- [[mcp-protocol|MCP 协议]] — 标准化工具接口
|
||||
- [[mcp-tools-dataset|MCP-tools 数据集]]
|
||||
|
||||
来源:[原始存档](raw/papers/fei-mcp-zero-2025.md)
|
||||
73
papers/gan-bifurcation-eos.md
Normal file
73
papers/gan-bifurcation-eos.md
Normal file
@@ -0,0 +1,73 @@
|
||||
---
|
||||
title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: paper
|
||||
arxiv: "2606.15551v1"
|
||||
category: cs.LG
|
||||
author: "Eric Gan"
|
||||
venue: Preprint
|
||||
tags: [EoS, bifurcation-theory, gradient-descent, optimization, overparameterization, loss-landscape]
|
||||
---
|
||||
|
||||
# 分岔理论框架下的梯度下降稳定边缘分析
|
||||
|
||||
> Eric Gan, arXiv:2606.15551v1, 2026
|
||||
|
||||
## 摘要
|
||||
|
||||
Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个**分岔理论框架**,直接适用于过参数化神经网络:将训练动力学沿极小值流形 M 分解为法向和切向分量,揭示 EoS 稳定性源自法向的 **flip 分岔**(由第一 Lyapunov 系数 c₁ 控制),同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下,证明了在 EoS 阈值处(η = 2/λ_max(x*))收敛到极小值流形。
|
||||
|
||||
## 核心问题
|
||||
|
||||
以往严格的 EoS 分析(Zhu et al., Wang et al., Song & Yun, Gan 2026)局限于低维、结构特殊的损失函数,无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——[[manifold-of-minimizers|极小值流形]](连续全局极小集)带来的 Hessian 秩亏。
|
||||
|
||||
## 方法论:法向-切向分解
|
||||
|
||||
在极小值流形 M 上的任意点 x* 处:
|
||||
|
||||
1. **法向动力学**:经历 [[flip-bifurcation|flip 分岔]](Jacobian 临界特征值 λ = -1),稳定性由 [[first-lyapunov-coefficient|第一 Lyapunov 系数 c₁]] 决定
|
||||
- c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道
|
||||
- c₁ < 0 → 亚临界分岔 → 发散
|
||||
|
||||
2. **切向动力学**:两步迭代沿 M 漂移,方向为 **sharpness 梯度** 的反方向:
|
||||
```
|
||||
Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]²
|
||||
```
|
||||
这意味着 [[sharpness]] 沿训练**单调递减**
|
||||
|
||||
借助 [[center-manifold-theorem|中心流形定理]],高维动力学可约化到低维临界子空间。
|
||||
|
||||
## 核心结论:Theorem 4.4
|
||||
|
||||
在以下条件下(对所有 x* ∈ M):
|
||||
1. **c₁(x*) > 0**(超临界分岔 —— 早期实证表明 MLP 满足此条件)
|
||||
2. **Π_T ∇³L(x*)[v_max]² ≠ 0**(切向漂移非退化)
|
||||
|
||||
梯度下降以 η = 2/λ_max(x*) 从 x* 的邻域初始化时,**收敛到极小值流形 M**。
|
||||
|
||||
## 与乘积稳定性的统一
|
||||
|
||||
本文的第 5 节证明 [[product-stability|Gan (2026) 乘积稳定性]] 是本框架的特例:对于 L(x,y) = f(xy) 形式的损失,第一 Lyapunov 系数 c₁ 由 α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导。这建立了极简标量分析与一般分岔框架之间的直接桥梁。
|
||||
|
||||
## 开放问题
|
||||
|
||||
- 为什么实际网络的极小值处 c₁ > 0?尚无第一性原理解释
|
||||
- Progressive Sharpening 的底层机制仍待解决
|
||||
- SGD 噪声下的推广
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[edge-of-stability|Edge of Stability]]
|
||||
- [[flip-bifurcation|Flip 分岔]]
|
||||
- [[first-lyapunov-coefficient|第一 Lyapunov 系数]]
|
||||
- [[manifold-of-minimizers|极小值流形]]
|
||||
- [[normal-tangent-decomposition|法向-切向分解]]
|
||||
- [[sharpness|Sharpness]]
|
||||
- [[product-stability|乘积稳定性]]
|
||||
- [[center-manifold-theorem|中心流形定理]]
|
||||
|
||||
## 来源
|
||||
|
||||
[arXiv:2606.15551](https://arxiv.org/abs/2606.15551)
|
||||
[原始存档](raw/papers/gan-bifurcation-eos-2026.md)
|
||||
90
papers/gan-thinking-based-non-thinking-2026.md
Normal file
90
papers/gan-thinking-based-non-thinking-2026.md
Normal file
@@ -0,0 +1,90 @@
|
||||
---
|
||||
title: "Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: paper
|
||||
authors:
|
||||
- Siyuan Gan (Nanjing University)
|
||||
- Jiaheng Liu (Nanjing University)
|
||||
- Boyan Wang (Nanjing University)
|
||||
- Tianpei Yang (Nanjing University)
|
||||
- Runqing Miao (Jiutian Research)
|
||||
- Yuyao Zhang (Jiutian Research)
|
||||
- Fanyu Meng (Jiutian Research)
|
||||
- Junlan Feng (Jiutian Research)
|
||||
- Linjian Meng (Shanghai AI Laboratory)
|
||||
- Jing Huo (Nanjing University)
|
||||
- Yang Gao (Nanjing University)
|
||||
source: arXiv
|
||||
source_id: 2601.04805
|
||||
published: 2026-01-08
|
||||
categories:
|
||||
- cs.AI
|
||||
---
|
||||
|
||||
# Thinking-Based Non-Thinking (TNT)
|
||||
|
||||
> Gan et al. (2026) — arXiv:2601.04805
|
||||
|
||||
## 核心问题
|
||||
|
||||
用 RL 训练[[hybrid-reasoning-models|混合推理模型]](自动决定思考/非思考)时,模型会 **Reward Hacking**:在非思考格式中嵌入思考内容,获取不应得的更高奖励。现有方案或计算成本过高(大规模 SFT),或效果有限(统一 token 上限)。
|
||||
|
||||
## TNT 的核心思路
|
||||
|
||||
**以思考定非思考**:利用思考模式响应的 solution 部分长度,为**每个查询动态设定**非思考模式的 token 上限。
|
||||
|
||||
### 为什么这可行
|
||||
|
||||
[[large-reasoning-models|LRM]] 的思考模式训练确保 `</think>` 之后的 solution **不含额外思考**——与真正的非思考模式输出高度一致。因此 thinking solution 长度是 non-thinking 自然长度的可靠估计。
|
||||
|
||||
### 算法
|
||||
|
||||
```
|
||||
对每个查询 x:
|
||||
1. 采样 K 个响应(用省略号提示)
|
||||
2. 从思考模式响应集 M_T^x 计算平均 solution 长度
|
||||
3. L_N^x = ω × avg(h(y)) — 动态上限(ω=2)
|
||||
4. 非思考响应超过 L_N^x → Reward Hacking → -2 惩罚
|
||||
```
|
||||
|
||||
## 奖励函数设计
|
||||
|
||||
| 模式 | 正确 | 错误 |
|
||||
|------|:--:|:--:|
|
||||
| 思考模式 | +1 | 0 |
|
||||
| 非思考 + 无 hacking | **+2** | -1 |
|
||||
| 非思考 + Reward Hacking | **-2** | **-2** |
|
||||
|
||||
核心:**超过 token 上限一律 -2**——无论对错,强力抑制 hacking。
|
||||
|
||||
## 实验亮点
|
||||
|
||||
| 指标 | TNT vs Base |
|
||||
|------|------------|
|
||||
| Token 使用 | **↓ ~50%** |
|
||||
| 准确率 | **↑ 4.1%** |
|
||||
| Reward Hacking 率 | **< 10%** |
|
||||
| 效率权衡 | **最优**(所有方法中) |
|
||||
|
||||
5 个数学基准测试:AIME24, AIME25, Minerva, AMC23, Olympiad。基础模型:DeepSeek-R1-Distill-Qwen-1.5B/7B, DeepScaleR-1.5B。
|
||||
|
||||
## 概念网络
|
||||
|
||||
```
|
||||
overthinking → hybrid-reasoning-models → reward-hacking
|
||||
↓ ↓ ↓
|
||||
large-reasoning-models thinking-mode dynamic-token-limit
|
||||
non-thinking-mode ↓
|
||||
ellipsis-prompt thinking-based-non-thinking (TNT)
|
||||
↓
|
||||
token-level-policy-gradient → GRPO
|
||||
```
|
||||
|
||||
## 兼容性
|
||||
|
||||
TNT 只关注 token 上限设定,与 RL 算法解耦:GRPO, PPO, DAPO, Dr.GRPO, GSPO 均可使用。也可与 CoT Compression、Batch-Level Reward Balancing、Length-Aware Reward 等技术组合。
|
||||
|
||||
## 来源
|
||||
|
||||
[arXiv:2601.04805](https://arxiv.org/abs/2601.04805) | [原始存档](raw/papers/gan-thinking-based-non-thinking-2026.md)
|
||||
74
papers/gaurav-dynamic-react-2025.md
Normal file
74
papers/gaurav-dynamic-react-2025.md
Normal file
@@ -0,0 +1,74 @@
|
||||
---
|
||||
title: "Dynamic ReAct:大规模 MCP 工具选择"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: paper
|
||||
tags: [dynamic-tool-selection, mcp, react-agent, meta-tools, tool-retrieval]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2509.20386
|
||||
---
|
||||
|
||||
# Dynamic ReAct:大规模 MCP 工具选择
|
||||
|
||||
> **Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj** · 2025 · arXiv:2509.20386
|
||||
|
||||
## 核心问题
|
||||
|
||||
MCP 生态增长到数百/数千工具时,ReAct Agent 无法全量加载——上下文有限。需要**按需的动态工具选择**。
|
||||
|
||||
## 五架构渐进演化
|
||||
|
||||
| # | 架构 | 核心机制 | 关键问题 |
|
||||
|---|------|---------|---------|
|
||||
| 1 | Direct Semantic Search | 用户查询→向量库→top-k | 噪声严重,跨域失效 |
|
||||
| 2 | Meta-Tool Query Construction | LLM 构造原子搜索查询 | 仍需大 k,精度有限 |
|
||||
| 3 | **Search and Load** ★ | search_tools + load_tools | **最优平衡** |
|
||||
| 4 | Application-Aware | 先搜 app 再搜 tool | 额外调用收益有限 |
|
||||
| 5 | Fixed Tool Set | 固定 meta-tool 动态访问 | 长对话退化 |
|
||||
|
||||
### ★ Search and Load(生产选择)
|
||||
|
||||
```
|
||||
用户查询 → LLM构造多查询 → search_tools(k1=20, k2=5/每应用)
|
||||
→ 去重返回 → LLM精选 → load_tools(< 5个工具) → 执行
|
||||
```
|
||||
|
||||
优势:
|
||||
- 多查询合并一次 `search_tools` 调用
|
||||
- 去重 + 每应用上限 k2=5 控制候选规模
|
||||
- LLM 精选后通常**加载不到 5 个**工具(vs baseline 的 10+)
|
||||
- 工具加载减少 **50%**,准确率保持
|
||||
|
||||
## [[context-enriched-embeddings|上下文增强嵌入]]
|
||||
|
||||
从 baseline 的 Top-5 40% → 60%(+50% 相对提升):
|
||||
|
||||
- Sonnet 4 生成增强描述(隐式功能 + 用例)
|
||||
- voyage-context-3 嵌入 + Sonnet context
|
||||
- BM25 混合提升 recall 但降 precision(关键词误匹配)
|
||||
|
||||
## [[meta-tools|Meta-Tool 设计]]
|
||||
|
||||
四个核心 meta-tool:
|
||||
- **search_tools**:两级搜索(k1 候选 → 去重 → k2 每应用上限)
|
||||
- **load_tools**:LLM 精选后显式加载
|
||||
- **search_apps**:先定位应用(可选,收益有限)
|
||||
- **get_tool_info / call_tool**:Fixed Tool Set 模式的动态访问
|
||||
|
||||
## [[default-tools|Default Tools]]
|
||||
|
||||
**create_table** + **web_search** 始终可用——避免为通用任务浪费搜索(如 LLM 搜索 "financial APIs" 来找财报,有了 web_search 直接搜即可)。
|
||||
|
||||
## 与 MCP-Zero 的对比
|
||||
|
||||
| | Dynamic ReAct | [[fei-mcp-zero-2025|MCP-Zero]] |
|
||||
|---|---|---|
|
||||
| 核心机制 | meta-tool + 语义搜索 | Agent 主动请求 + 层次路由 |
|
||||
| 工具加载 | search→load 两阶段 | 请求→路由→注入 |
|
||||
| 向量策略 | context-enriched embeddings | OpenAI text-embedding-3-large |
|
||||
| 多轮 | ReAct 框架内迭代 | Iterative Capability Extension |
|
||||
| 共性 | 都追求"按需而非全量" | 都反对被动注入 |
|
||||
|
||||
Dynamic ReAct 论文直接引用了 MCP-Zero(ref [2])——两篇构成 MCP 工具选择的互补视角。
|
||||
|
||||
来源:[原始存档](raw/papers/gaurav-dynamic-react-2025.md)
|
||||
95
papers/gu-mamba.md
Normal file
95
papers/gu-mamba.md
Normal file
@@ -0,0 +1,95 @@
|
||||
---
|
||||
title: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: paper
|
||||
tags: ["state-space-models", "linear-complexity", "sequence-modeling", "architecture"]
|
||||
sources: ["https://arxiv.org/abs/2312.00752"]
|
||||
---
|
||||
|
||||
# Mamba:选择性状态空间的线性时间序列建模
|
||||
|
||||
## 核心问题
|
||||
|
||||
[[state-space-models|状态空间模型(SSM)]]作为 Transformer 的线性复杂度替代方案,在连续信号(音频、视觉)上表现出色,但在离散信息密集数据(如文本)上从未达到 Transformer 质量。Gu & Dao (2024) 识别出根本原因:**缺乏内容感知推理**——传统 SSM 的动力学是时间不变的(LTI),每个 token 的处理规则完全相同,无法选择性关注或忽略信息。
|
||||
|
||||
## 核心贡献:选择机制(S6)
|
||||
|
||||
Mamba 的关键创新是将 SSM 从 **LTI(线性时间不变)升级为选择性(Selective)**:
|
||||
|
||||
```
|
||||
S4 (LTI): B, C, Δ 对所有时间步固定 → 卷积 OR 循环
|
||||
S6 (Selective): B_t, C_t, Δ_t 是输入 x_t 的函数 → 仅循环 (需 scan)
|
||||
```
|
||||
|
||||
### 算法对比(核心直觉)
|
||||
|
||||
| 算法 | B | C | Δ | 性质 |
|
||||
|------|---|---|---|------|
|
||||
| S4 | Parameter (D, N) | Parameter (D, N) | τ(Parameter) | LTI, 可用卷积 |
|
||||
| **S6** | s_B(x_t): (B, L, N) | s_C(x_t): (B, L, N) | τ(Δ + s_Δ(x_t)) | **时间变化**, 需 scan |
|
||||
|
||||
效果:S6 模型能**根据当前 token 内容**决定是传播还是遗忘信息——这就是选择性。
|
||||
|
||||
### 为什么这很重要
|
||||
|
||||
在 [[selective-copy|选择复制]]任务中,传统 LTI 模型只能在 token 间距固定时成功(只需时间感知,不需内容感知)。一旦间距随机变化,只有能"看到内容再决定是否记住"的模型才能胜任。Mamba 的选择机制天然支持这种内容感知。
|
||||
|
||||
## 第二个创新:硬件感知算法
|
||||
|
||||
选择机制带来了计算挑战:时间变化的 SSM **不能再用卷积**(卷积要求 LTI)。Mamba 通过以下方式解决:
|
||||
|
||||
1. **并行关联扫描(parallel associative scan / Blelloch scan)**:将循环更新展开为前缀和操作,可在 GPU 上并行
|
||||
2. **IO 感知的 kernel fusion**:在 SRAM 中完成 scan 和离散化,避免将扩展状态写入 HBM
|
||||
3. **重计算(recomputation)**:反向传播时不保留中间状态,直接重算
|
||||
|
||||
这三个技巧使 Mamba 比所有卷积 SSM 快 **3×**(A100 GPU)。
|
||||
|
||||
## 架构:极简设计
|
||||
|
||||
Mamba block 结构:
|
||||
|
||||
```
|
||||
x → LayerNorm
|
||||
→ Linear(d → 2d) → Conv1d → SiLU [门控分支]
|
||||
→ Linear(d → 2d_N) → SSM(S6) [SSM 分支]
|
||||
→ 逐元素乘法 → Linear(2d → d)
|
||||
→ + x (残差)
|
||||
```
|
||||
|
||||
关键设计哲学:
|
||||
- **无注意力、无 MLP**:单一块类型统管整个模型
|
||||
- **扩展比 E=2**:计算量可控
|
||||
- **同质架构**:所有层结构相同,仅参数不同
|
||||
|
||||
与 H3 的关系:H3 使用两个 LTI SSM + 门控,Mamba 将门控 SSM 融合为单一选择性 SSM。
|
||||
|
||||
## 实验结果总结
|
||||
|
||||
| 模态 | 结果 |
|
||||
|------|------|
|
||||
| 语言 | Mamba-3B > Pythia-3B,匹敌 Pythia-7B;5× 推理吞吐 |
|
||||
| 合成任务 | Selective Copying + Induction Heads 外推至 >1M tokens |
|
||||
| 音频 | SC09 语音生成 FID 降低 >50% |
|
||||
| 基因组学 | >HyenaDNA,>Transformer |
|
||||
|
||||
## 关键概念网络
|
||||
|
||||
- [[selective-state-space]] — S6 选择机制
|
||||
- [[hardware-aware-algorithm]] — GPU 优化并行 scan
|
||||
- [[structured-state-space-models]] — S4 前身
|
||||
- [[content-based-reasoning]] — Mamba 解决的 LTI 弱点
|
||||
- [[selective-copy]] — 动机合成任务
|
||||
- [[induction-heads]] — LLM 关键机制
|
||||
- [[hippo]] — SSM 数学基础
|
||||
- [[mamba-ssm]] — 概念主页(已有,需更新)
|
||||
- [[state-space-models]] — SSM 家族总览(已有)
|
||||
|
||||
## 代码
|
||||
|
||||
https://github.com/state-spaces/mamba
|
||||
|
||||
## 来源
|
||||
|
||||
- [arXiv:2312.00752](https://arxiv.org/abs/2312.00752)
|
||||
- [原始存档](raw/papers/gu-mamba-2024.md)
|
||||
105
papers/hazare-dcgwm-2026.md
Normal file
105
papers/hazare-dcgwm-2026.md
Normal file
@@ -0,0 +1,105 @@
|
||||
---
|
||||
title: "DCGWM: 双通道接地世界建模 — 结构防止目标干扰坍缩"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: paper
|
||||
tags: ["world-modeling", "jepa", "representation-learning", "collapse-prevention", "gradient-interference"]
|
||||
authors: ["Akshay Hazare"]
|
||||
venue: "arXiv"
|
||||
year: 2026
|
||||
arxiv: "2606.18688"
|
||||
note: "Position paper. Experimental validation in progress."
|
||||
sources: ["https://arxiv.org/abs/2606.18688v1"]
|
||||
---
|
||||
|
||||
# DCGWM: Dual-Channel Grounded World Modeling
|
||||
|
||||
> Akshay Hazare · arXiv:2606.18688 · 2026 · Position paper (experimental validation ongoing)
|
||||
|
||||
## 核心问题
|
||||
|
||||
[[jepa|JEPA]] 是世界模型表示学习的前沿方法。但当一个 JEPA 需要同时接地两个**定性不同的外部信号**时——物理动力学(稀疏、高幅值、满足约束的梯度修正)和社交行为动力学(弥散、分布匹配的梯度修正)——会发生什么?
|
||||
|
||||
Hazare 识别出这一设定下的一种新失效模式:**[[objective-interference-collapse|Objective Interference Collapse (OIC)]]**——在共享潜在空间中联合学习时,主导通道系统性地坍缩从属通道的表示子空间。损失权重**无法解决**此问题,因为冲突是几何的而非量级的。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### 1. OIC 的形式化
|
||||
|
||||
物理梯度 g_p 是低熵的(集中在特定维度,高幅值),行为梯度 g_b 是高熵的(弥散在多个维度,低幅值)。联合更新 ∝ g_p + g_b 导致:
|
||||
- 物理主导时 → Z → Z_p*,物理损失 → 0
|
||||
- 行为梯度在 Z_p* 处非零 → 行为更新扰动物理子空间
|
||||
- 下一轮物理修正覆盖行为结构 → 行为子空间永远无法形成稳定满秩
|
||||
|
||||
标量重加权(α·g_p + β·g_b)改变幅度但不改变冲突的**几何结构**。
|
||||
|
||||
### 2. DCGWM 架构
|
||||
|
||||
核心设计:**分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流**
|
||||
|
||||
```
|
||||
物理测量 → PGC [内向∇] → Z_p ┐
|
||||
├→ LWME → detach() → GRL → 用户
|
||||
社交模拟 → SBGC [内向∇] → Z_b ┘
|
||||
```
|
||||
|
||||
**四个架构不变量**:
|
||||
1. **Inv1**: Z_p 和 Z_b 无共享参数,无直接梯度路径
|
||||
2. **Inv2**: PGC 梯度仅更新 W_p;SBGC 梯度仅更新 W_b
|
||||
3. **Inv3**: 接口模块不传播跨子空间梯度
|
||||
4. **Inv4**: GRL 接收 detach() 的潜在表示,生成损失不回流
|
||||
|
||||
**物理接地通道 (PGC)**:通过 [[vicreg|VICReg]] 风格对齐将物理测量映射到 Z_p,使用方差/协方差正则化维持子空间满秩。
|
||||
|
||||
**行为接地通道 (SBGC)**:将紧急性多智能体模拟的输出作为外部接地信号注入 Z_b——行为分布来自 N 个交互智能体的群体级紧急性轨迹,不可约化为单模型预测。
|
||||
|
||||
**接口模块**:通过一致性 + 解耦的双目标(无跨子空间梯度)捕获物理-行为相关性。
|
||||
|
||||
### 3. Asymmetric Grounding Adherence Loss (L_AGA)
|
||||
|
||||
[[rollout-drift|Rollout drift]] 是多步潜在预测累积误差导致轨迹偏离接地流形的失效模式。[[asymmetric-grounding-adherence-loss|L_AGA]] 是首个针对异质接地源、具有不兼容容忍结构的 drift 防止损失:
|
||||
|
||||
- **物理 Adherence**:平方铰链惩罚 `max(0, d_p − ε_p)²`——物理定律是硬约束,超过容忍阈值即范畴错误
|
||||
- **行为 Adherence**:软 KL 散度 `KL(q_b ∥ p_b)`——行为随机性是预期的,与分布距离成比例的连续惩罚
|
||||
|
||||
不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容。
|
||||
|
||||
### 4. Isolation Necessity Theorem
|
||||
|
||||
[[isolation-necessity-theorem|隔离必要性定理]]:设 L_gen 为任何奖励保留高频感知统计的生成目标,L_pred 为奖励丢弃不可预测高频内容的 JEPA 预测目标。若 LWME 在 L_pred 下有唯一最优点 Z*,且 Z* 位于 L_gen 在高频子空间中的鞍点,则对任何 α > 0,梯度优化将驱动 Z 偏离 Z*。
|
||||
|
||||
→ 唯一解决方案是架构隔离(α = 0):GRL 在 LWME 参数冻结的单独优化阶段训练。
|
||||
|
||||
### 5. 对 LLM 世界建模的结构性批判
|
||||
|
||||
DCGWM 不仅是新架构提议——它阐明了一个关于 LLM 作为世界模型的结构性论证:
|
||||
|
||||
- **NTP 诱导的子空间坍缩**(Zhao et al., 2024):NTP 隐式求解秩约束优化,相同下一 token 支持集的上下文表示收敛到近共线方向
|
||||
- **RLHF 复合而非修复**:RLHF 在已坍缩的表示上操作,进一步压缩有效秩
|
||||
- **缩放使问题更严重**:更大模型更完全地最小化 NTP 损失 → 更完全地坍缩
|
||||
|
||||
DCGWM 通过用 JEPA 掩码预测替代 NTP 目标来规避这些——不是修复 LLM,而是从根本上使用不同的训练目标。
|
||||
|
||||
## 局限性与开放问题
|
||||
|
||||
Hazare 精确陈述了局限——不做最小化:
|
||||
|
||||
1. **零经验验证**:所有声明是理论或结构性的;实验验证进行中
|
||||
2. **OIC 是猜想**:论证是直觉的,未包含自适应优化器、批量归一化动力学等
|
||||
3. **隔离必要性依赖未证明假设 A2**:Z* 在 L_gen 高频子空间中是鞍点的假设
|
||||
4. **接口收敛未证明**:L_I 是否有稳定均衡未知
|
||||
5. **行为编码器保真度未验证**:enc_b 是否能忠实地映射群体紧急性轨迹未知
|
||||
|
||||
## 参考
|
||||
|
||||
- [原始存档](raw/papers/hazare-dcgwm-2026.md)
|
||||
- [[jepa|JEPA]]
|
||||
- [[objective-interference-collapse|Objective Interference Collapse]]
|
||||
- [[dcgwm|DCGWM]]
|
||||
- [[inward-only-gradient-flow|Inward-Only Gradient Flow]]
|
||||
- [[asymmetric-grounding-adherence-loss|L_AGA]]
|
||||
- [[rollout-drift|Rollout Drift]]
|
||||
- [[isolation-necessity-theorem|Isolation Necessity]]
|
||||
- [[vicreg|VICReg]]
|
||||
- [[world-models-rl|World Models]]
|
||||
- [[representation-collapse|Representation Collapse]]
|
||||
56
papers/jordan-collectivist-ai-2025.md
Normal file
56
papers/jordan-collectivist-ai-2025.md
Normal file
@@ -0,0 +1,56 @@
|
||||
---
|
||||
title: "AI 的集体主义经济学视角(Jordan, 2025)"
|
||||
created: 2026-06-21
|
||||
updated: 2026-06-21
|
||||
type: paper
|
||||
tags:
|
||||
- ai-economics
|
||||
- collective-intelligence
|
||||
- uncertainty
|
||||
- mechanism-design
|
||||
sources:
|
||||
- arXiv:2507.06268
|
||||
- MLST 2026
|
||||
---
|
||||
|
||||
# AI 的集体主义经济学视角
|
||||
|
||||
> Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268v3 (cs.CY/cs.AI/stat.ML), 2025.
|
||||
|
||||
## 核心主张
|
||||
|
||||
LLM 不仅是"接近人类的智能体"——它们同样是**集体主义制品**:每次交互都在与数十亿贡献微数据的个体进行隐式对话。"AI 匹敌的隐喻不是搜索引擎或聊天机器人,而是**市场**。"
|
||||
|
||||
## 三种思维方式
|
||||
|
||||
论文提出了计算、推断、经济三种思维方式的深度融合框架。详见 [[collectivist-ai|集体主义 AI]]。
|
||||
|
||||
## 核心案例
|
||||
|
||||
| 案例 | 章节 | 核心概念 |
|
||||
|------|------|---------|
|
||||
| 数据库推断设计 | §2 | 从描述到推断——对"新患者"而非"旧数据"做预测 |
|
||||
| 统计合同理论 | §3 | [[statistical-contract-theory]] + [[e-values|E-values]] |
|
||||
| 三层数据市场 | §4.2 | [[data-markets|数据市场]]的隐私-收入权衡 |
|
||||
| 基础模型前沿偏倚 | §4.3 | [[prediction-driven-inference|PPI]] 纠正 [[foundation-model-frontier-bias]] |
|
||||
| 概率匹配 | App.C | [[probability-matching|概率匹配]]作为种群纳什均衡 |
|
||||
|
||||
## 数学亮点
|
||||
|
||||
**E-values 与激励相容**:Bates et al. (2024) 证明统计合同激励相容 ⇔ 选项可表达为 E-values。E-value 是非负上鞅,在零假设下期望 ≤1,本质是"证据随时间的累积"——将推断概念与经济概念等价关联。
|
||||
|
||||
**概率匹配作为纳什均衡**:小鼠在 2:1 食物比下以 2/3 vs 1/3 概率选择左右——这不是次优行为,而是种群层面的纳什均衡,避免资源浪费。
|
||||
|
||||
## 教育实践
|
||||
|
||||
UC Berkeley **Data 8** 课程(2015 年起,每学期 1500+ 学生),融合计算思维(Python 编程)+ 推断思维(置换检验),让学生用算法回答真实世界问题。
|
||||
|
||||
## 论文定位
|
||||
|
||||
这是一篇**立场论文(position paper)**,非技术贡献型。Jordan 的核心动作不是提出新算法,而是**重新定义 AI 的学科边界**——主张将经济与推断原则融入算法设计的 DNA。这与 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]] 中的论点完全一致,论文提供了更系统的学术展开。
|
||||
|
||||
## 参考文献
|
||||
|
||||
- Bates et al. (2024). Principal-Agent Hypothesis Testing. arXiv:2205.06812
|
||||
- Angelopoulos et al. (2023). Prediction-Powered Inference. *Science* 383, 669–674
|
||||
- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697
|
||||
87
papers/large-language-gibbs.md
Normal file
87
papers/large-language-gibbs.md
Normal file
@@ -0,0 +1,87 @@
|
||||
---
|
||||
title: "Structured Inference with Large Language Gibbs"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: paper
|
||||
tags: [mcmc, gibbs-sampling, llm, probabilistic-inference, bayesian, structure-learning, reasoning]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2606.19264
|
||||
- https://github.com/hyeok9855/large-language-gibbs
|
||||
---
|
||||
|
||||
# Large Language Gibbs
|
||||
|
||||
**Large Language Gibbs** 是由 Edinburgh 团队(Choi, Gouk, Whitammer)提出的结构化概率推断框架。核心创新在于:**将 LLM 的条件分布作为 Gibbs 采样的转移算子**,通过迭代重采样消除自回归生成的顺序偏差,实现更可靠的联合分布采样。
|
||||
|
||||
## 核心方法论
|
||||
|
||||
### 1. Gibbs 采样与 LLM 条件分布
|
||||
|
||||
标准 Gibbs 采样从联合分布中采样:随机选择变量 i,从 p(X_i | X_{-i}) 重采样。Large Language Gibbs 用 LLM 的 next-token conditional 近似这些单变量条件分布:
|
||||
|
||||
```
|
||||
q_i^LM(X_i | X_{-i}) = E_{σ_{-i}}[p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i])]
|
||||
```
|
||||
|
||||
**关键设计**:每次重采样前将其他变量**随机排列**(random permutation),消除固定序列顺序的偏差。
|
||||
|
||||
### 2. 稳态分布 q^sym
|
||||
|
||||
论文证明了链的稳态分布为:
|
||||
|
||||
```
|
||||
q^sym(X) = E_σ[p^LM(seq(X, σ))]
|
||||
```
|
||||
|
||||
即:对所有变量排列下 LLM 似然的期望。当 LLM 满足排列不变性假设时,q^sym 的各单变量条件与 LLM 的条件分布一致。即使假设不完全成立,随机排列也显著降低了顺序偏差。
|
||||
|
||||
### 3. 三类核变体
|
||||
|
||||
| 核 | 机制 | 优势 |
|
||||
|----|------|------|
|
||||
| **Basic Gibbs** | 直接从 LLM 的条件分布采样 | 最直接 |
|
||||
| **[[barker-gibbs|Barker Gibbs]]** | LLM 在 current 和 candidate 之间做偏好比较,Barker 规则决定接受率 | 利用判别能力,克服 base model 采样偏差 |
|
||||
| **[[gambling-gibbs|Gambling Gibbs]]** | LLM 判断是否愿意对 candidate 下注,greedy decoding | 无需校准概率,仅需二值判断 |
|
||||
|
||||
### 4. 实用变体
|
||||
|
||||
- **Sweeping Gibbs**:按固定顺序循环更新(加速收敛)
|
||||
- **Block Gibbs**:一次重采样 B>1 个变量(在高度相关变量中跳出局部模式)
|
||||
|
||||
## 应用
|
||||
|
||||
### 合成分布采样(§4)
|
||||
|
||||
LLM 独立采样有强偏差(如 Llama-3.1-8B 对 Uniform 分布的采样偏向低值),批量采样有高自相关。Gibbs 迭代更新显著纠正了这两种问题。
|
||||
|
||||
### 一致性推理(§5.1)
|
||||
|
||||
在 TruthfulQA 和 GSM8K-Verification 上,Gibbs 采样通过迭代条件更新确保相关问题的答案一致性。相比 ICM 的启发式最大化,Gibbs 提供了有理论保证的替代方案。
|
||||
|
||||
### 贝叶斯结构学习(§5.2)
|
||||
|
||||
使用 Gibbs 生成合成数据 D_LLM,构造 world-knowledge 驱动的先验:
|
||||
|
||||
```
|
||||
P(G | D; D_LLM, γ) ∝ P_0(G) P(D_LLM | G)^γ P(D | G)
|
||||
```
|
||||
|
||||
在 limited data 下,LLM 先验帮助消歧义马尔可夫等价的 DAG 结构。
|
||||
|
||||
## 算法流程
|
||||
|
||||
1. **初始化**:自回归生成所有变量的初值 X_1, ..., X_n
|
||||
2. **迭代**(t = 1, ..., T):
|
||||
- 随机选择变量 i
|
||||
- 随机排列其他变量 σ_{-i}
|
||||
- 从 p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i]) 重采样 X_i
|
||||
3. **后处理**:burn-in 丢弃 + thinning 间隔采样
|
||||
|
||||
## 参考
|
||||
|
||||
- [原始存档](raw/papers/large-language-gibbs-2026.md)
|
||||
- [[barker-gibbs]]
|
||||
- [[gambling-gibbs]]
|
||||
- [[llm-mcmc]]
|
||||
- [[order-bias-removal]]
|
||||
- [[llm-consistent-reasoning]]
|
||||
77
papers/latent-cot-supervision.md
Normal file
77
papers/latent-cot-supervision.md
Normal file
@@ -0,0 +1,77 @@
|
||||
---
|
||||
title: "What Makes Effective Supervision in Latent Chain-of-Thought"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: paper
|
||||
tags: [latent-cot, information-theory, mutual-information, reasoning, supervision, representation-learning]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2606.20075
|
||||
- https://github.com/EIT-NLP/Supervision-in-Latent-CoT
|
||||
---
|
||||
|
||||
# Latent CoT Supervision
|
||||
|
||||
**Latent CoT Supervision** 是 ICML 2026 的工作(Chen et al.),从信息论角度系统分析了 Latent Chain-of-Thought 的有效监督机制。核心贡献在于识别 outcome supervision 的失败机理,并将过程监督分解为两个互补维度。
|
||||
|
||||
## 核心发现
|
||||
|
||||
### 1. Outcome Supervision 的双重崩溃
|
||||
|
||||
仅使用最终答案损失训练 Latent CoT 失败于两个机制:
|
||||
|
||||
| 机制 | 现象 | 后果 |
|
||||
|------|------|------|
|
||||
| **[[dual-collapse|梯度衰减]]** | 监督信号集中于 L1,L2...L6 梯度接近零 | 模型依赖浅层位置,深层不参与推理 |
|
||||
| **[[dual-collapse|表征漂移]]** | 潜状态在训练中偏离语义参考区 | 失去语义锚定,进入无结构区域 |
|
||||
|
||||
两者的交互效应:梯度衰减导致深层潜状态未受充分训练 → 它们在参数空间中"漂移" → 最终 answer loss 通过捷径(shortcut)最小化,而非通过真正的多步推理。
|
||||
|
||||
### 2. 过程监督的二维分解
|
||||
|
||||
**[[trajectory-supervision|Trajectory Supervision]]**(轨迹监督):
|
||||
- 逐步注入推理信号:阶段 k 训练时,前 k 步使用连续潜状态 L_{≤k},后续使用显式 token
|
||||
- 目标:最大化局部互信息 I(L_{≤k}; S_{k+1})
|
||||
- 关键发现:仅 Trajectory Supervision(无 Space Supervision)已显著优于 Outcome-only
|
||||
|
||||
**[[space-supervision|Space Supervision]]**(空间监督):
|
||||
- **[[geometric-compression-latent|Geometric Compression (GC)]]**:MSE 对齐潜状态到静态嵌入 → **破坏性约束**,坍缩高维推理流形
|
||||
- **[[generative-reconstruction-latent|Generative Reconstruction (GR)]]**:辅助解码器从潜状态恢复文本 → **语义锚定**,保留信息容量
|
||||
|
||||
GR 的信息论优势:最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的变分下界。
|
||||
|
||||
### 3. Unified Latent Probe (ULP)
|
||||
|
||||
[[unified-latent-probe|ULP]] 是一个轻量解码器 q_φ(S_t | L_t),冻结模型后训练在所有 baseline 的潜状态上。
|
||||
其重建损失 L_Info 提供了一个严格的信息度量:
|
||||
- L_Info 低 → 潜状态保留了可恢复的推理语义
|
||||
- L_Info 高 → 潜状态退化到高熵无结构区域
|
||||
|
||||
### 4. Information-Performance Binding
|
||||
|
||||
[[information-performance-binding]]:推理精度与 ULP 重建损失呈严格的**反比关系**。即推理能力被潜链中的互信息上界严格约束。
|
||||
|
||||
实验中 PS-GR(Trajectory + Generative Reconstruction)达到最优前沿:最大化 I(L_t; S_t) 并保持 I(L_{≤k}; S_{k+1}) 的可预测性。
|
||||
|
||||
## 方法论要点
|
||||
|
||||
- **渐进式训练**(Progressive Training):从完全显式 CoT 逐步过渡到完全 Latent CoT
|
||||
- **粒度(Granularity g)**:g 个 token 合并为一个潜向量。g=1(逐 token 潜向量)效果最优但计算昂贵
|
||||
- **优化器重置**:过渡到连续状态时重置优化器 → "探索冲击"(exploration shock)帮助逃离局部最优
|
||||
- **信息衰减**:自回归潜生成存在 position-wise 信息衰减,GR 通过可重建性约束周期性"重置"语义漂移
|
||||
|
||||
## 局限
|
||||
|
||||
- 模型规模仅限于 GPT-2,需在更大模型上验证
|
||||
- 依赖过程标注(ground-truth reasoning steps),限制可扩展性
|
||||
- MI 估计受限于变分探针容量,可能保守
|
||||
|
||||
## 参考
|
||||
|
||||
- [原始存档](raw/papers/latent-cot-supervision-2026.md)
|
||||
- [[dual-collapse]]
|
||||
- [[trajectory-supervision]]
|
||||
- [[space-supervision]]
|
||||
- [[unified-latent-probe]]
|
||||
- [[information-performance-binding]]
|
||||
- [[generative-reconstruction-latent]]
|
||||
- [[geometric-compression-latent]]
|
||||
91
papers/longmem-eval-2025.md
Normal file
91
papers/longmem-eval-2025.md
Normal file
@@ -0,0 +1,91 @@
|
||||
---
|
||||
title: "LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Wu et al., UCLA/Tencent, ICLR 2025)"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: paper
|
||||
tags: ["memory-benchmark", "chat-assistant", "long-term-memory", "evaluation"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2410.10813"
|
||||
code: "https://github.com/xiaowu0162/LongMemEval"
|
||||
---
|
||||
|
||||
# LongMemEval: Benchmarking Long-Term Interactive Memory in Chat Assistants
|
||||
|
||||
> Wu et al. | UCLA / Tencent AI Lab Seattle / UC San Diego | ICLR 2025 | arXiv:2410.10813
|
||||
|
||||
## 问题
|
||||
|
||||
LLM 驱动的聊天助手已集成记忆组件来追踪交互历史,但其在**持续交互中的长期记忆能力**缺乏系统评估。现有基准有两个缺陷:
|
||||
1. 对话历史过短(几千 tokens),无法挑战现代系统的记忆能力
|
||||
2. 问题覆盖面窄——缺少跨会话推理、时间推理、知识更新、信息遗忘等关键能力
|
||||
|
||||
## [[longmem-eval|LongMemEval 基准]]
|
||||
|
||||
### 问题形式化
|
||||
|
||||
每个评测实例为 4-元组 (S, q, t_q, a):
|
||||
- **S** = [(t₁, S₁), ..., (t_N, S_N)]:按时间排序的 N 个历史会话,每个 S_i 是多轮用户-助手交互
|
||||
- **q**:问题
|
||||
- **t_q**:提问时间戳
|
||||
- **a**:答案
|
||||
|
||||
### 五种核心记忆能力 (500 题)
|
||||
|
||||
| 能力 | 说明 | 例子 |
|
||||
|------|------|------|
|
||||
| **Information Extraction** | 从单/多会话提取隐藏信息 | "我上次去博物馆是什么时候?" |
|
||||
| **Multi-Session Reasoning** | 跨多个会话综合信息 | "我目前拥有多少乐器?"(分散在 4 个会话中) |
|
||||
| **Temporal Reasoning** | 基于时间参考的推理 | "距离我上次和朋友去博物馆过去了几个月?" |
|
||||
| **Knowledge Updates** | 处理用户信息的更新/矛盾 | 用户先说过敏花生→后来说不过敏 |
|
||||
| **Abstention** | 识别无法回答的问题 | 问 30-gallon 鱼缸的鱼数——但用户只有 10-gallon |
|
||||
|
||||
### 两种标准设置
|
||||
|
||||
| 设置 | 规模 | 难度 |
|
||||
|------|------|------|
|
||||
| LongMemEval **S** | ~115k tokens/problem | 长上下文 LLM 下降 30-60% |
|
||||
| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模长时间交互 |
|
||||
|
||||
## 统一记忆设计框架:[[memory-indexing-retrieval-reading|索引→检索→阅读]]
|
||||
|
||||
将记忆系统分解为三个阶段 × 四个控制点:
|
||||
|
||||
```
|
||||
会话 → [Value 粒度] → [Key 索引] → 存储
|
||||
↓
|
||||
查询 → [Query 展开] → 检索 → [Reading 策略] → 答案
|
||||
```
|
||||
|
||||
**三阶段**:Indexing(索引写入)、Retrieval(检索召回)、Reading(阅读利用)
|
||||
**四控制点**:Value(存储粒度)、Key(索引键)、Query(查询)、Reading Strategy(利用策略)
|
||||
|
||||
## 关键实验发现
|
||||
|
||||
### 1. 粒度:Round > Session > User Fact
|
||||
|
||||
Session 级别的存储信息损失严重。最优粒度是 **round**(单轮交互),但进一步压缩为 user facts 会在总体精度上反降——尽管它提升了多会话推理准确度。
|
||||
|
||||
### 2. [[fact-augmented-key-expansion|事实增强的 Key 展开]]
|
||||
|
||||
用提取的用户事实(而非仅对话原文)作为索引键:
|
||||
- 记忆召回 +9.4% (recall@k)
|
||||
- 下游 QA 准确度 +5.4%
|
||||
|
||||
### 3. [[time-aware-query-expansion|时间感知的 Query 展开]]
|
||||
|
||||
直接把时间戳关联到事实并缩小搜索范围:
|
||||
- 时间推理召回 +6.8%~11.3%(当使用强 LLM 展开查询时)
|
||||
|
||||
### 4. Reading 策略:Chain-of-Note + 结构化格式
|
||||
|
||||
即使完美召回,准确利用检索到的项目仍非易事。Chain-of-Note + 结构化数据格式在三类 LLM 上提升 QA 达 **10 个绝对百分点**。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **记忆评测需要覆盖"遗忘"**——Abstention 是 LongMemEval 的独特贡献:模型必须学会说"我不知道",而非幻想答案
|
||||
2. **三阶段框架统一了记忆设计空间**——indexing/retrieval/reading 的分拆使不同优化策略可以在独立控制点上叠加
|
||||
3. **Key 展开的价值大于 Query 展开**——在索引阶段用结构化事实增强 key 比在查询阶段做 rewrite 更高效(+9.4% vs +6.8-11.3%)
|
||||
4. **与 Atlas 的对接点**:LongMemEval 的三阶段框架可以直接映射到 Atlas 的 ES 记忆管线——round 粒度 → episodic 索引,fact-augmented key 对应 semantic 索引的 consolidation 输出
|
||||
|
||||
## 来源
|
||||
[原始存档](raw/papers/longmem-eval-2025.md) | [arXiv](https://arxiv.org/abs/2410.10813) | [GitHub](https://github.com/xiaowu0162/LongMemEval)
|
||||
85
papers/maineCoon.md
Normal file
85
papers/maineCoon.md
Normal file
@@ -0,0 +1,85 @@
|
||||
---
|
||||
title: "MaineCoon: Real-Time Audio-Visual Social World Model"
|
||||
created: 2026-06-20
|
||||
updated: 2026-06-20
|
||||
type: paper
|
||||
tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
|
||||
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||
venue: "arXiv preprint (cs.CV, 2026)"
|
||||
authors: "Catnip AI Team"
|
||||
---
|
||||
|
||||
# MaineCoon: Real-Time Audio-Visual Social World Model
|
||||
|
||||
> **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。
|
||||
|
||||
## 核心贡献
|
||||
|
||||
MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:
|
||||
|
||||
| 维度 | 传统 DiT 视频模型 | MaineCoon |
|
||||
|------|------------------|-----------|
|
||||
| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
|
||||
| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
|
||||
| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
|
||||
| 长度 | 数秒 | **千秒级 (~45 分钟)** |
|
||||
| 成本 | 高昂 | **<$0.001/秒** |
|
||||
| 交互 | 无 | **亚秒级交互** |
|
||||
|
||||
### 范式定义:Social World Model
|
||||
|
||||
[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
|
||||
|
||||
## 方法要点
|
||||
|
||||
### 1. 无需 Teacher Forcing 的流式训练
|
||||
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:
|
||||
- [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth
|
||||
- 消除 train-test gap,使模型对部署时的长时退化鲁棒
|
||||
|
||||
### 2. 跨模态表示对齐
|
||||
通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练:
|
||||
- 对齐视觉 token 之间的**成对关系**,而非绝对特征值
|
||||
- 仅在视觉流上施加,音频流不受约束
|
||||
- 大幅加速语义结构的涌现
|
||||
|
||||
### 3. Specialize-then-Consolidate 后训练
|
||||
- **Phase 1**:5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
|
||||
- **Phase 2**:[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
|
||||
- Verifier 对学生候选打分 → 自动加权域专家干预程度
|
||||
- 全部失败→最大专家权重(α);全部成功→零专家干预
|
||||
|
||||
### 4. Agentic 流式推理框架
|
||||
三个 agentic 控制器包裹冻结生成器(训练无关):
|
||||
- **Director (Planner & Observer)**:Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
|
||||
- **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
|
||||
- **Buffer Controller**:pace gate 管理生成 lead,吸收抖动,保护播放流畅度
|
||||
|
||||
## SocialVideo Bench
|
||||
|
||||
首个专注社交视频生成的 benchmark,9 项指标覆盖:
|
||||
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
|
||||
- MaineCoon 在所有指标上超越 7 个开源 baseline
|
||||
|
||||
## 开源与资源
|
||||
|
||||
- 项目主页:https://mainecoon.tech/
|
||||
- 论文:https://arxiv.org/abs/2606.17800
|
||||
- 基础模型:LTX-2.3 (22B 开源 DiT)
|
||||
|
||||
## 相关概念
|
||||
- [[social-world-model|社交世界模型]] — 核心范式
|
||||
- [[self-resampling|Self-Resampling]] — 训练技术
|
||||
- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
|
||||
- [[agentic-streaming-inference|Agentic 流式推理]]
|
||||
- [[agentic-cache-manager|Agentic 缓存管理]]
|
||||
- [[look-ahead-buffer-controller|缓冲控制]]
|
||||
- [[forward-repair-ladder|前向修复]]
|
||||
- [[socialvideo-bench|SocialVideo Bench]]
|
||||
- [[audio-visual-representation-alignment|音视频表示对齐]]
|
||||
- [[domain-aware-preference-optimization|域感知 DPO]]
|
||||
- [[diffusion-transformer|DiT]]
|
||||
- [[audio-visual-generation|音视频生成]]
|
||||
- [[autoregressive-video-generation|自回归视频生成]]
|
||||
- [[streaming-generation|流式生成]]
|
||||
- [[social-video|社交视频]]
|
||||
77
papers/me2-trm-reasoning-2026.md
Normal file
77
papers/me2-trm-reasoning-2026.md
Normal file
@@ -0,0 +1,77 @@
|
||||
---
|
||||
title: "ME² + TRM: Complex Reasoning Optimization (Zhang et al., ICML 2026)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: paper
|
||||
tags: ["reasoning", "reward-model", "dag", "grpo", "test-time-scaling"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2602.08498"
|
||||
code: "https://github.com/Simplified-Reasoning/TRM"
|
||||
---
|
||||
|
||||
# ME² + TRM: 复杂推理的表征、评估与优化
|
||||
|
||||
> Zhang et al. | ICML 2026 | arXiv:2602.08498v2 | cs.CL
|
||||
|
||||
## 动机
|
||||
|
||||
[[large-reasoning-models|LRMs]] 的推理轨迹越来越长且结构复杂,但缺乏统一的答案回答三个问题:(1) 什么是高质量推理?(2) 如何可靠评估?(3) 如何用评估信号优化推理?
|
||||
|
||||
现有方法的局限:PRMs 依赖步骤级绝对评分,无法捕获长程依赖和非线性结构;ORMs 设计用于对齐最终响应(helpful/honest/harmless),而非评估结构化推理质量。
|
||||
|
||||
## 核心框架
|
||||
|
||||
### [[me2-principle|ME² 原则]]
|
||||
|
||||
两个正交维度:
|
||||
|
||||
| | Macro(全局) | Micro(局部) |
|
||||
|---|---|---|
|
||||
| **Effectiveness** | 结构组织是否合理、无冗余分支 | 步骤是否正确、有逻辑 |
|
||||
| **Efficiency** | 推理路径是否简洁、无绕路 | 步骤是否精简、无赘述 |
|
||||
|
||||
推理质量 = Macro-Effectiveness × Macro-Efficiency × Micro-Effectiveness × Micro-Efficiency
|
||||
|
||||
### [[dag-reasoning-evaluation|DAG 推理建模]]
|
||||
|
||||
将推理轨迹抽象为 DAG:
|
||||
- 节点:推理步骤
|
||||
- 边:逻辑依赖关系
|
||||
- DAG vs Tree:Tree 无法表达合并(多前驱节点),DAG 是表达力与可处理性的实用平衡
|
||||
|
||||
### [[thinking-reward-model|Thinking Reward Model (TRM)]]
|
||||
|
||||
训练流程:
|
||||
1. 生成多条候选推理轨迹 → 构建 DAG → ME² pairwise preference 标注(DeepSeek-V3.2)
|
||||
2. 构建 [[trm-preference-dataset|TRM-Preference]](103K 训练对,1.5K 验证)
|
||||
3. 训练 TRM:Llama-3.1-8B + scalar head,Bradley-Terry loss
|
||||
|
||||
**核心设计**:TRM 仅训练于 verified-correct 推理对——与答案正确性解耦,纯评估推理质量。
|
||||
|
||||
### [[reasoning-quality-optimization|推理质量优化]]
|
||||
|
||||
**Test-Time Scaling**:TRM Best-of-N selection → +19.3%(AIME24, N=16, Qwen3-8B: 44.7%→64.0%)
|
||||
**RL Training**:TRM-guided GRPO with gated reward shaping:
|
||||
|
||||
$$r = r_v \cdot (1 - \alpha + \alpha \cdot \text{Sigmoid}(r_t))$$
|
||||
|
||||
r_v = outcome reward, r_t = thinking reward, α = balance weight
|
||||
→ +3.9% across diverse tasks
|
||||
|
||||
## 关键结果
|
||||
|
||||
| 方法 | 验证集准确率 |
|
||||
|------|------------|
|
||||
| Qwen2.5-Math-PRM-7B | 46.3% |
|
||||
| ReasonFlux-PRM-7B | 62.5% |
|
||||
| PromptOnly (DeepSeek-V3.2) | 78.6% |
|
||||
| **TRM (ours)** | **88.6%** |
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **将推理质量与答案正确性解耦** — TRM 仅训练于正确推理的偏好对,证明推理质量可独立于答案正确性评估
|
||||
2. **DAG 比 Tree 更适合推理建模** — 推理中的合并(多步归结为一个结论)是常见模式,Tree 无法表达
|
||||
3. **Structural signals matter** — 直接 prompt-based 比较产生大量 ties (232/1497),但去除 ties 后准确率 93%。DAG 结构化后 ties 归零,证明结构信号是关键区分器
|
||||
|
||||
## 来源
|
||||
[原始存档](raw/papers/me2-trm-reasoning-2026.md) | [arXiv](https://arxiv.org/abs/2602.08498) | [GitHub](https://github.com/Simplified-Reasoning/TRM)
|
||||
78
papers/mozer-topological-trouble-transformers-2026.md
Normal file
78
papers/mozer-topological-trouble-transformers-2026.md
Normal file
@@ -0,0 +1,78 @@
|
||||
---
|
||||
title: "The Topological Trouble With Transformers"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: paper
|
||||
authors:
|
||||
- Michael C. Mozer (Google DeepMind)
|
||||
- Shoaib Ahmed Siddiqui (Google DeepMind)
|
||||
- Rosanne Liu (Google DeepMind)
|
||||
source: arXiv
|
||||
source_id: 2604.17121
|
||||
published: 2026-04-18
|
||||
categories:
|
||||
- cs.LG
|
||||
- cs.AI
|
||||
---
|
||||
|
||||
# The Topological Trouble With Transformers
|
||||
|
||||
> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
|
||||
|
||||
## 核心问题
|
||||
|
||||
Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。
|
||||
|
||||
## 关键论证
|
||||
|
||||
### 1. 拓扑性限制
|
||||
Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突:
|
||||
- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
|
||||
- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
|
||||
- 经 t 步后,浅层无法访问最新的状态信息
|
||||
|
||||
### 2. 实证失败模式
|
||||
- **Twenty Questions 不一致**:模型无法维持一致的隐藏状态
|
||||
- **多义词翻转**(bank → river bank / money bank):消歧在深层完成但浅层已做出错误预测
|
||||
- **多轮对话崩溃**、多智能体通信断裂
|
||||
|
||||
### 3. Chain-of-Thought 是变通方案,不是解决方案
|
||||
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:
|
||||
> "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"
|
||||
|
||||
## 核心贡献:循环 Transformer 分类法
|
||||
|
||||
按两个维度系统化分类:
|
||||
|
||||
| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|
||||
|---|---|---|---|
|
||||
| **深度** | Looped Transformer, RINS | — | — |
|
||||
| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — |
|
||||
| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
|
||||
|
||||
分类表中的空单元格是**有前景的研究方向**。
|
||||
|
||||
## 五大研究方向
|
||||
|
||||
1. **[[enhanced-state-space-models|增强状态空间模型]]**:DeltaNet 负特征值扩展、RWKV-7、PaTH Attention
|
||||
2. **前馈近似训练**:通过特殊训练目标和结构先验引导状态追踪
|
||||
3. **[[coarse-grained-recurrence|粗粒度循环]]**:句子/块级别而非 token 级别
|
||||
4. **[[representational-alignment|表征对齐]]**:利用残差连接的自然对齐降低循环适配成本
|
||||
5. **高效循环训练**:分阶段训练 + 截断梯度 + 循环反向传播
|
||||
|
||||
## 关键概念网络
|
||||
|
||||
- [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]]
|
||||
- [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
|
||||
- [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]]
|
||||
- [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]]
|
||||
- [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]]
|
||||
- [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]]
|
||||
|
||||
## 影响力评估
|
||||
|
||||
这是一篇**立场性综述(position paper)**,来自 Google DeepMind 三位研究者。核心贡献不是新算法,而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。
|
||||
|
||||
## 来源
|
||||
|
||||
[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)
|
||||
66
papers/nano-filter.md
Normal file
66
papers/nano-filter.md
Normal file
@@ -0,0 +1,66 @@
|
||||
---
|
||||
title: "NANO Filter: 非线性贝叶斯滤波的自然梯度高斯近似"
|
||||
created: 2026-06-22
|
||||
updated: 2026-06-22
|
||||
type: paper
|
||||
tags: [state-estimation, bayesian-filtering, natural-gradient, gaussian-filtering, nonlinear-filtering]
|
||||
arxiv: "2410.15832"
|
||||
authors: ["Wenhan Cao", "Tianyi Zhang", "Zeju Sun", "Chang Liu", "Stephen S.-T. Yau", "Shengbo Eben Li"]
|
||||
venue: "arXiv (eess.SY), 2024 (v4: 2026-03)"
|
||||
sources: ["https://arxiv.org/abs/2410.15832"]
|
||||
---
|
||||
|
||||
# NANO Filter
|
||||
|
||||
**Natural Gradient Gaussian Approximation Filter** — 一种面向非线性系统的迭代高斯滤波器,核心创新在于跳出「线性化 → KF」的传统使能框架,直接在 [[gaussian-manifold|高斯流形]]上用 [[natural-gradient-descent|自然梯度下降]]求解最优 Gaussian 近似。
|
||||
|
||||
## 核心问题
|
||||
|
||||
传统 [[gaussian-filtering|Gaussian filter]]([[extended-kalman-filter|EKF]], [[unscented-kalman-filter|UKF]], [[posterior-linearization-filter|PLF]])遵循两阶段设计:(i) 将非线性模型近似为线性高斯形式,(ii) 在线性模型上运行 [[kalman-filter|KF]]。不同滤波器间的差异本质上是**线性化策略**的不同——但线性化误差始终存在。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### 1. 优化视角重构 Bayesian 滤波
|
||||
|
||||
将 [[bayesian-filtering|贝叶斯滤波]]的预测步和更新步分别解释为两个变分优化问题:
|
||||
- **预测步**:最大化候选密度在转移概率下的期望对数似然 → 最优解即[[moment-matching-filter|矩匹配]]
|
||||
- **更新步**:最小化期望负对数似然 + KL 散度
|
||||
|
||||
利用 [[stein-lemma|Stein 引理]],将两个变分问题的驻点条件转化为有限维优化。
|
||||
|
||||
### 2. 自然梯度更新步
|
||||
|
||||
NANO 的核心算法创新:不在更新步做线性化,而是在 [[gaussian-manifold|高斯流形]]上直接用 [[natural-gradient-descent|自然梯度]]迭代最小化更新代价 $J(\hat{x}_t, P_t)$。
|
||||
|
||||
迭代公式(利用高斯分布 Fisher 矩阵 $F_v$ 的解析逆):
|
||||
$$
|
||||
P_{t}^{-1,(i+1)} = P_{t|t-1}^{-1} + E_{N(x_t; \hat{x}_t^{(i)}, P_t^{(i)})}\left[\frac{\partial^2 \ell(x_t, y_t)}{\partial x_t^2}\right]
|
||||
$$
|
||||
$$
|
||||
\hat{x}_t^{(i+1)} = \hat{x}_t^{(i)} - P_t^{(i+1)} \cdot E_{N(\cdot)}\left[\frac{\partial \ell(x_t, y_t)}{\partial x_t}\right] - P_t^{(i+1)} P_{t|t-1}^{-1}(\hat{x}_t^{(i)} - \hat{x}_{t|t-1})
|
||||
$$
|
||||
|
||||
### 3. 理论保证
|
||||
|
||||
- **局部收敛**:NANO 的自然梯度迭代在二阶近似下保证更新代价单调递减
|
||||
- **线性 Gaussian 一致性**:在线性系统中,**一次迭代**即收敛到 KF 精确解,与初始化无关
|
||||
- **指数误差界**:在近线性测量方程和低噪声条件下,估计误差被证明为指数有界(通过构造跨时间步的超鞅性质)
|
||||
|
||||
### 4. 鲁棒扩展
|
||||
|
||||
基于 [[gibbs-posterior|Gibbs 后验]]框架,将标准似然替换为广义损失函数以处理模型误设:
|
||||
- **[[pseudo-huber-loss|Pseudo-Huber 损失]]**:大残差时线性增长,抑制离群值影响
|
||||
- **加权对数似然**:按数据依赖权重缩放似然贡献
|
||||
|
||||
## 实验
|
||||
|
||||
在真实系统实验(包括目标跟踪和导航场景)中,NANO 相对于 EKF、UKF、IEKF、PLF 等主流 Gaussian filter,**平均 RMSE 降低约 45%**,计算负担可比。
|
||||
|
||||
## 参考
|
||||
- [原始存档](raw/papers/cao-nano-filter-2024.md)
|
||||
- [[bayesian-filtering|Bayesian Filtering]]
|
||||
- [[natural-gradient-descent|Natural Gradient Descent]]
|
||||
- [[gaussian-manifold|Gaussian Manifold]]
|
||||
- [[moment-matching-filter|Moment-Matching Filter]]
|
||||
- [[stein-lemma|Stein's Lemma]]
|
||||
- [[gibbs-posterior|Gibbs Posterior]]
|
||||
100
papers/peng-rwkv7.md
Normal file
100
papers/peng-rwkv7.md
Normal file
@@ -0,0 +1,100 @@
|
||||
---
|
||||
title: "RWKV-7 Goose: Expressive Dynamic State Evolution"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: paper
|
||||
tags: ["rwkv", "rnn", "linear-complexity", "delta-rule", "state-tracking"]
|
||||
sources: ["https://arxiv.org/abs/2503.14456"]
|
||||
---
|
||||
|
||||
# RWKV-7 "Goose"
|
||||
|
||||
## 核心定位
|
||||
|
||||
RWKV-7(代号 "Goose")是 RWKV 序列建模架构的第七代版本,核心创新在于将 Delta 规则从标量形式**广义化**为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑:**第一个被证明超越 Transformer(TC^0)的并行化可训练 RNN**。
|
||||
|
||||
## 核心创新
|
||||
|
||||
### 广义 Delta 规则
|
||||
|
||||
传统 Delta 规则([[delta-rule|DeltaNet]])通过梯度下降更新矩阵状态:
|
||||
```
|
||||
S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
|
||||
```
|
||||
|
||||
RWKV-7 的三个扩展:
|
||||
|
||||
| 维度 | DeltaNet | RWKV-7 |
|
||||
|------|---------|--------|
|
||||
| 学习率 α | 标量 | **向量 a_t(逐通道)** |
|
||||
| 衰减 w | 固定/标量 | **动态 w_t + 附加项** |
|
||||
| Key 解耦 | k_t 同时用于移除和添加 | **分离 k_remove / k_add** |
|
||||
|
||||
完整状态更新:
|
||||
```
|
||||
S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
|
||||
```
|
||||
|
||||
### 向量值门控(Vector-Valued Gating)
|
||||
|
||||
门控信号从标量扩展为向量 → 模型可**逐通道**决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。
|
||||
|
||||
### 上下文学习率(In-Context Learning Rate)
|
||||
|
||||
a_t 是输入依赖的向量学习率,使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。
|
||||
|
||||
### 松弛值替换规则
|
||||
|
||||
解耦移除 key 和添加 key:
|
||||
- `k_remove`:决定从状态中移除什么
|
||||
- `k_add`:决定向状态中添加什么
|
||||
|
||||
这允许更灵活的信息管理——移除和添加是独立操作。
|
||||
|
||||
## 理论贡献:超越 TC^0
|
||||
|
||||
RWKV-7 的理论结果具有里程碑意义:
|
||||
|
||||
| 架构 | 复杂度类 | 正则语言 | 状态追踪 |
|
||||
|------|---------|---------|---------|
|
||||
| Transformer (standard) | TC^0 | ✗ | ✗ |
|
||||
| RWKV-4/5/6 | TC^0 | ✗ | ✗ |
|
||||
| **RWKV-7** | **NC^1** | **✓ 全部** | **✓ S5** |
|
||||
|
||||
在 TC^0 ≠ NC^1 猜想下,RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。
|
||||
|
||||
## 实验结果
|
||||
|
||||
- **2.9B 多语言 SoTA**:尽管训练 token 少于同类,多语言基准上达到新 3B SoTA
|
||||
- **RWKV World v3**:3.1T token 多语言开放数据集
|
||||
- **模型升级**:从 RWKV-5/6 checkpoint 升级而非从头训练
|
||||
- **长上下文**:O(1) 推理内存,不受序列长度影响
|
||||
- **开源**:Apache 2.0,权重 + 代码 + 数据集组件全部公开
|
||||
|
||||
## 概念网络
|
||||
|
||||
```
|
||||
delta-rule → generalized-delta-rule → dynamic-state-evolution
|
||||
→ vector-valued-gating + in-context-learning-rate
|
||||
→ regular-language-recognition
|
||||
|
||||
rwkv → token-shift → wkv-time-mixing
|
||||
```
|
||||
|
||||
## 相关已有概念
|
||||
|
||||
- [[state-space-models]] — RWKV-7 作为增强 SSM/RNN 的代表
|
||||
- [[enhanced-state-space-models]] — 已有 RWKV-7 小节
|
||||
- [[step-recurrence]] — RWKV-7 属于步级循环
|
||||
- [[state-tracking]] — RWKV-7 理论上完整体支持
|
||||
|
||||
## 代码与模型
|
||||
|
||||
- 代码:https://github.com/RWKV/RWKV-LM
|
||||
- 模型:https://huggingface.co/RWKV
|
||||
- 许可证:Apache 2.0
|
||||
|
||||
## 参考
|
||||
|
||||
- [arXiv:2503.14456](https://arxiv.org/abs/2503.14456)
|
||||
- [原始存档](raw/papers/peng-rwkv7-goose-2025.md)
|
||||
76
papers/personalization-trap-2025.md
Normal file
76
papers/personalization-trap-2025.md
Normal file
@@ -0,0 +1,76 @@
|
||||
---
|
||||
title: "The Personalization Trap (Fang et al., Amazon, 2025)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: paper
|
||||
tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2510.09905"
|
||||
code: "https://github.com/personalization-trap"
|
||||
---
|
||||
|
||||
# The Personalization Trap
|
||||
|
||||
> Fang et al., Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL | Oct 2025 (updated Jun 2026)
|
||||
|
||||
## 问题
|
||||
|
||||
个性化 AI 系统融入长期 [[user-memory-bias|用户记忆]],但记忆如何影响情感推理?相同的场景 + 不同的用户画像 → 系统性地分歧的情感解读。
|
||||
|
||||
理论框架:Bourdieu 的 [[social-capital-framework|社会资本理论]] — 经济/文化/社会维度上的社会位置塑造他人对我们行为和情感的解读方式。AI 引入用户背景信息时,可能复制这些社会偏见。
|
||||
|
||||
## 方法
|
||||
|
||||
### 用户画像
|
||||
- **显式画像**:PersonaHub 30 个基础画像 × 2 版本(advantaged/disadvantaged),基于社会资本四维度(人口统计/家庭背景/社会关系/个人资产)
|
||||
- **[[intersectional-persona-evaluation|交叉性画像]]**:PRISM 数据集 → 81 个画像(性别×年龄×宗教×种族交叉)
|
||||
|
||||
### 评估工具
|
||||
- **[[situational-test-emotional-understanding|STEU]]**:42 个情感理解场景,标准答案
|
||||
- **改良 STEM**:44 个第一人称情绪管理建议场景
|
||||
- 人类标注:93% 画像真实度(vs PersonaHub),经 9 位标注员移除画像敏感题目
|
||||
|
||||
### 混合效应模型
|
||||
固定效应(人口统计变量)+ 随机效应(题目级变异),以白/基督徒/男/34-65 作为基线。
|
||||
|
||||
## 关键结果
|
||||
|
||||
### 发现 1:[[personalization-trap|用户记忆系统性影响情感理解]]
|
||||
|
||||
| 模型 | 无记忆 | 优势画像 | 劣势画像 |
|
||||
|------|--------|---------|---------|
|
||||
| Claude 3.7 Sonnet | 90.91 | 80.10*† | 77.37* |
|
||||
| DeepSeek-R1 | 84.85 | 81.62*† | 76.57* |
|
||||
| Llama 3.2 90B | 84.85 | 64.91*† | 62.24* |
|
||||
|
||||
*†: 优势-劣势差距显著 (p<0.05)
|
||||
|
||||
### 发现 2:[[emotional-reasoning-bias|人口统计学偏见]]
|
||||
|
||||
- **宗教**:穆斯林画像系统性地得分偏低(Mistral: β=-0.061, p<0.001)
|
||||
- **性别**:非二元性别效果因模型而异(Claude 3.7 no-think: β=+0.018; Qwen3-4B think: β=-0.030)
|
||||
- **年龄**:65+ 画像在部分模型中得分显著降低
|
||||
- **种族**:效应较弱但存在
|
||||
|
||||
### 发现 3:偏见在情绪建议中持续
|
||||
|
||||
Claude 3.7 对女性/非二元性别的建议质量显著低于男性(β=-0.102, p<0.001)。
|
||||
|
||||
### [[dpo-bias-mitigation|DPO 偏见缓解]]
|
||||
|
||||
| 模型 | STEU Before | STEU After | Bias ∆ Before | Bias ∆ After |
|
||||
|------|-----------|-----------|-------------|-------------|
|
||||
| Gemma-2-2B | 59.50% | 63.70% | 5.50% | -2.30% |
|
||||
| Qwen-3-1.7B | 60.90% | 60.30% | 1.70% | 0.40% |
|
||||
|
||||
仅 500 训练样本即有效减少偏见。MMLU 同时提升,但指令遵循下降——存在 bias resistance vs instruction adherence 的 trade-off。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **个性化陷阱** — 为增强共情而引入的个性化,可能放大社会不平等。优劣势画像在相同场景下得到系统性不同的情感解读
|
||||
2. **[[persona-invariant-reasoning|画像无关推理]]的理想** — 在用户无关的任务上,模型应保持推理一致,但用户记忆不恰当地渗入了通用推理
|
||||
3. **Thinking 模型的保护效应** — 推理能力似乎提供了部分偏见抵抗
|
||||
|
||||
## 来源
|
||||
|
||||
[原始存档](raw/papers/personalization-trap-2025.md) | [arXiv](https://arxiv.org/abs/2510.09905) | [GitHub](https://github.com/personalization-trap)
|
||||
101
papers/tang-lukv.md
Normal file
101
papers/tang-lukv.md
Normal file
@@ -0,0 +1,101 @@
|
||||
---
|
||||
title: "LU-KV: Predicting Future Utility for KV Cache Eviction"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: paper
|
||||
tags: ["kv-cache", "llm-inference", "combinatorial-optimization", "attention"]
|
||||
sources: ["https://arxiv.org/abs/2602.08585"]
|
||||
---
|
||||
|
||||
# LU-KV:基于未来效用预测的 KV Cache 驱逐框架
|
||||
|
||||
## 核心问题
|
||||
|
||||
大模型推理中,[[kv-cache]] 随序列长度线性增长,成为吞吐量瓶颈。现有 [[kv-cache-eviction]] 方法依赖瞬时启发式指标判断 token 重要性,忽略了不同注意力头在预测保真度上的**异质性**——某些 head 的瞬时注意力分数与其长期贡献严重失配。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
LU-KV 的核心论点是:最优预算分配不应基于绝对分数,而应由**边际效用**([[marginal-utility]])驱动——即「每增加一单位预算,能保存多少长期语义信息」。这类似于经济学中的投资回报(ROI)思维:如果某个 head 的启发式指标与 [[oracle-importance]] 失配严重,继续向其分配预算的边际回报会急剧递减。
|
||||
|
||||
## 方法框架
|
||||
|
||||
### 两阶段范式
|
||||
|
||||
LU-KV 框架建立在 [[kv-cache-eviction]] 的两阶段分解之上:
|
||||
|
||||
1. **[[intra-head-eviction]]**:在每个 head 内使用任意启发式指标 π(如 SnapKV、KeyDiff)对 token 排序
|
||||
2. **[[cross-head-budget-allocation]]**:在 head 之间分配全局缓存预算 {b_{ℓ,h}}
|
||||
|
||||
### 形式化分析
|
||||
|
||||
核心贡献是严格分解了驱逐损失(eviction loss):
|
||||
|
||||
```
|
||||
Eviction Loss = Oracle Metric Loss(固定,受压缩率约束)
|
||||
+ Optimality Gap Loss(指标 π 与 Oracle 之间的差距)
|
||||
```
|
||||
|
||||
即:`L(M^π) = L(M^*) + Δ(π, π*, b)`,其中 [[optimality-gap]] Δ 随预算和指标变化。
|
||||
|
||||
### Oracle 重要性
|
||||
|
||||
[[oracle-importance]] I_{ℓ,h,j} 定义为 token j 在未来解码窗口中对输出向量的**最大潜在贡献**:涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。
|
||||
|
||||
### 全局组合优化
|
||||
|
||||
将 head 级预算分配形式化为 [[global-combinatorial-optimization]]:
|
||||
|
||||
```
|
||||
min Σ L(M^π(b_{ℓ,h})) subject to Σ b_{ℓ,h} = B_total
|
||||
```
|
||||
|
||||
该问题是**非凸离散组合优化**,通过 [[convex-hull-relaxation]] 求解:
|
||||
|
||||
1. 对每个 head 的离散损失序列用 PAVA(Pool Adjacent Violators Algorithm)做保序回归
|
||||
2. 从凸化后的损失序列计算有效边际增益 g_{ℓ,h}(i)
|
||||
3. 全局贪心:每次从边际增益最大的 head 分配一个 token 位置
|
||||
4. 贪心解与最优 DP 解完全一致(理论保证)
|
||||
|
||||
### 离线 Profiling
|
||||
|
||||
[[offline-profiling]] 三阶段协议桥接理论与部署:
|
||||
|
||||
1. **上下文生成**:构造约 4K tokens 的合成叙述文本(与评测集无重叠)
|
||||
2. **Oracle 计算**:生成 M=30 个多样化查询,通过全注意力解码获取 ground-truth Oracle 重要性
|
||||
3. **Profile 聚合**:在密集的全局压缩率网格上求解每个查询的最优配置,取平均得到静态 profile Φ(π)
|
||||
|
||||
关键经验发现:各 head 的最优压缩率在不同任务间**高度一致**,使离线 profile 可迁移。
|
||||
|
||||
## 核心贡献
|
||||
|
||||
| 贡献 | 说明 |
|
||||
|------|------|
|
||||
| 问题重定义 | 将 KV 驱逐从"被动丢弃"转为"战略性投资分配" |
|
||||
| [[optimality-gap]] 分解 | 严格分离 Oracle 损失和指标差距 |
|
||||
| [[convex-hull-relaxation]] | PAVA 保序回归 + 贪心求解,达到 DP 最优 |
|
||||
| [[offline-profiling]] | 三阶段协议,profile 跨任务可迁移 |
|
||||
| 指标无关 | 适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π |
|
||||
|
||||
## 实验结果
|
||||
|
||||
- **LongBench**:80% 压缩率下,LU-KV 在所有模型(Llama-3.1-8B、Mistral-7B、Qwen2.5-32B)上优于 Uniform、PyramidKV、AdaKV 等基线
|
||||
- **RULER**:4K–128K 扩展上下文窗口下保持鲁棒检索性能
|
||||
- **兼容性**:与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升
|
||||
- **推理开销**:在线仅需查表 → 预算计算 → 驱逐三步,额外开销可忽略
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[long-horizon-utility]] — 长视界效用 vs 瞬时注意力分数
|
||||
- [[heuristic-metric]] — 启发式指标(SnapKV、KeyDiff 等)
|
||||
- [[marginal-utility]] — 边际效用驱动的分配策略
|
||||
- [[snapkv]] — 基于累积注意力的 intra-head 指标
|
||||
- [[pyramidkv]] — 基于信息漏斗假说的静态分配
|
||||
- [[adkv]] — 基于注意熵的动态全局 Top-K 分配
|
||||
- [[keydiff]] — 基于 Key 向量几何特征的指标
|
||||
|
||||
## 参考
|
||||
|
||||
- 原始存档:[原始论文](raw/papers/tang-lukv-2026.md)
|
||||
- arXiv: https://arxiv.org/abs/2602.08585
|
||||
- 发表:ICML 2026, PMLR 306
|
||||
- 机构:复旦大学 + 百度百舸 AI Team
|
||||
66
papers/unlimited-ocr-works-2026.md
Normal file
66
papers/unlimited-ocr-works-2026.md
Normal file
@@ -0,0 +1,66 @@
|
||||
---
|
||||
title: "Unlimited OCR Works (Yin et al., Baidu, 2026)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: paper
|
||||
tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2606.23050"
|
||||
code: "https://github.com/baidu/Unlimited-OCR"
|
||||
---
|
||||
|
||||
# Unlimited OCR Works
|
||||
|
||||
> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026
|
||||
|
||||
## 问题
|
||||
|
||||
端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。
|
||||
|
||||
## 核心创新:[[reference-sliding-window-attention|R-SWA]]
|
||||
|
||||
**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制:
|
||||
|
||||
- 每个 token 关注**全部参考 token**(视觉 token + prompt)+ **前 n 个输出 token**(n=128)
|
||||
- 参考 token **不参与状态转移**(避免视觉特征逐渐模糊)
|
||||
- **[[constant-kv-cache|KV cache 恒定]]**:始终为 Lm + n,O(1) 而非 O(T)
|
||||
|
||||
与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。
|
||||
|
||||
## 模型架构
|
||||
|
||||
以 [[deepseek-ocr|DeepSeek OCR]] 为基线:
|
||||
- 保留 [[deepencoder|DeepEncoder]](16× 压缩率,级联窗口注意 ViT + 全局注意)
|
||||
- 替换 decoder 所有注意力层为 R-SWA
|
||||
- 3B 参数,[[mixture-of-experts|MoE]] 架构,激活仅 500M
|
||||
- 训练:4000 步,8×16 A800,DeepEP EP=4,[[megatron-lm|Megatron-LM]]
|
||||
- 推理:支持 Transformers + [[sglang|SGLang]],恒定 TPS 和 GPU 内存
|
||||
|
||||
## 关键结果
|
||||
|
||||
### 通用 OCR([[omnidocbench|OmniDocBench]])
|
||||
| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
|
||||
|------|--------------|-------------|------|
|
||||
| v1.5 Overall | **93.23** | 87.01 | +6.22 |
|
||||
| v1.6 Overall | 93.54 | — | SOTA 级别 |
|
||||
|
||||
### [[long-horizon-parsing|长程解析]]
|
||||
2-40+ 页书籍,单次前向解析,Distinct-n > 96%,Edit Distance < 0.11。
|
||||
|
||||
### 推理效率
|
||||
6000 token 时 TPS 比 DeepSeek OCR 高 **35%**,且全程保持恒定。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **认知启发** — R-SWA 模仿人类抄写行为:不回溯全部已写内容,仅关注附近上下文维持空间定向
|
||||
2. **架构极简** — 将所有标准 attention 替换为 R-SWA,性能无损("lossless"),证明历史信息通过滑动窗口的 soft forgetting 足够
|
||||
3. **通用性** — R-SWA 是通用解析注意力机制,适用于 ASR、翻译等所有基于参考的长程任务
|
||||
|
||||
## 局限性
|
||||
|
||||
- 受 prefill 长度限制(32K),非真正无限
|
||||
- 未来:训练更长上下文(128K)+ prefill pool 模拟翻页
|
||||
|
||||
## 来源
|
||||
|
||||
[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)
|
||||
81
papers/vla-jepa-2026.md
Normal file
81
papers/vla-jepa-2026.md
Normal file
@@ -0,0 +1,81 @@
|
||||
---
|
||||
title: "VLA-JEPA (Sun et al., 2026)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: paper
|
||||
tags: ["vla", "jepa", "world-model", "robot-learning", "pretraining", "latent-action"]
|
||||
sources:
|
||||
- "https://arxiv.org/abs/2602.10098"
|
||||
code: "https://github.com/ginwind/VLA-JEPA/"
|
||||
---
|
||||
|
||||
# VLA-JEPA
|
||||
|
||||
> Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† | arXiv:2602.10098 | cs.RO / cs.CV | Feb 2026
|
||||
|
||||
## 问题
|
||||
|
||||
[[vla-vision-language-action|VLA]] 的 [[latent-action-pretraining|latent-action 预训练]] 从互联网视频学习机器人策略是一个有吸引力的方向。但当前的 latent-action 目标存在系统性缺陷:锚定在**像素变化**而非**动作相关的状态转移**上。
|
||||
|
||||
四种失败模式:
|
||||
|
||||
| 模式 | 描述 |
|
||||
|------|------|
|
||||
| [[appearance-bias-vla|外观偏见]] | 像素级目标偏向纹理/光照/背景,而非可控自由度 |
|
||||
| 噪声运动放大 | 相机运动和无关背景变化主导信号 |
|
||||
| [[information-leakage-vla|信息泄漏]] | 未来帧作为输入 → latent action 坍缩为编码未来而非转移动态 |
|
||||
| 多阶段复杂性 | 三阶段+流水线的工程脆弱性 |
|
||||
|
||||
## 核心方案:[[leakage-free-state-prediction|Leakage-free State Prediction]]
|
||||
|
||||
VLA-JEPA 将 [[jepa|JEPA]] 范式引入 VLA:**在 latent space 预测而非 pixel space**。
|
||||
|
||||
### 架构
|
||||
|
||||
- **VLM Backbone**:Qwen3-VL-2B,输出 latent action tokens
|
||||
- **[[latent-world-model|Latent World Model]]**:V-JEPA2 encoder(frozen target)+ autoregressive Transformer(predictor)
|
||||
- **Action Head**:[[flow-matching|Conditional Flow-Matching]]
|
||||
|
||||
### 关键设计
|
||||
|
||||
```
|
||||
Target Encoder (frozen, no grad) Student (VLM backbone)
|
||||
↓ ↓
|
||||
Future frames → latent targets Current observation only
|
||||
↓ ↓
|
||||
JEPA alignment loss
|
||||
(predict in latent space)
|
||||
```
|
||||
|
||||
**未来帧仅作监督目标,永不作为输入**——消除信息泄漏捷径。
|
||||
|
||||
### 训练
|
||||
|
||||
- 预训练:Something-Something-v2(220K 人类视频)+ Droid(76K 机器人轨迹)
|
||||
- 微调:LIBERO(~2K 专家演示)/ Fractal + BridgeV2 / 100 真实演示
|
||||
- 8×A100,Qwen3-VL-2B backbone
|
||||
|
||||
## 关键结果
|
||||
|
||||
### LIBERO
|
||||
|
||||
| Method | Spatial | Object | Goal | Long | Avg |
|
||||
|--------|---------|--------|------|------|-----|
|
||||
| VLA-JEPA | 96.2 | 99.6 | 99.6 | 97.2 | **98.2** |
|
||||
| π0.5 | 97.5 | 91.5 | 74.5 | 90.1 | 88.9 |
|
||||
| OpenVLA-OFT | 97.6 | 97.9 | 94.5 | 96.8 | 96.7 |
|
||||
|
||||
### SimplerEnv
|
||||
Google Robot 平均最高;WidowX 平均第二。使用 villa-X 不到 1% 的训练数据。
|
||||
|
||||
### Robustness (LIBERO-Plus)
|
||||
在 7 个扰动维度(光照/纹理/颜色/相机/…)下保持强劲性能。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **JEPA 的 embodied 应用** — 将 JEPA 从视频表示学习扩展到机器人动作策略,证明了 latent-space prediction 对 embodied AI 的通用价值
|
||||
2. **信息泄漏是根本问题** — 当前 latent-action 方法的失败根源不是模型容量不足,而是架构缺陷(未来信息泄漏)。修复架构比堆数据更有效
|
||||
3. **数据效率** — 用更少数据超越用更多数据的对比方法,证明学对目标比学更多数据更重要
|
||||
|
||||
## 来源
|
||||
[原始存档](raw/papers/vla-jepa-2026.md) | [arXiv](https://arxiv.org/abs/2602.10098) | [GitHub](https://github.com/ginwind/VLA-JEPA/)
|
||||
90
papers/vu-fisher-width-2026.md
Normal file
90
papers/vu-fisher-width-2026.md
Normal file
@@ -0,0 +1,90 @@
|
||||
---
|
||||
title: "Fisher Width: 统计流形上的几何复杂度度量"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: paper
|
||||
tags: ["information-geometry", "complexity-measure", "generalization-theory", "riemannian-geometry"]
|
||||
authors: ["Vu Khac Ky"]
|
||||
venue: "arXiv"
|
||||
year: 2026
|
||||
arxiv: "2606.18306"
|
||||
sources: ["https://arxiv.org/abs/2606.18306v1"]
|
||||
---
|
||||
|
||||
# Fisher Width: 统计流形上的几何复杂度度量
|
||||
|
||||
> Vu Khac Ky (FPT University, Vietnam) — arXiv:2606.18306, 2026
|
||||
|
||||
## 核心问题
|
||||
|
||||
[[gaussian-width|Gaussian width]] 是压缩感知、凸优化、学习理论中的核心复杂度度量——它通过随机方向上的平均投影来量化集合的"有效维度"。但 Gaussian width **本质上是欧几里得的**,它假设所有方向等权。然而,统计模型(指数族、神经网络、VAE)天然携带 [[fisher-information-metric|Fisher 信息度量]] 诱导的黎曼几何——不同方向上的参数变化对统计可区分性的影响截然不同。
|
||||
|
||||
**Fisher width** 是 Gaussian width 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### 1. Fisher Width 定义
|
||||
|
||||
在参数点 θ₀ 处,Fisher width 将欧几里得恒等矩阵替换为局部 Fisher 度量张量 G(θ₀)^{1/2}:
|
||||
|
||||
```
|
||||
w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
|
||||
```
|
||||
|
||||
核心的 [[lifting-identity|Lifting Identity]]:
|
||||
|
||||
```
|
||||
w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
|
||||
```
|
||||
|
||||
这意味着:在固定基点,Fisher width **恰好是 Fisher 重标度后集合的 Gaussian width**。Gaussian width 的所有经典性质可通过局部度量变形转移到 Fisher 设定中。
|
||||
|
||||
### 2. 结构理论
|
||||
|
||||
- **浓度不等式**:Fisher width 在随机采样下集中
|
||||
- **度量扰动稳定性**:Fisher width 对局部度量变化具有 Lipschitz 连续性
|
||||
- **谱比较界**:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T)
|
||||
- **经验 Fisher 稳定性**:当经验 Fisher 矩阵在算子范数下集中时,Fisher width 可被一致估计
|
||||
|
||||
### 3. 泛化界
|
||||
|
||||
对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类,一致偏差被以下量控制:
|
||||
|
||||
```
|
||||
w_G(T−T; θ₀) / √n
|
||||
```
|
||||
|
||||
对局部指数族似然模型,该界在常数意义下是**紧的**。Fisher width 在 Fisher-几何学习界中扮演的角色,与 Gaussian width/Rademacher 复杂度在欧几里得设定中的角色完全相同。
|
||||
|
||||
### 4. 计算估计
|
||||
|
||||
- **全经验 Fisher 估计器**:用样本分数构建经验 Fisher 矩阵,计算重标度后集合的宽度
|
||||
- **低秩近似**:利用 Fisher 谱的快速衰减性质做截断 SVD
|
||||
- **分数范数估计器**:针对欧几里得球的特化高效版本
|
||||
- **MNIST 验证**:在逻辑回归、softmax 回归、岭回归上评估精度和稳定性
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. **Fisher 曲率效应**:同一欧几里得集合在不同参数位置的 Fisher width 可显著不同——Fisher width 不仅能测量集合形状,还能测量该形状在 Fisher 几何下"被看到"的方式
|
||||
2. **各向异性检测**:Fisher width 捕获了欧几里得度量不可见的各向异性几何效应
|
||||
3. **与 Gaussian width 的谱关系**:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T),表明 Fisher 度量的条件数决定了 Fisher width 与 Gaussian width 的偏差范围
|
||||
4. **计算可行性**:低秩近似在实践中高度准确,Fisher 谱的快速衰减使估计器高效
|
||||
|
||||
## 与现有工作的关系
|
||||
|
||||
- **Fisher-Rao Norm** (Liang et al., 2019):衡量**单个参数向量**的 Fisher 长度;Fisher width 衡量**整个集合**的 Fisher-几何大小
|
||||
- **自然梯度**:优化算法利用 Fisher 度量改进下降方向;Fisher width 则利用 Fisher 度量定义复杂度泛函
|
||||
- **PAC-Bayes**:以概率距离度量复杂度;Fisher width 以集合的几何大小度量复杂度
|
||||
|
||||
## 参考
|
||||
|
||||
- [原始存档](raw/papers/vu-fisher-width-2026.md)
|
||||
- [[gaussian-width|Gaussian Width]]
|
||||
- [[statistical-manifold|Statistical Manifold]]
|
||||
- [[fisher-information-metric|Fisher Information Metric]]
|
||||
- [[information-geometry|Information Geometry]]
|
||||
- [[fisher-lipschitz|Fisher-Lipschitz]]
|
||||
- [[lifting-identity|Lifting Identity]]
|
||||
- [[empirical-fisher|Empirical Fisher]]
|
||||
- [[generalization-bounds|Generalization Bounds]]
|
||||
- [[natural-gradient-descent|Natural Gradient Descent]]
|
||||
79
papers/wan-streamer.md
Normal file
79
papers/wan-streamer.md
Normal file
@@ -0,0 +1,79 @@
|
||||
---
|
||||
title: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: paper
|
||||
tags: [multimodal, real-time, foundation-model, streaming, full-duplex, audio-visual, transformer]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2606.25041
|
||||
- https://wan-streamer.com
|
||||
---
|
||||
|
||||
# Wan-Streamer v0.1
|
||||
|
||||
**Wan-Streamer** 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型,支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步**全部联合学习在一个 Transformer 中**,摒弃了传统级联系统(VAD → ASR → LLM → TTS → 动画生成)的模块架构。
|
||||
|
||||
## 核心贡献
|
||||
|
||||
### 1. 统一的端到端流式架构
|
||||
|
||||
Wan-Streamer 将用户输入和 Agent 输出视为**一条因果时间线**上的交织序列(interleaved visual, audio, text tokens),使用 [[block-causal-attention|block-causal attention]] 实现增量流式生成。一个 Transformer 承担所有模态的编解码,不依赖外部语言、语音、化身或视频生成模块。
|
||||
|
||||
### 2. 全因果多模态架构
|
||||
|
||||
为支持流式实时交互,整个架构从底层设计为因果的:
|
||||
- **[[causal-multimodal-vae|因果多模态 VAE]]**:严格因果的音频和视频变分自编码器,用于流式潜编码
|
||||
- **因果编码器/解码器**:因果音视频编码器和解码器
|
||||
- **[[block-causal-attention]]**:块因果注意力机制,协调多模态 token 的流式调度
|
||||
- **全历史自回归流式**:每个生成的单元被立即提交回交互历史
|
||||
|
||||
### 3. Thinker-Performer 推理流水线
|
||||
|
||||
推理时,模型拆分为两个协作进程:
|
||||
|
||||
| 角色 | 职责 | 关键操作 |
|
||||
|------|------|----------|
|
||||
| **Thinker** | 感知、状态更新、前帧解码发射 | 因果编码器 → Transformer → KV cache 更新 → 解码发射 |
|
||||
| **Performer** | 潜变量生成(flow-matching) | 接收 KV slice → flow-matching solver → 返回 clean latents |
|
||||
|
||||
通过 **KV-cache 交换** 维持统一因果状态,实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的**流水线重叠**。在 160ms 流式单元内完成一轮完整循环。
|
||||
|
||||
**延迟指标**:
|
||||
- 模型侧响应延迟:~200ms
|
||||
- 端到端交互延迟(含 350ms 双向网络):~550ms
|
||||
- 输出帧率:25 FPS
|
||||
|
||||
### 4. 全双工交互能力
|
||||
|
||||
通过在全双工交互数据上训练,模型学会了:
|
||||
- **连续感知**:即使正在说话,也持续消费用户的音视频观测
|
||||
- **中断处理**:用户自然打断时停止或重新规划响应
|
||||
- **主动说话**:当视觉流中出现显著事件时,主动发起评论或提问
|
||||
- **非语言反馈**:空闲时的身份保持、凝视、姿态;聆听时的点头、微表情
|
||||
|
||||
## 方法论要点
|
||||
|
||||
- **条件流匹配**:音频和视频响应以连续潜变量形式,通过 [[flow-matching|conditional flow matching]] 联合生成
|
||||
- **三阶段训练**:独立任务预训练 → 多模态联合训练 → 端到端双工交互微调
|
||||
- **数据混合**:理解数据(图像/音频/视频理解、ASR、TTS) + 生成数据(图像/音频/视频生成) + 端到端双工交互数据
|
||||
|
||||
## 实验对比
|
||||
|
||||
与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示:Wan-Streamer 是**唯一同时支持文本/音频/视频输入输出的单一端到端模型**,且响应延迟处于领先水平。
|
||||
|
||||
## 局限
|
||||
|
||||
当前 v0.1 版本输出分辨率为 192p,作为概念验证;扩展到更高分辨率留待未来工作。
|
||||
|
||||
## 参考
|
||||
|
||||
- [原始存档](raw/papers/wan-streamer-2026.md)
|
||||
- [[flow-matching]]
|
||||
- [[kv-cache]]
|
||||
- [[diffusion-transformer]]
|
||||
- [[native-streaming-ar-training]]
|
||||
- [[full-duplex-interaction]]
|
||||
- [[block-causal-attention]]
|
||||
- [[thinker-performer-pipeline]]
|
||||
- [[causal-multimodal-vae]]
|
||||
- [[end-to-end-streaming-interaction]]
|
||||
69
papers/yao-ace-router-2026.md
Normal file
69
papers/yao-ace-router-2026.md
Normal file
@@ -0,0 +1,69 @@
|
||||
---
|
||||
title: "ACE-Router:历史感知路由"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: paper
|
||||
tags: [router-training, history-aware, mcp, tool-selection, agent-web, candidate-graph]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2601.08276
|
||||
- https://github.com/euyis1019/ACE-Router
|
||||
---
|
||||
|
||||
# ACE-Router:历史感知路由
|
||||
|
||||
> **Zhiyuan Yao, Zishan Xu, Yifu Guo 等** · 2026 · arXiv:2601.08276
|
||||
|
||||
## 核心问题
|
||||
|
||||
MCP 工具生态爆炸式增长,现有方案各有限制:
|
||||
- **静态注入**:上下文窗口有限,无法规模化
|
||||
- **Embedding 检索**:静态语义匹配,缺乏多轮历史感知
|
||||
- **通用 LLM**:推理强但缺乏精确工具辨识力
|
||||
|
||||
## 核心方案:训练一个 Router
|
||||
|
||||
ACE-Router 不从零推理——直接**训练一个专门的路由器**,将多轮对话历史对齐到正确的路由决策。
|
||||
|
||||
## 三阶段框架
|
||||
|
||||
### 1. [[candidate-graph|Candidate Graph + 自进化变异]]
|
||||
构建语义相似图 → 五种变异算子扩展候选空间 → 627→2005 工具
|
||||
|
||||
### 2. [[trajectory-synthesis|多 Agent 轨迹合成]]
|
||||
候选图采样 → 四角色模拟(Planner/User/Assistant/Tool Agent)→ 15,092 训练样本。环境无关:LLM 模拟执行,无需真实 API。
|
||||
|
||||
### 3. [[light-routing-agent|Light Routing Agent]]
|
||||
仅两个工具:`router_invoke` + `tool_execute`。路由与执行解耦,可插拔适配工具选择和 Agent 选择。
|
||||
|
||||
## 关键数据
|
||||
|
||||
| 指标 | ACE-Router | Best Baseline |
|
||||
|------|:---:|:---:|
|
||||
| MCP-Universe | **53.44%** | 49.79% (Gemini-2.5-Pro) |
|
||||
| MCP-Mark | **60.00%** | ~50% (ReAct) |
|
||||
| 扩展候选池 | **53.02%** (稳定) | 36.47% (ReAct 崩溃) |
|
||||
| 噪声环境 | **56.00%** | 32% (Gemini-2.5-Pro) |
|
||||
| 多 Agent 泛化 | **88-92%** | — (零训练迁移) |
|
||||
|
||||
**8B 专用路由器 > 巨型通用模型**(GPT-4o, Gemini-2.5-Pro)——证明了精确工具辨识不是靠扩大推理能力,而是靠专门训练。
|
||||
|
||||
## MCP 工具选择三篇之比较
|
||||
|
||||
| | [[fei-mcp-zero-2025|MCP-Zero]] | [[gaurav-dynamic-react-2025|Dynamic ReAct]] | ACE-Router |
|
||||
|---|---|---|---|---|
|
||||
| 机制 | 主动请求 + 层次路由 | meta-tools + 语义搜索 | **训练专用路由器** |
|
||||
| 历史感知 | 迭代请求(隐式) | ReAct 框架内 | **显式训练对齐** |
|
||||
| 规模适应 | 理论 O(m+k) | 工程验证 | **训练+噪声双重验证** |
|
||||
| 泛化 | MCP 工具 | MCP 工具 | **工具→Agent 零训练迁移** |
|
||||
|
||||
## 关键概念
|
||||
|
||||
- [[ace-router|ACE-Router 框架]]
|
||||
- [[history-aware-routing|历史感知路由]]
|
||||
- [[candidate-graph|候选图]]
|
||||
- [[self-evolutionary-mutation|自进化变异]]
|
||||
- [[trajectory-synthesis|轨迹合成]]
|
||||
- [[light-routing-agent|轻量路由 Agent]]
|
||||
- [[agent-web|Agent Web]]
|
||||
|
||||
来源:[原始存档](raw/papers/yao-ace-router-2026.md)
|
||||
93
papers/zhou-agent-skills-survey-2026.md
Normal file
93
papers/zhou-agent-skills-survey-2026.md
Normal file
@@ -0,0 +1,93 @@
|
||||
---
|
||||
title: "A Comprehensive Survey on Agent Skills — 综述"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: paper
|
||||
tags: [agent-skills, survey, skill-lifecycle, llm-agents, procedural-knowledge]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2605.07358
|
||||
- https://github.com/JayLZhou/Awesome-Agent-Skills
|
||||
---
|
||||
|
||||
# Agent Skills 综述:分类、技术与应用
|
||||
|
||||
> **Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin** (CUHK-Shenzhen) · 2026 · arXiv:2605.07358
|
||||
|
||||
## 核心问题
|
||||
|
||||
LLM agent 在实际部署中面临一个核心瓶颈:**过程性鸿沟(procedural gap)**——仅靠工具访问(tool access)不等同于知道何时调用、如何编排、怎样验证。这篇综述以 **agent skill** 为中心视角,定义其为"可复用的过程性构件,在任务特定约束下协调工具、内存和运行时上下文"。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
Agent 与 skill 是互补的层级关系:
|
||||
- **Agent** 负责高层推理和规划("做什么")
|
||||
- **Skill** 构成操作层,负责可靠、可复用、可组合的执行("怎么做")
|
||||
|
||||
Skill 可视为 agent 的"肌肉记忆"——将过程性 know-how 外化为可持久化、可检索、可修订的显式构件。
|
||||
|
||||
## 方法论框架
|
||||
|
||||
论文围绕 skill 生命周期的四个阶段组织文献:
|
||||
|
||||
### 1. Skill Representation(表示)
|
||||
基于资源类型分类:
|
||||
- **文本型(Text-Based)**:参考文档、模板、检查清单
|
||||
- **代码型(Code-Backed)**:可执行脚本、包装器、API
|
||||
- **混合型(Hybrid)**:文本 + 代码结合,兼顾可解释性和执行确定性
|
||||
|
||||
形式化定义:**S = (M, R, C)**——指令文档 + 辅助资源 + 适用条件。
|
||||
|
||||
### 2. Skill Acquisition(获取)
|
||||
四种获取路径:
|
||||
- **人工来源(Human-Derived)**:领域专家编写,精度高但扩展性差
|
||||
- **经验来源(Experience-Derived)**:从执行轨迹中抽象(选择→摘要→记忆组织→过程打包),研究最活跃
|
||||
- **任务来源(Task-Derived)**:按需构建,新任务无法等待专家或经验积累时使用
|
||||
- **语料来源(Corpus-Derived)**:从文档、仓库、数据集、接口轨迹中提取
|
||||
|
||||
四种路径互补而非竞争——最强大的 skill 库来自它们的组合。
|
||||
|
||||
### 3. Skill Retrieval & Selection(检索与选择)
|
||||
分为两阶段:
|
||||
- **检索**:稠密嵌入、稀疏关键词、生成式、结构感知(层级 + 依赖图)
|
||||
- **选择**:上下文感知、技能组合、成本/效用感知、反馈驱动重排序
|
||||
|
||||
关键洞察:skill 检索不同于文档检索——skill 是可执行单元,语义相关不等于可执行。必须考虑前置条件、组合兼容性、成本收益。
|
||||
|
||||
### 4. Skill Evolution(演化)
|
||||
五个子阶段:
|
||||
- **Skill Revision**:反馈驱动的技能修订
|
||||
- **Skill Validation**:修订后的生存检查(测试、回滚)
|
||||
- **Policy Coupling**:策略与技能库共同优化(如 SkillRL)
|
||||
- **Repository Evolution**:跨 artifact 的规模化演化
|
||||
- **Runtime Governance**:检索→路由→信任检查→执行→退役的安全闭环
|
||||
|
||||
## 代表性平台
|
||||
|
||||
| 平台 | 规模 |
|
||||
|------|------|
|
||||
| SkillNet | 300k+ |
|
||||
| ClawHub | 40k+ |
|
||||
| SkillHub | 80k+ |
|
||||
| SkillsMP | 700k+ |
|
||||
| Skills.sh | 90k+ |
|
||||
|
||||
## 与 Hermes 的关联
|
||||
|
||||
Hermes 的 skill 体系(SKILL.md + references/templates/scripts)天然覆盖了论文中定义的核心结构 (M, R, C)。论文列出的开放挑战——统一 skill schema、资源感知联合优化、因果诊断、生命周期鲁棒性——也是 Hermes skill 系统可以演进的方向。
|
||||
|
||||
## 关键概念
|
||||
|
||||
- [[agent-skill|Agent Skill]] — 形式化定义与核心属性
|
||||
- [[procedural-gap|过程性鸿沟]] — 工具访问与鲁棒执行之间的桥梁
|
||||
- [[skill-lifecycle|Skill 生命周期]] — 四阶段框架
|
||||
- [[skill-representation|Skill 表示]] — 文本/代码/混合三种形态
|
||||
- [[skill-acquisition|Skill 获取]] — 四种获取路径
|
||||
- [[skill-retrieval|Skill 检索]] — 稠密/稀疏/生成/结构感知
|
||||
- [[skill-selection|Skill 选择]] — 上下文/组合/效用/反馈
|
||||
- [[skill-evolution|Skill 演化]] — 修订→验证→策略耦合→仓库演化→治理
|
||||
- [[skill-composition|Skill 组合]] — 多技能编排与组装
|
||||
- [[agent-skill-ecosystem|Agent Skill 生态]] — 平台与基础设施
|
||||
- [[passive-vs-active-knowledge|被动 vs 主动知识]] — agent 知识二分类
|
||||
- [[runtime-governance|运行时治理]] — 检索-信任-执行-退役闭环
|
||||
|
||||
来源:[原始存档](raw/papers/zhou-agent-skills-survey-2026.md)
|
||||
Reference in New Issue
Block a user