20260625:很多新内容
This commit is contained in:
40
reviews/ace-router-review-20260619.md
Normal file
40
reviews/ace-router-review-20260619.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "ACE-Router Review"
|
||||
created: 2026-06-19
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web
|
||||
- **作者**:Zhiyuan Yao 等 (ZJU/SJTU/SYSU/NTU/HDU/Huawei)
|
||||
- **arXiv**:2601.08276 (v2, 2026-04-19)
|
||||
- **领域**:cs.AI
|
||||
- **添加时间**:2026-06-19
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[ace-router|ACE-Router]]** — 训练专用路由器的三阶段框架
|
||||
2. **[[history-aware-routing|历史感知路由]]** — 显式使用多轮历史而非静态查询匹配
|
||||
3. **[[candidate-graph|候选图]]** — 语义相似图 + 自进化变异扩展候选空间(627→2005)
|
||||
4. **[[self-evolutionary-mutation|自进化变异]]** — 五种变异算子生成功能相似工具
|
||||
5. **[[trajectory-synthesis|轨迹合成]]** — 四角色多 Agent 模拟生成 15K 训练样本
|
||||
6. **[[light-routing-agent|轻量路由 Agent]]** — 两个工具的可插拔路由模块
|
||||
7. **[[agent-web|Agent Web]]** — 开放协作 Agent 网络的未来愿景
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
- **三阶段串联**:候选图→轨迹合成→轻量路由 Agent
|
||||
- **MCP 工具选择三篇的完成**:MCP-Zero(主动请求)→ Dynamic ReAct(meta-tools)→ ACE-Router(训练路由器)
|
||||
- **关键桥接**:Agent Web 概念连接了 MCP 协议、Agent Skills、Agent Harness 的讨论
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:9 个(1 论文 + 1 raw + 7 概念)
|
||||
- **Wiki 总规模**:1049 → 1058 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **8B 专用 > 巨型通用**:ACE-Router (Qwen3-8B, 53.4%) > GPT-4o (47.4%) > Gemini-2.5-Pro (49.8%)。证明了一个重要原则:**工具选择的瓶颈不是推理能力,而是训练数据的覆盖度和结构化**。这对 Agent Harness 设计的启示是——"操作维度"的精确路由应该交给专门的轻量模型,而非依赖通用 LLM。
|
||||
|
||||
2. **三篇 MCP 论文的互补完成**:MCP-Zero(范式)→ Dynamic ReAct(工程)→ ACE-Router(训练)构成了工具选择的完整谱系。三篇共同指向一个方向:**被动工具注入已死,主动/智能/训练的工具选择是 Agent 规模化的必经之路。**
|
||||
48
reviews/agent-skills-survey-review-20260619.md
Normal file
48
reviews/agent-skills-survey-review-20260619.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "Agent Skills Survey Review"
|
||||
created: 2026-06-19
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications
|
||||
- **作者**:Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin (CUHK-Shenzhen)
|
||||
- **arXiv**:2605.07358 (v3, 2026-05-26)
|
||||
- **领域**:cs.IR / Agent Systems
|
||||
- **添加时间**:2026-06-19
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[agent-skill|Agent Skill]]** — 形式化定义 S = (M, R, C):主指令 + 辅助资源 + 适用条件。可复用的过程性构件,编码"怎么做"的显式知识
|
||||
2. **[[procedural-gap|过程性鸿沟]]** — 工具访问能力与鲁棒任务执行之间的核心瓶颈:拥有工具 ≠ 知道何时/如何/怎样编排和验证
|
||||
3. **[[skill-lifecycle|Skill 生命周期]]** — 四阶段框架:Representation → Acquisition → Retrieval → Evolution,各阶段紧密耦合
|
||||
4. **[[skill-representation|Skill 表示]]** — 三种形态:文本型、代码型、混合型,决定检索和选择阶段暴露的信号
|
||||
5. **[[skill-acquisition|Skill 获取]]** — 四种路径:人工、经验(最活跃)、任务、语料,互补而非竞争
|
||||
6. **[[skill-retrieval|Skill 检索]]** — 稠密嵌入/稀疏关键词/生成式/结构感知(层级+依赖图),关键洞察:skill 检索 ≠ 文档检索
|
||||
7. **[[skill-selection|Skill 选择]]** — 上下文感知/组合/成本效用/反馈驱动,本质是策略问题而非排序问题
|
||||
8. **[[skill-evolution|Skill 演化]]** — 五阶段:修订→验证→策略耦合→仓库演化→运行时治理
|
||||
9. **[[skill-composition|Skill 组合]]** — 多 skill 编排为序列/工作流,引入接口兼容性和错误传播等新挑战
|
||||
10. **[[agent-skill-ecosystem|Agent Skill 生态]]** — SkillNet(300k+) / ClawHub(40k+) / SkillHub(80k+) / SkillsMP(700k+) / Skills.sh(90k+)
|
||||
11. **[[passive-vs-active-knowledge|被动 vs 主动知识]]** — agent 知识二分法,skill 定位在主动知识的操作层
|
||||
12. **[[runtime-governance|运行时治理]]** — 检索→路由→信任检查→执行→退役的闭环,弥合演化与实际行为之间的最后一段
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
- **核心连接**:Agent Skill ↔ 过程性鸿沟 ↔ Skill 生命周期(所有概念沿生命周期展开)
|
||||
- **层级结构**:生命周期 → 表示/获取/检索/选择/演化 → 各子维度
|
||||
- **跨领域桥接**:与 Hermes skill 体系、MCP、工具学习、agent 架构形成紧密关联
|
||||
- **新增概念**:12 个全新概念——此前 wiki 中无任何 agent skill 领域概念
|
||||
- **网络完整**:所有 wikilink 目标可解析
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:14 个(1 论文 + 1 raw + 12 概念)
|
||||
- **链接密度**:核心概念间双向链接密集,生命周期四阶段形成完整覆盖
|
||||
- **与 Hermes 关联**:论文的 S = (M, R, C) 形式化与 Hermes 的 SKILL.md + references/templates/scripts 结构高度对应
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **Skill 是 Agent 的肌肉记忆**:论文将 skill 定位为 agent 系统的操作层——agent 决定"做什么",skill 执行"怎么做"。这个分层思想与 Hermes 的 skill 机制设计理念完全一致。
|
||||
|
||||
2. **演化 ≠ 积累**:论文最深刻的洞察是区分了 acquisition 和 evolution——acquisition 解释"如何获得新技能",evolution 关注"如何让已有技能持续变好"。当前领域在安全退役和重写方面远弱于添加——这对 Hermes 的 skill 治理方向有直接启示。
|
||||
39
reviews/arbor-htr-20260624.md
Normal file
39
reviews/arbor-htr-20260624.md
Normal file
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: "Review: Arbor — Autonomous Research via Hypothesis-Tree Refinement"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[arbor-htr-2026]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:Toward Generalist Autonomous Research via Hypothesis-Tree Refinement
|
||||
- **作者**:Jin†‡, Hu†, Qiu, Dai, Luo, Dong, Li, Zhao, Ma, Zhang, Wu, Liu, Yang, Li, Wang, Qian, Zhu, Dou*(人大/Microsoft Research)
|
||||
- **领域**:cs.CL / cs.AI(自主科研 Agent、树搜索、知识管理)
|
||||
- **arXiv ID**:2606.11926v1 | 添加时间:2026-06-24
|
||||
- **代码**:https://github.com/RUC-NLPIR/Arbor
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **Hypothesis Tree Refinement (HTR)** — Observe→Ideate→Select→Dispatch→Backpropagate 五步循环,将自主科研从局部尝试序列转化为累积过程
|
||||
2. **Coordinator-Executor Architecture** — 持久 Coordinator 管理全局树、短生命周期 Executor 在隔离 worktree 中测试假设
|
||||
3. **Autonomous Optimization (AO)** — P=(M0, O, Edev, Etest) 形式化,dev 探索、test held-out 准入
|
||||
4. **Insight Backpropagation** — 叶子洞察沿祖先路径向上抽象,从局部实验结果到全局 compact understanding
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- HTR ↔ Coordinator-Executor(方法 ↔ 架构实现)
|
||||
- Research Hypothesis Tree ↔ Insight Backpropagation(数据结构 ↔ 更新机制)
|
||||
- AO ↔ HTR(任务定义 ↔ 解决方案)
|
||||
- Coordinator-Executor 与 Agent Harness 设计哲学共振
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:7 个(1 论文 + 5 概念 + 1 Review)
|
||||
- 总规模:1202 → 1210 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **研究树的三种角色合一** — 搜索前沿 + 长期记忆 + 可审计记录。这解决了自主科研的核心瓶颈:不是模型不够聪明,而是缺少持久化的方向组织和经验传承机制。对 sz 的 Agent Harness 设计而言,这提供了一个具体的参考架构——Coordinator-Executor 分离+假设树作为持久状态。
|
||||
|
||||
2. **洞察 ≠ 执行日志** — Insight 的抽象层次("轴统计量不够"而非"loss=0.043")是树保持紧凑且可复用的关键。这与 Atlas 记忆系统中的 episodic→semantic consolidation 异曲同工——都是在原始事件和可复用知识之间插入抽象层。两者对照:Arbor 用树结构组织 direction-level 洞察,Atlas 用索引分型组织 memory-level 事实。
|
||||
59
reviews/dao-transformers-are-ssms-review-20260618.md
Normal file
59
reviews/dao-transformers-are-ssms-review-20260618.md
Normal file
@@ -0,0 +1,59 @@
|
||||
---
|
||||
title: "Review: Transformers are SSMs (Mamba-2)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: review
|
||||
source: dao-transformers-are-ssms-2024
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文标题**:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
|
||||
- **作者**:Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
|
||||
- **领域**:cs.LG
|
||||
- **会议**:ICML 2024
|
||||
- **arXiv ID**:2405.21060
|
||||
- **添加时间**:2026-06-18
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[structured-state-space-duality|SSD 框架]]** — SSM ↔ Attention 的统一对偶框架,通过半可分矩阵连接
|
||||
2. **[[semiseparable-matrices|半可分矩阵]]** — 子二次参数和乘法的结构化矩阵,SSM 和 Attention 的数学桥梁
|
||||
3. **[[structured-masked-attention|结构化掩码注意力(SMA)]]** — 线性注意力的推广,数据依赖的位置掩码
|
||||
4. **[[mamba-2|Mamba-2]]** — 基于 SSD 的新架构,2-8x 快于 Mamba
|
||||
5. **[[ssd-algorithm|SSD 算法]]** — 块分解混合算法,利用 GPU Tensor Core 的同时保持线性复杂度
|
||||
6. **[[linear-attention|线性注意力]]** — "Transformers are RNNs" 的对偶起源
|
||||
7. **[[selective-state-space-models|选择性 SSM]]** — 输入依赖的时变参数,Mamba 的核心创新
|
||||
8. **[[head-structure-ssm|SSM 多头结构]]** — MIS/MVA/GVA,将 Transformer head 概念引入 SSM
|
||||
9. **[[tensor-contraction-duality|张量收缩对偶]]** — SSD 的数学基础视角之一
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
这篇论文建立了 **SSM 和 Attention 之间的桥梁**,概念网络体现了三大支柱:
|
||||
|
||||
```
|
||||
数学桥梁: semiseparable-matrices
|
||||
↓
|
||||
框架统一: structured-state-space-duality
|
||||
↙ ↓ ↘
|
||||
SSM 侧 算法侧 Attention 侧
|
||||
selective-SSM ssd-algorithm structured-masked-attention
|
||||
mamba-ssm tensor-contraction-duality linear-attention
|
||||
mamba-2 head-structure-ssm
|
||||
```
|
||||
|
||||
论文与此前集成的 **Mozer et al. (2026)** 形成深层互补:
|
||||
- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
|
||||
- Dao & Gu: 展示了 SSM(循环架构)与 Transformer(注意力架构)的数学统一 → 循环可以做得和注意力一样好且更快
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:10 个(1 论文 + 9 概念)
|
||||
- **更新已有**:2 个(`mamba-ssm`, `state-space-models` — 添加 Mamba-2 反向链接)
|
||||
- **复用页面**:5 个(`state-space-models`, `mamba-ssm`, `step-recurrence`, `flash-attention`, `enhanced-state-space-models`)
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **理论优雅 → 工程实干**:SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core,这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
|
||||
|
||||
2. **"XXX are YYY" 的递进**:Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"(线性注意力),RetNet/GateLoop 推广到更一般的 L 结构,而 Dao & Gu 证明 **Transformers are SSMs** 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。
|
||||
76
reviews/dcgwm-2026-06-23.md
Normal file
76
reviews/dcgwm-2026-06-23.md
Normal file
@@ -0,0 +1,76 @@
|
||||
---
|
||||
title: "Review: DCGWM — 结构防止目标干扰坍缩的双通道接地世界建模"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: review
|
||||
tags: ["review", "world-modeling", "representation-learning", "jepa", "collapse-prevention"]
|
||||
paper: "hazare-dcgwm-2026"
|
||||
---
|
||||
|
||||
# Review: DCGWM
|
||||
|
||||
> Akshay Hazare, "Dual-Channel Grounded World Modeling (DCGWM): Structural Prevention of Objective Interference Collapse", arXiv:2606.18688, 2026
|
||||
|
||||
---
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
- **论文**: DCGWM — Structural Prevention of Objective Interference Collapse
|
||||
- **作者**: Akshay Hazare (Independent Researcher)
|
||||
- **领域**: cs.LG / cs.AI — 世界建模 × 表示学习 × 梯度干涉
|
||||
- **arXiv**: 2606.18688v1
|
||||
- **类型**: Position paper (实验验证进行中)
|
||||
- **添加时间**: 2026-06-23
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **Objective Interference Collapse (OIC)** — 新识别的第五种表示坍缩模态:当物理接地(稀疏高幅值梯度)和行为接地(弥散低幅值梯度)在共享潜在空间中联合学习时,主导通道坍缩从属通道的表示子空间。损失权重无法修复——冲突是几何的。
|
||||
|
||||
2. **DCGWM 架构** — 分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流:物理通道仅更新 Z_p,行为通道仅更新 Z_b。四个架构不变量保证梯度隔离。
|
||||
|
||||
3. **Inward-Only Gradient Flow** — 与梯度投影(混在一起再过滤)不同,内向流在梯度流拓扑层面定义允许路径——**根本不混**。
|
||||
|
||||
4. **Asymmetric Grounding Adherence Loss (L_AGA)** — 首个针对异质接地源的 rollout drift 损失:物理用硬铰链(范畴错误),行为用软 KL(分布距离)。不对称性反映接地统计的结构性不兼容。
|
||||
|
||||
5. **Isolation Necessity Theorem** — 在假设 A1-A2 下,任何 α > 0 生成梯度导致世界模型漂移 → 唯一解是架构隔离(α = 0)。
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
```
|
||||
objective-interference-collapse ←→ dcgwm (问题→解决方案)
|
||||
dcgwm ←→ inward-only-gradient-flow (核心机制)
|
||||
dcgwm ←→ asymmetric-grounding-adherence-loss (漂移防止)
|
||||
dcgwm ←→ isolation-necessity-theorem (形式保证)
|
||||
dcgwm ←→ jepa (基础架构)
|
||||
rollout-drift ←→ L_AGA (问题→解决方案)
|
||||
```
|
||||
|
||||
**扩展网络**:
|
||||
- 连接已有概念: `jepa`, `vicreg`, `world-models-rl`, `representation-collapse`, `rlhf-alignment-amplification`, `leworldmodel`, `sigreg`
|
||||
- 新建 8 个概念页: `objective-interference-collapse`, `dcgwm`, `inward-only-gradient-flow`, `asymmetric-grounding-adherence-loss`, `rollout-drift`, `isolation-necessity-theorem`
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 8 个(1 论文 + 6 概念 + 1 Review)
|
||||
- **论文页**: `papers/hazare-dcgwm-2026.md`
|
||||
- **概念页**: `objective-interference-collapse`, `dcgwm`, `inward-only-gradient-flow`, `asymmetric-grounding-adherence-loss`, `rollout-drift`, `isolation-necessity-theorem`
|
||||
- **复用已有概念**: `jepa`, `vicreg`, `world-models-rl`, `representation-collapse`
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "Structural over Scalar" — 架构级解决方案超越损失调权**
|
||||
|
||||
这是 DCGWM 最深刻的哲学立场。当两个接地信号的梯度几何结构不兼容时,标量重加权(α·g_p + β·g_b)仅改变幅度比例,不改变冲突的几何结构。在任何固定 (α, β) 下,一个通道在其梯度集中的维度上仍占主导。正确解决方式是**结构性**的——通过分区参数空间使梯度不可交互。这呼应了 Domain Expansion 和 GradOPS 的发现(结构分区 > 损失加权),但将其从内部任务冲突推广到外部信号统计不兼容这一新问题。
|
||||
|
||||
**2. 精确的局限陈述作为方法论美德**
|
||||
|
||||
论文的局限部分是一种罕见的诚实:零实验验证、OIC 是猜想(非形式证明)、Isolation Necessity 依赖未证明假设 A2、接口收敛未证明、行为编码器保真度未验证——全部精确列出,不做最小化。这使论文成为诚实的"位置+架构"贡献,而非过度宣称的理论突破。但其核心结构洞察——分区 + 内向梯度流防止 OIC——即使猜想未经证明,架构设计本身是可实现和可验证的。
|
||||
39
reviews/dynamic-react-review-20260619.md
Normal file
39
reviews/dynamic-react-review-20260619.md
Normal file
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: "Dynamic ReAct Review"
|
||||
created: 2026-06-19
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments
|
||||
- **作者**:Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj (agentr.dev)
|
||||
- **arXiv**:2509.20386 (v1, 2025-09-22)
|
||||
- **领域**:cs.SE, cs.AI, cs.IR
|
||||
- **添加时间**:2026-06-19
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[dynamic-react|Dynamic ReAct]]** — meta-tools + 语义搜索,让 ReAct Agent 在数千工具的 MCP 环境中按需加载
|
||||
2. **[[meta-tools|Meta Tools]]** — 管理工具的工具(search_tools, load_tools),将被动选择转化为主动管理
|
||||
3. **[[search-and-load|Search and Load]]** ★ — 五架构中的最优方案:两次额外调用,LLM 精选 < 5 个工具,加载量 -50%
|
||||
4. **[[context-enriched-embeddings|上下文增强嵌入]]** — Sonnet 4 生成增强描述,Top-5 40%→60%(+50% 相对提升)
|
||||
5. **[[default-tools|Default Tools]]** — create_table + web_search 始终可用,避免通用任务浪费搜索
|
||||
6. **[[tool-registry|工具注册表]]** — 全量工具仓库 + 向量索引,描述质量是检索精度的关键杠杆
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
- **核心连接**:Dynamic ReAct ↔ Meta Tools ↔ Search and Load ↔ 向量检索优化
|
||||
- **跨论文桥接**:与 [[fei-mcp-zero-2025|MCP-Zero]] 直接互引——共同反对被动工具注入,路线互补
|
||||
- **操作维度贡献**:在 Agent Harness 的"操作维度"中,提供了 MCP 工具选择的基础设施方案
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:8 个(1 论文 + 1 raw + 6 概念)
|
||||
- **Wiki 总规模**:1042 → 1050 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **工程务实性**:Dynamic ReAct 不追求理论优雅,而是通过五架构实验(每个都有真实查询案例和失败模式)找到工程最优。Search and Load 的设计决策——多查询合并、k1/k2 分层、LLM 精选——都来自实操教训而非理论推导。
|
||||
|
||||
2. **描述 > 模型**:最有价值的发现是"换描述比换 embedding 模型更有效"——context enrichment 贡献 12pp,模型切换贡献 8pp。这对所有依赖语义检索的系统(包括 Skill 检索)都有推广价值。
|
||||
42
reviews/engram-conditional-memory-20260625.md
Normal file
42
reviews/engram-conditional-memory-20260625.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "Engram Review — 条件记忆作为 Transformer 的新稀疏轴"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: review
|
||||
tags: ["review", "conditional-memory", "sparsity", "scaling-law"]
|
||||
sources:
|
||||
- "[[engram-conditional-memory-2026]]"
|
||||
---
|
||||
|
||||
📌 基本信息
|
||||
- 论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LLMs
|
||||
- 作者:Cheng et al. (PKU / DeepSeek-AI)
|
||||
- arXiv:2601.07372 | 2026-01-12
|
||||
- 领域:cs.CL, cs.AI (模型架构 / 稀疏性)
|
||||
- 代码:github.com/deepseek-ai/Engram
|
||||
|
||||
🎯 核心概念
|
||||
|
||||
1. [[conditional-memory|Conditional Memory]] — 与 MoE 的条件计算互补的新稀疏轴:通过稀疏查找而非稀疏激活来扩展模型容量
|
||||
2. [[engram|Engram 模块]] — 现代化 N-gram 嵌入:词表压缩 → 多头哈希 → 上下文感知门控 → 深度可分离卷积
|
||||
3. [[sparsity-allocation|Sparsity Allocation]] — U 形缩放律:纯 MoE 和纯 Engram 都不如混合,最优 ρ≈75-80%
|
||||
4. [[ngram-embedding|N-gram Embedding]] — 经典技术的现代化复兴:局部静态模式天然适合 O(1) 查找
|
||||
5. [[memory-compute-decoupling|Memory-Compute Decoupling]] — 确定性寻址使嵌入表可卸载到主机内存,开销 <3%
|
||||
|
||||
🔗 概念网络
|
||||
|
||||
- 核心连接:conditional-memory ↔ engram ↔ sparsity-allocation ↔ ngram-embedding ↔ memory-compute-decoupling
|
||||
- 桥接已有概念:[[mixture-of-experts]](MoE 的条件计算轴)、[[long-context-understanding]](注意力容量释放效果)
|
||||
- 扩展方向:与 [[lu-kv]](KV Cache 淘汰)的潜在交叉——如果 N-gram 嵌入接管局部依赖,KV Cache 是否可以缩小?
|
||||
|
||||
📚 Wiki 集成
|
||||
|
||||
- 新增页面:6 个(1 论文 + 5 概念)
|
||||
- 链接密度:核心概念平均 4 个链接
|
||||
- 总规模:从 ~1145 页 + 6 = ~1151 页
|
||||
|
||||
💡 关键洞察
|
||||
|
||||
1. **最大的收益不在知识,在推理** — Engram 的 MMLU +3.4 符合直觉,但 BBH +5.0 和 HumanEval +3.0 揭示了一个更深刻的事实:记忆模块的真正价值不是"存更多事实",而是释放计算深度。早期层不再被迫重建静态查找表,剩余层有效加深。
|
||||
|
||||
2. **U 形律说明单一稀疏轴不够** — MoE 是当前主流,但 ρ=1(纯 MoE)被实验证明是次优的。条件记忆不是 MoE 的替代,是其结构必要性补全。这为下一代稀疏模型架构指明方向:两个稀疏轴都需要一等原语地位。
|
||||
76
reviews/fisher-width-2026-06-23.md
Normal file
76
reviews/fisher-width-2026-06-23.md
Normal file
@@ -0,0 +1,76 @@
|
||||
---
|
||||
title: "Review: Fisher Width — 统计流形上的几何复杂度"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: review
|
||||
tags: ["review", "information-geometry", "complexity-measure", "generalization-theory"]
|
||||
paper: "vu-fisher-width-2026"
|
||||
---
|
||||
|
||||
# Review: Fisher Width
|
||||
|
||||
> Vu Khac Ky, "Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds", arXiv:2606.18306, 2026
|
||||
|
||||
---
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
- **论文**: Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds
|
||||
- **作者**: Vu Khac Ky (FPT University, Vietnam)
|
||||
- **领域**: cs.LG / stat.ML — 信息几何 × 学习理论 × 高维概率
|
||||
- **arXiv**: 2606.18306v1
|
||||
- **添加时间**: 2026-06-23
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **Fisher Width** — Gaussian width 在统计流形上的 Fisher-几何对应物,通过局部 Fisher 度量 G(θ)^{1/2} 重标度方向,使宽度对统计曲率敏感
|
||||
|
||||
2. **Lifting Identity** — 中心结构定理:w_G(T;θ) = w(G(θ)^{1/2} T),将 Fisher width 转化为 Fisher 重标度后集合的 Gaussian width
|
||||
|
||||
3. **Fisher-Lipschitz** — 假设类的 Fisher-几何光滑性条件,用 Fisher 度量替代欧几里得距离定义 Lipschitz 连续性
|
||||
|
||||
4. **Empirical Fisher** — 用样本分数构建经验 Fisher 矩阵,配合低秩近似使 Fisher width 在实践中可计算
|
||||
|
||||
5. **Gaussian Width** — 欧几里得复杂度度量的经典基础,Fisher width 的参照对象和性质来源
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
```
|
||||
fisher-width ←→ gaussian-width (通过 lifting-identity)
|
||||
fisher-width ←→ statistical-manifold (几何载体)
|
||||
fisher-width ←→ fisher-lipschitz (泛化界条件)
|
||||
fisher-width ←→ empirical-fisher (计算实现)
|
||||
fisher-width ←→ fisher-information-metric (度量来源)
|
||||
```
|
||||
|
||||
**扩展网络**:
|
||||
- 连接了 4 个已有概念: `fisher-information-metric`, `information-geometry`, `generalization-bounds`, `natural-gradient-descent`
|
||||
- 连接了 `pac-bayesian-bounds` (间接)
|
||||
- 新建 6 个概念页: `fisher-width`, `gaussian-width`, `statistical-manifold`, `fisher-lipschitz`, `lifting-identity`, `empirical-fisher`
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 7 个(1 论文 + 6 概念 + 1 Review)
|
||||
- **论文页**: `papers/vu-fisher-width-2026.md`
|
||||
- **概念页**: `fisher-width`, `gaussian-width`, `statistical-manifold`, `fisher-lipschitz`, `lifting-identity`, `empirical-fisher`
|
||||
- **复用已有概念**: `fisher-information-metric`, `information-geometry`, `generalization-bounds`, `natural-gradient-descent`
|
||||
- **网络完整**: 建立双向交叉引用,覆盖信息几何→复杂度度量→泛化理论的完整链路
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "Fisher width 之于统计流形,正如 Gaussian width 之于欧几里得凸体"**
|
||||
|
||||
这是论文最简洁的自我定位,也是对信息几何和高维概率两个领域的**精确桥接**。此前这两个领域各自发展——Amari 的信息几何研究散度、投影、曲率;Vershynin 的高维概率研究 Gaussian width、浓度、chaining。Fisher width 通过 Lifting Identity 这一精巧结构,让 Gaussian width 的全部理论武器可被"搬运"到统计流形上。
|
||||
|
||||
**2. 从"平坦"到"弯曲"的复杂度度量范式转换**
|
||||
|
||||
传统学习理论(Rademacher 复杂度、Gaussian width、VC 维)默认参数空间是欧几里得的。但现代模型——从指数族到神经网络——天然携带 Fisher 度量。Fisher width 让复杂度度量**从模型几何中获得信息**:同一假设类在不同参数位置有不同的有效宽度,统计上敏感的方向贡献更多。这打开了"几何感知的泛化理论"方向。
|
||||
50
reviews/gan-bifurcation-eos-20260623.md
Normal file
50
reviews/gan-bifurcation-eos-20260623.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Review: Gan Bifurcation EoS"
|
||||
created: 2026-06-23
|
||||
type: review
|
||||
paper: gan-bifurcation-eos
|
||||
---
|
||||
|
||||
# Review: A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability
|
||||
- 作者:Eric Gan (Independent Researcher)
|
||||
- 领域:cs.LG
|
||||
- arXiv:2606.15551v1
|
||||
- 添加时间:2026-06-23
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[edge-of-stability|Edge of Stability]]** — 梯度下降在 sharpness 超过 2/η 时仍稳定训练的深度学习中反直觉现象
|
||||
2. **[[flip-bifurcation|Flip 分岔]]** — Jacobian 临界特征值 λ = -1 时触发的倍周期分岔,EoS 振荡的数学根源
|
||||
3. **[[first-lyapunov-coefficient|第一 Lyapunov 系数]]** — 决定 flip 分岔超临界/亚临界性质的标量判据,c₁ > 0 保证稳定
|
||||
4. **[[manifold-of-minimizers|极小值流形]]** — 过参数化网络损失景观中连续全局极小集的几何结构
|
||||
5. **[[normal-tangent-decomposition|法向-切向分解]]** — 将 GD 动力学沿 M 分解为法向振荡 + 切向漂移
|
||||
6. **[[sharpness|Sharpness]]** — Hessian 最大特征值,EoS 训练中在 2/η 阈值附近振荡
|
||||
7. **[[product-stability|乘积稳定性]]** — Gan (2026) 的标量条件,被证明是 flip 分岔 c₁ > 0 的特例
|
||||
8. **[[center-manifold-theorem|中心流形定理]]** — 将高维动力学约化到临界子空间的分岔理论工具
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- **核心连接**:edge-of-stability ↔ flip-bifurcation ↔ first-lyapunov-coefficient → 稳定性判据链
|
||||
- **几何维度**:manifold-of-minimizers ↔ normal-tangent-decomposition → 分解框架
|
||||
- **历史统一**:product-stability → first-lyapunov-coefficient → gan-bifurcation-eos → 极简分析归入一般框架
|
||||
- **工具链**:center-manifold-theorem → flip-bifurcation → first-lyapunov-coefficient → sharpness
|
||||
|
||||
**新增概念**:8 个(全部新建,为 wiki 的全新子领域)
|
||||
**复用已有概念**:0(该领域在 wiki 中此前完全空白)
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面:10 个(1 论文 + 8 概念 + 1 Review)
|
||||
- 链接密度:核心概念平均 5+ 个交叉引用
|
||||
- 总规模:前 → 后(待 index 更新后确认)
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **从"稳定性条件"到"稳定性机制"的范式升级**:以往 EoS 分析关注 *是否* 收敛,本文揭示了 *为何* 收敛——flip 分岔提供法向稳定,sharpness 梯度驱动力提供切向收敛
|
||||
|
||||
2. **过参数化的几何特征被首次系统融入 EoS 理论**:极小值流形不是 EoS 分析的障碍,而是产生切向漂移的根源——这一视角解释了为什么过参数化网络天然适合 EoS 训练
|
||||
|
||||
3. **统一性贡献**:乘积稳定性 (Gan 2026) 作为本框架特例被证明,意味着极简分析和一般框架走到了同一条路上
|
||||
60
reviews/gan-tnt-review-20260618.md
Normal file
60
reviews/gan-tnt-review-20260618.md
Normal file
@@ -0,0 +1,60 @@
|
||||
---
|
||||
title: "Review: Thinking-Based Non-Thinking (TNT)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: review
|
||||
source: gan-thinking-based-non-thinking-2026
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文标题**:Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
|
||||
- **作者**:Siyuan Gan, Jiaheng Liu, Boyan Wang 等(南京大学 + 九天研究院 + 上海 AI Lab)
|
||||
- **领域**:cs.AI
|
||||
- **arXiv ID**:2601.04805
|
||||
- **类型**:方法论文(RL + 混合推理训练优化)
|
||||
- **添加时间**:2026-06-18
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[hybrid-reasoning-models|混合推理模型]]** — 能根据查询复杂度自动选择思考/非思考模式的模型
|
||||
2. **[[reward-hacking|Reward Hacking]]** — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励
|
||||
3. **[[overthinking|过度思考]]** — LRM 对简单查询也产生冗长 CoT,浪费计算资源
|
||||
4. **[[thinking-based-non-thinking|TNT]]** — "基于思考的非思考":利用思考模式 solution 长度动态设定非思考模式 token 上限
|
||||
5. **[[dynamic-token-limit|动态 Token 限制]]** — 每个查询独立计算非思考模式最大 token,而非统一上限
|
||||
6. **[[ellipsis-prompt|省略号提示]]** — 无需修改 tokenizer 即可实现非思考模式采样的提示技术
|
||||
7. **[[large-reasoning-models|大推理模型]]** — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型
|
||||
8. **[[token-level-policy-gradient|Token 级策略梯度]]** — GRPO 在 token 级的细粒度信用分配
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
```
|
||||
overthinking reward-hacking
|
||||
↓ ↓
|
||||
hybrid-reasoning-models ←────── 混合推理的动机
|
||||
↓ ↓
|
||||
large-reasoning-models ──→ thinking-mode + non-thinking-mode
|
||||
↓
|
||||
ellipsis-prompt (实现)
|
||||
↓
|
||||
dynamic-token-limit ← thinking solution length
|
||||
↓
|
||||
thinking-based-non-thinking (TNT)
|
||||
↓
|
||||
token-level-policy-gradient → GRPO
|
||||
```
|
||||
|
||||
概念特点:围绕一个清晰的**优化链**展开——
|
||||
问题(overthinking)→ 方案方向(hybrid reasoning)→ 训练障碍(reward hacking)→ TNT 解决(dynamic token limit from thinking)→ RL 实现(token-level GRPO)
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:11 个(1 论文 + 10 概念)
|
||||
- **复用页面**:4 个(token-efficiency, grpo, reinforcement-learning, chain-of-thought)
|
||||
- **总增量**:+11 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **优雅的对称性**:TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效,且不引入额外训练阶段。
|
||||
|
||||
2. **奖励函数设计的精妙**:非思考 + hacking → -2(无论对错)的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益(+2),与 token 级策略梯度结合形成细粒度的行为矫正。
|
||||
46
reviews/jordan-collectivist-ai-review-20260621.md
Normal file
46
reviews/jordan-collectivist-ai-review-20260621.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Review: A Collectivist, Economic Perspective on AI"
|
||||
created: 2026-06-21
|
||||
updated: 2026-06-21
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:A Collectivist, Economic Perspective on AI
|
||||
- **作者**:Michael I. Jordan (Inria Paris / UC Berkeley)
|
||||
- **arXiv**:2507.06268v3 | cs.CY / cs.AI / stat.ML
|
||||
- **发表**:2025-07-08 | 更新 2025-12-15
|
||||
- **类型**:立场论文(position paper)
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **三种思维方式的融合** — 计算思维(模块化/抽象)+ 推断思维(不确定性量化)+ 经济思维(激励/博弈均衡)→ 构成集体主义 AI 的方法论基础
|
||||
2. **LLM 作为集体主义制品** — 每次 LLM 交互是与数十亿贡献微数据个体的隐式对话,文化而非个人是更恰当的类比
|
||||
3. **统计合同理论** — Bates et al. (2024) 核心定理:激励相容 ⇔ E-values,将推断概念与经济概念等价关联
|
||||
4. **预测驱动推断 (PPI)** — 混合局部 ground-truth 与全局基础模型预测,纠正知识边界上的系统性偏倚(Angelopoulos et al., Science 2023)
|
||||
5. **概率匹配作为种群均衡** — 小鼠迷宫实验的集体主义重释:个体"非最优"行为是种群 Nash 均衡
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**与已有概念的连接**:
|
||||
- 核心框架继承 [[collectivist-ai]],补充了数学案例支撑
|
||||
- PPI 连接 [[prediction-driven-inference]] + [[foundation-model-frontier-bias]]
|
||||
- 统计合同理论连接 [[e-values]](推断工具与经济激励的等价)
|
||||
- 三层数据市场连接 [[data-markets]](Stackelberg 博弈中的隐私-收入权衡)
|
||||
- 概率匹配连接 [[uncertainty-taxonomy]] 的"种群语境"维度
|
||||
- 跨领域连接 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]](同一思想体系的对话表达)
|
||||
- 与 [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] 共享信息生态批判视角
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增**:1 论文 (papers/) + 4 概念 + 1 Review
|
||||
- **更新已有概念**:[[collectivist-ai]](追加案例)、[[prediction-driven-inference]](追加 PPI 学术溯源)
|
||||
- **面试集成交叉**:与已创建的 MLST 访谈(articles/)形成"论文 → 访谈"双向关联
|
||||
- **新增概念**:[[statistical-contract-theory]]、[[e-values]]、[[data-markets]]、[[probability-matching]]
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
**最重要的观点**:"AI 匹敌的隐喻不是搜索引擎或聊天机器人,而是**市场**。"这不仅是修辞——论文通过统计合同理论、三层数据市场和概率匹配三个案例,从数学层面展示了经济思维如何补全 AI 系统设计的盲区。
|
||||
|
||||
**对领域的意义**:Jordan 这篇论文是对 AI 学科身份的重新定义。他不说"AI 不够好,需要更多数据和算力",而是说"AI 的**概念基础**不完整——我们缺少经济学和推断论的思维维度"。在 AGI 叙事两极化的当下,这是一个罕见的**从学科层面拓展 AI 定义边界**的论证,而非在现有边界内的优化。
|
||||
46
reviews/large-language-gibbs-2026-06-25.md
Normal file
46
reviews/large-language-gibbs-2026-06-25.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Large Language Gibbs Review"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: review
|
||||
tags: [mcmc, llm, gibbs-sampling, probabilistic-inference]
|
||||
sources:
|
||||
- "[[large-language-gibbs]]"
|
||||
---
|
||||
|
||||
# Large Language Gibbs — Review
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:Structured Inference with Large Language Gibbs
|
||||
- 作者:Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer(University of Edinburgh, CIFAR)
|
||||
- 领域:概率推断 / LLM(cs.LG, cs.CL)
|
||||
- arXiv:2606.19264
|
||||
- 添加时间:2026-06-25
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[llm-mcmc]]** — 将 LLM 条件分布用作 MCMC 转移算子的伞形框架
|
||||
2. **[[barker-gibbs]]** — LLM 偏好比较 + Barker 规则的判别式 Gibbs 核
|
||||
3. **[[gambling-gibbs]]** — 将接受/拒绝转化为赌博决策,仅需二值判断
|
||||
4. **[[order-bias-removal]]** — 随机排列消除自回归生成的顺序偏差
|
||||
5. **[[llm-consistent-reasoning]]** — Gibbs 迭代更新确保相关问题答案一致性
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- **新增概念**:5 个
|
||||
- **核心连接**:large-language-gibbs ↔ llm-mcmc ↔ barker-gibbs / gambling-gibbs / order-bias-removal ↔ llm-consistent-reasoning
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面:6 个(1 论文 + 5 概念)
|
||||
- 链接密度:核心概念平均 4+ 交叉引用
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **LLM 不是生成器,是条件分布 oracle**:这篇论文的核心范式转变在于——不把 LLM 当作"一次生成完整答案"的系统,而是当作"给定其他变量,这个变量最可能是什么"的条件查询引擎。Gibbs 迭代将这种查询转化为从隐式联合分布中的采样。
|
||||
|
||||
2. **随机排列是廉价且有效的偏差消除器**:消除自回归 LLM 的顺序偏差不需要训练或微调——只需在每次条件查询前把其他变量随机打乱。这个简单的技巧配合期望聚合,在理论上将任意顺序的条件映射到对称化的联合分布。
|
||||
|
||||
3. **判别 vs 生成的 LLM 能力分离**:Barker Gibbs 和 Gambling Gibbs 都利用 LLM 的判别能力("哪个更合理?")而非生成能力。对于 RLHF 后概率校准不佳的指令模型,这是关键实用贡献——二选一比生成完整样本可靠得多。
|
||||
|
||||
4. **贝叶斯先验引出是 LLM 的结构化知识提取路径**:第 5.2 节的 DAG 结构学习展示了 LLM 如何在不产生最终答案的情况下贡献价值——作为先验信息源,在数据稀缺时为贝叶斯推断提供额外的结构约束。这比"让 LLM 直接回答因果问题"更 principled。
|
||||
50
reviews/latent-cot-supervision-2026-06-25.md
Normal file
50
reviews/latent-cot-supervision-2026-06-25.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Latent CoT Supervision Review"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: review
|
||||
tags: [latent-cot, information-theory, reasoning, supervision]
|
||||
sources:
|
||||
- "[[latent-cot-supervision]]"
|
||||
---
|
||||
|
||||
# Latent CoT Supervision — Review
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
|
||||
- 作者:Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen(EIT / PolyU)
|
||||
- 领域:潜推理 / 信息论(cs.LG, cs.CL)
|
||||
- 会议:ICML 2026
|
||||
- arXiv:2606.20075
|
||||
- 添加时间:2026-06-25
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[dual-collapse]]** — Outcome supervision 的双重崩溃:梯度衰减 + 表征漂移
|
||||
2. **[[trajectory-supervision]]** — 渐进式局部推理信号注入,最大化学步互信息
|
||||
3. **[[space-supervision]]** — 语义空间锚定,分 GC(几何压缩,破坏性)和 GR(生成式重建,保留信息)
|
||||
4. **[[unified-latent-probe]]** — 变分探针量化 I(L_t; S_t),提供跨方法可比信息度量
|
||||
5. **[[information-performance-binding]]** — 推理能力被潜链互信息严格上界约束
|
||||
6. **[[generative-reconstruction-latent]]** — 符号空间重建:flexible semantic tether
|
||||
7. **[[geometric-compression-latent]]** — 潜空间对齐:rigid destructive constraint
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- **核心连接**:latent-cot-supervision ↔ dual-collapse → broken by trajectory-supervision + space-supervision → validated by unified-latent-probe → reveals information-performance-binding
|
||||
- **GR ↔ GC 对比**:generative-reconstruction-latent(superior)vs geometric-compression-latent(destructive)
|
||||
- **新增概念**:7 个
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面:8 个(1 论文 + 7 概念)
|
||||
- 链接密度:核心概念平均 6+ 交叉引用
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **Outcome supervision 在潜推理中本质上有缺陷**:不是因为模型不够强,而是因为梯度衰减和表征漂移是 outcome-only 优化的结构性问题——更深的网络、更多的数据都无法根本解决。
|
||||
|
||||
2. **过程监督 ≠ 更多标签,而是信息注入的结构化策略**:论文将过程监督精确定义为两个独立维度(何时注入信息 vs 信息是否保留),这比通常模糊的"process reward model"概念更有操作性。
|
||||
|
||||
3. **GR > GC 的信息论解释**:几何压缩用 MSE 做潜空间对齐,被论文证明是"破坏性约束"——它会坍缩高维推理流形。生成式重建通过最小化 H(S_t | L_t) 直接最大化互信息,是更 principled 的替代方案。这一结论对表示学习有超出 Latent CoT 的启示。
|
||||
|
||||
4. **信息-性能绑定是推理系统的普适约束**:论文的核心发现——推理能力被保留的互信息严格上界约束——意味着任何不追求可解码内部状态的推理系统,要么在利用 shortcut,要么存在未被利用的推理能力。这对于 Agent 的 RL-based 推理训练有直接警示:仅优化最终 reward 可能导致"表面成功但推理退化"。
|
||||
45
reviews/longmem-eval-20250625.md
Normal file
45
reviews/longmem-eval-20250625.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "LongMemEval Review — 长期交互记忆的系统性评测框架"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: review
|
||||
tags: ["review", "memory-benchmark", "evaluation", "chat-assistant"]
|
||||
sources:
|
||||
- "[[longmem-eval-2025]]"
|
||||
---
|
||||
|
||||
📌 基本信息
|
||||
- 论文:LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
|
||||
- 作者:Wu et al. (UCLA / Tencent AI Lab / UCSD)
|
||||
- 会议:ICLR 2025 | arXiv:2410.10813
|
||||
- 领域:cs.CL (记忆评测 / 聊天助手)
|
||||
- 代码:github.com/xiaowu0162/LongMemEval
|
||||
|
||||
🎯 核心概念
|
||||
|
||||
1. [[long-term-interactive-memory|Long-Term Interactive Memory]] — 聊天助手在持续交互中积累、回忆和推理个人知识的能力
|
||||
2. [[longmem-eval|LongMemEval Benchmark]] — 500 题 × 5 能力(提取/跨会话/时间/更新/遗忘)× 2 规模(S=115k, M=1.5M tokens)
|
||||
3. [[memory-indexing-retrieval-reading|Indexing → Retrieval → Reading]] — 统一记忆框架:三阶段 × 四控制点(Value/Key/Query/Reading)
|
||||
4. [[fact-augmented-key-expansion|Fact-Augmented Key Expansion]] — LLM 提取结构化事实作索引键(+9.4% recall, +5.4% QA)
|
||||
5. [[time-aware-query-expansion|Time-Aware Query Expansion]] — 时间戳 + 搜索范围缩小(时间推理召回 +6.8-11.3%)
|
||||
|
||||
🔗 概念网络
|
||||
|
||||
- 核心连接:long-term-interactive-memory ↔ longmem-eval ↔ memory-indexing-retrieval-reading
|
||||
- 已有概念桥接:[[atlas-memory-system]](三阶段→Atlas write/recall 管线映射),[[agent-memory-taxonomy]](mem type × 评测能力对应),[[memory-consolidation]](≈ fact-augmented key expansion)
|
||||
- 扩展方向:与 [[per-index-time-decay]] 的互补——decay 做背景沉底,time expansion 做精确窗口
|
||||
|
||||
📚 Wiki 集成
|
||||
|
||||
- 新增页面:6 个(1 论文 + 5 概念)
|
||||
- 链接密度:核心概念平均 4 个跨引用链接
|
||||
- 与记忆系统簇的连接:bridge 到 Atlas (5 links), Memory Taxonomy (3 links)
|
||||
- 总规模:1216 → 1222 页
|
||||
|
||||
💡 关键洞察
|
||||
|
||||
1. **Abstention 是评测设计的新维度**——所有已有记忆基准都隐含假设"答案存在",LongMemEval 第一个要求模型说"我不知道"。这对生产系统至关重要:记忆系统不应只追求召回率,还要精确识别信息缺失。
|
||||
|
||||
2. **三阶段框架 + 四控制点提供了一个设计语言**——不再笼统讨论"记忆好不好",而是在具体控制点上做 ablation:Round vs Session 粒度、Fact Key vs Raw Key、Time Query vs Raw Query。这是工程记忆系统可以逐项优化的 checklist。
|
||||
|
||||
3. **LongMemEval 可以直接评测 Atlas**——在论文描述的实验管线中,将 Atlas 的 recall_memory 放在 Retrieval 阶段、consolidation 输出作为 Indexing 阶段的 fact key,然后在 LongMemEval 的 500 题上跑 eval——直接得到 Atlas 在五种记忆能力上的分数。
|
||||
77
reviews/lukv-review-20260618.md
Normal file
77
reviews/lukv-review-20260618.md
Normal file
@@ -0,0 +1,77 @@
|
||||
---
|
||||
title: "Review: LU-KV — Global Combinatorial Optimization for KV Cache Eviction"
|
||||
created: 2026-06-18
|
||||
type: review
|
||||
tags: ["kv-cache", "combinatorial-optimization", "llm-inference"]
|
||||
---
|
||||
|
||||
# LU-KV Review
|
||||
|
||||
📌 基本信息
|
||||
- **论文标题**:Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction
|
||||
- **作者**:Ziyao Tang, Pengkun Jiao, Xinhang Chen, Wei Liu, Shiyong Li, Jingjing Chen
|
||||
- **机构**:复旦大学 + 百度百舸 AI Team
|
||||
- **发表**:ICML 2026, PMLR 306
|
||||
- **arXiv ID**:2602.08585v2
|
||||
- **领域**:cs.LG / cs.AI — 大模型推理优化
|
||||
- **Wiki 添加时间**:2026-06-18
|
||||
|
||||
🎯 核心概念
|
||||
|
||||
1. [[oracle-importance]] — 基于未来解码窗口中 token 对输出向量的最大潜在贡献定义的真实重要性度量,是评估所有启发式指标的金标准
|
||||
2. [[optimality-gap]] — 启发式指标 π 与 Oracle 指标 π* 之间的性能差距,严格分解为 Hits/Misses/False Positives 三类
|
||||
3. [[long-horizon-utility]] — LU-KV 的核心视角:从未来解码步骤评估 token 的真实贡献,而非依赖 prefill 瞬时的注意力分数
|
||||
4. [[global-combinatorial-optimization]] — 将 head 级预算分配形式化为约束全局优化问题,最小化聚合驱逐损失
|
||||
5. [[marginal-utility]] — 每增加一单位预算对长期语义信息保存的边际增益,是驱动贪心分配策略的核心信号
|
||||
6. [[convex-hull-relaxation]] — PAVA 保序回归将非凸离散损失序列凸化,使贪心解达到 DP 最优
|
||||
7. [[offline-profiling]] — 三阶段离线校准协议(合成上下文 → Oracle 计算 → Profile 聚合),桥接理论与部署
|
||||
|
||||
🔗 概念网络
|
||||
|
||||
**核心连接链**:
|
||||
```
|
||||
[[kv-cache]] → [[kv-cache-eviction]]
|
||||
→ [[intra-head-eviction]] + [[cross-head-budget-allocation]]
|
||||
→ [[head-level-budget-allocation]]
|
||||
→ [[global-combinatorial-optimization]]
|
||||
→ [[convex-hull-relaxation]] + [[marginal-utility]]
|
||||
→ [[oracle-importance]] → [[optimality-gap]]
|
||||
→ [[long-horizon-utility]]
|
||||
→ [[offline-profiling]] → [[lukv]]
|
||||
```
|
||||
|
||||
**方法基线链**:
|
||||
```
|
||||
[[heuristic-metric]] ← [[snapkv]], [[keydiff]]
|
||||
[[cross-head-budget-allocation]] ← [[pyramidkv]], [[adkv]], [[lukv]]
|
||||
```
|
||||
|
||||
- **扩展网络**:连接了 18 个新概念 + 论文主页面,新增 19 个页面
|
||||
- **概念密度**:核心概念平均 5-8 个双向链接,形成紧密交叉引用网络
|
||||
- **新增概念**:18 个(全部为此论文首次引入 wiki)
|
||||
|
||||
📚 Wiki 集成
|
||||
|
||||
- **新增页面**:19 个(1 论文页 `tang-lukv` + 18 概念页)
|
||||
- **论文页面**:[[tang-lukv]] — 包含完整方法框架、实验总结和相关概念链接
|
||||
- **raw 存档**:`raw/papers/tang-lukv-2026.md`
|
||||
- **概念分类**:
|
||||
- 基础概念(2):[[kv-cache]], [[kv-cache-eviction]]
|
||||
- 框架核心(6):[[lukv]], [[oracle-importance]], [[optimality-gap]], [[long-horizon-utility]], [[marginal-utility]], [[heuristic-metric]]
|
||||
- 方法论(4):[[global-combinatorial-optimization]], [[convex-hull-relaxation]], [[offline-profiling]], [[head-level-budget-allocation]]
|
||||
- 范式组件(2):[[intra-head-eviction]], [[cross-head-budget-allocation]]
|
||||
- 基线方法(4):[[snapkv]], [[pyramidkv]], [[adkv]], [[keydiff]]
|
||||
|
||||
💡 关键洞察
|
||||
|
||||
1. **范式转换:从"被动丢弃"到"战略性投资"**
|
||||
|
||||
LU-KV 最大的贡献不是某个具体的驱逐算法,而是**重新概念化了 KV Cache 驱逐问题**。传统方法问"哪些 token 可以丢掉?",LU-KV 问"如何在各 head 间最优配预算以实现长期信息保存最大化?"——这是经济学 ROI 思维在系统优化中的精巧应用。
|
||||
|
||||
2. **指标无关设计的工程智慧**
|
||||
|
||||
与其发明第 N+1 个更好的 token 评分指标,LU-KV 选择了一个"元层面"的切入:接受任何指标的不完美,通过显式建模其与 Oracle 的对齐程度来"扬长避短"——将预算集中到指标-现实对齐度高的 head。这种 decoupling 策略在实际部署中极为实用:已有的 SnapKV/KeyDiff 用户可零改动接入 LU-KV 获得性能提升。
|
||||
|
||||
3. **ICML 2026 的实用主义信号**
|
||||
|
||||
本文发表于 ICML 2026,体现了一个趋势:顶级 ML 会议越来越接纳"将经典优化技术(凸松弛、贪心算法)精巧应用于 LLM 系统瓶颈"的工作,而非只追求全新的神经网络架构。这对研究方向有启示意义。
|
||||
51
reviews/mainecoon-review-20260620.md
Normal file
51
reviews/mainecoon-review-20260620.md
Normal file
@@ -0,0 +1,51 @@
|
||||
---
|
||||
title: "MaineCoon Review"
|
||||
created: 2026-06-20
|
||||
updated: 2026-06-20
|
||||
type: review
|
||||
tags: ["review", "audio-visual", "streaming", "world-model", "social"]
|
||||
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||
paper: "mainecoon"
|
||||
---
|
||||
|
||||
# MaineCoon Review — 2026-06-20
|
||||
|
||||
📌 **基本信息**
|
||||
- **论文**:MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model
|
||||
- **作者**:Catnip AI Team (Lichen Bai et al., 17 人)
|
||||
- **领域**:cs.CV / 音视频生成 / 流式推理
|
||||
- **arXiv**:2606.17800 (2026-06-16)
|
||||
- **规模**:22B 参数,32 页,13 图,3 表
|
||||
|
||||
🎯 **核心概念**
|
||||
1. **[[social-world-model|Social World Model]]** — 新生成范式:从物理世界模拟转向人类社交动态的实时音视频参与
|
||||
2. **[[self-resampling|Self-Resampling]]** — 消除自回归 train-test gap,以模型自身退化历史训练
|
||||
3. **[[reinforced-online-policy-distillation|ROPD]]** — 自适应专家合并:verifier 自动调节域专家权重
|
||||
4. **[[agentic-cache-manager|Agentic Cache Manager]]** — 单持久 KV-cache + bounded keep-set + AdaStat drift control
|
||||
5. **[[agentic-streaming-inference|Agentic Streaming Inference]]** — 训练无关三层控制器 (Director / Cache / Buffer) 包裹冻结生成器
|
||||
|
||||
🔗 **概念网络**
|
||||
- **核心连接**:[[social-world-model]] ↔ [[self-resampling]] ↔ [[agentic-streaming-inference]] ↔ [[agentic-cache-manager]] ↔ [[reinforced-online-policy-distillation|ROPD]]
|
||||
- **伞概念锚定**:连接 [[streaming-generation]]、[[autoregressive-video-generation]]、[[audio-visual-generation]]、[[diffusion-transformer]]、[[social-video]]
|
||||
- **跨域链接**:[[jepa|V-JEPA 2]]、[[kv-cache]]、[[flow-matching]]、[[dpo]]、[[world-models-rl]]、[[world-model-lecun]]
|
||||
- **辅助概念**:[[forward-repair-ladder]]、[[look-ahead-buffer-controller]]、[[socialvideo-bench]]、[[drifting|Temporal Drift]]
|
||||
|
||||
📚 **Wiki 集成**
|
||||
- **新增页面**:16 页(1 paper + 15 concepts)
|
||||
- **伞概念**:5 个(audio-visual-generation, autoregressive-video-generation, streaming-generation, diffusion-transformer, social-video)
|
||||
- **论文专属**:10 个(social-world-model, self-resampling, ROPD, agentic-streaming-inference, agentic-cache-manager, look-ahead-buffer-controller, forward-repair-ladder, socialvideo-bench, audio-visual-representation-alignment, domain-aware-preference-optimization)+ drifting
|
||||
- **复用已有**:5 个(world-models-rl, world-model-lecun, jepa, kv-cache, flow-matching, dpo)
|
||||
- **链接密度**:核心概念平均 5-8 个交叉引用
|
||||
- **网络完整**:100% 无断链(待验证)
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **范式转变:从生产工具到社交参与者**
|
||||
MaineCoon 不仅仅是更快/更强的视频生成模型——它重新定义了生成模型在社会中的角色。传统模型是「内容生产工具」,MaineCoon 定义了「社交世界模型」范式,使 AI 成为人类社交的**主动参与者**。这一转变的意义不亚于 GPT 将语言模型从「翻译/摘要工具」变成「对话/推理 agent」。
|
||||
|
||||
2. **架构哲学的「分离-治理」设计**
|
||||
训练阶段 (forcing-free native streaming) 和推理阶段 (agentic controller) 展现了优雅的分离设计:generator 只负责以固定节奏持续生成;认知(规划/观察/修复)、记忆(缓存管理)、时间(节奏控制)由三个 agentic 控制器治理。这种分离使每层独立优化且无循环依赖——类似于操作系统中进程调度、内存管理、I/O 的分离。
|
||||
|
||||
3. **社交视频的特殊性被正视**
|
||||
论文最关键的前提判断是:社交视频 ≠ 电影视频。社交视频的价值在 liveness(临场感)而非视觉奇观。这一洞见驱动了整个技术栈的设计——从数据管线(筛选真人说话片段而非剧情片段)到评估基准(9 项指标含社交和谐度)再到模型架构(音视频联合、实时流式)。
|
||||
|
||||
70
reviews/mamba-review-20260618.md
Normal file
70
reviews/mamba-review-20260618.md
Normal file
@@ -0,0 +1,70 @@
|
||||
---
|
||||
title: "Review: Mamba — Linear-Time Sequence Modeling with Selective State Spaces"
|
||||
created: 2026-06-18
|
||||
type: review
|
||||
tags: ["ssm", "mamba", "linear-complexity", "architecture"]
|
||||
---
|
||||
|
||||
# Mamba Review
|
||||
|
||||
📌 基本信息
|
||||
- **论文标题**:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
|
||||
- **作者**:Albert Gu (CMU), Tri Dao (Princeton)
|
||||
- **发表**:2023-12(preprint)
|
||||
- **arXiv ID**:2312.00752v2
|
||||
- **领域**:cs.LG — 序列建模架构
|
||||
- **代码**:https://github.com/state-spaces/mamba
|
||||
- **Wiki 添加时间**:2026-06-18
|
||||
|
||||
🎯 核心概念
|
||||
|
||||
1. [[selective-state-space]](S6)— 将 SSM 参数 B, C, Δ 变为输入依赖,从 LTI 升级为选择性
|
||||
2. [[hardware-aware-algorithm]] — GPU 内存层次优化的并行关联扫描
|
||||
3. [[content-based-reasoning]] — Mamba 识别并解决的 LTI 模型核心弱点
|
||||
4. [[selective-copy]] + [[induction-heads]] — 两个精确诊断内容感知能力的合成任务
|
||||
|
||||
🔗 概念网络
|
||||
|
||||
**核心连接链**:
|
||||
```
|
||||
[[hippo]] → [[structured-state-space-models]] (S4)
|
||||
→ [[selective-state-space]] (S6)
|
||||
→ [[mamba-ssm]] (Mamba 架构)
|
||||
→ [[gu-mamba]] (论文页)
|
||||
```
|
||||
|
||||
**横向连接**:
|
||||
```
|
||||
[[content-based-reasoning]] ← Mamba 解决的核心问题
|
||||
↓
|
||||
[[selective-state-space]] + [[hardware-aware-algorithm]]
|
||||
↓
|
||||
[[selective-copy]] + [[induction-heads]] ← 诊断基准
|
||||
```
|
||||
|
||||
- **连接已有概念**:[[state-space-models]](已有),[[mamba-ssm]](已有,已更新)
|
||||
- **网络密度**:新概念之间 3-5 个双向链接
|
||||
|
||||
📚 Wiki 集成
|
||||
|
||||
- **新增页面**:9 个(1 论文 `gu-mamba` + 7 新概念 + 1 Review)
|
||||
- **更新页面**:2 个([[mamba-ssm]] 大幅扩充,[[state-space-models]] 追加引用)
|
||||
- **概念分布**:
|
||||
- 核心机制(3):[[selective-state-space]], [[hardware-aware-algorithm]], [[content-based-reasoning]]
|
||||
- 前身与基础(2):[[structured-state-space-models]], [[hippo]]
|
||||
- 诊断任务(2):[[selective-copy]], [[induction-heads]]
|
||||
- 已有复用(2):[[mamba-ssm]](更新),[[state-space-models]](更新)
|
||||
|
||||
💡 关键洞察
|
||||
|
||||
1. **"LTI 是牢笼,选择性是钥匙"**
|
||||
|
||||
Mamba 最深刻的洞察不是技术细节,而是对问题的诊断:**LTI 本身就是 LTI 模型的最大瓶颈**。这个诊断比 S6 本身更有价值——它解释了为什么 S4、H3、Hyena、RWKV-4 等所有基于 LTI 的方法在语言任务上始终无法追上 Transformer。内容感知不是在 SSM 上的"锦上添花",而是**质变的前提**。
|
||||
|
||||
2. **从"不能做 X"到"如何做 X"的范式转变**
|
||||
|
||||
在 Mamba 之前,SSM 文献主要在讨论如何让 SSM 更好地压缩历史、更快地计算。Mamba 转换了问题:不再问"如何更好地记住一切",而是问"如何学会选择性地忘记"。这个 reframing 将 SSM 从信号处理的思路拉回了语言建模的核心需求。
|
||||
|
||||
3. **工程与理论的完美协同**
|
||||
|
||||
选择机制 → 不能卷积 → 需要 scan → IO 感知优化。Mamba 的贡献链展示了理论诊断 → 算法创新 → 系统优化的完整闭环。缺少任何一环都不成立:没有选择性,不需要硬件优化;没有硬件优化,选择性不可训练。
|
||||
40
reviews/mcp-zero-review-20260619.md
Normal file
40
reviews/mcp-zero-review-20260619.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "MCP-Zero Review"
|
||||
created: 2026-06-19
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:MCP-Zero: Active Tool Discovery for Autonomous LLM Agents
|
||||
- **作者**:Xiang Fei, Xiawu Zheng, Hao Feng (厦大/中科大)
|
||||
- **arXiv**:2506.01056 (v4, 2025-06-24)
|
||||
- **领域**:cs.AI, cs.SE
|
||||
- **添加时间**:2026-06-19
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[active-tool-discovery|主动工具发现]]** — 范式转变:从"全量注入让模型选"翻转为"模型自主请求,系统匹配"
|
||||
2. **[[active-tool-request|Active Tool Request]]** — 结构化请求:server + tool 字段,在工具文档语义空间中→对齐度优于用户查询
|
||||
3. **[[hierarchical-semantic-routing|层次语义路由]]** — 两级检索:server 匹配→tool 排序,O(n)→O(m+k)
|
||||
4. **[[iterative-capability-extension|迭代能力扩展]]** — 多轮 toolchain:读文件→编辑→执行,天然容错和自纠正
|
||||
5. **[[mcp-protocol|MCP 协议]]** — 标准化工具接口:JSON-RPC,解决了互操作性但留下了过程性鸿沟
|
||||
6. **[[mcp-tools-dataset|MCP-tools 数据集]]** — 308 servers, 2,797 tools, 248.1K tokens
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
- **核心连接**:主动工具发现 ↔ Active Tool Request ↔ 层次路由 ↔ 迭代扩展
|
||||
- **向外桥接**:MCP 协议 → Agent Skill(过程层);主动发现 ↔ Skill 检索("主动选择而非全加载"的共同理念)
|
||||
- **与 Agent Harness 关联**:解决操作维度中的工具发现问题——不是预加载 300 个 tool schema,而是运行时按需请求
|
||||
- **新增概念**:6 个全新概念,补全了 wiki 在 MCP/工具发现领域的基础
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:8 个(1 论文 + 1 raw + 6 概念)
|
||||
- **Wiki 总规模**:1034 → 1042 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **范式价值 > 工程优化**:MCP-Zero 的真正贡献不是"省了 98% token"(虽然这很重要),而是重新定义了 Agent 与工具的关系——从被动消费者变为自主能力构建者。这与 [[agent-skill|Agent Skills 综述]]中 Agent-Skill 的分层思想高度一致:Agent 负责"知道自己需要什么",系统负责"精确匹配和执行"。
|
||||
|
||||
2. **主动请求的语义优势**:最被低估的发现是 cos(e_request, e_tool) > cos(e_query, e_tool)——Agent 生成的请求天然在工具文档语义空间中。这意味着不仅是减少 token,更是提升了匹配精度。这一洞察可直接推广到 [[skill-retrieval|Skill 检索]]中。
|
||||
41
reviews/me2-trm-reasoning-20260624.md
Normal file
41
reviews/me2-trm-reasoning-20260624.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "Review: ME² + TRM — Complex Reasoning Optimization"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[me2-trm-reasoning-2026]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:Characterizing, Evaluating, and Optimizing Complex Reasoning
|
||||
- **作者**:Zhang, Li, Wang, Wang, Zhang, Qu, Cheng(SJTU/上海AI Lab/CUHK 等)
|
||||
- **领域**:cs.CL(推理评估、奖励模型、RL)
|
||||
- **会议**:ICML 2026 | arXiv:2602.08498v2
|
||||
- **代码**:https://github.com/Simplified-Reasoning/TRM
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **ME² Principle** — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征
|
||||
2. **DAG-based Reasoning Evaluation** — 将推理轨迹抽象为 DAG,捕获分支/合并结构,消除直接评估的大量 ties
|
||||
3. **Thinking Reward Model (TRM)** — 仅训练于 verified-correct 推理对,与答案正确性解耦的推理质量评估模型
|
||||
4. **Reasoning Quality Optimization** — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- ME² Principle → DAG Evaluation → TRM(原则 → 建模 → 模型)
|
||||
- TRM → Reasoning Quality Optimization(模型 → 应用)
|
||||
- TRM ↔ reward-model, GRPO(已有概念衔接)
|
||||
|
||||
**复用已有概念**:[[large-reasoning-models]]、[[reward-model]]、[[grpo]]
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:7 个(1 论文 + 5 概念 + 1 Review)
|
||||
- 复用已有概念:3 个
|
||||
- 总规模:1195 → 1203 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **推理质量的独立可评估性** — TRM 仅在正确推理对上训练偏好,证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下,判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充:thinking reward 在答案正确的多条路径中选择更好的那一条,而不是简单地 reward 对错。
|
||||
|
||||
2. **结构信号的意义** — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零,说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构:结构(DAG 拓扑)比内容(步骤文本)承载更多区分信息。
|
||||
62
reviews/mozer-topological-trouble-review-20260618.md
Normal file
62
reviews/mozer-topological-trouble-review-20260618.md
Normal file
@@ -0,0 +1,62 @@
|
||||
---
|
||||
title: "Review: The Topological Trouble With Transformers"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: review
|
||||
source: mozer-topological-trouble-transformers-2026
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文标题**:The Topological Trouble With Transformers
|
||||
- **作者**:Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu (Google DeepMind)
|
||||
- **领域**:cs.LG, cs.AI
|
||||
- **arXiv ID**:2604.17121
|
||||
- **类型**:立场性综述 (Position Paper)
|
||||
- **添加时间**:2026-06-18
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[state-tracking|状态追踪]]** — 迭代更新反映变化环境的潜变量,是语言理解和推理的核心能力
|
||||
2. **[[feedforward-depth-limitation|前馈深度局限]]** — 前馈架构迫使状态表示逐层上移,最终耗尽模型深度
|
||||
3. **[[recurrence-taxonomy|循环分类法]]** — 两维度(循环轴 × 输入/循环步比例)系统化分类所有循环 Transformer 架构
|
||||
4. **[[depth-recurrence|深度循环]]** — 沿层深度轴的循环(Looped Transformer),增强表达力但状态仍上移
|
||||
5. **[[step-recurrence|步级循环]]** — 层内跨输入步的状态传播(Mamba, DeltaNet, RWKV-7)
|
||||
6. **[[enhanced-state-space-models|增强状态空间模型]]** — 超越标准 Transformer 表达力的 SSM(DeltaNet 负特征值扩展等)
|
||||
7. **[[latent-thought-models|隐式思考模型]]** — 多步自回归处理单个 token,不消耗上下文窗口
|
||||
8. **[[coarse-grained-recurrence|粗粒度循环]]** — 句子/块级别的循环,降低 token 级循环的计算负担
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
## 核心连接
|
||||
```
|
||||
state-tracking ← feedforward-depth-limitation ← depth-dilemma
|
||||
↓
|
||||
recurrent-transformer-architectures ← recurrence-taxonomy
|
||||
↓ ↓
|
||||
depth-recurrence step-recurrence ← state-space-models
|
||||
↓ ↓
|
||||
representational-alignment enhanced-state-space-models
|
||||
↓
|
||||
attractor-dynamics ← latent-thought-models
|
||||
↓
|
||||
coarse-grained-recurrence → sequential-dependency → autoregressive-unrolling
|
||||
```
|
||||
|
||||
## 扩展网络
|
||||
- 连接了 16 个新增概念 + 复用 1 个已有概念(chain-of-thought)
|
||||
- 核心链接密度:平均每概念 4-6 个双向链接
|
||||
- 建立跨概念连接:深度↔步级、状态追踪↔信念状态、分类法↔架构成分
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:17 个(1 论文 + 16 概念)
|
||||
- **复用页面**:1 个([[chain-of-thought|思维链]])
|
||||
- **链接完整性**:待验证
|
||||
- **总规模变化**:增量 +17 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **"拓扑性麻烦"的本质**:Transformer 的问题不是"做不到"状态追踪,而是前馈拓扑的**结构属性**——状态必须逐层上移,这并非偶然的工程缺陷,而是架构的必然结果。这个洞察比任何具体解决方案都更有价值。
|
||||
|
||||
2. **从外化到内化**:论文最锐利的论点是:CoT 作为"对自己说话"的机制,对于深层消歧(如 bank 的词义)这类人类自动完成的微认知而言是怪异的。真正的方向是**隐式激活动力学**而非显式思维轨迹——这从根本上挑战了当前"更多 thinking tokens = 更好推理"的范式。
|
||||
40
reviews/nano-filter-20260622.md
Normal file
40
reviews/nano-filter-20260622.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "NANO Filter Review"
|
||||
created: 2026-06-22
|
||||
type: review
|
||||
paper: nano-filter
|
||||
---
|
||||
|
||||
# NANO Filter — 自然梯度高斯近似滤波
|
||||
|
||||
📌 基本信息
|
||||
- 论文: Nonlinear Bayesian Filtering with Natural Gradient Gaussian Approximation
|
||||
- 作者: Wenhan Cao, Tianyi Zhang, Zeju Sun, Chang Liu, Stephen S.-T. Yau, Shengbo Eben Li(清华/北大/BIMSA)
|
||||
- arXiv: 2410.15832 (eess.SY), v4 (2026-03)
|
||||
- 添加时间: 2026-06-22
|
||||
|
||||
🎯 核心概念
|
||||
1. **NANO filter** — 在 Gaussian 流形上用自然梯度下降直接优化更新代价,替代传统线性化+KF 的使能框架
|
||||
2. **优化视角 Bayesian 滤波** — 将预测步和更新步重构为两个独立变分问题,利用 Stein 引理解析驻点条件
|
||||
3. **自然梯度在 Gaussian 流形上** — 利用 Fisher 信息矩阵的解析逆校正梯度方向,补偿参数空间曲率
|
||||
4. **Gibbs 后验鲁棒扩展** — 用 Pseudo-Huber 损失/加权似然替代标准似然,处理模型误设和离群值
|
||||
5. **收敛性与误差界** — 局部收敛证明 + 近线性条件下误差指数有界(超鞅构造)
|
||||
|
||||
🔗 概念网络
|
||||
- 核心连接: NANO ↔ [[natural-gradient-descent|自然梯度]] ↔ [[gaussian-manifold|高斯流形]] ↔ [[bayesian-filtering|贝叶斯滤波]]
|
||||
- 方法对比链: KF → EKF → UKF/PLF → NANO(线性化框架 → 直接优化框架)
|
||||
- 理论基础链: [[stein-lemma|Stein 引理]] → 驻点解析解 → 自然梯度迭代
|
||||
- 鲁棒扩展链: [[gibbs-posterior|Gibbs 后验]] → [[pseudo-huber-loss|Pseudo-Huber 损失]] → 鲁棒 NANO
|
||||
|
||||
📚 Wiki 集成
|
||||
- 新增页面: 12 个(1 论文 + 11 概念)
|
||||
- 伞概念新建: 6 个(bayesian-filtering, kalman-filter, natural-gradient-descent, gaussian-filtering, stein-lemma, gibbs-posterior)
|
||||
- 论文专属概念: 4 个(gaussian-manifold, moment-matching-filter, pseudo-huber-loss, posterior-linearization-filter)
|
||||
- 论文主页面: nano-filter
|
||||
- 链接密度: 论文页 8 个 wikilink,概念页间密集交叉引用
|
||||
|
||||
💡 关键洞察
|
||||
1. **跳出线性化框架** — NANO 的根本贡献不是又一个"更好的线性化",而是完全重构了 Gaussian 滤波的范式:从「先近似模型再计算后验」变为「直接在高斯流形上优化后验」。这在方法论上是质的飞跃,类比于从间接推断到直接优化的转变。
|
||||
2. **线性 Gaussian 系统的优雅退化** — NANO 在线性系统中一次迭代即收敛到精确 KF 解,且与初始化无关。这种"向下兼容"的性质是其数学结构正确的有力印证,也为工程部署提供了安全网:在最坏情况下不差于 KF。
|
||||
|
||||
实验亮点:相对于 EKF/UKF/IEKF/PLF,平均 RMSE 降 45%,计算负担可比。
|
||||
44
reviews/personalization-trap-20260624.md
Normal file
44
reviews/personalization-trap-20260624.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "Review: The Personalization Trap"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[personalization-trap-2025]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
|
||||
- **作者**:Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy(Amazon)
|
||||
- **领域**:cs.AI / cs.CL(AI 安全、偏见、个性化)
|
||||
- **arXiv ID**:2510.09905v2 | 添加时间:2026-06-24
|
||||
- **代码/数据**:https://github.com/personalization-trap
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **Personalization Trap** — 为增强共情而引入的个性化,可能放大社会不平等。优势画像在相同场景下获得更准确的情感解读
|
||||
2. **User Memory Bias** — LLM 融入用户记忆后,对用户无关任务产生基于画像的系统性偏差
|
||||
3. **Emotional Reasoning Bias** — 情感推理中的人口统计学偏见:宗教(穆斯林)、性别(非二元)、年龄(65+)系统性效应
|
||||
4. **Intersectional Persona Evaluation** — 通过交叉性画像 + 混合效应模型,隔离并量化各人口统计维度的独立偏见效应
|
||||
5. **Persona-Invariant Reasoning** — 推理质量不应随用户画像而变化的理想;Thinking 模型天然更接近此理想
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- Personalization Trap ↔ User Memory Bias ↔ Emotional Reasoning Bias(现象 → 机制 → 具体表现)
|
||||
- Social Capital Framework → Personalization Trap(社会学理论 → AI 偏见验证)
|
||||
- Intersectional Persona Evaluation → Emotional Reasoning Bias(方法论 → 发现)
|
||||
- DPO Bias Mitigation → Persona-Invariant Reasoning(缓解手段 → 理想目标)
|
||||
|
||||
**复用已有概念**:[[dpo]]
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:9 个(1 论文 + 7 概念 + 1 Review)
|
||||
- 复用已有概念:1 个(dpo)
|
||||
- 链接密度:核心概念平均 3+ 双向链接
|
||||
- 总规模:1167 → 1176 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **个性化是一把双刃剑** — 这篇论文对 Agent 记忆系统设计提供了直接警示。当 Agent 记住用户是"富人"还是"单亲妈妈"时,即使面对相同的情绪表达,它可能给出系统性不同的解读。这不是训练数据的问题,而是架构本身的问题——个人化机制可能在无意中将社会等级编码进推理过程。
|
||||
|
||||
2. **记忆系统的安全边界** — 对 sz 正在构建的 Agent Harness 系统而言,这篇论文提出了一个关键设计约束:用户记忆应在何时被允许影响推理?答案是:仅当任务本身是用户相关的(如偏好推荐),而在用户无关的标准化任务中,记忆应被隔离。这需要记忆系统的"上下文门控"——决定哪些记忆进入推理循环,哪些不进。
|
||||
65
reviews/rwkv7-review-20260618.md
Normal file
65
reviews/rwkv7-review-20260618.md
Normal file
@@ -0,0 +1,65 @@
|
||||
---
|
||||
title: "Review: RWKV-7 Goose — Expressive Dynamic State Evolution"
|
||||
created: 2026-06-18
|
||||
type: review
|
||||
tags: ["rwkv", "rnn", "delta-rule", "state-tracking", "expressiveness"]
|
||||
---
|
||||
|
||||
# RWKV-7 Review
|
||||
|
||||
📌 基本信息
|
||||
- **论文标题**:RWKV-7 "Goose" with Expressive Dynamic State Evolution
|
||||
- **作者**:Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人,RWKV Project + EleutherAI + 多所大学)
|
||||
- **arXiv ID**:2503.14456v2
|
||||
- **发表**:2025-03(preprint)
|
||||
- **代码**:https://github.com/RWKV/RWKV-LM(Apache 2.0)
|
||||
- **模型**:https://huggingface.co/RWKV
|
||||
- **Wiki 添加时间**:2026-06-18
|
||||
|
||||
🎯 核心概念
|
||||
|
||||
1. [[generalized-delta-rule]] — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
|
||||
2. [[vector-valued-gating]] — 逐通道动态衰减,每个状态维度独立速率
|
||||
3. [[in-context-learning-rate]] — 从标量 α → 向量 a_t,Delta 规则视角的选择性
|
||||
4. [[regular-language-recognition]] — 理论里程碑:首个超越 TC^0 的并行化可训练 RNN
|
||||
|
||||
🔗 概念网络
|
||||
|
||||
```
|
||||
delta-rule → generalized-delta-rule
|
||||
→ vector-valued-gating + in-context-learning-rate
|
||||
→ dynamic-state-evolution
|
||||
→ regular-language-recognition (NC^1)
|
||||
|
||||
rwkv → token-shift → wkv-time-mixing
|
||||
→ peng-rwkv7 (论文)
|
||||
```
|
||||
|
||||
**与已有概念连接**:
|
||||
- [[enhanced-state-space-models]](更新 RWKV-7 小节)
|
||||
- [[state-space-models]]、[[state-tracking]]、[[step-recurrence]](已有引用)
|
||||
- 与 Mamba([[selective-state-space]])形成门控机制的跨范式对比
|
||||
|
||||
📚 Wiki 集成
|
||||
|
||||
- **新增页面**:10 个(1 论文 + 8 概念 + 1 Review)
|
||||
- **更新页面**:1 个(`enhanced-state-space-models`,RWKV-7 小节扩充)
|
||||
- **概念分布**:
|
||||
- Delta 规则线:[[delta-rule]] → [[generalized-delta-rule]] → [[in-context-learning-rate]]
|
||||
- 门控/状态线:[[vector-valued-gating]] → [[dynamic-state-evolution]]
|
||||
- 架构线:[[rwkv]] → [[token-shift]] → [[wkv-time-mixing]]
|
||||
- 理论线:[[regular-language-recognition]]
|
||||
|
||||
💡 关键洞察
|
||||
|
||||
1. **"Delta 规则是 RNN 的正确数学语言"**
|
||||
|
||||
RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下:门控 = 逐通道衰减(w_t)、选择性 = 逐通道学习率(a_t)、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角:RNN 状态更新本质上是在做在线优化。
|
||||
|
||||
2. **理论突破来自对规则的松弛,而非对规模的信仰**
|
||||
|
||||
RWKV-7 证明超越 Transformer(TC^0→NC^1)的关键不是更多参数或更深的网络,而是三个具体的、可分析的数学松弛:标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。
|
||||
|
||||
3. **开源生态的闭环**
|
||||
|
||||
RWKV-7 不仅发布了模型权重和代码,还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。
|
||||
45
reviews/unlimited-ocr-works-20260624.md
Normal file
45
reviews/unlimited-ocr-works-20260624.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "Review: Unlimited OCR Works"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[unlimited-ocr-works-2026]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing
|
||||
- **作者**:Youyang Yin, Huanhuan Liu*, YY†, et al.(Baidu Inc.)
|
||||
- **领域**:cs.CV / cs.CL(OCR、注意力机制、高效推理)
|
||||
- **arXiv ID**:2606.23050 | 添加时间:2026-06-24
|
||||
- **代码**:https://github.com/baidu/Unlimited-OCR
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **Reference Sliding Window Attention (R-SWA)** — 模仿人类解析工作记忆的注意力机制:token 关注全部参考 token + 前 n 个输出 token,参考 token 不参与状态转移,KV cache 恒定
|
||||
2. **Constant KV Cache** — R-SWA 的核心数学性质:KV cache = Lm + n(有界常数),与标准 MHA 的 O(T) 线性增长形成根本性对比
|
||||
3. **Long-Horizon Parsing** — 一次前向解析数十页文档的能力,区别于逐页 for-loop 的外部调度模式
|
||||
4. **DeepEncoder** — 16× 视觉 token 压缩的编码器(级联窗口注意 ViT + 全局注意),决定 prefill 长度上限
|
||||
5. **DeepSeek OCR** — 基线模型,DeepEncoder + MoE Decoder (3B/500M),标准 MHA 导致 KV cache 线性膨胀
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- R-SWA ↔ Constant KV Cache ↔ Long-Horizon Parsing(注意力机制 → 数学性质 → 能力涌现)
|
||||
- R-SWA ↔ DeepEncoder(解码器效率 + 编码器压缩率 = 长程 OCR 的两个支点)
|
||||
- Unlimited OCR ↔ DeepSeek OCR(继承 DeepEncoder,替换 MHA → R-SWA)
|
||||
|
||||
**扩展网络**:连接到 [[kv-cache]]、[[mixture-of-experts]]、[[flash-attention]]、[[flash-attention-3]]、[[rolling-kv-cache]]、[[long-horizon-utility]]、[[long-horizon-evaluation]] 等已有概念
|
||||
|
||||
**新增概念**:10 个(8 核心 + 2 stub:megatron-lm, sglang)
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:11 个(1 论文 + 10 概念)
|
||||
- 复用已有概念:5 个(kv-cache, mixture-of-experts, flash-attention, flash-attention-3, rolling-kv-cache)
|
||||
- 链接密度:核心概念平均 4+ 双向链接
|
||||
- 总规模:1155 → 1167 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **认知启发的架构极简** — R-SWA 的本质洞察是:人类长程抄写时不需要全量历史,仅需附近上下文 + 永久参考。将所有 MHA 替换为 R-SWA 后性能无损("lossless"),证明 soft forgetting 通过滑动窗口传递信息已足够。这是「少即是多」的 elegant design。
|
||||
|
||||
2. **从 O(T) 到 O(1) 的相变** — KV cache 从线性增长到有界常数不是量变而是质变。它使 OCR 从「延长上下文需要更多硬件」的 scaling 思维,转向「恒定资源处理变长输入」的 engineering 思维。这一范式对 RAG、Agent 等需要长程处理的场景有直接启示:恒定资源的处理能力比可扩展但衰减的性能更有生产价值。
|
||||
42
reviews/vla-jepa-20260624.md
Normal file
42
reviews/vla-jepa-20260624.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "Review: VLA-JEPA"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[vla-jepa-2026]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
|
||||
- **作者**:Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen†(USTC/SJTU/Tsinghua 等)
|
||||
- **领域**:cs.RO / cs.CV(机器人学习、JEPA、世界模型)
|
||||
- **arXiv ID**:2602.10098v2 | 添加时间:2026-06-24
|
||||
- **代码**:https://github.com/ginwind/VLA-JEPA/
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **Leakage-Free State Prediction** — 核心设计原则:未来帧仅作监督目标,永不作为模型输入。直接修复 latent-action 预训练中的信息泄漏问题
|
||||
2. **Latent World Model** — JEPA 风格的 latent space 世界模型:V-JEPA2 frozen target encoder + autoregressive Transformer predictor,在语义空间预测状态转移
|
||||
3. **Latent-Action Pretraining 的四类失败** — 外观偏见、噪声运动放大、信息泄漏、多阶段脆弱性
|
||||
4. **JEPA for Robotics** — JEPA 从视频表示学习扩展到 embodied AI 的自然延伸:latent space prediction 天然鲁棒于像素噪声
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- Leakage-Free State Prediction ↔ Information Leakage(问题 → 修复)
|
||||
- Latent World Model ↔ JEPA(架构 → 范式)
|
||||
- Appearance Bias ↔ Latent-Action Pretraining(失败模式 → 被修复范式)
|
||||
- JEPA for Robotics ↔ World Model (LeCun)(embodied 实例化 → 理论框架)
|
||||
|
||||
**复用已有概念**:[[jepa]]、[[vla-vision-language-action]]、[[world-model-lecun]]、[[flow-matching]]
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:9 个(1 论文 + 7 概念 + 1 Review)
|
||||
- 复用已有概念:4 个
|
||||
- 总规模:1177 → 1186 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **学对目标 > 学更多数据** — VLA-JEPA 用 villa-X 不到 1% 的训练数据超越了它。不是因为模型更大或数据更多,而是因为学对了目标(latent space state transition vs pixel variation)。这与 sz 的 wiki 中 "Harness > SSM > Attention" 的优先级哲学一致:架构设计(消除信息泄漏)的杠杆远大于堆数据。
|
||||
|
||||
2. **JEPA 从感知到行动的跨越** — VLA-JEPA 证明了 JEPA 不仅适用于视频表示学习,在需要生成动作的 embodied AI 场景同样有效。关键在于 latent space prediction 对机器人特有的相机/光照扰动天然鲁棒——这不只是更好的表示学习,而是更适合 embodied 场景的架构选择。
|
||||
50
reviews/wan-streamer-2026-06-25.md
Normal file
50
reviews/wan-streamer-2026-06-25.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Wan-Streamer v0.1 Review"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: review
|
||||
tags: [multimodal, real-time, foundation-model, streaming, full-duplex]
|
||||
sources:
|
||||
- "[[wan-streamer]]"
|
||||
---
|
||||
|
||||
# Wan-Streamer v0.1 — Review
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
|
||||
- 作者:Wan Team, Alibaba Group(24 位作者)
|
||||
- 领域:多模态基础模型(cs.CV / cs.AI / cs.GR / cs.SD)
|
||||
- arXiv:2606.25041
|
||||
- 添加时间:2026-06-25
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[block-causal-attention]]** — 块内双向、块间因果的注意力模式,为流式多模态 token 调度设计
|
||||
2. **[[full-duplex-interaction]]** — 用户与 Agent 同时感知和表达的全双工交互范式
|
||||
3. **[[thinker-performer-pipeline]]** — Thinker(感知+状态更新+解码)和 Performer(flow-matching 去噪)的流水线推理架构
|
||||
4. **[[causal-multimodal-vae]]** — 严格因果的音频/视频变分自编码器,支持流式逐帧编码
|
||||
5. **[[end-to-end-streaming-interaction]]** — 感知、推理、生成、时机、同步全部联合学习的端到端流式范式
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- **核心连接**:wan-streamer ↔ block-causal-attention ↔ full-duplex-interaction ↔ thinker-performer-pipeline ↔ causal-multimodal-vae
|
||||
- **已有概念桥接**:→ [[flow-matching]](条件流匹配用于联合音视频生成)→ [[kv-cache]](Thinker-Performer KV 交换)→ [[diffusion-transformer]](统一 DiT 骨干)→ [[native-streaming-ar-training]](原生流式训练)
|
||||
- **新增概念**:5 个
|
||||
- **更新已有概念**:4 个(flow-matching, kv-cache, diffusion-transformer, native-streaming-ar-training)
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面:6 个(1 论文 + 5 概念)
|
||||
- 更新已有概念:4 个
|
||||
- 链接密度:核心概念平均 5+ 个交叉引用
|
||||
- 网络完整:待验证
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **流式是建模约束而非服务优化**:Wan-Streamer 的核心方法论突破在于认识到:为离线编码器、双向解码器、回合制对话设计的系统,无法通过工程手段恢复低延迟全双工行为。流式(streamability)必须从底层架构开始设计——因果 VAE、因果编解码器、block-causal attention 不可事后修补。
|
||||
|
||||
2. **单 Transformer 统一音视频交互的可行性验证**:将语言、音频、视频的感知和生成全部放入一个 Transformer,不依赖外部 ASR/TTS/动画模块,在 550ms 端到端延迟下实现自然交互——这证明了"联合学习 > 级联"在真实延迟约束下是可行的。
|
||||
|
||||
3. **Thinker-Performer 分离是实用的工程权衡**:虽然训练时是单一模型,推理时拆分为两个 GPU 进程,通过 KV-cache 交换维持统一状态——这在不牺牲模型统一性的前提下,通过流水线重叠实现了 160ms 单元的实时吞吐。
|
||||
|
||||
4. **全双工不只是一个 protocol feature**:通过在全双工交互数据上训练(而非规则化的话轮管理),模型学会了中断处理、主动说话、聆听反馈——这些都是级联系列无法通过独立模块学习的行为。
|
||||
Reference in New Issue
Block a user