20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/papers/agarwal-bayesian-attention-geometry.md
+++ b/papers/agarwal-bayesian-attention-geometry.md
@@ -0,0 +1,71 @@
+---
+title: "The Bayesian Geometry of Transformer Attention"
+authors: "Naman Agarwal, Siddhartha R. Dalal, Vishal Misra"
+arxiv: "2512.22471"
+year: 2026
+venue: "arXiv (cs.LG)"
+series: "Bayesian Attention Trilogy, Paper I"
+type: "paper"
+tags: ["bayesian-inference", "transformers", "attention", "geometry", "inference-primitives", "mamba"]
+---
+
+# The Bayesian Geometry of Transformer Attention
+
+> 首次实证证明：小型 Transformer 可以在受控环境中实现精确的贝叶斯后验（10⁻³–10⁻⁴ bit accuracy），且这不是规模效应，而是注意力架构的**推理原语完备性**。
+
+## 核心问题
+
+"Transformer 是在做真正的贝叶斯推理，还是仅仅是模式匹配？"
+
+自然语言没有 ground-truth posterior 可验证，大模型也无法隔离记忆效应。本文用 **[[bayesian-wind-tunnels|Bayesian wind tunnels]]** 解决这个可验证性问题。
+
+## 方法论：Bayesian Wind Tunnels
+
+受控预测环境，三个条件：
+1. 解析 posterior 每一步都精确已知
+2. 假设空间太大，记忆在计算上不可行
+3. in-context prediction 需要真正的概率推理
+
+→ 将定性问题转化为定量测试：模型的预测熵是否与解析 posterior 熵逐位置匹配？
+
+## 推理三原语
+
+贝叶斯推理分解为三个原语：
+
+| 原语 | 定义 | 所需任务 |
+|------|------|---------|
+| [[belief-accumulation]] | 证据累积为 running posterior | 双射学习、HMM |
+| [[belief-transport]] | 信念在随机动态下传播 | HMM 滤波 |
+| [[random-access-binding]] | 按内容而非位置检索 | 联想回忆 |
+
+详见 [[inference-primitives|推理原语分类法]]。
+
+## 架构可实现性
+
+| 架构 | 累积 | 传输 | 绑定 | 地位 |
+|------|:---:|:---:|:---:|------|
+| Transformer | ✅ | ✅ | ✅ | **原语完备** |
+| Mamba | ✅ | ✅ | ❌ | HMM 滤波 SOTA |
+| LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 |
+| MLP | ❌ | ❌ | ❌ | 统一失败 |
+
+核心结论：**[[primitive-completeness|原语完备性]]** — Transformer 是实现全部三原语的最小架构，这是其在推理任务中占主导的结构性原因。
+
+## 几何诊断
+
+详见 [[bayesian-attention-geometry]]：
+- 注意力头中的 **正交 key 基**
+- 被 posterior 熵参数化的 **低维 value 流形**
+- Mamba 最终层组织为 **5 个簇** — 对应 HMM 隐藏状态
+
+## 三部曲定位
+
+本文是 [[bayesian-attention-trilogy]] 的第一篇（Lemma 1）：
+- **Paper I**（本文）：存在性 + 内部几何
+- **Paper II**：贝叶斯结构从交叉熵梯度动力学中自然涌现
+- **Paper III**：原语在部分可观测环境中如何组合
+
+## 相关页面
+
+- [[mamba-ssm]] — Mamba 选择性状态空间模型
+- [[binding-constraint-thesis]] — 绑定的约束理论
--- a/papers/agent-harness-engineering-survey.md
+++ b/papers/agent-harness-engineering-survey.md
@@ -0,0 +1,69 @@
+---
+title: "Agent Harness Engineering: A Survey"
+created: 2026-05-23
+updated: 2026-05-23
+type: paper
+tags: [agent, infrastructure, harness, taxonomy, survey, production]
+sources: [raw/papers/agent-harness-engineering-survey-2026.md]
+confidence: high
+---
+
+# Agent Harness Engineering: A Survey
+
+> **核心论点**：LLM Agent 在生产环境中的可靠性瓶颈不在模型本身，而在包裹模型的**基础设施层——Agent Execution Harness**。
+
+## 基本信息
+
+- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等（CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon）
+- **投稿**: TMLR (Transactions on Machine Learning Research), 2026
+- **项目页**: Awesome-Agent-Harness
+- **规模**: 51 页，170+ 开源项目映射
+
+## 三大贡献
+
+### 1. 约束瓶颈论（Binding-Constraint Thesis）
+
+Agent 的可靠性不取决于模型，而取决于 Harness 的工程质量。论文通过三阶段工程演进（Prompt → Context → Harness）、跨层综合分析（三元悖论、能力-控制权衡、耦合问题）和开放问题议程来支撑这一论点。
+
+详细讨论：[[binding-constraint-thesis]]
+
+### 2. ETCLOVG 七层分类法
+
+将 Agent Harness 拆分为七个独立架构层：
+- **E**xecution Environment（执行环境）——沙箱、容器、浏览器环境
+- **T**ool Interface（工具接口）——工具描述、发现、调用、MCP 协议
+- **C**ontext Management（上下文管理）——短/中/长期记忆、上下文漂移
+- **L**ifecycle/Orchestration（生命周期编排）——单 Agent 循环、多 Agent 协调
+- **O**bservability（可观测性）——追踪、成本、可靠性信号
+- **V**erification（验证评估）——任务评估、失败归因、回归反馈
+- **G**overnance（治理安全）——权限、身份、审计、人机协同
+
+详细讨论：[[etclovg-taxonomy]]
+
+### 3. 生态系统映射
+
+对 170+ 开源项目按 ETCLOVG 分类，揭示采用模式、覆盖缺口和新兴设计原则。
+
+## 跨层综合（Cross-Layer Synthesis）
+
+- **[[cost-quality-speed-trilemma]]**：成本、质量、速度三者不可兼得，需要在不同代理生命周期阶段做权衡
+- **[[capability-control-tradeoff]]**：更强的 Harness 给 Agent 更多能力，但每次能力扩展都增大控制问题
+- **[[harness-coupling-problem]]**：Harness 各层高度耦合，局部优化可能破坏全局——应作为**控制系统**来测试
+
+## 五大开放问题
+
+1. [[hardening-execution-environments]] — 硬化与扩展执行环境
+2. [[reliable-state-long-running-agents]] — 长时间运行 Agent 中的可靠状态维护
+3. [[trace-native-evaluation]] — 从 Agent 踪迹中诊断失败
+4. [[standard-agent-handoffs]] — Agent、工具、人类之间的标准化交接
+5. [[adaptive-harness-simplification]] — 在模型能力提升时保持 Harness 有用性
+
+## 三阶段工程演进
+
+[[prompt-to-harness-evolution]] 描述了从 Prompt Engineering → Context Engineering → Harness Engineering 的三个阶段，每一阶段都在前一阶段基础上扩展，约束瓶颈逐步上移。
+
+## 关键引用
+
+- Bölük (2026a): "只改变了 harness，15 个 LLM 的编程能力同时提升"
+- Anthropic (2026a): "基础设施设置可以可测量地改变 benchmark 分数"
+- OpenAI (2026): "Harness engineering 是保持人类注意力、仓库状态和 Agent 执行对齐的学科"
--- a/papers/gram-generative-recursive-reasoning-paper.md
+++ b/papers/gram-generative-recursive-reasoning-paper.md
@@ -0,0 +1,73 @@
+---
+title: "Generative Recursive Reasoning (GRAM)"
+created: 2026-05-23
+updated: 2026-05-23
+type: paper
+tags: [reasoning, recursive, generative, latent-variable, inference-scaling]
+sources: [raw/papers/gram-generative-recursive-reasoning-2026.md]
+confidence: high
+---
+
+# Generative Recursive Reasoning
+
+> 核心问题：未来的神经推理系统如何实现**扩展计算**？答案：将递归推理从确定性**单轨迹**升级为概率性**多轨迹**计算。
+
+## 基本信息
+
+- **作者**: Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn（KAIST x Mila x NYU x UdeM）
+- **arXiv**: [2605.19376](https://arxiv.org/abs/2605.19376) (v2, 2026-05-19)
+- **领域**: cs.AI
+- **项目页**: https://ahn-ml.github.io/gram-website
+
+## 动机：RRM 的确定性困境
+
+**[[recursive-reasoning-models|RRM]]**（如 HRM、TRM）通过共享转移函数的迭代潜在状态精炼来实现扩展计算，而非像自回归模型那样延长生成序列。但现有 RRM 是**确定性的**——相同输入总是产生相同的单条推理路径，收敛到唯一预测。
+
+这在需要**多假设探索**和**多解恢复**的问题中是致命的：
+- 单一精炼路径可能被困在次优推理轨迹中
+- 无法在推理时进行并行扩展
+
+## GRAM：概率性递归推理
+
+**[[gram-generative-recursive-reasoning|GRAM]]** 的核心将推理过程重新定义为**随机潜在轨迹**（[[stochastic-latent-trajectory]]）：
+
+- 每个递归步采样一个**条件于输入和当前状态的转移**，而非确定性更新
+- 重复过程 -> 推理轨迹上的**分布**
+- 通过**边缘化**所有轨迹得到最终预测
+
+### 三种关键能力
+
+| 能力 | 实现方式 |
+|------|---------|
+| 多假设维持 | 从分布中采样多条推理路径 |
+| 替代策略探索 | 不同轨迹探索不同解空间 |
+| [[inference-time-scaling]] | 增加递归深度 + 并行采样轨迹 |
+
+### 双向生成能力
+
+- **条件推理**: p_theta(y|x) — 给定输入，边缘化推理轨迹
+- **无条件生成**: p_theta(x) — 固定/缺失输入时，同一个递归过程可生成数据
+
+## 架构：双层嵌套递归
+
+- **内层（Inner Loop）**: K 次低层精炼，产生确定性提议 u_t，加上随机引导 eps_t -> h_t = u_t + eps_t
+- **外层（Outer Loop）**: N_sup 个 supervision step 递归叠加
+- 训练: [[amortized-variational-inference|摊销变分推断]]（CE loss + KL divergence）
+
+## 实验
+
+| 任务 | 考察维度 |
+|------|---------|
+| Sudoku-Extreme | 硬约束下的结构化推理 |
+| ARC-AGI | 抽象变换 |
+| N-Queens + Graph Coloring | [[multi-solution-recovery|多解恢复]] |
+| Binarized MNIST | 无条件生成能力 |
+
+## 与推理扩展方向的关系
+
+GRAM 提供了一条与 Chain-of-Thought 和扩散推理都**互补**的路径：
+- CoT = 显式 token 级扩展
+- Diffusion Reasoning = 连续空间扩散
+- GRAM = **离散潜在空间中的随机递归**
+
+详见 [[deep-and-wide-reasoning]]
--- a/papers/kore-knowledge-injection.md
+++ b/papers/kore-knowledge-injection.md
@@ -0,0 +1,77 @@
+---
+title: "KORE: Knowledge-Oriented Controls for Knowledge Injection"
+authors: ["Kailin Jiang", "Hongbo Jiang", "Ning Jiang", "Zhi Gao", "Jinhe Bi", "Yuchen Ren", "Bin Li", "Yuntao Du", "Lei Liu", "Qing Li"]
+date: 2026
+arxiv: "2510.19316"
+venue: "ICML 2026"
+type: paper
+tags: ["multimodal", "knowledge-injection", "continual-learning", "lora", "null-space"]
+---
+
+# KORE: Enhancing Knowledge Injection via Knowledge-Oriented Controls
+
+> ICML 2026 | [[arxiv|https://arxiv.org/abs/2510.19316]] | [kore-lmm.github.io](https://kore-lmm.github.io/)
+
+## 核心问题
+
+LMM 的知识是**静态的**，无法跟上现实世界发展。有效的[[evolving-knowledge-injection|知识注入]]需要同时满足两个目标：[[knowledge-adaptation|知识适应]]（注入新知识）和 [[knowledge-retention|知识保留]]（保持旧能力）。现有方法在两者之间难以平衡——要么泛化差，要么灾难性遗忘。
+
+KORE 是 MMEVOKE 系列工作的**解决方案论文**（同一作者团队），提出了基于**知识导向控制**的协同方法。
+
+## 核心方法
+
+### 1. KORE-AUGMENTATION：知识导向增强
+
+[[kore-augmentation|KORE-AUGMENTATION]] 将单个知识项自动转化为**结构化的知识树**（74K 训练数据）：
+
+- **主干（Trunk）**：多轮对话数据 —— 启发式 Q&A + GPT-4o 生成的最多 10 轮对话
+- **分支（Branches）**：指令任务数据 —— 视觉识别、图像描述、VQA（46,468 样本）
+
+这与[[knowledge-aware-augmentation|知识感知增强]]和[[knowledge-agnostic-augmentation|知识无关增强]]有本质区别：不仅是表面变换，而是构建了一个**连贯的知识结构**，实现了从"数据记忆"到"**知识内化**"的跨越。
+
+### 2. KORE-CONSTRAINT：知识导向约束
+
+[[kore-constraint|KORE-CONSTRAINT]] 的核心思想是**在零空间中微调，不干扰已有知识**：
+
+1. 从 LMM 线性层的激活中计算[[covariance-matrix-knowledge|协方差矩阵]] C = XX^T，存储先前知识
+2. 对 C 进行 SVD 分解，提取其**零空间**（对应最小奇异值的向量）
+3. 将预训练权重 W₀ 投影到零空间中初始化 LoRA adapter
+4. 冻结 A 矩阵在零空间内，仅微调 B
+
+这确保了更新项 BAC ≈ 0 —— 无论 B 如何变化，都不会干扰已存储的旧知识。
+
+### 3. HARS 评估指标
+
+[[hars|HARS]]（Harmonized Adaptation-Retention Score）将知识适应和知识保留统一为一个调和指标，类似 F1 平衡 Precision 和 Recall。
+
+## 实验结果（LLaVA-v1.5 7B）
+
+| 方法 | K.A (CEM↑) | K.R (Avg↑) | HARS↑ |
+|------|-----------|-----------|-------|
+| Vanilla | 4.89 | 46.74 | — |
+| Full-FT | 18.02 | 16.09 | 16.60 |
+| LoRA | 15.23 | 41.38 | 16.77 |
+| Replay | 14.58 | 44.18 | 17.29 |
+| MoELoRA | 16.22 | 31.55 | 20.17 |
+| O-LoRA | 14.50 | 44.52 | 17.39 |
+| **KORE** | **30.65** | **51.75** | **35.96** |
+
+KORE 在知识适应上**翻倍**于最佳 baseline（30.65 vs 18.02），且在知识保留上**超越** Vanilla（51.75 vs 46.74），实现了真正的**正向保留**。
+
+## 关键洞察
+
+1. **结构化 > 离散化**：构建知识树比生成孤立变体更有效
+2. **零空间 > 正则化**：在零空间中微调比 EWC/LwF 的间接约束更精确
+3. **增量能力**：通过冻结 A 矩阵，KORE 支持顺序注入多批知识而不遗忘
+4. **通用性**：在 LLaVA-v1.5 (7B/13B) 和 Qwen2.5-VL (7B) 上均验证有效
+
+## 概念链接
+
+- [[kore-augmentation]] — 知识导向增强：树干+树枝的知识树构建
+- [[kore-constraint]] — 知识导向约束：零空间投影微调
+- [[knowledge-tree]] — 知识树：结构化知识表示
+- [[null-space-projection-knowledge]] — 零空间投影知识保留
+- [[covariance-matrix-knowledge]] — 协方差矩阵存储知识
+- [[hars]] — 调和适应保留评分
+- [[evolving-knowledge-injection]] — 进化知识注入（前置工作）
+- [[mme-voke]] — MMEVOKE 基准（使用 EVOKE 评估）
--- a/papers/lou-autoharness-2026.md
+++ b/papers/lou-autoharness-2026.md
@@ -0,0 +1,61 @@
+---
+title: "AutoHarness: LLM Agent 的自动代码 Harness 合成"
+created: 2026-05-29
+updated: 2026-05-29
+type: paper
+arxiv: "2603.03329"
+authors: ["Xinghua Lou", "Miguel Lázaro-Gredilla", "Antoine Dedieu", "Carter Wendelken", "Wolfgang Lehrach", "Kevin P. Murphy"]
+venue: "arXiv cs.CL, February 2026"
+tags: ["agent", "code-synthesis", "game-playing", "harness", "LLM"]
+sources: ["https://arxiv.org/abs/2603.03329"]
+---
+
+# AutoHarness: 自动合成代码 Harness 来改进 LLM Agent
+
+> **论文**: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329
+
+## 核心问题
+
+LLM Agent 在游戏等结构环境中频繁产出**非法动作**：在 Kaggle GameArena 国际象棋比赛中，Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误，而是**根本违反规则**。
+
+传统方案（手写 harness / fine-tuning）要么脆弱费力，要么昂贵且损害通用能力。**能否让 LLM 自动为自己的"非法行为"合成保护代码？**
+
+## 方法：Code-as-Harness
+
+AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟：
+
+### 搜索机制
+- **Thompson Sampling 引导的树搜索**：在 harness 代码空间中平衡探索与利用
+- LLM 作为 mutation operator：基于环境 feedback 迭代改进代码
+- Critic 提供反馈：动作合法性、环境 reward
+
+### 三种 Harness 模式
+
+| 模式 | 机制 | LLM 角色 |
+|------|------|----------|
+| **[[harness-as-action-verifier|Verifier]]** | LLM 提议 → 代码验证 → 非法则重试 | 策略制定者 |
+| **Action Filter** | 代码生成合法动作集合 → LLM 排序 | 排序者 |
+| **[[harness-as-policy|Policy]]** | 代码直接选动作 → **无需 LLM 推理** | 仅在训练时使用 |
+
+## 关键结果
+
+1. **100% 合法动作率**：在 145 个 TextArena 游戏上完全消除非法动作
+2. **小模型胜大模型**：Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro
+3. **Code-as-Policy 巅峰**：生成的纯代码策略在 16 个 1P 游戏上平均 reward **0.870**，超过 GPT-5.2-High (0.844)
+4. **零推理成本**：Harness-as-Policy 测试时成本趋近于零（vs GPT-5.2 的 ~$640）
+
+## 核心洞察
+
+> 用一个较小的模型为自己的"短板"自动合成保护代码，其效果可以超过一个裸奔的更大模型——而且更便宜。
+
+这体现了 [[code-as-harness]] 的根本哲学：**不是让 LLM 变得完美，而是让它可以被代码约束和保护。**
+
+## 概念网络
+
+- [[autoharness]] — 方法总览
+- [[code-as-harness]] — 框架哲学
+- [[harness-as-action-verifier]] — 验证模式
+- [[harness-as-policy]] — 代码即策略
+- [[thompson-sampling-code-search]] — 搜索算法
+- [[iterative-code-refinement]] — 迭代精炼
+- [[action-applicability]] — 动作合法性判定问题
--- a/papers/peng-tst-2026.md
+++ b/papers/peng-tst-2026.md
@@ -0,0 +1,53 @@
+---
+title: "Token Superposition Training: 高效 LLM 预训练的 Token 叠加方法"
+created: 2026-05-29
+updated: 2026-05-29
+type: paper
+arxiv: "2605.06546"
+authors: ["Bowen Peng", "Théo Gigant", "Jeffrey Quesnelle"]
+venue: "arXiv cs.CL, May 2026"
+tags: ["pre-training", "efficiency", "token-superposition", "LLM"]
+sources: ["https://arxiv.org/abs/2605.06546"]
+---
+
+# Token Superposition Training (TST): 高效 LLM 预训练
+
+> **论文**: Peng, Gigant & Quesnelle (Nous Research, 2026) — arXiv:2605.06546
+
+## 核心问题
+
+LLM 预训练在大规模下计算成本极高，现有优化方法（MoE、稀疏注意力、压缩建模）通常需要**侵入式修改**模型架构。**能否在不改动模型架构的前提下，仅通过提高训练时 token 吞吐量来提升预训练效率？**
+
+## 方法：Token Superposition Training (TST)
+
+TST 是一个简单的 **drop-in** 方法，分两阶段：
+
+### 阶段一：叠加阶段（Superposition Phase）
+- **输入叠加**：将连续 s 个 token 的 embedding 取平均，形成单个 "s-token"
+- **输出叠加**：预测下一个 bag 的全部 s 个 token，使用 [[multi-hot-cross-entropy|MCE]] 损失
+- 效果：等 FLOPs 下吞入 s× 更多数据 token
+
+### 阶段二：恢复阶段（Recovery Phase）
+- 完全回归标准 next-token prediction 训练
+- 不做任何 adapter 或投影层——embedding 和 LM head **保持不变**
+
+## 关键发现
+
+1. **2.5× 加速**：在 10B A1B MoE 模型上，等 loss 条件下预训练时间减少 2.5 倍
+2. **表示对齐至关重要**：叠加和恢复阶段**共享** embedding 和 LM head——若在两阶段之间重新初始化，所有增益消失
+3. **超参数鲁棒**：bag size s ∈ [4, 8]，叠加比例 r ∈ [0.2, 0.4] 内均有效
+4. **输入+输出叠加均有贡献**，但输入叠加的增益机制仍有待解释
+
+## 核心洞察
+
+TST 的本质是 **粗→细粒度调度**（[[coarse-to-fine-granularity]]）：先用低分辨率、高吞吐量的数据分布进行"预-预训练"，再切换到标准分辨率。这与 ViT 中的 patch size scheduling 和 byte-level → subword 转移共享同一设计哲学。
+
+## 概念网络
+
+- [[token-superposition-training]] — 方法总览
+- [[multi-hot-cross-entropy]] — 核心损失函数
+- [[input-superposition]] — 输入侧的 token 叠加
+- [[two-phase-pretraining]] — 两阶段训练范式
+- [[representation-alignment]] — 跨阶段表示对齐
+- [[coarse-to-fine-granularity]] — 底层设计原则
+- [[throughput-hypothesis]] — 吞吐量假说
--- a/papers/pre-train-space-reinforcement-learning.md
+++ b/papers/pre-train-space-reinforcement-learning.md
@@ -0,0 +1,53 @@
+---
+title: "Pre-train Space Reinforcement Learning (PreRL/DSRL)"
+arxiv: "2604.14142"
+authors: ["Yuqiao Tan", "Minzheng Wang", "Bo Liu", "Zichen Liu", "Tian Liang", "Shizhu He", "Jun Zhao", "Kang Liu"]
+venue: "arXiv"
+date: "2026-04-15"
+created: "2026-05-18"
+type: paper
+tags: ["reinforcement-learning", "pre-training", "LLM-reasoning", "GRPO", "policy-optimization"]
+sources: ["https://arxiv.org/abs/2604.14142"]
+---
+
+# Pre-train Space Reinforcement Learning (PreRL / DSRL)
+
+**从 P(y|x) 到 P(y)：在预训练空间中研究强化学习**
+
+## 核心问题
+
+标准 RLVR（如 GRPO）通过优化条件分布 P(y|x) 提升 LLM 推理能力，但其上限被基座模型的已有输出分布所约束。PreRL 提出直接在 **预训练空间（Pre-train Space）** 中优化边缘分布 P(y)，从根源上扩展推理能力的基础。
+
+## 方法论贡献
+
+### 1. Pre-train Space RL (PreRL)
+
+将 RL 的优化目标从 P(y|x) 变为 P(y)，在梯度更新时**遮蔽输入条件 x**。核心理论支撑是 [[gradient-alignment|梯度对齐]]：证明 log P(y) 和 log P(y|x) 的梯度内积始终非负（均值 +9.2），因此优化边际分布可以有效提升条件策略。
+
+### 2. Negative Sample Reinforcement (NSR)
+
+解剖 PreRL 中正负样本的作用，发现关键的不对称性：
+- **PSR（正样本强化）** 在预训练空间中会退化为 on-policy collapse
+- **NSR（负样本强化）** 通过剪枝错误推理路径，激发 [[endogenous-reasoning|内生推理能力]]，transition 和 reflection 思维分别增长 **14.89×** 和 **6.54×**
+
+### 3. Dual Space RL (DSRL)
+
+采用 [[policy-reincarnation|策略转生]] 策略：先用 NSR-PreRL 扩展推理视野（消除根本性错误），再切换到标准 RL 进行细粒度优化。公式化为条件掩码的 phase-switching：
+
+∇J_DSRL = E[∑∇log π(y_t | x^{I[s>S]}, y_{<t}) · R(y) · I[s>S ∨ R(y)<0]]
+
+## 关键发现
+
+- DSRL 在 Qwen3-4B/8B 上全面超越 GRPO/PPO/DAPO/Dr.GRPO
+- AIME24: +4.69, AIME25: +2.50（Qwen3-4B）
+- OOD 泛化：GPQA-Diamond +3.79, MMLU-Pro +5.37
+- 样本效率：达到同等精度仅需 1.6×-2.5× 更少的训练步数
+- Pass@K 在所有 K 值上均优于 GRPO
+
+## 概念网络
+
+- [[pre-train-space-reinforcement-learning|PreRL]] · [[post-train-space-rl|Post-train Space RL]] · [[dual-space-rl|DSRL]]
+- [[negative-sample-reinforcement|NSR]] · [[positive-sample-reinforcement|PSR]]
+- [[gradient-alignment|梯度对齐]] · [[shared-parameter-influence|共享参数影响]]
+- [[policy-reincarnation|策略转生]] · [[endogenous-reasoning|内生推理]]
+- [[distribution-shift|分布偏移]] · [[on-policy-learning-collapse|On-policy Collapse]]
--- a/papers/toolcua-optimal-gui-tool-orchestration.md
+++ b/papers/toolcua-optimal-gui-tool-orchestration.md
@@ -0,0 +1,78 @@
+---
+title: "ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents"
+created: 2026-05-12
+type: paper
+source: https://arxiv.org/abs/2605.12481
+code: https://github.com/X-PLUG/ToolCUA
+tags: [computer-use-agents, gui-tool-orchestration, reinforcement-learning, trajectory-optimization]
+---
+
+# ToolCUA: 面向 Computer Use Agent 的最优 GUI-Tool 路径编排
+
+**来源**: arXiv:2605.12481 (2026-05-12) | **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
+
+## 核心问题
+
+Computer Use Agents ([[computer-use-agents|CUAs]]) 面临一个关键挑战：它们可以在**原子 GUI 动作**（点击、输入）和**高层工具调用**（API 操作文件）之间选择，但在 [[gui-tool-hybrid-action-space|混合动作空间]] 中常常犹豫不决——不知道何时继续 GUI 操作、何时切换为工具调用，最终选择次优的执行路径。
+
+**两大根源问题**：
+1. **数据稀缺**：高质量 GUI-Tool 交错轨迹数据极少，收集真实工具轨迹成本高且脆弱
+2. **监督不足**：现有方法仅提供步骤级模仿或最终任务完成信号，缺乏轨迹级别的 GUI-Tool 路径选择反馈
+
+## 方法论：三阶段训练范式
+
+### 阶段一：Interleaved GUI-Tool Trajectory Scaling Pipeline（数据扩展）
+
+[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 从已有的纯 GUI 轨迹出发，通过 MLLM 合成工具库并将其转化为 GUI-Tool 交错轨迹：
+
+1. **Trajectory Filtering & Balancing**：按执行质量、任务长度、应用覆盖筛选原始 GUI 轨迹
+2. **Trajectory-Aware Tool Library Construction**：MLLM 从 GUI 过程中抽象出可调用的高层操作，合成工具库（从单步包装到多步复合函数）
+3. **Tool Trajectory Generation with Next-State Grounding**：生成等效的纯工具轨迹，并通过 [[next-state-grounding|下一状态锚定]] 验证一致性
+4. **Interleaved GUI-Tool Generation**：随机替换部分工具调用为对应的 GUI 操作序列，生成多样化交错轨迹
+
+### 阶段二：Tool-Bootstrapped GUI RFT（强化微调）
+
+[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]] 分为两个子阶段：
+
+- **Warmup SFT**：在全部交错数据 $\mathcal{D}_{\text{all}}$ 上进行监督微调，建立基础的混合动作能力
+- **Single-Turn RL on Critical Steps**：在关键切换点 $\mathcal{D}_{\text{critical}}$ 上使用 [[grpo|GRPO]] 进行单轮 RL，校准模型在 GUI↔Tool 决策边界的判断
+
+### 阶段三：Online Agentic RL with Tool-Efficient Path Reward（在线强化学习）
+
+在真实的 GUI-Tool 环境中进行多轮 [[grpo|GRPO]] 在线 rollout，使用 [[tool-efficient-path-reward|工具高效路径奖励]] 进行轨迹级优化：
+
+- **$R_{\text{tool}}$（工具适当性奖励）**：鼓励在工具有益任务上使用工具、在无益任务上避免工具调用
+- **$R_{\text{length}}$（路径效率奖励）**：相对于 rollout 组平均步数，对较短轨迹给予线性奖励，较长轨迹呈指数衰减
+
+## 实验结果
+
+在 [[osworld-mcp|OSWorld-MCP]] 基准上：
+
+| 模型 | 准确率 | 相对提升 |
+|------|--------|----------|
+| Qwen3-VL-8B (baseline) | 28.23% | — |
+| **ToolCUA-8B** | **46.85%** | **+66%** |
+| GUI-Owl-1.5-8B | 43.84% | — |
+| Claude-4-Sonnet | 43.54% | — |
+| Claude-4.5-Sonnet | 48.35% | — |
+
+**关键发现**：
+- 在纯 GUI 动作设置下也达到 42.9%，**+3.9%** 超越纯 GUI 训练 → 证明混合动作空间训练的迁移优势
+- TIR（Tool Invocation Rate）显著提升 → 更智能的工具使用决策
+- ACS（Average Completion Steps）下降 → 更高效的执行路径
+- 跨平台迁移：Linux unseen apps 达 23.9%，WindowsAgentArena 达 33.8%
+
+## 关键洞察
+
+1. **"混合动作空间"不是简单的动作空间并集**：直接暴露两种动作空间反而降低性能（如 EvoCUA-32B 从 52.6% 降到 40.5%）。需要专用训练策略来学习何时使用工具。
+
+2. **轨迹级优化 > 步骤级优化**：$R_{\text{tool}} + R_{\text{length}}$ 的组合奖励从全局角度评估整个执行路径，而不仅仅是单步正确性。
+
+3. **合成数据管线的规模效应**：通过重利用现有 GUI 语料库 + MLLM 合成工具，无需昂贵的人工标注即可大规模生成 GUI-Tool 交错轨迹。
+
+## 概念连接
+
+- 核心方法：[[interleaved-gui-tool-trajectory-scaling]] → [[tool-bootstrapped-rft]] → [[tool-efficient-path-reward]]
+- 理论基础：[[gui-tool-hybrid-action-space]] → [[optimal-gui-tool-path-selection]]
+- 评估框架：[[osworld-mcp]]
+- 相关技术：[[grpo]], [[agent-computer-interface]], [[next-state-grounding]], [[agentic-systems]]
--- a/papers/when-large-multimodal-models-confront-evolving-knowledge.md
+++ b/papers/when-large-multimodal-models-confront-evolving-knowledge.md
@@ -0,0 +1,64 @@
+---
+title: "When Large Multimodal Models Confront Evolving Knowledge"
+authors: ["Kailin Jiang", "Yuntao Du", "Yukai Ding", "Yuchen Ren", "Zhi Gao", "Zilong Zheng", "Ning Jiang", "Lei Liu", "Bin Li", "Qing Li"]
+date: 2026
+arxiv: "2505.24449"
+venue: "ICLR 2026"
+type: paper
+tags: ["multimodal", "knowledge-injection", "continual-learning", "benchmark"]
+---
+
+# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations
+
+> ICLR 2026 | [[arxiv|https://arxiv.org/abs/2505.24449]]
+
+## 核心问题
+
+大型多模态模型（LMM）经过大规模预训练后获得丰富的世界知识，但真实世界的知识持续演化（新实体、新事件），导致模型知识过时和幻觉。现有工作主要关注**静态文本知识注入**，忽视了**动态多模态进化知识注入**。
+
+## 核心贡献
+
+### 1. MMEVOKE 基准
+
+[[mme-voke|MMEVOKE]] 是首个多模态进化知识注入基准，包含 **9,422 个样本**，覆盖 **159 个细粒度子领域**（News 29 + Entity 130），具有[[self-evolving-benchmark|自进化特性]]。
+
+### 2. 双重挑战
+
+- **知识适应差**：现有方法（SFT、RAG、AI搜索）在 MMEVOKE 上表现不佳，最高仅 40.68% CEM
+- **能力退化严重**：知识注入后，模型在 12 个通用能力基准上平均退化 25%+
+
+### 3. 知识感知增强 vs 知识无关增强
+
+[[knowledge-aware-augmentation|知识感知增强]]通过语义理解和真实世界图像丰富了模型对概念的感知，显著提升知识适应能力；而[[knowledge-agnostic-augmentation|知识无关增强]]（同义词替换、图像旋转等表面操作）反而**损害**性能。
+
+### 4. 知识保留方法
+
+- [[data-replay|数据回放]]：混合旧预训练数据与新注入数据，强制模型"复习旧知"
+- [[moe-lora|MoELoRA]]：为新增知识划出专用参数区，防止参数冲突
+- EWC / LwF 等间接约束方法**几乎无效**，甚至加剧退化
+
+### 5. [[sufficient-context-paradox|充分上下文悖论]]
+
+即使提供了所有必要信息（Sufficient Context），LMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明**提供上下文还不够**，模型对进化知识的**推理和利用能力**至关重要。
+
+## 方法论
+
+- **知识收集**：从 CNN（News）和 Wikipedia（Entity）收集权威数据
+- **内容总结**：GPT-4o 对长文本进行摘要
+- **VQA 生成**：GPT-4o 提取 VQA 对，CLIP 聚类清洗图像
+- **知识注入范式**：SFT（Full-FT, LoRA）、MM-RAG（Text-Only/Image-Only/UniIR）、商业 AI 搜索
+
+## 关键洞察
+
+1. **知识感知 > 知识无关**：语义级增强是知识注入的关键，表面增强反而有害
+2. **直接排练 > 间接约束**：Replay 和 MoELoRA 有效保留旧能力，EWC/LwF 无效
+3. **知识感知增强可部分缓解能力退化**——这是论文的意外发现
+4. **知识注入 ≠ 数据记忆**：模型可能只是"背诵"而非"内化"知识
+
+## 概念链接
+
+- [[evolving-knowledge-injection]] — 进化知识注入任务定义
+- [[knowledge-adaptation]] — 知识适应度量
+- [[capability-degradation]] — 能力退化现象
+- [[knowledge-retention]] — 知识保留策略
+- [[multimodal-rag]] — 多模态检索增强生成
--- a/papers/yang-skillopt-2026.md
+++ b/papers/yang-skillopt-2026.md
@@ -0,0 +1,61 @@
+---
+title: "SkillOpt: Agent Skill 的文本空间优化器"
+created: 2026-05-29
+updated: 2026-05-29
+type: paper
+arxiv: "2605.23904"
+authors: ["Yifan Yang", "Ziyang Gong", "Weiquan Huang", "Qihao Yang", "Ziwei Zhou", "Zisu Huang", "Yan Li", "Xuemei Gao", "Qi Dai", "Bei Liu", "Kai Qiu", "Yuqing Yang", "Dongdong Chen", "Xue Yang", "Chong Luo"]
+venue: "arXiv cs.AI, May 2026"
+tags: ["agent", "skill", "optimization", "text-space", "self-evolving"]
+sources: ["https://arxiv.org/abs/2605.23904"]
+---
+
+# SkillOpt: Agent Skill 的文本空间优化器
+
+> **论文**: Yang et al. (Microsoft, SJTU, Tongji, Fudan, 2026) — arXiv:2605.23904
+
+## 核心问题
+
+Agent skills 今天是被手写、一次性生成或松散自修正的——**没有一个像深度学习的 optimizer 那样可靠地优化 skill**。如果 skill 是 Agent 的适配层，它应该像模型参数一样被**系统地训练**。
+
+## 方法：SkillOpt as Text-Space Optimizer
+
+SkillOpt 将 skill 优化建模为 [[text-space-optimizer|文本空间中的优化问题]]，与权重空间的深度学习优化形成精确类比：
+
+| 深度学习 | SkillOpt |
+|----------|----------|
+| 参数 θ | Skill 文档 |
+| 梯度方向 | 轨迹反馈衍生的编辑方向 |
+| 学习率 | 文本编辑预算（bounded edits） |
+| Validation | [[held-out-validation-gate\|留出验证门]] |
+| Momentum | [[slow-meta-update\|epoch-wise slow/meta update]] |
+
+### 核心循环
+
+```
+Frozen Agent + Skill → 采样 rollout batch → 
+Optimizer 分析成败 → 提出 add/delete/replace 编辑 → 
+聚合排名 → bounded update → Validation Gate → 
+Accept (best_skill.md) / Reject → [[rejected-edit-buffer\|buffer 记录失败模式]]
+```
+
+## 关键结果
+
+- **52/52 best or tied**：跨 6 benchmarks × 7 models × 3 harnesses（direct chat, Codex, Claude Code）
+- GPT-5.5 + SkillOpt 平均提升：**+23.5 pts** (direct), **+24.8** (Codex), **+19.1** (Claude Code)
+- **跨模型/跨 harness/跨 benchmark 迁移**：一次训练，多处复用
+- Skill 极度紧凑：**300–2,000 tokens**，仅需 1–4 次 accepted edits
+
+## 核心洞察
+
+SkillOpt 的深层哲学：**Agent 的适应不一定要改模型权重——skill 文档就是一个可训练的"外部状态"**。通过引入 deep learning optimizer 的控制纪律（learning rate、validation gate、momentum），skill optimization 从"随便改改"变成了可复现的训练过程。
+
+## 概念网络
+
+- [[skillopt|SkillOpt]] — 方法总览
+- [[text-space-optimizer]] — 文本空间优化的范式类比
+- [[textual-learning-rate]] — 编辑预算控制
+- [[held-out-validation-gate]] — 留出验证门
+- [[rejected-edit-buffer]] — 失败编辑负反馈
+- [[slow-meta-update]] — epoch-wise 动量
+- [[skill-as-external-state]] — Skill 作为可训练外部状态的哲学
--- a/papers/zhou-agent-symbolic-learning-2024.md
+++ b/papers/zhou-agent-symbolic-learning-2024.md
@@ -0,0 +1,57 @@
+---
+title: "Agent Symbolic Learning: 用符号学习实现自进化 Agent"
+created: 2026-05-29
+updated: 2026-05-29
+type: paper
+arxiv: "2406.18532"
+authors: ["Wangchunshu Zhou", "Yixin Ou", "Shengwei Ding", "Long Li", "Jialong Wu", "Tiannan Wang", "Jiamin Chen", "Shuai Wang", "Xiaohua Xu", "Ningyu Zhang", "Huajun Chen", "Yuchen Eleanor Jiang"]
+venue: "arXiv cs.CL, June 2024"
+tags: ["agent", "symbolic-learning", "self-evolving", "optimization"]
+sources: ["https://arxiv.org/abs/2406.18532"]
+---
+
+# Agent Symbolic Learning: 符号学习驱动的自进化 Agent
+
+> **论文**: Zhou et al. (AIWaves, 2024) — arXiv:2406.18532
+> **代码**: https://github.com/aiwaves-cn/agents
+
+## 核心问题
+
+当前 Agent 开发是 **engineering-centric** 的：prompt、工具、pipeline 都需要人类手动设计。Agent Symbolic Learning 提出了一个根本性转变——让 Agent **从数据中自动学习和进化**。
+
+## 方法：Agent = Symbolic Network
+
+| 神经网络 | Agent Symbolic Network |
+|----------|------|
+| 计算图 | Agent Pipeline |
+| 层 (Layer) | 节点 (Node) |
+| 权重 (Weights) | Prompts + Tools |
+| 损失函数 | [[language-loss\|Language Loss]] |
+| 梯度 | [[language-gradient\|Language Gradients]] |
+| 反向传播 | [[symbolic-backpropagation\|Symbolic Back-Propagation]] |
+| 优化器 | Symbolic Optimizer (LLM) |
+
+### 三阶段流程
+
+1. **Forward Pass**: Agent 沿 pipeline 执行 → 记录每个节点的轨迹
+2. **Backward Pass**: 从末节点向前传播 Language Loss → 每个节点的 Language Gradients
+3. **Weight Update**: Optimizer (LLM) 根据 gradients 更新所有 prompts/tools/pipeline
+
+## 关键创新
+
+- **Holistic Joint Optimization**: 同时优化所有符号组件，避免 DSPy 等方法分别优化带来的局部最优
+- **支持 pipeline 结构修改**: 不仅是改 prompt，还可以添加/删除节点
+- **无 ground-truth 也能学**: Language Loss 不需要标准答案
+
+## 历史定位
+
+这是"模仿神经网络反向传播来优化 Agent"思路的**原始提出者**。后续 [[yang-skillopt-2026|SkillOpt]]、[[heuristic-learning|Heuristic Learning]] 是在这一范式下的延伸和工程化。在吕明的两篇深度解读文章中被重点引用。
+
+## 概念网络
+
+- [[agent-symbolic-learning]] — 框架总览
+- [[symbolic-network]] — Agent 作为符号网络
+- [[language-gradient]] — 语言梯度
+- [[symbolic-backpropagation]] — 符号反向传播
+- [[self-evolving-agents]] — 自进化 Agent
+- [[language-loss]] — 语言损失