This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,71 @@
---
title: "The Bayesian Geometry of Transformer Attention"
authors: "Naman Agarwal, Siddhartha R. Dalal, Vishal Misra"
arxiv: "2512.22471"
year: 2026
venue: "arXiv (cs.LG)"
series: "Bayesian Attention Trilogy, Paper I"
type: "paper"
tags: ["bayesian-inference", "transformers", "attention", "geometry", "inference-primitives", "mamba"]
---
# The Bayesian Geometry of Transformer Attention
> 首次实证证明:小型 Transformer 可以在受控环境中实现精确的贝叶斯后验10⁻³10⁻⁴ bit accuracy且这不是规模效应而是注意力架构的**推理原语完备性**。
## 核心问题
"Transformer 是在做真正的贝叶斯推理,还是仅仅是模式匹配?"
自然语言没有 ground-truth posterior 可验证,大模型也无法隔离记忆效应。本文用 **[[bayesian-wind-tunnels|Bayesian wind tunnels]]** 解决这个可验证性问题。
## 方法论Bayesian Wind Tunnels
受控预测环境,三个条件:
1. 解析 posterior 每一步都精确已知
2. 假设空间太大,记忆在计算上不可行
3. in-context prediction 需要真正的概率推理
→ 将定性问题转化为定量测试:模型的预测熵是否与解析 posterior 熵逐位置匹配?
## 推理三原语
贝叶斯推理分解为三个原语:
| 原语 | 定义 | 所需任务 |
|------|------|---------|
| [[belief-accumulation]] | 证据累积为 running posterior | 双射学习、HMM |
| [[belief-transport]] | 信念在随机动态下传播 | HMM 滤波 |
| [[random-access-binding]] | 按内容而非位置检索 | 联想回忆 |
详见 [[inference-primitives|推理原语分类法]]。
## 架构可实现性
| 架构 | 累积 | 传输 | 绑定 | 地位 |
|------|:---:|:---:|:---:|------|
| Transformer | ✅ | ✅ | ✅ | **原语完备** |
| Mamba | ✅ | ✅ | ❌ | HMM 滤波 SOTA |
| LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 |
| MLP | ❌ | ❌ | ❌ | 统一失败 |
核心结论:**[[primitive-completeness|原语完备性]]** — Transformer 是实现全部三原语的最小架构,这是其在推理任务中占主导的结构性原因。
## 几何诊断
详见 [[bayesian-attention-geometry]]
- 注意力头中的 **正交 key 基**
- 被 posterior 熵参数化的 **低维 value 流形**
- Mamba 最终层组织为 **5 个簇** — 对应 HMM 隐藏状态
## 三部曲定位
本文是 [[bayesian-attention-trilogy]] 的第一篇Lemma 1
- **Paper I**(本文):存在性 + 内部几何
- **Paper II**:贝叶斯结构从交叉熵梯度动力学中自然涌现
- **Paper III**:原语在部分可观测环境中如何组合
## 相关页面
- [[mamba-ssm]] — Mamba 选择性状态空间模型
- [[binding-constraint-thesis]] — 绑定的约束理论

View File

@@ -0,0 +1,69 @@
---
title: "Agent Harness Engineering: A Survey"
created: 2026-05-23
updated: 2026-05-23
type: paper
tags: [agent, infrastructure, harness, taxonomy, survey, production]
sources: [raw/papers/agent-harness-engineering-survey-2026.md]
confidence: high
---
# Agent Harness Engineering: A Survey
> **核心论点**LLM Agent 在生产环境中的可靠性瓶颈不在模型本身,而在包裹模型的**基础设施层——Agent Execution Harness**。
## 基本信息
- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon
- **投稿**: TMLR (Transactions on Machine Learning Research), 2026
- **项目页**: Awesome-Agent-Harness
- **规模**: 51 页170+ 开源项目映射
## 三大贡献
### 1. 约束瓶颈论Binding-Constraint Thesis
Agent 的可靠性不取决于模型,而取决于 Harness 的工程质量。论文通过三阶段工程演进Prompt → Context → Harness、跨层综合分析三元悖论、能力-控制权衡、耦合问题)和开放问题议程来支撑这一论点。
详细讨论:[[binding-constraint-thesis]]
### 2. ETCLOVG 七层分类法
将 Agent Harness 拆分为七个独立架构层:
- **E**xecution Environment执行环境——沙箱、容器、浏览器环境
- **T**ool Interface工具接口——工具描述、发现、调用、MCP 协议
- **C**ontext Management上下文管理——短/中/长期记忆、上下文漂移
- **L**ifecycle/Orchestration生命周期编排——单 Agent 循环、多 Agent 协调
- **O**bservability可观测性——追踪、成本、可靠性信号
- **V**erification验证评估——任务评估、失败归因、回归反馈
- **G**overnance治理安全——权限、身份、审计、人机协同
详细讨论:[[etclovg-taxonomy]]
### 3. 生态系统映射
对 170+ 开源项目按 ETCLOVG 分类,揭示采用模式、覆盖缺口和新兴设计原则。
## 跨层综合Cross-Layer Synthesis
- **[[cost-quality-speed-trilemma]]**:成本、质量、速度三者不可兼得,需要在不同代理生命周期阶段做权衡
- **[[capability-control-tradeoff]]**:更强的 Harness 给 Agent 更多能力,但每次能力扩展都增大控制问题
- **[[harness-coupling-problem]]**Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试
## 五大开放问题
1. [[hardening-execution-environments]] — 硬化与扩展执行环境
2. [[reliable-state-long-running-agents]] — 长时间运行 Agent 中的可靠状态维护
3. [[trace-native-evaluation]] — 从 Agent 踪迹中诊断失败
4. [[standard-agent-handoffs]] — Agent、工具、人类之间的标准化交接
5. [[adaptive-harness-simplification]] — 在模型能力提升时保持 Harness 有用性
## 三阶段工程演进
[[prompt-to-harness-evolution]] 描述了从 Prompt Engineering → Context Engineering → Harness Engineering 的三个阶段,每一阶段都在前一阶段基础上扩展,约束瓶颈逐步上移。
## 关键引用
- Bölük (2026a): "只改变了 harness15 个 LLM 的编程能力同时提升"
- Anthropic (2026a): "基础设施设置可以可测量地改变 benchmark 分数"
- OpenAI (2026): "Harness engineering 是保持人类注意力、仓库状态和 Agent 执行对齐的学科"

View File

@@ -0,0 +1,73 @@
---
title: "Generative Recursive Reasoning (GRAM)"
created: 2026-05-23
updated: 2026-05-23
type: paper
tags: [reasoning, recursive, generative, latent-variable, inference-scaling]
sources: [raw/papers/gram-generative-recursive-reasoning-2026.md]
confidence: high
---
# Generative Recursive Reasoning
> 核心问题:未来的神经推理系统如何实现**扩展计算**?答案:将递归推理从确定性**单轨迹**升级为概率性**多轨迹**计算。
## 基本信息
- **作者**: Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin AhnKAIST x Mila x NYU x UdeM
- **arXiv**: [2605.19376](https://arxiv.org/abs/2605.19376) (v2, 2026-05-19)
- **领域**: cs.AI
- **项目页**: https://ahn-ml.github.io/gram-website
## 动机RRM 的确定性困境
**[[recursive-reasoning-models|RRM]]**(如 HRM、TRM通过共享转移函数的迭代潜在状态精炼来实现扩展计算而非像自回归模型那样延长生成序列。但现有 RRM 是**确定性的**——相同输入总是产生相同的单条推理路径,收敛到唯一预测。
这在需要**多假设探索**和**多解恢复**的问题中是致命的:
- 单一精炼路径可能被困在次优推理轨迹中
- 无法在推理时进行并行扩展
## GRAM概率性递归推理
**[[gram-generative-recursive-reasoning|GRAM]]** 的核心将推理过程重新定义为**随机潜在轨迹**[[stochastic-latent-trajectory]]
- 每个递归步采样一个**条件于输入和当前状态的转移**,而非确定性更新
- 重复过程 -> 推理轨迹上的**分布**
- 通过**边缘化**所有轨迹得到最终预测
### 三种关键能力
| 能力 | 实现方式 |
|------|---------|
| 多假设维持 | 从分布中采样多条推理路径 |
| 替代策略探索 | 不同轨迹探索不同解空间 |
| [[inference-time-scaling]] | 增加递归深度 + 并行采样轨迹 |
### 双向生成能力
- **条件推理**: p_theta(y|x) — 给定输入,边缘化推理轨迹
- **无条件生成**: p_theta(x) — 固定/缺失输入时,同一个递归过程可生成数据
## 架构:双层嵌套递归
- **内层Inner Loop**: K 次低层精炼,产生确定性提议 u_t加上随机引导 eps_t -> h_t = u_t + eps_t
- **外层Outer Loop**: N_sup 个 supervision step 递归叠加
- 训练: [[amortized-variational-inference|摊销变分推断]]CE loss + KL divergence
## 实验
| 任务 | 考察维度 |
|------|---------|
| Sudoku-Extreme | 硬约束下的结构化推理 |
| ARC-AGI | 抽象变换 |
| N-Queens + Graph Coloring | [[multi-solution-recovery|多解恢复]] |
| Binarized MNIST | 无条件生成能力 |
## 与推理扩展方向的关系
GRAM 提供了一条与 Chain-of-Thought 和扩散推理都**互补**的路径:
- CoT = 显式 token 级扩展
- Diffusion Reasoning = 连续空间扩散
- GRAM = **离散潜在空间中的随机递归**
详见 [[deep-and-wide-reasoning]]

View File

@@ -0,0 +1,77 @@
---
title: "KORE: Knowledge-Oriented Controls for Knowledge Injection"
authors: ["Kailin Jiang", "Hongbo Jiang", "Ning Jiang", "Zhi Gao", "Jinhe Bi", "Yuchen Ren", "Bin Li", "Yuntao Du", "Lei Liu", "Qing Li"]
date: 2026
arxiv: "2510.19316"
venue: "ICML 2026"
type: paper
tags: ["multimodal", "knowledge-injection", "continual-learning", "lora", "null-space"]
---
# KORE: Enhancing Knowledge Injection via Knowledge-Oriented Controls
> ICML 2026 | [[arxiv|https://arxiv.org/abs/2510.19316]] | [kore-lmm.github.io](https://kore-lmm.github.io/)
## 核心问题
LMM 的知识是**静态的**,无法跟上现实世界发展。有效的[[evolving-knowledge-injection|知识注入]]需要同时满足两个目标:[[knowledge-adaptation|知识适应]](注入新知识)和 [[knowledge-retention|知识保留]](保持旧能力)。现有方法在两者之间难以平衡——要么泛化差,要么灾难性遗忘。
KORE 是 MMEVOKE 系列工作的**解决方案论文**(同一作者团队),提出了基于**知识导向控制**的协同方法。
## 核心方法
### 1. KORE-AUGMENTATION知识导向增强
[[kore-augmentation|KORE-AUGMENTATION]] 将单个知识项自动转化为**结构化的知识树**74K 训练数据):
- **主干Trunk**:多轮对话数据 —— 启发式 Q&A + GPT-4o 生成的最多 10 轮对话
- **分支Branches**:指令任务数据 —— 视觉识别、图像描述、VQA46,468 样本)
这与[[knowledge-aware-augmentation|知识感知增强]]和[[knowledge-agnostic-augmentation|知识无关增强]]有本质区别:不仅是表面变换,而是构建了一个**连贯的知识结构**,实现了从"数据记忆"到"**知识内化**"的跨越。
### 2. KORE-CONSTRAINT知识导向约束
[[kore-constraint|KORE-CONSTRAINT]] 的核心思想是**在零空间中微调,不干扰已有知识**
1. 从 LMM 线性层的激活中计算[[covariance-matrix-knowledge|协方差矩阵]] C = XX^T存储先前知识
2. 对 C 进行 SVD 分解,提取其**零空间**(对应最小奇异值的向量)
3. 将预训练权重 W₀ 投影到零空间中初始化 LoRA adapter
4. 冻结 A 矩阵在零空间内,仅微调 B
这确保了更新项 BAC ≈ 0 —— 无论 B 如何变化,都不会干扰已存储的旧知识。
### 3. HARS 评估指标
[[hars|HARS]]Harmonized Adaptation-Retention Score将知识适应和知识保留统一为一个调和指标类似 F1 平衡 Precision 和 Recall。
## 实验结果LLaVA-v1.5 7B
| 方法 | K.A (CEM↑) | K.R (Avg↑) | HARS↑ |
|------|-----------|-----------|-------|
| Vanilla | 4.89 | 46.74 | — |
| Full-FT | 18.02 | 16.09 | 16.60 |
| LoRA | 15.23 | 41.38 | 16.77 |
| Replay | 14.58 | 44.18 | 17.29 |
| MoELoRA | 16.22 | 31.55 | 20.17 |
| O-LoRA | 14.50 | 44.52 | 17.39 |
| **KORE** | **30.65** | **51.75** | **35.96** |
KORE 在知识适应上**翻倍**于最佳 baseline30.65 vs 18.02),且在知识保留上**超越** Vanilla51.75 vs 46.74),实现了真正的**正向保留**。
## 关键洞察
1. **结构化 > 离散化**:构建知识树比生成孤立变体更有效
2. **零空间 > 正则化**:在零空间中微调比 EWC/LwF 的间接约束更精确
3. **增量能力**:通过冻结 A 矩阵KORE 支持顺序注入多批知识而不遗忘
4. **通用性**:在 LLaVA-v1.5 (7B/13B) 和 Qwen2.5-VL (7B) 上均验证有效
## 概念链接
- [[kore-augmentation]] — 知识导向增强:树干+树枝的知识树构建
- [[kore-constraint]] — 知识导向约束:零空间投影微调
- [[knowledge-tree]] — 知识树:结构化知识表示
- [[null-space-projection-knowledge]] — 零空间投影知识保留
- [[covariance-matrix-knowledge]] — 协方差矩阵存储知识
- [[hars]] — 调和适应保留评分
- [[evolving-knowledge-injection]] — 进化知识注入(前置工作)
- [[mme-voke]] — MMEVOKE 基准(使用 EVOKE 评估)

View File

@@ -0,0 +1,61 @@
---
title: "AutoHarness: LLM Agent 的自动代码 Harness 合成"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2603.03329"
authors: ["Xinghua Lou", "Miguel Lázaro-Gredilla", "Antoine Dedieu", "Carter Wendelken", "Wolfgang Lehrach", "Kevin P. Murphy"]
venue: "arXiv cs.CL, February 2026"
tags: ["agent", "code-synthesis", "game-playing", "harness", "LLM"]
sources: ["https://arxiv.org/abs/2603.03329"]
---
# AutoHarness: 自动合成代码 Harness 来改进 LLM Agent
> **论文**: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329
## 核心问题
LLM Agent 在游戏等结构环境中频繁产出**非法动作**:在 Kaggle GameArena 国际象棋比赛中Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误,而是**根本违反规则**。
传统方案(手写 harness / fine-tuning要么脆弱费力要么昂贵且损害通用能力。**能否让 LLM 自动为自己的"非法行为"合成保护代码?**
## 方法Code-as-Harness
AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟:
### 搜索机制
- **Thompson Sampling 引导的树搜索**:在 harness 代码空间中平衡探索与利用
- LLM 作为 mutation operator基于环境 feedback 迭代改进代码
- Critic 提供反馈:动作合法性、环境 reward
### 三种 Harness 模式
| 模式 | 机制 | LLM 角色 |
|------|------|----------|
| **[[harness-as-action-verifier|Verifier]]** | LLM 提议 → 代码验证 → 非法则重试 | 策略制定者 |
| **Action Filter** | 代码生成合法动作集合 → LLM 排序 | 排序者 |
| **[[harness-as-policy|Policy]]** | 代码直接选动作 → **无需 LLM 推理** | 仅在训练时使用 |
## 关键结果
1. **100% 合法动作率**:在 145 个 TextArena 游戏上完全消除非法动作
2. **小模型胜大模型**Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro
3. **Code-as-Policy 巅峰**:生成的纯代码策略在 16 个 1P 游戏上平均 reward **0.870**,超过 GPT-5.2-High (0.844)
4. **零推理成本**Harness-as-Policy 测试时成本趋近于零vs GPT-5.2 的 ~$640
## 核心洞察
> 用一个较小的模型为自己的"短板"自动合成保护代码,其效果可以超过一个裸奔的更大模型——而且更便宜。
这体现了 [[code-as-harness]] 的根本哲学:**不是让 LLM 变得完美,而是让它可以被代码约束和保护。**
## 概念网络
- [[autoharness]] — 方法总览
- [[code-as-harness]] — 框架哲学
- [[harness-as-action-verifier]] — 验证模式
- [[harness-as-policy]] — 代码即策略
- [[thompson-sampling-code-search]] — 搜索算法
- [[iterative-code-refinement]] — 迭代精炼
- [[action-applicability]] — 动作合法性判定问题

53
papers/peng-tst-2026.md Normal file
View File

@@ -0,0 +1,53 @@
---
title: "Token Superposition Training: 高效 LLM 预训练的 Token 叠加方法"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2605.06546"
authors: ["Bowen Peng", "Théo Gigant", "Jeffrey Quesnelle"]
venue: "arXiv cs.CL, May 2026"
tags: ["pre-training", "efficiency", "token-superposition", "LLM"]
sources: ["https://arxiv.org/abs/2605.06546"]
---
# Token Superposition Training (TST): 高效 LLM 预训练
> **论文**: Peng, Gigant & Quesnelle (Nous Research, 2026) — arXiv:2605.06546
## 核心问题
LLM 预训练在大规模下计算成本极高现有优化方法MoE、稀疏注意力、压缩建模通常需要**侵入式修改**模型架构。**能否在不改动模型架构的前提下,仅通过提高训练时 token 吞吐量来提升预训练效率?**
## 方法Token Superposition Training (TST)
TST 是一个简单的 **drop-in** 方法,分两阶段:
### 阶段一叠加阶段Superposition Phase
- **输入叠加**:将连续 s 个 token 的 embedding 取平均,形成单个 "s-token"
- **输出叠加**:预测下一个 bag 的全部 s 个 token使用 [[multi-hot-cross-entropy|MCE]] 损失
- 效果:等 FLOPs 下吞入 s× 更多数据 token
### 阶段二恢复阶段Recovery Phase
- 完全回归标准 next-token prediction 训练
- 不做任何 adapter 或投影层——embedding 和 LM head **保持不变**
## 关键发现
1. **2.5× 加速**:在 10B A1B MoE 模型上,等 loss 条件下预训练时间减少 2.5 倍
2. **表示对齐至关重要**:叠加和恢复阶段**共享** embedding 和 LM head——若在两阶段之间重新初始化所有增益消失
3. **超参数鲁棒**bag size s ∈ [4, 8],叠加比例 r ∈ [0.2, 0.4] 内均有效
4. **输入+输出叠加均有贡献**,但输入叠加的增益机制仍有待解释
## 核心洞察
TST 的本质是 **粗→细粒度调度**[[coarse-to-fine-granularity]]):先用低分辨率、高吞吐量的数据分布进行"预-预训练",再切换到标准分辨率。这与 ViT 中的 patch size scheduling 和 byte-level → subword 转移共享同一设计哲学。
## 概念网络
- [[token-superposition-training]] — 方法总览
- [[multi-hot-cross-entropy]] — 核心损失函数
- [[input-superposition]] — 输入侧的 token 叠加
- [[two-phase-pretraining]] — 两阶段训练范式
- [[representation-alignment]] — 跨阶段表示对齐
- [[coarse-to-fine-granularity]] — 底层设计原则
- [[throughput-hypothesis]] — 吞吐量假说

View File

@@ -0,0 +1,53 @@
---
title: "Pre-train Space Reinforcement Learning (PreRL/DSRL)"
arxiv: "2604.14142"
authors: ["Yuqiao Tan", "Minzheng Wang", "Bo Liu", "Zichen Liu", "Tian Liang", "Shizhu He", "Jun Zhao", "Kang Liu"]
venue: "arXiv"
date: "2026-04-15"
created: "2026-05-18"
type: paper
tags: ["reinforcement-learning", "pre-training", "LLM-reasoning", "GRPO", "policy-optimization"]
sources: ["https://arxiv.org/abs/2604.14142"]
---
# Pre-train Space Reinforcement Learning (PreRL / DSRL)
**从 P(y|x) 到 P(y):在预训练空间中研究强化学习**
## 核心问题
标准 RLVR如 GRPO通过优化条件分布 P(y|x) 提升 LLM 推理能力但其上限被基座模型的已有输出分布所约束。PreRL 提出直接在 **预训练空间Pre-train Space** 中优化边缘分布 P(y),从根源上扩展推理能力的基础。
## 方法论贡献
### 1. Pre-train Space RL (PreRL)
将 RL 的优化目标从 P(y|x) 变为 P(y),在梯度更新时**遮蔽输入条件 x**。核心理论支撑是 [[gradient-alignment|梯度对齐]]:证明 log P(y) 和 log P(y|x) 的梯度内积始终非负(均值 +9.2),因此优化边际分布可以有效提升条件策略。
### 2. Negative Sample Reinforcement (NSR)
解剖 PreRL 中正负样本的作用,发现关键的不对称性:
- **PSR正样本强化** 在预训练空间中会退化为 on-policy collapse
- **NSR负样本强化** 通过剪枝错误推理路径,激发 [[endogenous-reasoning|内生推理能力]]transition 和 reflection 思维分别增长 **14.89×****6.54×**
### 3. Dual Space RL (DSRL)
采用 [[policy-reincarnation|策略转生]] 策略:先用 NSR-PreRL 扩展推理视野(消除根本性错误),再切换到标准 RL 进行细粒度优化。公式化为条件掩码的 phase-switching
∇J_DSRL = E[∑∇log π(y_t | x^{I[s>S]}, y_{<t}) · R(y) · I[s>S R(y)<0]]
## 关键发现
- DSRL Qwen3-4B/8B 上全面超越 GRPO/PPO/DAPO/Dr.GRPO
- AIME24: +4.69, AIME25: +2.50Qwen3-4B
- OOD 泛化GPQA-Diamond +3.79, MMLU-Pro +5.37
- 样本效率达到同等精度仅需 1.6×-2.5× 更少的训练步数
- Pass@K 在所有 K 值上均优于 GRPO
## 概念网络
- [[pre-train-space-reinforcement-learning|PreRL]] · [[post-train-space-rl|Post-train Space RL]] · [[dual-space-rl|DSRL]]
- [[negative-sample-reinforcement|NSR]] · [[positive-sample-reinforcement|PSR]]
- [[gradient-alignment|梯度对齐]] · [[shared-parameter-influence|共享参数影响]]
- [[policy-reincarnation|策略转生]] · [[endogenous-reasoning|内生推理]]
- [[distribution-shift|分布偏移]] · [[on-policy-learning-collapse|On-policy Collapse]]

View File

@@ -0,0 +1,78 @@
---
title: "ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents"
created: 2026-05-12
type: paper
source: https://arxiv.org/abs/2605.12481
code: https://github.com/X-PLUG/ToolCUA
tags: [computer-use-agents, gui-tool-orchestration, reinforcement-learning, trajectory-optimization]
---
# ToolCUA: 面向 Computer Use Agent 的最优 GUI-Tool 路径编排
**来源**: arXiv:2605.12481 (2026-05-12) | **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
## 核心问题
Computer Use Agents ([[computer-use-agents|CUAs]]) 面临一个关键挑战:它们可以在**原子 GUI 动作**(点击、输入)和**高层工具调用**API 操作文件)之间选择,但在 [[gui-tool-hybrid-action-space|混合动作空间]] 中常常犹豫不决——不知道何时继续 GUI 操作、何时切换为工具调用,最终选择次优的执行路径。
**两大根源问题**
1. **数据稀缺**:高质量 GUI-Tool 交错轨迹数据极少,收集真实工具轨迹成本高且脆弱
2. **监督不足**:现有方法仅提供步骤级模仿或最终任务完成信号,缺乏轨迹级别的 GUI-Tool 路径选择反馈
## 方法论:三阶段训练范式
### 阶段一Interleaved GUI-Tool Trajectory Scaling Pipeline数据扩展
[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 从已有的纯 GUI 轨迹出发,通过 MLLM 合成工具库并将其转化为 GUI-Tool 交错轨迹:
1. **Trajectory Filtering & Balancing**:按执行质量、任务长度、应用覆盖筛选原始 GUI 轨迹
2. **Trajectory-Aware Tool Library Construction**MLLM 从 GUI 过程中抽象出可调用的高层操作,合成工具库(从单步包装到多步复合函数)
3. **Tool Trajectory Generation with Next-State Grounding**:生成等效的纯工具轨迹,并通过 [[next-state-grounding|下一状态锚定]] 验证一致性
4. **Interleaved GUI-Tool Generation**:随机替换部分工具调用为对应的 GUI 操作序列,生成多样化交错轨迹
### 阶段二Tool-Bootstrapped GUI RFT强化微调
[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]] 分为两个子阶段:
- **Warmup SFT**:在全部交错数据 $\mathcal{D}_{\text{all}}$ 上进行监督微调,建立基础的混合动作能力
- **Single-Turn RL on Critical Steps**:在关键切换点 $\mathcal{D}_{\text{critical}}$ 上使用 [[grpo|GRPO]] 进行单轮 RL校准模型在 GUI↔Tool 决策边界的判断
### 阶段三Online Agentic RL with Tool-Efficient Path Reward在线强化学习
在真实的 GUI-Tool 环境中进行多轮 [[grpo|GRPO]] 在线 rollout使用 [[tool-efficient-path-reward|工具高效路径奖励]] 进行轨迹级优化:
- **$R_{\text{tool}}$(工具适当性奖励)**:鼓励在工具有益任务上使用工具、在无益任务上避免工具调用
- **$R_{\text{length}}$(路径效率奖励)**:相对于 rollout 组平均步数,对较短轨迹给予线性奖励,较长轨迹呈指数衰减
## 实验结果
在 [[osworld-mcp|OSWorld-MCP]] 基准上:
| 模型 | 准确率 | 相对提升 |
|------|--------|----------|
| Qwen3-VL-8B (baseline) | 28.23% | — |
| **ToolCUA-8B** | **46.85%** | **+66%** |
| GUI-Owl-1.5-8B | 43.84% | — |
| Claude-4-Sonnet | 43.54% | — |
| Claude-4.5-Sonnet | 48.35% | — |
**关键发现**
- 在纯 GUI 动作设置下也达到 42.9%**+3.9%** 超越纯 GUI 训练 → 证明混合动作空间训练的迁移优势
- TIRTool Invocation Rate显著提升 → 更智能的工具使用决策
- ACSAverage Completion Steps下降 → 更高效的执行路径
- 跨平台迁移Linux unseen apps 达 23.9%WindowsAgentArena 达 33.8%
## 关键洞察
1. **"混合动作空间"不是简单的动作空间并集**:直接暴露两种动作空间反而降低性能(如 EvoCUA-32B 从 52.6% 降到 40.5%)。需要专用训练策略来学习何时使用工具。
2. **轨迹级优化 > 步骤级优化**$R_{\text{tool}} + R_{\text{length}}$ 的组合奖励从全局角度评估整个执行路径,而不仅仅是单步正确性。
3. **合成数据管线的规模效应**:通过重利用现有 GUI 语料库 + MLLM 合成工具,无需昂贵的人工标注即可大规模生成 GUI-Tool 交错轨迹。
## 概念连接
- 核心方法:[[interleaved-gui-tool-trajectory-scaling]] → [[tool-bootstrapped-rft]] → [[tool-efficient-path-reward]]
- 理论基础:[[gui-tool-hybrid-action-space]] → [[optimal-gui-tool-path-selection]]
- 评估框架:[[osworld-mcp]]
- 相关技术:[[grpo]], [[agent-computer-interface]], [[next-state-grounding]], [[agentic-systems]]

View File

@@ -0,0 +1,64 @@
---
title: "When Large Multimodal Models Confront Evolving Knowledge"
authors: ["Kailin Jiang", "Yuntao Du", "Yukai Ding", "Yuchen Ren", "Zhi Gao", "Zilong Zheng", "Ning Jiang", "Lei Liu", "Bin Li", "Qing Li"]
date: 2026
arxiv: "2505.24449"
venue: "ICLR 2026"
type: paper
tags: ["multimodal", "knowledge-injection", "continual-learning", "benchmark"]
---
# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations
> ICLR 2026 | [[arxiv|https://arxiv.org/abs/2505.24449]]
## 核心问题
大型多模态模型LMM经过大规模预训练后获得丰富的世界知识但真实世界的知识持续演化新实体、新事件导致模型知识过时和幻觉。现有工作主要关注**静态文本知识注入**,忽视了**动态多模态进化知识注入**。
## 核心贡献
### 1. MMEVOKE 基准
[[mme-voke|MMEVOKE]] 是首个多模态进化知识注入基准,包含 **9,422 个样本**,覆盖 **159 个细粒度子领域**News 29 + Entity 130具有[[self-evolving-benchmark|自进化特性]]。
### 2. 双重挑战
- **知识适应差**现有方法SFT、RAG、AI搜索在 MMEVOKE 上表现不佳,最高仅 40.68% CEM
- **能力退化严重**:知识注入后,模型在 12 个通用能力基准上平均退化 25%+
### 3. 知识感知增强 vs 知识无关增强
[[knowledge-aware-augmentation|知识感知增强]]通过语义理解和真实世界图像丰富了模型对概念的感知,显著提升知识适应能力;而[[knowledge-agnostic-augmentation|知识无关增强]](同义词替换、图像旋转等表面操作)反而**损害**性能。
### 4. 知识保留方法
- [[data-replay|数据回放]]:混合旧预训练数据与新注入数据,强制模型"复习旧知"
- [[moe-lora|MoELoRA]]:为新增知识划出专用参数区,防止参数冲突
- EWC / LwF 等间接约束方法**几乎无效**,甚至加剧退化
### 5. [[sufficient-context-paradox|充分上下文悖论]]
即使提供了所有必要信息Sufficient ContextLMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明**提供上下文还不够**,模型对进化知识的**推理和利用能力**至关重要。
## 方法论
- **知识收集**:从 CNNNews和 WikipediaEntity收集权威数据
- **内容总结**GPT-4o 对长文本进行摘要
- **VQA 生成**GPT-4o 提取 VQA 对CLIP 聚类清洗图像
- **知识注入范式**SFTFull-FT, LoRA、MM-RAGText-Only/Image-Only/UniIR、商业 AI 搜索
## 关键洞察
1. **知识感知 > 知识无关**:语义级增强是知识注入的关键,表面增强反而有害
2. **直接排练 > 间接约束**Replay 和 MoELoRA 有效保留旧能力EWC/LwF 无效
3. **知识感知增强可部分缓解能力退化**——这是论文的意外发现
4. **知识注入 ≠ 数据记忆**:模型可能只是"背诵"而非"内化"知识
## 概念链接
- [[evolving-knowledge-injection]] — 进化知识注入任务定义
- [[knowledge-adaptation]] — 知识适应度量
- [[capability-degradation]] — 能力退化现象
- [[knowledge-retention]] — 知识保留策略
- [[multimodal-rag]] — 多模态检索增强生成

View File

@@ -0,0 +1,61 @@
---
title: "SkillOpt: Agent Skill 的文本空间优化器"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2605.23904"
authors: ["Yifan Yang", "Ziyang Gong", "Weiquan Huang", "Qihao Yang", "Ziwei Zhou", "Zisu Huang", "Yan Li", "Xuemei Gao", "Qi Dai", "Bei Liu", "Kai Qiu", "Yuqing Yang", "Dongdong Chen", "Xue Yang", "Chong Luo"]
venue: "arXiv cs.AI, May 2026"
tags: ["agent", "skill", "optimization", "text-space", "self-evolving"]
sources: ["https://arxiv.org/abs/2605.23904"]
---
# SkillOpt: Agent Skill 的文本空间优化器
> **论文**: Yang et al. (Microsoft, SJTU, Tongji, Fudan, 2026) — arXiv:2605.23904
## 核心问题
Agent skills 今天是被手写、一次性生成或松散自修正的——**没有一个像深度学习的 optimizer 那样可靠地优化 skill**。如果 skill 是 Agent 的适配层,它应该像模型参数一样被**系统地训练**。
## 方法SkillOpt as Text-Space Optimizer
SkillOpt 将 skill 优化建模为 [[text-space-optimizer|文本空间中的优化问题]],与权重空间的深度学习优化形成精确类比:
| 深度学习 | SkillOpt |
|----------|----------|
| 参数 θ | Skill 文档 |
| 梯度方向 | 轨迹反馈衍生的编辑方向 |
| 学习率 | 文本编辑预算bounded edits |
| Validation | [[held-out-validation-gate\|留出验证门]] |
| Momentum | [[slow-meta-update\|epoch-wise slow/meta update]] |
### 核心循环
```
Frozen Agent + Skill → 采样 rollout batch →
Optimizer 分析成败 → 提出 add/delete/replace 编辑 →
聚合排名 → bounded update → Validation Gate →
Accept (best_skill.md) / Reject → [[rejected-edit-buffer\|buffer 记录失败模式]]
```
## 关键结果
- **52/52 best or tied**:跨 6 benchmarks × 7 models × 3 harnessesdirect chat, Codex, Claude Code
- GPT-5.5 + SkillOpt 平均提升:**+23.5 pts** (direct), **+24.8** (Codex), **+19.1** (Claude Code)
- **跨模型/跨 harness/跨 benchmark 迁移**:一次训练,多处复用
- Skill 极度紧凑:**3002,000 tokens**,仅需 14 次 accepted edits
## 核心洞察
SkillOpt 的深层哲学:**Agent 的适应不一定要改模型权重——skill 文档就是一个可训练的"外部状态"**。通过引入 deep learning optimizer 的控制纪律learning rate、validation gate、momentumskill optimization 从"随便改改"变成了可复现的训练过程。
## 概念网络
- [[skillopt|SkillOpt]] — 方法总览
- [[text-space-optimizer]] — 文本空间优化的范式类比
- [[textual-learning-rate]] — 编辑预算控制
- [[held-out-validation-gate]] — 留出验证门
- [[rejected-edit-buffer]] — 失败编辑负反馈
- [[slow-meta-update]] — epoch-wise 动量
- [[skill-as-external-state]] — Skill 作为可训练外部状态的哲学

View File

@@ -0,0 +1,57 @@
---
title: "Agent Symbolic Learning: 用符号学习实现自进化 Agent"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2406.18532"
authors: ["Wangchunshu Zhou", "Yixin Ou", "Shengwei Ding", "Long Li", "Jialong Wu", "Tiannan Wang", "Jiamin Chen", "Shuai Wang", "Xiaohua Xu", "Ningyu Zhang", "Huajun Chen", "Yuchen Eleanor Jiang"]
venue: "arXiv cs.CL, June 2024"
tags: ["agent", "symbolic-learning", "self-evolving", "optimization"]
sources: ["https://arxiv.org/abs/2406.18532"]
---
# Agent Symbolic Learning: 符号学习驱动的自进化 Agent
> **论文**: Zhou et al. (AIWaves, 2024) — arXiv:2406.18532
> **代码**: https://github.com/aiwaves-cn/agents
## 核心问题
当前 Agent 开发是 **engineering-centric**prompt、工具、pipeline 都需要人类手动设计。Agent Symbolic Learning 提出了一个根本性转变——让 Agent **从数据中自动学习和进化**
## 方法Agent = Symbolic Network
| 神经网络 | Agent Symbolic Network |
|----------|------|
| 计算图 | Agent Pipeline |
| 层 (Layer) | 节点 (Node) |
| 权重 (Weights) | Prompts + Tools |
| 损失函数 | [[language-loss\|Language Loss]] |
| 梯度 | [[language-gradient\|Language Gradients]] |
| 反向传播 | [[symbolic-backpropagation\|Symbolic Back-Propagation]] |
| 优化器 | Symbolic Optimizer (LLM) |
### 三阶段流程
1. **Forward Pass**: Agent 沿 pipeline 执行 → 记录每个节点的轨迹
2. **Backward Pass**: 从末节点向前传播 Language Loss → 每个节点的 Language Gradients
3. **Weight Update**: Optimizer (LLM) 根据 gradients 更新所有 prompts/tools/pipeline
## 关键创新
- **Holistic Joint Optimization**: 同时优化所有符号组件,避免 DSPy 等方法分别优化带来的局部最优
- **支持 pipeline 结构修改**: 不仅是改 prompt还可以添加/删除节点
- **无 ground-truth 也能学**: Language Loss 不需要标准答案
## 历史定位
这是"模仿神经网络反向传播来优化 Agent"思路的**原始提出者**。后续 [[yang-skillopt-2026|SkillOpt]]、[[heuristic-learning|Heuristic Learning]] 是在这一范式下的延伸和工程化。在吕明的两篇深度解读文章中被重点引用。
## 概念网络
- [[agent-symbolic-learning]] — 框架总览
- [[symbolic-network]] — Agent 作为符号网络
- [[language-gradient]] — 语言梯度
- [[symbolic-backpropagation]] — 符号反向传播
- [[self-evolving-agents]] — 自进化 Agent
- [[language-loss]] — 语言损失