This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,54 @@
---
title: "Review: Agent Harness Engineering Survey"
created: 2026-05-23
updated: 2026-05-23
type: review
tags: [review, agent, harness, survey]
sources: [raw/papers/agent-harness-engineering-survey-2026.md]
---
# 📌 基本信息
- **论文标题**: Agent Harness Engineering: A Survey
- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon
- **投稿**: TMLR 2026Under Review
- **项目页**: Awesome-Agent-Harness
- **添加时间**: 2026-05-23
- **规模**: 51 页, 170+ 开源项目映射
# 🎯 核心概念
1. **[[agent-harness-engineering]]** — Agent 执行骨架工程:包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
2. **[[etclovg-taxonomy]]** — ETCLOVG 七层分类法Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance将 O 和 G 提升为独立架构层
3. **[[binding-constraint-thesis]]** — 约束瓶颈论:基础设施质量(而非模型能力)设定了 Agent 可靠性的天花板
4. **[[harness-coupling-problem]]** — Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试
5. **[[cost-quality-speed-trilemma]]** — 成本、质量、速度三者不可兼得的三方张力
6. **[[capability-control-tradeoff]]** — 每次 Harness 能力扩展都增大安全和控制问题
7. **[[prompt-to-harness-evolution]]** — 三阶段工程演进Prompt Engineering → Context Engineering → Harness Engineering
8. **[[trace-native-evaluation]]** — 以 Agent 踪迹而非最终分数为中心的评估范式
9. **[[practitioner-research-gap]]** — 从业者-研究鸿沟Harness 工程价值已被实践但缺乏学术形式化
10. **[[three-engineering-phases]]** — Prompt → Context → Harness 三阶段视野扩展演进
11. **[[context-drift]]** — 上下文漂移U 形注意力 + Context Rot + 工具累积的三种退化
12. **[[agent-sandbox]]** — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
13. **[[multi-agent-orchestration]]** — 层级、团队、工作流、Fan-out、图组合五种编排模式
# 🔗 概念网络
- **核心连接**: [[binding-constraint-thesis]] ↔ [[harness-coupling-problem]] ↔ [[cost-quality-speed-trilemma]]
- **七层体系**: [[execution-environment]] → [[tool-interface]] → [[context-management]] → [[lifecycle-orchestration]] → [[agent-observability]] → [[agent-verification]] → [[agent-governance]]
- **开放问题链**: [[hardening-execution-environments]] → [[reliable-state-long-running-agents]] → [[trace-native-evaluation]] → [[standard-agent-handoffs]] → [[adaptive-harness-simplification]]
- **扩展网络**: 连接了 29 个概念页,通过 O/V/G 独立层和 [[practitioner-research-gap]]、[[agent-frameworks-to-platforms]] 深入交叉
- **修复断链**: (补充集成)修复了 review 中 3 个中文 wikilink 错误
# 📚 Wiki 集成
- **新增页面**: 30 个1 论文 + 29 概念)含 2026-05-30 补充的 8 个概念
- **链接密度**: 每概念页平均 ~5 个交叉引用
- **论文页链接**: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念
- **总规模**: 373 → 409 页(首次)+ → 563 页(补充集成 + 同期其他论文)
# 💡 关键洞察
1. **从组件思维到系统思维**: 这篇综述最有价值的贡献不是分类本身,而是**跨层综合**——Harness 耦合问题表明prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优,必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。
2. **从模型中心到基础设施中心**: Bölük 的实验(仅改变 harness 格式15 个 LLM 同时提升)是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论,并提供了三个维度的证据链(演进、跨层综合、开放问题),使该论点从一个直觉变成一个可操作的工程框架。

View File

@@ -0,0 +1,55 @@
---
title: "Review: 分布式Agent缓存同步"
created: 2026-05-29
type: review
article: "distributed-agent-cache-sync-2026"
source: "微信公众号"
---
# 📌 Review: 分布式Agent缓存同步
**文章**: 分布式Agent缓存同步从单机到多机的Prompt Caching架构升级
**来源**: 微信公众号 (LLM + 量化交易系列)
**URL**: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw
**时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[distributed-prompt-caching|Distributed Prompt Caching]]** — 将单机前缀缓存升级为多机分布式同步体系
2. **[[global-context-hash-tree|Global Context Hash Tree]]** — SHA-256 四层复合键作为分布式会话 UID
3. **[[active-cache-warmup|Active Cache Warm-up]]** — 通过 Shadow Calling 预测性预填充远端缓存
4. **[[shadow-calling|Shadow Calling]]** — `max_tokens=1` 的特殊 API 调用:只消化前缀不生成输出
5. **[[distributed-cache-routing|Distributed Cache Routing]]** — Redis `Cache_Routing_Table`:哈希键查询热节点
6. **[[distributed-optimistic-locking|Distributed Optimistic Locking]]** — Redis WATCH + 版本号防并发分叉
7. **[[bypass-network-handle-distribution|Bypass Handle Distribution]]** — 应用层传 8 字节句柄,物理层 RDMA 搬数据
8. **[[context-pruning|Context Pruning]]** — 网络分区时的紧急 8k Token 剪枝降级
9. **[[cache-cold-start|Cache Cold-Start]]** — 新节点无前缀缓存时的秒级重算困境
10. **[[trading-lifecycle-driven-eviction|Trading-Lifecycle Eviction]]** — 缓存 TTL 与交易生命周期对齐
---
## 🔗 概念网络
**核心链**: `distributed-prompt-caching``global-context-hash-tree``distributed-cache-routing``active-cache-warmup`
**优化-降级对偶**: `active-cache-warmup`/`shadow-calling` (正常路径) ↔ `context-pruning` (故障路径)
**数据-元数据分离**: `bypass-network-handle-distribution` 体现了分布式系统设计的核心智慧——在应用层传递极简句柄,在物理层旁路搬运大数据
## 📚 Wiki 集成
- **新增页面**: 12 个1 raw + 1 article + 10 概念)
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 457 → 512 页(+55
---
## 💡 关键洞察
**1. "空间确定性换取时间确定性"**:这是本文最精炼的设计哲学。通过高带宽内网的精确状态路由(空间代价),消除 LLM 的秒级重算延迟(时间收益)。这个 trade-off 在高频交易领域是绝对值得的——毫秒级延迟意味着交易信号的生与死。
**2. 分布式系统设计的层层递进**从问题Cold Start→ 标识Hash Tree→ 路由Redis→ 优化Shadow Calling→ 一致性Optimistic Locking→ 降级Pruning展现了完整的分布式系统设计方法论。这个架构模板可以直接迁移到任何需要跨机 LLM 上下文共享的场景。
**3. 旁路架构的普适性**Handle Distribution 模式8 字节句柄 + RDMA 数据搬运)不仅适用于量化交易,对任何需要 Agent 协作处理大型数据块的分布式 AI 系统都有借鉴意义。

View File

@@ -0,0 +1,46 @@
---
title: "KORE Review"
type: review
date: 2026-05-21
paper: "[[kore-knowledge-injection]]"
---
# KORE Review — 知识导向控制的知识注入
📌 **基本信息**
- 论文KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Controls
- 作者Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
- 会议ICML 2026 | arXiv: 2510.19316
- 添加时间2026-05-21
🎯 **核心概念**
1. **KORE-AUGMENTATION** — 知识导向增强:将单个知识项自动转化为结构化"知识树"(主干:多轮对话 + 分支:指令任务),实现从数据记忆到知识内化的跨越
2. **KORE-CONSTRAINT** — 知识导向约束:在激活协方差矩阵的零空间中初始化 LoRA adapter冻结 A 仅微调 B确保 BAC≈0 —— 新知识不干扰旧知识
3. **知识树** — 多层次结构化知识表示,主干提供深度理解,分支提供多角度视角
4. **零空间投影** — 线性代数在持续学习中的优雅应用:在"空白区域"写入新知识
5. **HARS** — 调和适应保留评分,将适应与保留统一为单一指标
6. **协方差矩阵知识存储** — 验证了多模态知识可以被激活协方差矩阵有效捕获
🔗 **概念网络**
- **核心三角**KORE-AUGMENTATION ↔ KORE-CONSTRAINT ↔ 知识树
- **数学基础链**:协方差矩阵 → SVD → 零空间 → 投影 → LoRA 初始化
- **与前置工作连接**KORE 是 MMEVOKE 的解决方案 —— 使用 EVOKE 基准评估,超越了 MMEVOKE 论文中测试的所有 baseline
- **连接已有概念**[[evolving-knowledge-injection]], [[knowledge-adaptation]], [[knowledge-retention]], [[capability-degradation]], [[mme-voke]], [[data-replay]], [[moe-lora]]
- **断链修复**:创建了 4 个占位概念knowledge-internalization, structured-knowledge, null-space, covariance-matrix
📚 **Wiki 集成**
- 新增页面11 个1 论文 + 6 核心概念 + 4 占位概念)
- 核心概念平均 5 个链接
- 网络完整性100% 无断链
- 总规模361 → 372 页
💡 **关键洞察**
1. **结构化增强 > 离散增强**:一般的 data augmentation 只生成孤立的表面变体KORE 构建了连贯的知识树,实现了质的飞跃。这印证了之前 MMEVOKE 论文的发现knowledge-agnostic 增强有害knowledge-aware 增强有效 —— KORE 进一步证明了 structured knowledge-aware 才是最优路径。
2. **零空间是持续学习的"免费午餐"**:协方差矩阵的零空间提供了天然的参数隔离机制 —— 无需存储旧数据vs Replay无需修改架构vs MoE只需一次 SVD 分解即可实现精确的知识保护。这是一个优雅的线性代数解决方案。
3. **MMEVOKE → KORE 形成了完整的研究弧**:前者定义了问题和基准,后者提供了解决方案。两篇论文合在一起,构成了多模态进化知识注入领域的奠基性工作。

View File

@@ -0,0 +1,54 @@
---
title: "Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent"
created: 2026-05-29
type: review
paper: "lou-autoharness-2026"
arxiv: "2603.03329"
---
# 📌 Review: AutoHarness
**论文**: AutoHarness: improving LLM agents by automatically synthesizing a code harness
**作者**: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy
**机构**: Google DeepMind
**arXiv**: 2603.03329 | **领域**: cs.CL | **时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[autoharness|AutoHarness]]** — LLM 自动合成为自己服务的代码 harness消除 Agent 的非法动作
2. **[[code-as-harness|Code as Harness]]** — LLM + auto-generated plumbing 的框架哲学:不是让模型完美,而是让它可以被代码约束
3. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]** — LLM 提议动作 → 代码验证合法性 → 非法则重试的 rejection sampling 模式
4. **[[harness-as-policy|Harness-as-Policy]]** — 代码直接决策,推理时零 LLM 调用:小模型 Flash 训练出的 policy 超越 GPT-5.2-High
5. **[[thompson-sampling-code-search|Thompson Sampling Code Search]]** — 在代码假设树中平衡探索与利用的搜索算法
6. **[[iterative-code-refinement|Iterative Code Refinement]]** — LLM 作为 gradient-free optimizer基于环境 feedback 反复改进代码
7. **[[action-applicability|Action Applicability]]** — AI Agent 在给定状态下判定动作合法性的基本问题
---
## 🔗 概念网络
**核心链**: `autoharness``code-as-harness``harness-as-action-verifier``iterative-code-refinement``thompson-sampling-code-search`
**终极形态**: `harness-as-policy` — 从 LLM+harness 到纯代码策略,完全消除推理时 LLM 依赖
**问题→解**: `action-applicability``code-as-harness`
---
## 📚 Wiki 集成
- **新增页面**: 9 个1 论文 + 1 raw + 7 概念)
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 512 → 520 页
---
## 💡 关键洞察
**1. "小模型 + 代码外壳 > 大模型裸奔"**这是本文最反直觉的结果。Gemini-2.5-Flash小模型加上自己生成的代码 harness不仅在合法性上完胜在最终 reward 上也超越了 Gemini-2.5-Pro 甚至 GPT-5.2-High。这说明 LLM 能力的瓶颈往往不在"智能"本身,而在与结构化环境的接口可靠性。
**2. 从 rejection sampling 到 code-as-policy 的连续谱**:论文优雅地展示了 harness 的三个抽象层级——从最保守的 verifierLLM 仍负责决策)到最激进的 policy代码全权决策。这个连续谱为不同场景提供了灵活的部署选择。
**3. 递归自我改进的潜力**:论文展望了将 domain-specific harness 蒸馏回 base LLM 的未来方向——如果 harness 学习到的"合法性直觉"能被吸收进 LLM 本身,整个系统就实现了递归自我改进。这与 [[hyperagents]] 中的自我修改框架形成有趣的呼应。

View File

@@ -0,0 +1,54 @@
---
title: "Review: Model与Harness的关系演进"
created: 2026-05-29
type: review
article: "lyu-model-harness-evolution-2026"
source: "微信公众号"
---
# 📌 Review: Model与Harness的关系演进
**文章**: Model与Harness的关系演进从AutoHarness到Heuristic Learning
**作者**: 吕明
**来源**: 微信公众号 | **时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[model-harness-relationship|Model-Harness Relationship]]** — 从主从到融合的动态演进:策略算法与工程约束的边界正在消失
2. **[[harness-engineering|Harness Engineering]]** — 系统性地为 LLM Agent 构建约束层的新工程学科
3. **[[heuristic-learning|Heuristic Learning]]** — 替代梯度下降的新学习范式:以 Agent 整体为进化主体
4. **[[strategy-engineering-unification|Strategy-Engineering Unification]]** — coding tokenlized 空间下策略与工程的统一融合
5. **[[compiled-ai-paradigm|Compiled AI Paradigm]]** — 编译阶段生成代码,推理阶段零 LLM 调用
6. **[[generative-general-unification|Generative-General-Unification]]** — GenAI 区别于历史 AI 浪潮的三支柱框架
---
## 🔗 概念网络
**核心链**: `model-harness-relationship``harness-engineering``strategy-engineering-unification``compiled-ai-paradigm`
**范式层**: `heuristic-learning` — 将上述工程实践上升为通用学习范式
**历史定位**: `generative-general-unification` — 为整个 GenAI 时代提供历史坐标系
**与已有 wiki 的深度连接**: 本文是 [[autoharness|AutoHarness]] 论文的**思想层解读**——不是重复介绍方法,而是将其置于 Model-Harness 关系演进的大框架中审视
---
## 📚 Wiki 集成
- **新增页面**: 9 个1 raw + 1 article + 6 概念 + 1 review
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 520 → 527 页
---
## 💡 关键洞察
**1. "世界的本质是泛化策略 + 抽象约束"**:这是本文最深刻的哲学命题。如果将数学视为"公理(约束)+ 推导(策略)"的系统,那么 GenAI 的 Model-Harness 融合正是这一世界观的工程化表达。Harness 不是 Model 的附属品——它是与策略同等重要的**第一性组件**。
**2. 从论文到思想体系的升维**:本文最独特的价值在于它**不做复读机**——它没有停留在介绍 AutoHarness 的三种模式,而是从第一性原理出发,构建了 GenAI 区别于前几次 AI 浪潮的三支柱分析框架(生成式·通用性·统一性),并将 Heuristic Learning 与 AutoHarness 连接成一条统一的演进脉络。
**3. 编译型 AI 的产业意义**Code-as-Policy 不只是学术 demo——它指向一种全新的 AI 部署模式:训练用 GPU推理用 CPU成本从 $640 降至 $0。这对 ToB 交付和边缘部署的冲击是根本性的。

View File

@@ -0,0 +1,52 @@
---
title: "Review: SkillOpt深度解读 — 自进化Agent的'反向传播'"
created: 2026-05-29
type: review
article: "lyu-skillopt-deep-dive-2026"
source: "微信公众号"
---
# 📌 Review: SkillOpt深度解读
**文章**: SkillOpt深度解读自进化Agent技能的"反向传播"与工程化Continued Evolve
**作者**: 吕明 | **字数**: ~1.2万字
**来源**: 微信公众号 | **时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[text-vs-weight-optimization|Text vs Weight Optimization]]** — 文本空间优化与权重空间梯度下降的三个根本差异:梯度本质(局部 vs 全局因果)、验证机制(解析链式 vs 经验主义)、度量结构(连续 vs 无天然度量)
2. **[[controlled-autonomy|Controlled Autonomy]]** — "受控的自主性":人类立法(验证集+约束、Optimizer 执行、Gate 司法
3. **[[skill-data-flywheel|Skill Data Flywheel]]** — Skill 进化轨迹反哺模型训练的正向飞轮
4. **[[skill-ecosystem|Skill Ecosystem]]** — 从"Agent Skill App Store"到企业私域沉淀
5. **[[dual-layer-rl|Dual-Layer RL]]** — 内层 Agent RL + 外层 Optimizer RL = Learning to Learn
---
## 🔗 概念网络
**思辨层**: `text-vs-weight-optimization` — 为 SkillOpt 的"文本梯度"类比提供严谨的数学-哲学根基
**工程层**: `controlled-autonomy``skill-data-flywheel``dual-layer-rl``skill-ecosystem`
**与已有 wiki 的深层连接**:
-`model-harness-relationship` (吕明前文) 形成精确共振
-`text-space-optimizer` / `skillopt` (原论文) 提供哲学深度
- 连接 `heuristic-learning` → 元优化的更广义框架
---
## 📚 Wiki 集成
- **新增页面**: 8 个1 raw + 1 article + 5 概念 + 1 review
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 535 → 541 页
---
## 💡 关键洞察
**1. "启示性的类比"而非"结构性的同构"**:这是本文最深刻的智力贡献。吕明没有满足于"SkillOpt = 文本空间的梯度下降"这个表层类比,而是深入到优化动力学的本质——指出了连续空间(可微、解析链式、向量度量)与离散文本空间(不可微、经验验证、无天然度量)之间的根本鸿沟。这种"知其所以然"的剖析,比论文本身提供了更多的理解深度。
**2. 从技术到哲学的升维**:将梯度下降映射为"英国经验主义"(被动被数据塑形)、将 SkillOpt 映射为"大陆理性主义"(主动理性演绎)——这是罕见的技术文章能做到的哲学抽象。它让读者不仅理解了 SkillOpt 怎么工作,更理解了它**为什么是这个时代需要的东西**。

View File

@@ -0,0 +1,52 @@
---
title: "Review: Token Superposition Training"
created: 2026-05-29
type: review
paper: "peng-tst-2026"
arxiv: "2605.06546"
---
# 📌 Review: Token Superposition Training
**论文**: Efficient Pre-Training with Token Superposition
**作者**: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research)
**arXiv**: 2605.06546 | **领域**: cs.CL | **评审时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[token-superposition-training|Token Superposition Training (TST)]]** — 两阶段预训练方法:叠加阶段用 s-token 提高吞吐量,恢复阶段回归标准训练。不修改模型架构,纯 drop-in
2. **[[multi-hot-cross-entropy|Multi-hot Cross-Entropy (MCE)]]** — 预测下一个 bag 全部 token 的损失函数,是标准 CE 的多标签推广
3. **[[input-superposition|Input Superposition]]** — 将连续 s 个 token embedding 取平均形成 s-token序列长度缩短 s×
4. **[[representation-alignment|Representation Alignment]]** — 两阶段间必须共享 embedding 和 LM head重新初始化会完全消除增益
5. **[[coarse-to-fine-granularity|Coarse-to-Fine Granularity]]** — 跨模态设计原则:先用粗粒度高吞吐量表示训练,后切换到细粒度
6. **[[throughput-hypothesis|Throughput Hypothesis]]** — coarser token → 更高训练数据吞吐 → 更好性能
7. **[[two-phase-pretraining|Two-Phase Pre-Training]]** — 先用替代目标预训练再回归标准的通用范式
8. **[[s-token|S-Token]]** — 叠加后形成的 latent representation
---
## 🔗 概念网络
**核心连接**: `token-superposition-training``input-superposition``multi-hot-cross-entropy``two-phase-pretraining`
**设计原则层**: `coarse-to-fine-granularity``throughput-hypothesis``representation-alignment`
**扩展连接**: 与 wiki 内已有概念(如 multi-token-prediction、subword-tokenization、mixture-of-experts构成预训练效率优化的概念集群
---
## 📚 Wiki 集成
- **新增页面**: 10 个1 论文 + 1 raw 存档 + 8 概念)
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 447 → 456 页
---
## 💡 关键洞察
**1. "不修改"的力量**TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则**训练时的表示粒度和推理时的架构可以解耦**。
**2. 表示对齐的隐藏重要性**:通过对照实验(随机重新初始化 embedding → 所有增益消失),论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键,更是对任何多阶段训练范式的一般性启示。

View File

@@ -0,0 +1,53 @@
---
title: "Review: Pre-train Space Reinforcement Learning"
paper: "pre-train-space-reinforcement-learning"
arxiv: "2604.14142"
date: "2026-05-18"
type: review
---
# Review: Pre-train Space Reinforcement Learning
📌 **基本信息**
- 论文标题:*Pre-train Space Reinforcement Learning: From P(y|x) to P(y)*
- 作者Yuqiao Tan, Minzheng Wang (CASIA/UCAS), Bo Liu, Zichen Liu (NUS), Tian Liang (Tencent AI Lab), Shizhu He†, Jun Zhao, Kang Liu (CASIA)
- 领域LLM Reasoning, Reinforcement Learning, Pre-training
- arXiv: [2604.14142](https://arxiv.org/abs/2604.14142) | 2026-04-15
- 添加时间2026-05-18
🎯 **核心概念**
1. **PreRL预训练空间 RL** — 将 RL 优化目标从 P(y|x) 移至 P(y),梯度更新时遮蔽输入条件 x。基于梯度对齐⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0证明为有效代理
2. **NSR负样本强化** — 在预训练空间中剪枝错误推理路径transition thoughts 增长 14.89×reflection thoughts 增长 6.54×
3. **DSRL双空间 RL** — 策略转生:先 NSR-PreRL 扩展推理视野10-25 步),再切换标准 RL 进行细粒度优化
4. **PSR 退化** — 正样本强化在预训练空间中导致 on-policy collapse需 out-of-distribution 专家示范
5. **内生推理** — NSR-PreRL 解锁模型预训练中已编码但被条件约束抑制的推理能力
🔗 **概念网络**
核心连接:
```
PreRL ←→ Post-train Space RL ←→ DSRL
↓ ↓ ↓
梯度对齐 P(y|x) 瓶颈 策略转生
↓ ↓
共享参数影响 NSR → PSR
内生推理 ← on-policy collapse
```
- 核心概念11 个
- 链接完整性100% 无断链
📚 **Wiki 集成**
- 新增页面13 个1 论文 + 1 raw + 11 概念)
- 总规模335 → 347 页
- 网络完整性100%
💡 **关键洞察**
1. **范式转折**:从"条件空间锐化分布"到"边际空间剪枝错误路径"——NSR 证明删除比添加更有效,这是 RL for LLM 中一个重要但被忽视的不对称性
2. **预训练空间的"负优化"优势**PSR正样本强化在预训练空间中是退化的而 NSR 极有效——这种不对称性暗示预训练空间的优化本质上是"约束释放"而非"能力注入"
3. **双空间协同**DSRL 的优雅之处在于它认识到不同训练阶段需要不同的"优化空间"——初期在 P(y) 中消除根本性错误(全局剪枝),后期在 P(y|x) 中精调条件策略(局部优化),这类似于从 exploration 到 exploitation 的自然过渡

View File

@@ -0,0 +1,80 @@
---
title: "ToolCUA Review: GUI-Tool路径编排的概念网络分析"
created: 2026-05-31
type: review
source: https://arxiv.org/abs/2605.12481
---
# 📌 基本信息
- **论文标题**: ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
- **作者**: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
- **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
- **领域**: Computer Use Agents, Reinforcement Learning, GUI-Tool Orchestration
- **arXiv**: 2605.12481 (2026-05-12)
- **添加时间**: 2026-05-31
# 🎯 核心概念
1. **[[computer-use-agents|Computer Use Agents (CUAs)]]** — 在桌面环境中通过感知截图、执行原子操作完成复杂任务的 AI Agent
2. **[[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]]** — GUI 原子操作与高层工具调用的统一动作空间;直接暴露反而降低性能
3. **[[optimal-gui-tool-path-selection|最优 GUI-Tool 路径选择]]** — 动态决定何时 GUI、何时工具的轨迹级策略学习问题
4. **[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]]** — 从已有纯 GUI 轨迹合成大规模混合数据的四步管线
5. **[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]]** — Warmup SFT + 关键切换点单轮 RL 的两阶段训练
6. **[[tool-efficient-path-reward|工具高效路径奖励]]** — $R_{\text{tool}}$(适当性)+ $R_{\text{length}}$(效率)的轨迹级奖励设计
7. **[[osworld-mcp|OSWorld-MCP]]** — 支持 150+工具、333个任务、混合动作空间的 CUA 评估基准
8. **[[next-state-grounding|下一状态锚定]]** — 将合成工具步骤锚定到原始 GUI 截图状态的验证机制
# 🔗 概念网络
## 核心连接(方法链条)
```
interleaved-gui-tool-trajectory-scaling
→ tool-bootstrapped-rft
→ tool-efficient-path-reward
→ online-agentic-rl (via grpo)
```
## 问题-解法映射
```
gui-tool-hybrid-action-space
→ optimal-gui-tool-path-selection (问题形式化)
→ toolcua-optimal-gui-tool-orchestration (解法)
```
## 奖励设计分解
```
tool-efficient-path-reward
├── R_tool (工具适当性) → 解耦工具使用与任务成功
└── R_length (路径效率) → 长短轨迹的差异化激励
```
## 扩展连接
- **[[grpo]]**: 单轮 RL 和在线 RL 阶段的优化算法
- **[[agent-computer-interface]]**: CUA 的交互接口
- **[[agentic-systems]]**: CUA 作为 Agentic System 在桌面自动化领域的实例
- **[[computer-use-agents]]**: 连接回更大的 CUA 生态系统
# 📊 实验洞察
| 现象 | 数据 | 启示 |
|------|------|------|
| 混合空间反降性能 | EvoCUA-32B: 52.6%→40.5% (-12.1%) | 暴露两种动作空间≠掌握两种动作空间 |
| 合成数据有效性 | 无真实工具轨迹收集,纯合成 → SOTA | 数据质量 > 数据来源 |
| 跨平台泛化 | 新 Linux 任务 23.9%,新 Windows 应用 33.8% | 混合动作空间训练产生可迁移的策略 |
# 📚 Wiki 集成
- **新增页面**: 10 个1 raw + 1 paper + 8 concepts
- **链接密度**: 核心概念平均 6+ 个交叉引用
- **网络完整**: ✅ 0 断链
- **总规模**: 从 564 → 527 页(重建后,消除历史重复条目)
- **概念连接**: 8 个新概念全部链接到已有 [[grpo]]、[[agent-computer-interface]]、[[agentic-systems]]
# 💡 关键洞察
1. **"工具悖论"**:论文最反直觉的发现——给 Agent 更多能力(工具调用)反而降低性能,除非有专门的训练策略。这类似于"选择悖论"在 AI 行动空间的体现。不是能力越多越好,而是需要**学习何时使用哪种能力**。
2. **数据管线的优雅性**"从已有 GUI 轨迹→MLLM 合成工具→生成交错数据"的管线极为优雅,因为它绕过了 CUA 领域最大的瓶颈——真实工具轨迹的数据稀缺。这是一个经典的 **repurpose** 策略:让已有资源发挥新的训练价值。
3. **轨迹级 vs 步骤级优化**$R_{\text{tool}} + R_{\text{length}}$ 组合是方法论上的关键贡献。单独的任务成功奖励无法区分"12步 GUI 完成"和"3步1次工具+2步 GUI完成",而路径效率奖励弥补了这一盲区。

View File

@@ -0,0 +1,48 @@
---
title: "Review: UltraData — 大模型数据分级治理的开源实践"
created: 2026-05-29
type: review
article: "ultradata-l3-open-source-2026"
source: "Datawhale (微信公众号)"
---
# 📌 Review: UltraData 数据分级治理
**文章**: UltraData面壁智能L3数据开源与L0-L4数据分级治理体系
**作者**: 面壁智能团队 | **来源**: Datawhale
**时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[data-hierarchical-governance|L0-L4 分级治理]]** — 五级数据体系:原始→过滤→精筛→合成→编排,按阶段匹配
2. **[[ultradata|UltraData]]** — 面壁智能+清华+OpenBMB 的开源数据系统600B合成+千万SFT
3. **[[synthetic-data-qa-generation|合成Q&A生成]]** — 将"可读"网页转化为"好学"结构化数据
4. **[[stage-matched-data-config|分阶段数据配置]]** — 退火用L3推理注入SFT用深思考对齐
5. **[[deep-thinking-sft|深思考SFT]]** — 含完整思维链标注,同时训练推理与效率
6. **[[data-quality-over-scale|质量重于规模]]** — 行业下半场1B登顶的秘密是数据而非参数
---
## 🔗 概念网络
**核心链**: `data-hierarchical-governance``stage-matched-data-config``synthetic-data-qa-generation``deep-thinking-sft`
**行业转向**: `data-quality-over-scale` — 连接今日已集成的 LLM 训练效率方法TST、Skill as External State 等)
---
## 📚 Wiki 集成
- **新增页面**: 9 个1 raw + 1 article + 6 概念 + 1 review
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 541 → 547 页
---
## 💡 关键洞察
**1. "数据治理"从口号变成了可度量、可复现的工程路线**L0-L4 分级体系的核心洞见是——不同训练阶段需要不同质量的数据。前期用廉价L1广撒网后期用昂贵L3激发推理。这不是直觉是经过 MiniCPM5-1B 全链路验证的工程方法论。
**2. 数据配方的公开化是行业转折点**:当 UltraData 将 L3 合成数据和 SFT 数据全部开源时,它改变的不只是面壁智能一家——它为整个社区提供了可审计、可复现的数据工程范式,让"数据精细化"从少数团队的秘方变成了公共资产。

View File

@@ -0,0 +1,52 @@
---
title: "Review: SkillOpt — Agent Skill 的文本空间优化器"
created: 2026-05-29
type: review
paper: "yang-skillopt-2026"
arxiv: "2605.23904"
---
# 📌 Review: SkillOpt
**论文**: SkillOpt: Executive Strategy for Self-Evolving Agent Skills
**作者**: Yifan Yang, Ziyang Gong, Weiquan Huang et al. (15 authors)
**机构**: Microsoft, SJTU, Tongji, Fudan
**arXiv**: 2605.23904 | **领域**: cs.AI | **时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[skillopt|SkillOpt]]** — 首个系统性 Agent Skill 文本空间优化器52/52 best or tied
2. **[[text-space-optimizer|Text-Space Optimizer]]** — 将 skill 训练建模为文本空间优化,与权重空间形成精确类比
3. **[[textual-learning-rate|Textual Learning Rate]]** — 编辑预算 L_t 控制优化步长
4. **[[held-out-validation-gate|Held-Out Validation Gate]]** — 候选编辑仅在留出集上改善时才被接受
5. **[[rejected-edit-buffer|Rejected-Edit Buffer]]** — 失败编辑的负反馈信号epoch-local
6. **[[slow-meta-update|Slow/Meta Update]]** — Momentum 在文本空间的对应:跨 epoch 持久规律
7. **[[skill-as-external-state|Skill as External State]]** — 适应不一定要改权重skill 就是可训练的外部状态
---
## 🔗 概念网络
**核心链**: `skillopt``text-space-optimizer``textual-learning-rate``held-out-validation-gate``slow-meta-update`
**反馈闭环**: `held-out-validation-gate``rejected-edit-buffer` → optimizer → `held-out-validation-gate`
**上层哲学**: `skill-as-external-state` → 连接 `model-harness-relationship` + `heuristic-learning`
---
## 📚 Wiki 集成
- **新增页面**: 10 个1 raw + 1 paper + 7 概念 + 1 review
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 527 → 535 页
---
## 💡 关键洞察
**1. "类比是操作性的,不是装饰性的"**SkillOpt 最精妙之处是它对深度学习优化器的类比**每个组件都有操作性对应**——learning rate → edit budget、validation → held-out gate、momentum → slow update。这不是比喻是一个完整翻译过来的优化框架。这在 AI 历史上可能是第一次有人把"优化自然语言 artifact"这件事做得如此系统。
**2. 从"改参数"到"改文档"的范式转移**SkillOpt 明确指出 adaptation ≠ weight update。Skill 作为可训练外部状态,与今日已在推进的 `model-harness-relationship``heuristic-learning``compiled-ai-paradigm` 形成了一条完整的叙事线——AI 的适应正在从模型内部权重迁移到模型外部skill/harness/code这是一个与本次 GenAI 浪潮本质特征(生成式·通用性·统一性)高度一致的深层趋势。

View File

@@ -0,0 +1,50 @@
---
title: "Review: Agent Symbolic Learning — 符号学习驱动的自进化Agent"
created: 2026-05-29
type: review
paper: "zhou-agent-symbolic-learning-2024"
arxiv: "2406.18532"
---
# 📌 Review: Agent Symbolic Learning
**论文**: Symbolic Learning Enables Self-Evolving Agents
**作者**: Wangchunshu Zhou et al. (AIWaves, 2024)
**arXiv**: 2406.18532 | **领域**: cs.CL | **时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[agent-symbolic-learning|Agent Symbolic Learning]]** — 模仿连接主义学习的 Agent 优化框架BP + GD 的符号化对应
2. **[[symbolic-network|Symbolic Network]]** — Agent Pipeline 作为符号网络:节点=层Prompts/Tools=权重
3. **[[language-gradient|Language Gradient]]** — 自然语言 simulacrum 的梯度:全局因果推理而非局部一阶
4. **[[symbolic-backpropagation|Symbolic Back-Propagation]]** — 从末节点向前传播 Language Loss 到所有节点
5. **[[self-evolving-agents|Self-Evolving Agents]]** — 部署后从经验中自主学习,无需 ground-truth
6. **[[language-loss|Language Loss]]** — 用自然语言评估执行结果的损失函数
---
## 🔗 概念网络
**核心链**: `agent-symbolic-learning``symbolic-network``language-loss``symbolic-backpropagation``language-gradient`
**自进化线**: `self-evolving-agents` — 连接 `skillopt``heuristic-learning``controlled-autonomy`
---
## 📚 Wiki 集成
- **新增页面**: 9 个1 raw + 1 paper + 6 概念 + 1 review
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 548 → 555 页
---
## 💡 关键洞察
**1. 填补了今日集成中的"历史空白"**:今天集成的 SkillOpt (2026)、Heuristic Learning、吕明的文本vs权重优化分析——它们的共同思想源头都可以追溯到这篇 2024 年的 Agent Symbolic Learning。它是最早明确提出"模仿 BP+GD 来优化 Agent 符号组件"的工作SkillOpt 的"文本空间优化器"类比和 Heuristic Learning 的"替代梯度下降"都可视为其后续发展。
**2. Holistic Joint Optimization 的远见**:论文指出 DSPy 等方法"只优化单个 prompt/tool"会导致局部最优——这类似于早期神经网络逐层训练layer-wise pretraining的困境。Agent Symbolic Learning 的 Holistic 联合优化呼应了神经网络端到端训练的演进逻辑,在当时是非常有远见的设计选择。
**3. 从 engineering-centric 到 data-centric 的范式宣言**这篇论文不仅提出方法更提出了一个根本性问题——Agent 开发应该像训练神经网络一样从数据中学习,而不是靠人类工程手工调优。这个 vision 在两年后的 SkillOpt 和 Heuristic Learning 中得到了工程化的验证。