20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/reviews/agent-harness-engineering-review-20260523.md
+++ b/reviews/agent-harness-engineering-review-20260523.md
@@ -0,0 +1,54 @@
+---
+title: "Review: Agent Harness Engineering Survey"
+created: 2026-05-23
+updated: 2026-05-23
+type: review
+tags: [review, agent, harness, survey]
+sources: [raw/papers/agent-harness-engineering-survey-2026.md]
+---
+
+# 📌 基本信息
+
+- **论文标题**: Agent Harness Engineering: A Survey
+- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等（CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon）
+- **投稿**: TMLR 2026（Under Review）
+- **项目页**: Awesome-Agent-Harness
+- **添加时间**: 2026-05-23
+- **规模**: 51 页, 170+ 开源项目映射
+
+# 🎯 核心概念
+
+1. **[[agent-harness-engineering]]** — Agent 执行骨架工程：包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
+2. **[[etclovg-taxonomy]]** — ETCLOVG 七层分类法：Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance，将 O 和 G 提升为独立架构层
+3. **[[binding-constraint-thesis]]** — 约束瓶颈论：基础设施质量（而非模型能力）设定了 Agent 可靠性的天花板
+4. **[[harness-coupling-problem]]** — Harness 各层高度耦合，局部优化可能破坏全局——应作为**控制系统**来测试
+5. **[[cost-quality-speed-trilemma]]** — 成本、质量、速度三者不可兼得的三方张力
+6. **[[capability-control-tradeoff]]** — 每次 Harness 能力扩展都增大安全和控制问题
+7. **[[prompt-to-harness-evolution]]** — 三阶段工程演进：Prompt Engineering → Context Engineering → Harness Engineering
+8. **[[trace-native-evaluation]]** — 以 Agent 踪迹而非最终分数为中心的评估范式
+9. **[[practitioner-research-gap]]** — 从业者-研究鸿沟：Harness 工程价值已被实践但缺乏学术形式化
+10. **[[three-engineering-phases]]** — Prompt → Context → Harness 三阶段视野扩展演进
+11. **[[context-drift]]** — 上下文漂移：U 形注意力 + Context Rot + 工具累积的三种退化
+12. **[[agent-sandbox]]** — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
+13. **[[multi-agent-orchestration]]** — 层级、团队、工作流、Fan-out、图组合五种编排模式
+
+# 🔗 概念网络
+
+- **核心连接**: [[binding-constraint-thesis]] ↔ [[harness-coupling-problem]] ↔ [[cost-quality-speed-trilemma]]
+- **七层体系**: [[execution-environment]] → [[tool-interface]] → [[context-management]] → [[lifecycle-orchestration]] → [[agent-observability]] → [[agent-verification]] → [[agent-governance]]
+- **开放问题链**: [[hardening-execution-environments]] → [[reliable-state-long-running-agents]] → [[trace-native-evaluation]] → [[standard-agent-handoffs]] → [[adaptive-harness-simplification]]
+- **扩展网络**: 连接了 29 个概念页，通过 O/V/G 独立层和 [[practitioner-research-gap]]、[[agent-frameworks-to-platforms]] 深入交叉
+- **修复断链**: （补充集成）修复了 review 中 3 个中文 wikilink 错误
+
+# 📚 Wiki 集成
+
+- **新增页面**: 30 个（1 论文 + 29 概念）含 2026-05-30 补充的 8 个概念
+- **链接密度**: 每概念页平均 ~5 个交叉引用
+- **论文页链接**: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念
+- **总规模**: 373 → 409 页（首次）+ → 563 页（补充集成 + 同期其他论文）
+
+# 💡 关键洞察
+
+1. **从组件思维到系统思维**: 这篇综述最有价值的贡献不是分类本身，而是**跨层综合**——Harness 耦合问题表明，prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优，必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。
+
+2. **从模型中心到基础设施中心**: Bölük 的实验（仅改变 harness 格式，15 个 LLM 同时提升）是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论，并提供了三个维度的证据链（演进、跨层综合、开放问题），使该论点从一个直觉变成一个可操作的工程框架。
--- a/reviews/distributed-agent-cache-sync-review.md
+++ b/reviews/distributed-agent-cache-sync-review.md
@@ -0,0 +1,55 @@
+---
+title: "Review: 分布式Agent缓存同步"
+created: 2026-05-29
+type: review
+article: "distributed-agent-cache-sync-2026"
+source: "微信公众号"
+---
+
+# 📌 Review: 分布式Agent缓存同步
+
+**文章**: 分布式Agent缓存同步：从单机到多机的Prompt Caching架构升级
+**来源**: 微信公众号 (LLM + 量化交易系列)
+**URL**: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw
+**时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[distributed-prompt-caching|Distributed Prompt Caching]]** — 将单机前缀缓存升级为多机分布式同步体系
+2. **[[global-context-hash-tree|Global Context Hash Tree]]** — SHA-256 四层复合键作为分布式会话 UID
+3. **[[active-cache-warmup|Active Cache Warm-up]]** — 通过 Shadow Calling 预测性预填充远端缓存
+4. **[[shadow-calling|Shadow Calling]]** — `max_tokens=1` 的特殊 API 调用：只消化前缀不生成输出
+5. **[[distributed-cache-routing|Distributed Cache Routing]]** — Redis `Cache_Routing_Table`：哈希键查询热节点
+6. **[[distributed-optimistic-locking|Distributed Optimistic Locking]]** — Redis WATCH + 版本号防并发分叉
+7. **[[bypass-network-handle-distribution|Bypass Handle Distribution]]** — 应用层传 8 字节句柄，物理层 RDMA 搬数据
+8. **[[context-pruning|Context Pruning]]** — 网络分区时的紧急 8k Token 剪枝降级
+9. **[[cache-cold-start|Cache Cold-Start]]** — 新节点无前缀缓存时的秒级重算困境
+10. **[[trading-lifecycle-driven-eviction|Trading-Lifecycle Eviction]]** — 缓存 TTL 与交易生命周期对齐
+
+---
+
+## 🔗 概念网络
+
+**核心链**: `distributed-prompt-caching` ↔ `global-context-hash-tree` ↔ `distributed-cache-routing` ↔ `active-cache-warmup`
+
+**优化-降级对偶**: `active-cache-warmup`/`shadow-calling` (正常路径) ↔ `context-pruning` (故障路径)
+
+**数据-元数据分离**: `bypass-network-handle-distribution` 体现了分布式系统设计的核心智慧——在应用层传递极简句柄，在物理层旁路搬运大数据
+
+## 📚 Wiki 集成
+
+- **新增页面**: 12 个（1 raw + 1 article + 10 概念）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 457 → 512 页（+55）
+
+---
+
+## 💡 关键洞察
+
+**1. "空间确定性换取时间确定性"**：这是本文最精炼的设计哲学。通过高带宽内网的精确状态路由（空间代价），消除 LLM 的秒级重算延迟（时间收益）。这个 trade-off 在高频交易领域是绝对值得的——毫秒级延迟意味着交易信号的生与死。
+
+**2. 分布式系统设计的层层递进**：从问题（Cold Start）→ 标识（Hash Tree）→ 路由（Redis）→ 优化（Shadow Calling）→ 一致性（Optimistic Locking）→ 降级（Pruning），展现了完整的分布式系统设计方法论。这个架构模板可以直接迁移到任何需要跨机 LLM 上下文共享的场景。
+
+**3. 旁路架构的普适性**：Handle Distribution 模式（8 字节句柄 + RDMA 数据搬运）不仅适用于量化交易，对任何需要 Agent 协作处理大型数据块的分布式 AI 系统都有借鉴意义。
--- a/reviews/kore-review-20260521.md
+++ b/reviews/kore-review-20260521.md
@@ -0,0 +1,46 @@
+---
+title: "KORE Review"
+type: review
+date: 2026-05-21
+paper: "[[kore-knowledge-injection]]"
+---
+
+# KORE Review — 知识导向控制的知识注入
+
+📌 **基本信息**
+- 论文：KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Controls
+- 作者：Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
+- 会议：ICML 2026 | arXiv: 2510.19316
+- 添加时间：2026-05-21
+
+🎯 **核心概念**
+
+1. **KORE-AUGMENTATION** — 知识导向增强：将单个知识项自动转化为结构化"知识树"（主干：多轮对话 + 分支：指令任务），实现从数据记忆到知识内化的跨越
+2. **KORE-CONSTRAINT** — 知识导向约束：在激活协方差矩阵的零空间中初始化 LoRA adapter，冻结 A 仅微调 B，确保 BAC≈0 —— 新知识不干扰旧知识
+3. **知识树** — 多层次结构化知识表示，主干提供深度理解，分支提供多角度视角
+4. **零空间投影** — 线性代数在持续学习中的优雅应用：在"空白区域"写入新知识
+5. **HARS** — 调和适应保留评分，将适应与保留统一为单一指标
+6. **协方差矩阵知识存储** — 验证了多模态知识可以被激活协方差矩阵有效捕获
+
+🔗 **概念网络**
+
+- **核心三角**：KORE-AUGMENTATION ↔ KORE-CONSTRAINT ↔ 知识树
+- **数学基础链**：协方差矩阵 → SVD → 零空间 → 投影 → LoRA 初始化
+- **与前置工作连接**：KORE 是 MMEVOKE 的解决方案 —— 使用 EVOKE 基准评估，超越了 MMEVOKE 论文中测试的所有 baseline
+- **连接已有概念**：[[evolving-knowledge-injection]], [[knowledge-adaptation]], [[knowledge-retention]], [[capability-degradation]], [[mme-voke]], [[data-replay]], [[moe-lora]]
+- **断链修复**：创建了 4 个占位概念（knowledge-internalization, structured-knowledge, null-space, covariance-matrix）
+
+📚 **Wiki 集成**
+
+- 新增页面：11 个（1 论文 + 6 核心概念 + 4 占位概念）
+- 核心概念平均 5 个链接
+- 网络完整性：100% 无断链
+- 总规模：361 → 372 页
+
+💡 **关键洞察**
+
+1. **结构化增强 > 离散增强**：一般的 data augmentation 只生成孤立的表面变体；KORE 构建了连贯的知识树，实现了质的飞跃。这印证了之前 MMEVOKE 论文的发现：knowledge-agnostic 增强有害，knowledge-aware 增强有效 —— KORE 进一步证明了 structured knowledge-aware 才是最优路径。
+
+2. **零空间是持续学习的"免费午餐"**：协方差矩阵的零空间提供了天然的参数隔离机制 —— 无需存储旧数据（vs Replay），无需修改架构（vs MoE），只需一次 SVD 分解即可实现精确的知识保护。这是一个优雅的线性代数解决方案。
+
+3. **MMEVOKE → KORE 形成了完整的研究弧**：前者定义了问题和基准，后者提供了解决方案。两篇论文合在一起，构成了多模态进化知识注入领域的奠基性工作。
--- a/reviews/lou-autoharness-review.md
+++ b/reviews/lou-autoharness-review.md
@@ -0,0 +1,54 @@
+---
+title: "Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent"
+created: 2026-05-29
+type: review
+paper: "lou-autoharness-2026"
+arxiv: "2603.03329"
+---
+
+# 📌 Review: AutoHarness
+
+**论文**: AutoHarness: improving LLM agents by automatically synthesizing a code harness
+**作者**: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy
+**机构**: Google DeepMind
+**arXiv**: 2603.03329 | **领域**: cs.CL | **时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[autoharness|AutoHarness]]** — LLM 自动合成为自己服务的代码 harness，消除 Agent 的非法动作
+2. **[[code-as-harness|Code as Harness]]** — LLM + auto-generated plumbing 的框架哲学：不是让模型完美，而是让它可以被代码约束
+3. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]** — LLM 提议动作 → 代码验证合法性 → 非法则重试的 rejection sampling 模式
+4. **[[harness-as-policy|Harness-as-Policy]]** — 代码直接决策，推理时零 LLM 调用：小模型 Flash 训练出的 policy 超越 GPT-5.2-High
+5. **[[thompson-sampling-code-search|Thompson Sampling Code Search]]** — 在代码假设树中平衡探索与利用的搜索算法
+6. **[[iterative-code-refinement|Iterative Code Refinement]]** — LLM 作为 gradient-free optimizer，基于环境 feedback 反复改进代码
+7. **[[action-applicability|Action Applicability]]** — AI Agent 在给定状态下判定动作合法性的基本问题
+
+---
+
+## 🔗 概念网络
+
+**核心链**: `autoharness` ↔ `code-as-harness` ↔ `harness-as-action-verifier` ↔ `iterative-code-refinement` ↔ `thompson-sampling-code-search`
+
+**终极形态**: `harness-as-policy` — 从 LLM+harness 到纯代码策略，完全消除推理时 LLM 依赖
+
+**问题→解**: `action-applicability` → `code-as-harness`
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 9 个（1 论文 + 1 raw + 7 概念）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 512 → 520 页
+
+---
+
+## 💡 关键洞察
+
+**1. "小模型 + 代码外壳 > 大模型裸奔"**：这是本文最反直觉的结果。Gemini-2.5-Flash（小模型）加上自己生成的代码 harness，不仅在合法性上完胜，在最终 reward 上也超越了 Gemini-2.5-Pro 甚至 GPT-5.2-High。这说明 LLM 能力的瓶颈往往不在"智能"本身，而在与结构化环境的接口可靠性。
+
+**2. 从 rejection sampling 到 code-as-policy 的连续谱**：论文优雅地展示了 harness 的三个抽象层级——从最保守的 verifier（LLM 仍负责决策）到最激进的 policy（代码全权决策）。这个连续谱为不同场景提供了灵活的部署选择。
+
+**3. 递归自我改进的潜力**：论文展望了将 domain-specific harness 蒸馏回 base LLM 的未来方向——如果 harness 学习到的"合法性直觉"能被吸收进 LLM 本身，整个系统就实现了递归自我改进。这与 [[hyperagents]] 中的自我修改框架形成有趣的呼应。
--- a/reviews/lyu-model-harness-review.md
+++ b/reviews/lyu-model-harness-review.md
@@ -0,0 +1,54 @@
+---
+title: "Review: Model与Harness的关系演进"
+created: 2026-05-29
+type: review
+article: "lyu-model-harness-evolution-2026"
+source: "微信公众号"
+---
+
+# 📌 Review: Model与Harness的关系演进
+
+**文章**: Model与Harness的关系演进：从AutoHarness到Heuristic Learning
+**作者**: 吕明
+**来源**: 微信公众号 | **时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[model-harness-relationship|Model-Harness Relationship]]** — 从主从到融合的动态演进：策略算法与工程约束的边界正在消失
+2. **[[harness-engineering|Harness Engineering]]** — 系统性地为 LLM Agent 构建约束层的新工程学科
+3. **[[heuristic-learning|Heuristic Learning]]** — 替代梯度下降的新学习范式：以 Agent 整体为进化主体
+4. **[[strategy-engineering-unification|Strategy-Engineering Unification]]** — coding tokenlized 空间下策略与工程的统一融合
+5. **[[compiled-ai-paradigm|Compiled AI Paradigm]]** — 编译阶段生成代码，推理阶段零 LLM 调用
+6. **[[generative-general-unification|Generative-General-Unification]]** — GenAI 区别于历史 AI 浪潮的三支柱框架
+
+---
+
+## 🔗 概念网络
+
+**核心链**: `model-harness-relationship` ↔ `harness-engineering` ↔ `strategy-engineering-unification` ↔ `compiled-ai-paradigm`
+
+**范式层**: `heuristic-learning` — 将上述工程实践上升为通用学习范式
+
+**历史定位**: `generative-general-unification` — 为整个 GenAI 时代提供历史坐标系
+
+**与已有 wiki 的深度连接**: 本文是 [[autoharness|AutoHarness]] 论文的**思想层解读**——不是重复介绍方法，而是将其置于 Model-Harness 关系演进的大框架中审视
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 9 个（1 raw + 1 article + 6 概念 + 1 review）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 520 → 527 页
+
+---
+
+## 💡 关键洞察
+
+**1. "世界的本质是泛化策略 + 抽象约束"**：这是本文最深刻的哲学命题。如果将数学视为"公理（约束）+ 推导（策略）"的系统，那么 GenAI 的 Model-Harness 融合正是这一世界观的工程化表达。Harness 不是 Model 的附属品——它是与策略同等重要的**第一性组件**。
+
+**2. 从论文到思想体系的升维**：本文最独特的价值在于它**不做复读机**——它没有停留在介绍 AutoHarness 的三种模式，而是从第一性原理出发，构建了 GenAI 区别于前几次 AI 浪潮的三支柱分析框架（生成式·通用性·统一性），并将 Heuristic Learning 与 AutoHarness 连接成一条统一的演进脉络。
+
+**3. 编译型 AI 的产业意义**：Code-as-Policy 不只是学术 demo——它指向一种全新的 AI 部署模式：训练用 GPU，推理用 CPU，成本从 $640 降至 $0。这对 ToB 交付和边缘部署的冲击是根本性的。
--- a/reviews/lyu-skillopt-deep-dive-review.md
+++ b/reviews/lyu-skillopt-deep-dive-review.md
@@ -0,0 +1,52 @@
+---
+title: "Review: SkillOpt深度解读 — 自进化Agent的'反向传播'"
+created: 2026-05-29
+type: review
+article: "lyu-skillopt-deep-dive-2026"
+source: "微信公众号"
+---
+
+# 📌 Review: SkillOpt深度解读
+
+**文章**: SkillOpt深度解读：自进化Agent技能的"反向传播"与工程化Continued Evolve
+**作者**: 吕明 | **字数**: ~1.2万字
+**来源**: 微信公众号 | **时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[text-vs-weight-optimization|Text vs Weight Optimization]]** — 文本空间优化与权重空间梯度下降的三个根本差异：梯度本质（局部 vs 全局因果）、验证机制（解析链式 vs 经验主义）、度量结构（连续 vs 无天然度量）
+2. **[[controlled-autonomy|Controlled Autonomy]]** — "受控的自主性"：人类立法（验证集+约束）、Optimizer 执行、Gate 司法
+3. **[[skill-data-flywheel|Skill Data Flywheel]]** — Skill 进化轨迹反哺模型训练的正向飞轮
+4. **[[skill-ecosystem|Skill Ecosystem]]** — 从"Agent Skill App Store"到企业私域沉淀
+5. **[[dual-layer-rl|Dual-Layer RL]]** — 内层 Agent RL + 外层 Optimizer RL = Learning to Learn
+
+---
+
+## 🔗 概念网络
+
+**思辨层**: `text-vs-weight-optimization` — 为 SkillOpt 的"文本梯度"类比提供严谨的数学-哲学根基
+
+**工程层**: `controlled-autonomy` ↔ `skill-data-flywheel` ↔ `dual-layer-rl` ↔ `skill-ecosystem`
+
+**与已有 wiki 的深层连接**: 
+- 与 `model-harness-relationship` (吕明前文) 形成精确共振
+- 为 `text-space-optimizer` / `skillopt` (原论文) 提供哲学深度
+- 连接 `heuristic-learning` → 元优化的更广义框架
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 8 个（1 raw + 1 article + 5 概念 + 1 review）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 535 → 541 页
+
+---
+
+## 💡 关键洞察
+
+**1. "启示性的类比"而非"结构性的同构"**：这是本文最深刻的智力贡献。吕明没有满足于"SkillOpt = 文本空间的梯度下降"这个表层类比，而是深入到优化动力学的本质——指出了连续空间（可微、解析链式、向量度量）与离散文本空间（不可微、经验验证、无天然度量）之间的根本鸿沟。这种"知其所以然"的剖析，比论文本身提供了更多的理解深度。
+
+**2. 从技术到哲学的升维**：将梯度下降映射为"英国经验主义"（被动被数据塑形）、将 SkillOpt 映射为"大陆理性主义"（主动理性演绎）——这是罕见的技术文章能做到的哲学抽象。它让读者不仅理解了 SkillOpt 怎么工作，更理解了它**为什么是这个时代需要的东西**。
--- a/reviews/peng-tst-2026-review.md
+++ b/reviews/peng-tst-2026-review.md
@@ -0,0 +1,52 @@
+---
+title: "Review: Token Superposition Training"
+created: 2026-05-29
+type: review
+paper: "peng-tst-2026"
+arxiv: "2605.06546"
+---
+
+# 📌 Review: Token Superposition Training
+
+**论文**: Efficient Pre-Training with Token Superposition
+**作者**: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research)
+**arXiv**: 2605.06546 | **领域**: cs.CL | **评审时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[token-superposition-training|Token Superposition Training (TST)]]** — 两阶段预训练方法：叠加阶段用 s-token 提高吞吐量，恢复阶段回归标准训练。不修改模型架构，纯 drop-in
+2. **[[multi-hot-cross-entropy|Multi-hot Cross-Entropy (MCE)]]** — 预测下一个 bag 全部 token 的损失函数，是标准 CE 的多标签推广
+3. **[[input-superposition|Input Superposition]]** — 将连续 s 个 token embedding 取平均形成 s-token，序列长度缩短 s×
+4. **[[representation-alignment|Representation Alignment]]** — 两阶段间必须共享 embedding 和 LM head，重新初始化会完全消除增益
+5. **[[coarse-to-fine-granularity|Coarse-to-Fine Granularity]]** — 跨模态设计原则：先用粗粒度高吞吐量表示训练，后切换到细粒度
+6. **[[throughput-hypothesis|Throughput Hypothesis]]** — coarser token → 更高训练数据吞吐 → 更好性能
+7. **[[two-phase-pretraining|Two-Phase Pre-Training]]** — 先用替代目标预训练再回归标准的通用范式
+8. **[[s-token|S-Token]]** — 叠加后形成的 latent representation
+
+---
+
+## 🔗 概念网络
+
+**核心连接**: `token-superposition-training` ↔ `input-superposition` ↔ `multi-hot-cross-entropy` ↔ `two-phase-pretraining`
+
+**设计原则层**: `coarse-to-fine-granularity` ↔ `throughput-hypothesis` ↔ `representation-alignment`
+
+**扩展连接**: 与 wiki 内已有概念（如 multi-token-prediction、subword-tokenization、mixture-of-experts）构成预训练效率优化的概念集群
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 10 个（1 论文 + 1 raw 存档 + 8 概念）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 447 → 456 页
+
+---
+
+## 💡 关键洞察
+
+**1. "不修改"的力量**：TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则：**训练时的表示粒度和推理时的架构可以解耦**。
+
+**2. 表示对齐的隐藏重要性**：通过对照实验（随机重新初始化 embedding → 所有增益消失），论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键，更是对任何多阶段训练范式的一般性启示。
--- a/reviews/pretrain-space-rl-review-20260518.md
+++ b/reviews/pretrain-space-rl-review-20260518.md
@@ -0,0 +1,53 @@
+---
+title: "Review: Pre-train Space Reinforcement Learning"
+paper: "pre-train-space-reinforcement-learning"
+arxiv: "2604.14142"
+date: "2026-05-18"
+type: review
+---
+
+# Review: Pre-train Space Reinforcement Learning
+
+📌 **基本信息**
+- 论文标题：*Pre-train Space Reinforcement Learning: From P(y|x) to P(y)*
+- 作者：Yuqiao Tan, Minzheng Wang (CASIA/UCAS), Bo Liu, Zichen Liu (NUS), Tian Liang (Tencent AI Lab), Shizhu He†, Jun Zhao, Kang Liu (CASIA)
+- 领域：LLM Reasoning, Reinforcement Learning, Pre-training
+- arXiv: [2604.14142](https://arxiv.org/abs/2604.14142) | 2026-04-15
+- 添加时间：2026-05-18
+
+🎯 **核心概念**
+
+1. **PreRL（预训练空间 RL）** — 将 RL 优化目标从 P(y|x) 移至 P(y)，梯度更新时遮蔽输入条件 x。基于梯度对齐（⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0）证明为有效代理
+2. **NSR（负样本强化）** — 在预训练空间中剪枝错误推理路径；transition thoughts 增长 14.89×，reflection thoughts 增长 6.54×
+3. **DSRL（双空间 RL）** — 策略转生：先 NSR-PreRL 扩展推理视野（10-25 步），再切换标准 RL 进行细粒度优化
+4. **PSR 退化** — 正样本强化在预训练空间中导致 on-policy collapse，需 out-of-distribution 专家示范
+5. **内生推理** — NSR-PreRL 解锁模型预训练中已编码但被条件约束抑制的推理能力
+
+🔗 **概念网络**
+
+核心连接：
+```
+PreRL ←→ Post-train Space RL ←→ DSRL
+  ↓              ↓                  ↓
+梯度对齐    P(y|x) 瓶颈      策略转生
+  ↓                              ↓
+共享参数影响                  NSR → PSR
+                               ↓
+                          内生推理 ← on-policy collapse
+```
+
+- 核心概念：11 个
+- 链接完整性：100% 无断链
+
+📚 **Wiki 集成**
+- 新增页面：13 个（1 论文 + 1 raw + 11 概念）
+- 总规模：335 → 347 页
+- 网络完整性：100%
+
+💡 **关键洞察**
+
+1. **范式转折**：从"条件空间锐化分布"到"边际空间剪枝错误路径"——NSR 证明删除比添加更有效，这是 RL for LLM 中一个重要但被忽视的不对称性
+
+2. **预训练空间的"负优化"优势**：PSR（正样本强化）在预训练空间中是退化的，而 NSR 极有效——这种不对称性暗示预训练空间的优化本质上是"约束释放"而非"能力注入"
+
+3. **双空间协同**：DSRL 的优雅之处在于它认识到不同训练阶段需要不同的"优化空间"——初期在 P(y) 中消除根本性错误（全局剪枝），后期在 P(y|x) 中精调条件策略（局部优化），这类似于从 exploration 到 exploitation 的自然过渡
--- a/reviews/toolcua-review-20260531.md
+++ b/reviews/toolcua-review-20260531.md
@@ -0,0 +1,80 @@
+---
+title: "ToolCUA Review: GUI-Tool路径编排的概念网络分析"
+created: 2026-05-31
+type: review
+source: https://arxiv.org/abs/2605.12481
+---
+
+# 📌 基本信息
+
+- **论文标题**: ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
+- **作者**: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
+- **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
+- **领域**: Computer Use Agents, Reinforcement Learning, GUI-Tool Orchestration
+- **arXiv**: 2605.12481 (2026-05-12)
+- **添加时间**: 2026-05-31
+
+# 🎯 核心概念
+
+1. **[[computer-use-agents|Computer Use Agents (CUAs)]]** — 在桌面环境中通过感知截图、执行原子操作完成复杂任务的 AI Agent
+2. **[[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]]** — GUI 原子操作与高层工具调用的统一动作空间；直接暴露反而降低性能
+3. **[[optimal-gui-tool-path-selection|最优 GUI-Tool 路径选择]]** — 动态决定何时 GUI、何时工具的轨迹级策略学习问题
+4. **[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]]** — 从已有纯 GUI 轨迹合成大规模混合数据的四步管线
+5. **[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]]** — Warmup SFT + 关键切换点单轮 RL 的两阶段训练
+6. **[[tool-efficient-path-reward|工具高效路径奖励]]** — $R_{\text{tool}}$（适当性）+ $R_{\text{length}}$（效率）的轨迹级奖励设计
+7. **[[osworld-mcp|OSWorld-MCP]]** — 支持 150+工具、333个任务、混合动作空间的 CUA 评估基准
+8. **[[next-state-grounding|下一状态锚定]]** — 将合成工具步骤锚定到原始 GUI 截图状态的验证机制
+
+# 🔗 概念网络
+
+## 核心连接（方法链条）
+```
+interleaved-gui-tool-trajectory-scaling
+    → tool-bootstrapped-rft
+        → tool-efficient-path-reward
+            → online-agentic-rl (via grpo)
+```
+
+## 问题-解法映射
+```
+gui-tool-hybrid-action-space
+    → optimal-gui-tool-path-selection (问题形式化)
+        → toolcua-optimal-gui-tool-orchestration (解法)
+```
+
+## 奖励设计分解
+```
+tool-efficient-path-reward
+    ├── R_tool (工具适当性) → 解耦工具使用与任务成功
+    └── R_length (路径效率) → 长短轨迹的差异化激励
+```
+
+## 扩展连接
+- **[[grpo]]**: 单轮 RL 和在线 RL 阶段的优化算法
+- **[[agent-computer-interface]]**: CUA 的交互接口
+- **[[agentic-systems]]**: CUA 作为 Agentic System 在桌面自动化领域的实例
+- **[[computer-use-agents]]**: 连接回更大的 CUA 生态系统
+
+# 📊 实验洞察
+
+| 现象 | 数据 | 启示 |
+|------|------|------|
+| 混合空间反降性能 | EvoCUA-32B: 52.6%→40.5% (-12.1%) | 暴露两种动作空间≠掌握两种动作空间 |
+| 合成数据有效性 | 无真实工具轨迹收集，纯合成 → SOTA | 数据质量 > 数据来源 |
+| 跨平台泛化 | 新 Linux 任务 23.9%，新 Windows 应用 33.8% | 混合动作空间训练产生可迁移的策略 |
+
+# 📚 Wiki 集成
+
+- **新增页面**: 10 个（1 raw + 1 paper + 8 concepts）
+- **链接密度**: 核心概念平均 6+ 个交叉引用
+- **网络完整**: ✅ 0 断链
+- **总规模**: 从 564 → 527 页（重建后，消除历史重复条目）
+- **概念连接**: 8 个新概念全部链接到已有 [[grpo]]、[[agent-computer-interface]]、[[agentic-systems]]
+
+# 💡 关键洞察
+
+1. **"工具悖论"**：论文最反直觉的发现——给 Agent 更多能力（工具调用）反而降低性能，除非有专门的训练策略。这类似于"选择悖论"在 AI 行动空间的体现。不是能力越多越好，而是需要**学习何时使用哪种能力**。
+
+2. **数据管线的优雅性**："从已有 GUI 轨迹→MLLM 合成工具→生成交错数据"的管线极为优雅，因为它绕过了 CUA 领域最大的瓶颈——真实工具轨迹的数据稀缺。这是一个经典的 **repurpose** 策略：让已有资源发挥新的训练价值。
+
+3. **轨迹级 vs 步骤级优化**：$R_{\text{tool}} + R_{\text{length}}$ 组合是方法论上的关键贡献。单独的任务成功奖励无法区分"12步 GUI 完成"和"3步（1次工具+2步 GUI）完成"，而路径效率奖励弥补了这一盲区。
--- a/reviews/ultradata-l3-review.md
+++ b/reviews/ultradata-l3-review.md
@@ -0,0 +1,48 @@
+---
+title: "Review: UltraData — 大模型数据分级治理的开源实践"
+created: 2026-05-29
+type: review
+article: "ultradata-l3-open-source-2026"
+source: "Datawhale (微信公众号)"
+---
+
+# 📌 Review: UltraData 数据分级治理
+
+**文章**: UltraData：面壁智能L3数据开源与L0-L4数据分级治理体系
+**作者**: 面壁智能团队 | **来源**: Datawhale
+**时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[data-hierarchical-governance|L0-L4 分级治理]]** — 五级数据体系：原始→过滤→精筛→合成→编排，按阶段匹配
+2. **[[ultradata|UltraData]]** — 面壁智能+清华+OpenBMB 的开源数据系统（600B合成+千万SFT）
+3. **[[synthetic-data-qa-generation|合成Q&A生成]]** — 将"可读"网页转化为"好学"结构化数据
+4. **[[stage-matched-data-config|分阶段数据配置]]** — 退火用L3推理注入，SFT用深思考对齐
+5. **[[deep-thinking-sft|深思考SFT]]** — 含完整思维链标注，同时训练推理与效率
+6. **[[data-quality-over-scale|质量重于规模]]** — 行业下半场：1B登顶的秘密是数据而非参数
+
+---
+
+## 🔗 概念网络
+
+**核心链**: `data-hierarchical-governance` ↔ `stage-matched-data-config` ↔ `synthetic-data-qa-generation` ↔ `deep-thinking-sft`
+
+**行业转向**: `data-quality-over-scale` — 连接今日已集成的 LLM 训练效率方法（TST、Skill as External State 等）
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 9 个（1 raw + 1 article + 6 概念 + 1 review）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 541 → 547 页
+
+---
+
+## 💡 关键洞察
+
+**1. "数据治理"从口号变成了可度量、可复现的工程路线**：L0-L4 分级体系的核心洞见是——不同训练阶段需要不同质量的数据。前期用廉价L1广撒网，后期用昂贵L3激发推理。这不是直觉，是经过 MiniCPM5-1B 全链路验证的工程方法论。
+
+**2. 数据配方的公开化是行业转折点**：当 UltraData 将 L3 合成数据和 SFT 数据全部开源时，它改变的不只是面壁智能一家——它为整个社区提供了可审计、可复现的数据工程范式，让"数据精细化"从少数团队的秘方变成了公共资产。
--- a/reviews/yang-skillopt-review.md
+++ b/reviews/yang-skillopt-review.md
@@ -0,0 +1,52 @@
+---
+title: "Review: SkillOpt — Agent Skill 的文本空间优化器"
+created: 2026-05-29
+type: review
+paper: "yang-skillopt-2026"
+arxiv: "2605.23904"
+---
+
+# 📌 Review: SkillOpt
+
+**论文**: SkillOpt: Executive Strategy for Self-Evolving Agent Skills
+**作者**: Yifan Yang, Ziyang Gong, Weiquan Huang et al. (15 authors)
+**机构**: Microsoft, SJTU, Tongji, Fudan
+**arXiv**: 2605.23904 | **领域**: cs.AI | **时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[skillopt|SkillOpt]]** — 首个系统性 Agent Skill 文本空间优化器，52/52 best or tied
+2. **[[text-space-optimizer|Text-Space Optimizer]]** — 将 skill 训练建模为文本空间优化，与权重空间形成精确类比
+3. **[[textual-learning-rate|Textual Learning Rate]]** — 编辑预算 L_t 控制优化步长
+4. **[[held-out-validation-gate|Held-Out Validation Gate]]** — 候选编辑仅在留出集上改善时才被接受
+5. **[[rejected-edit-buffer|Rejected-Edit Buffer]]** — 失败编辑的负反馈信号，epoch-local
+6. **[[slow-meta-update|Slow/Meta Update]]** — Momentum 在文本空间的对应：跨 epoch 持久规律
+7. **[[skill-as-external-state|Skill as External State]]** — 适应不一定要改权重，skill 就是可训练的外部状态
+
+---
+
+## 🔗 概念网络
+
+**核心链**: `skillopt` ↔ `text-space-optimizer` ↔ `textual-learning-rate` ↔ `held-out-validation-gate` ↔ `slow-meta-update`
+
+**反馈闭环**: `held-out-validation-gate` → `rejected-edit-buffer` → optimizer → `held-out-validation-gate`
+
+**上层哲学**: `skill-as-external-state` → 连接 `model-harness-relationship` + `heuristic-learning`
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 10 个（1 raw + 1 paper + 7 概念 + 1 review）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 527 → 535 页
+
+---
+
+## 💡 关键洞察
+
+**1. "类比是操作性的，不是装饰性的"**：SkillOpt 最精妙之处是它对深度学习优化器的类比**每个组件都有操作性对应**——learning rate → edit budget、validation → held-out gate、momentum → slow update。这不是比喻，是一个完整翻译过来的优化框架。这在 AI 历史上可能是第一次有人把"优化自然语言 artifact"这件事做得如此系统。
+
+**2. 从"改参数"到"改文档"的范式转移**：SkillOpt 明确指出 adaptation ≠ weight update。Skill 作为可训练外部状态，与今日已在推进的 `model-harness-relationship`、`heuristic-learning`、`compiled-ai-paradigm` 形成了一条完整的叙事线——AI 的适应正在从模型内部（权重）迁移到模型外部（skill/harness/code），这是一个与本次 GenAI 浪潮本质特征（生成式·通用性·统一性）高度一致的深层趋势。
--- a/reviews/zhou-agent-symbolic-learning-review.md
+++ b/reviews/zhou-agent-symbolic-learning-review.md
@@ -0,0 +1,50 @@
+---
+title: "Review: Agent Symbolic Learning — 符号学习驱动的自进化Agent"
+created: 2026-05-29
+type: review
+paper: "zhou-agent-symbolic-learning-2024"
+arxiv: "2406.18532"
+---
+
+# 📌 Review: Agent Symbolic Learning
+
+**论文**: Symbolic Learning Enables Self-Evolving Agents
+**作者**: Wangchunshu Zhou et al. (AIWaves, 2024)
+**arXiv**: 2406.18532 | **领域**: cs.CL | **时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[agent-symbolic-learning|Agent Symbolic Learning]]** — 模仿连接主义学习的 Agent 优化框架：BP + GD 的符号化对应
+2. **[[symbolic-network|Symbolic Network]]** — Agent Pipeline 作为符号网络：节点=层，Prompts/Tools=权重
+3. **[[language-gradient|Language Gradient]]** — 自然语言 simulacrum 的梯度：全局因果推理而非局部一阶
+4. **[[symbolic-backpropagation|Symbolic Back-Propagation]]** — 从末节点向前传播 Language Loss 到所有节点
+5. **[[self-evolving-agents|Self-Evolving Agents]]** — 部署后从经验中自主学习，无需 ground-truth
+6. **[[language-loss|Language Loss]]** — 用自然语言评估执行结果的损失函数
+
+---
+
+## 🔗 概念网络
+
+**核心链**: `agent-symbolic-learning` ↔ `symbolic-network` ↔ `language-loss` ↔ `symbolic-backpropagation` ↔ `language-gradient`
+
+**自进化线**: `self-evolving-agents` — 连接 `skillopt`、`heuristic-learning`、`controlled-autonomy`
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 9 个（1 raw + 1 paper + 6 概念 + 1 review）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 548 → 555 页
+
+---
+
+## 💡 关键洞察
+
+**1. 填补了今日集成中的"历史空白"**：今天集成的 SkillOpt (2026)、Heuristic Learning、吕明的文本vs权重优化分析——它们的共同思想源头都可以追溯到这篇 2024 年的 Agent Symbolic Learning。它是最早明确提出"模仿 BP+GD 来优化 Agent 符号组件"的工作，SkillOpt 的"文本空间优化器"类比和 Heuristic Learning 的"替代梯度下降"都可视为其后续发展。
+
+**2. Holistic Joint Optimization 的远见**：论文指出 DSPy 等方法"只优化单个 prompt/tool"会导致局部最优——这类似于早期神经网络逐层训练（layer-wise pretraining）的困境。Agent Symbolic Learning 的 Holistic 联合优化呼应了神经网络端到端训练的演进逻辑，在当时是非常有远见的设计选择。
+
+**3. 从 engineering-centric 到 data-centric 的范式宣言**：这篇论文不仅提出方法，更提出了一个根本性问题——Agent 开发应该像训练神经网络一样从数据中学习，而不是靠人类工程手工调优。这个 vision 在两年后的 SkillOpt 和 Heuristic Learning 中得到了工程化的验证。