20260601
This commit is contained in:
54
reviews/agent-harness-engineering-review-20260523.md
Normal file
54
reviews/agent-harness-engineering-review-20260523.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "Review: Agent Harness Engineering Survey"
|
||||
created: 2026-05-23
|
||||
updated: 2026-05-23
|
||||
type: review
|
||||
tags: [review, agent, harness, survey]
|
||||
sources: [raw/papers/agent-harness-engineering-survey-2026.md]
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文标题**: Agent Harness Engineering: A Survey
|
||||
- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等(CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon)
|
||||
- **投稿**: TMLR 2026(Under Review)
|
||||
- **项目页**: Awesome-Agent-Harness
|
||||
- **添加时间**: 2026-05-23
|
||||
- **规模**: 51 页, 170+ 开源项目映射
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[agent-harness-engineering]]** — Agent 执行骨架工程:包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
|
||||
2. **[[etclovg-taxonomy]]** — ETCLOVG 七层分类法:Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance,将 O 和 G 提升为独立架构层
|
||||
3. **[[binding-constraint-thesis]]** — 约束瓶颈论:基础设施质量(而非模型能力)设定了 Agent 可靠性的天花板
|
||||
4. **[[harness-coupling-problem]]** — Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试
|
||||
5. **[[cost-quality-speed-trilemma]]** — 成本、质量、速度三者不可兼得的三方张力
|
||||
6. **[[capability-control-tradeoff]]** — 每次 Harness 能力扩展都增大安全和控制问题
|
||||
7. **[[prompt-to-harness-evolution]]** — 三阶段工程演进:Prompt Engineering → Context Engineering → Harness Engineering
|
||||
8. **[[trace-native-evaluation]]** — 以 Agent 踪迹而非最终分数为中心的评估范式
|
||||
9. **[[practitioner-research-gap]]** — 从业者-研究鸿沟:Harness 工程价值已被实践但缺乏学术形式化
|
||||
10. **[[three-engineering-phases]]** — Prompt → Context → Harness 三阶段视野扩展演进
|
||||
11. **[[context-drift]]** — 上下文漂移:U 形注意力 + Context Rot + 工具累积的三种退化
|
||||
12. **[[agent-sandbox]]** — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
|
||||
13. **[[multi-agent-orchestration]]** — 层级、团队、工作流、Fan-out、图组合五种编排模式
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
- **核心连接**: [[binding-constraint-thesis]] ↔ [[harness-coupling-problem]] ↔ [[cost-quality-speed-trilemma]]
|
||||
- **七层体系**: [[execution-environment]] → [[tool-interface]] → [[context-management]] → [[lifecycle-orchestration]] → [[agent-observability]] → [[agent-verification]] → [[agent-governance]]
|
||||
- **开放问题链**: [[hardening-execution-environments]] → [[reliable-state-long-running-agents]] → [[trace-native-evaluation]] → [[standard-agent-handoffs]] → [[adaptive-harness-simplification]]
|
||||
- **扩展网络**: 连接了 29 个概念页,通过 O/V/G 独立层和 [[practitioner-research-gap]]、[[agent-frameworks-to-platforms]] 深入交叉
|
||||
- **修复断链**: (补充集成)修复了 review 中 3 个中文 wikilink 错误
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 30 个(1 论文 + 29 概念)含 2026-05-30 补充的 8 个概念
|
||||
- **链接密度**: 每概念页平均 ~5 个交叉引用
|
||||
- **论文页链接**: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念
|
||||
- **总规模**: 373 → 409 页(首次)+ → 563 页(补充集成 + 同期其他论文)
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **从组件思维到系统思维**: 这篇综述最有价值的贡献不是分类本身,而是**跨层综合**——Harness 耦合问题表明,prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优,必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。
|
||||
|
||||
2. **从模型中心到基础设施中心**: Bölük 的实验(仅改变 harness 格式,15 个 LLM 同时提升)是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论,并提供了三个维度的证据链(演进、跨层综合、开放问题),使该论点从一个直觉变成一个可操作的工程框架。
|
||||
55
reviews/distributed-agent-cache-sync-review.md
Normal file
55
reviews/distributed-agent-cache-sync-review.md
Normal file
@@ -0,0 +1,55 @@
|
||||
---
|
||||
title: "Review: 分布式Agent缓存同步"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
article: "distributed-agent-cache-sync-2026"
|
||||
source: "微信公众号"
|
||||
---
|
||||
|
||||
# 📌 Review: 分布式Agent缓存同步
|
||||
|
||||
**文章**: 分布式Agent缓存同步:从单机到多机的Prompt Caching架构升级
|
||||
**来源**: 微信公众号 (LLM + 量化交易系列)
|
||||
**URL**: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw
|
||||
**时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[distributed-prompt-caching|Distributed Prompt Caching]]** — 将单机前缀缓存升级为多机分布式同步体系
|
||||
2. **[[global-context-hash-tree|Global Context Hash Tree]]** — SHA-256 四层复合键作为分布式会话 UID
|
||||
3. **[[active-cache-warmup|Active Cache Warm-up]]** — 通过 Shadow Calling 预测性预填充远端缓存
|
||||
4. **[[shadow-calling|Shadow Calling]]** — `max_tokens=1` 的特殊 API 调用:只消化前缀不生成输出
|
||||
5. **[[distributed-cache-routing|Distributed Cache Routing]]** — Redis `Cache_Routing_Table`:哈希键查询热节点
|
||||
6. **[[distributed-optimistic-locking|Distributed Optimistic Locking]]** — Redis WATCH + 版本号防并发分叉
|
||||
7. **[[bypass-network-handle-distribution|Bypass Handle Distribution]]** — 应用层传 8 字节句柄,物理层 RDMA 搬数据
|
||||
8. **[[context-pruning|Context Pruning]]** — 网络分区时的紧急 8k Token 剪枝降级
|
||||
9. **[[cache-cold-start|Cache Cold-Start]]** — 新节点无前缀缓存时的秒级重算困境
|
||||
10. **[[trading-lifecycle-driven-eviction|Trading-Lifecycle Eviction]]** — 缓存 TTL 与交易生命周期对齐
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `distributed-prompt-caching` ↔ `global-context-hash-tree` ↔ `distributed-cache-routing` ↔ `active-cache-warmup`
|
||||
|
||||
**优化-降级对偶**: `active-cache-warmup`/`shadow-calling` (正常路径) ↔ `context-pruning` (故障路径)
|
||||
|
||||
**数据-元数据分离**: `bypass-network-handle-distribution` 体现了分布式系统设计的核心智慧——在应用层传递极简句柄,在物理层旁路搬运大数据
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 12 个(1 raw + 1 article + 10 概念)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 457 → 512 页(+55)
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "空间确定性换取时间确定性"**:这是本文最精炼的设计哲学。通过高带宽内网的精确状态路由(空间代价),消除 LLM 的秒级重算延迟(时间收益)。这个 trade-off 在高频交易领域是绝对值得的——毫秒级延迟意味着交易信号的生与死。
|
||||
|
||||
**2. 分布式系统设计的层层递进**:从问题(Cold Start)→ 标识(Hash Tree)→ 路由(Redis)→ 优化(Shadow Calling)→ 一致性(Optimistic Locking)→ 降级(Pruning),展现了完整的分布式系统设计方法论。这个架构模板可以直接迁移到任何需要跨机 LLM 上下文共享的场景。
|
||||
|
||||
**3. 旁路架构的普适性**:Handle Distribution 模式(8 字节句柄 + RDMA 数据搬运)不仅适用于量化交易,对任何需要 Agent 协作处理大型数据块的分布式 AI 系统都有借鉴意义。
|
||||
46
reviews/kore-review-20260521.md
Normal file
46
reviews/kore-review-20260521.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "KORE Review"
|
||||
type: review
|
||||
date: 2026-05-21
|
||||
paper: "[[kore-knowledge-injection]]"
|
||||
---
|
||||
|
||||
# KORE Review — 知识导向控制的知识注入
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Controls
|
||||
- 作者:Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
|
||||
- 会议:ICML 2026 | arXiv: 2510.19316
|
||||
- 添加时间:2026-05-21
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **KORE-AUGMENTATION** — 知识导向增强:将单个知识项自动转化为结构化"知识树"(主干:多轮对话 + 分支:指令任务),实现从数据记忆到知识内化的跨越
|
||||
2. **KORE-CONSTRAINT** — 知识导向约束:在激活协方差矩阵的零空间中初始化 LoRA adapter,冻结 A 仅微调 B,确保 BAC≈0 —— 新知识不干扰旧知识
|
||||
3. **知识树** — 多层次结构化知识表示,主干提供深度理解,分支提供多角度视角
|
||||
4. **零空间投影** — 线性代数在持续学习中的优雅应用:在"空白区域"写入新知识
|
||||
5. **HARS** — 调和适应保留评分,将适应与保留统一为单一指标
|
||||
6. **协方差矩阵知识存储** — 验证了多模态知识可以被激活协方差矩阵有效捕获
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- **核心三角**:KORE-AUGMENTATION ↔ KORE-CONSTRAINT ↔ 知识树
|
||||
- **数学基础链**:协方差矩阵 → SVD → 零空间 → 投影 → LoRA 初始化
|
||||
- **与前置工作连接**:KORE 是 MMEVOKE 的解决方案 —— 使用 EVOKE 基准评估,超越了 MMEVOKE 论文中测试的所有 baseline
|
||||
- **连接已有概念**:[[evolving-knowledge-injection]], [[knowledge-adaptation]], [[knowledge-retention]], [[capability-degradation]], [[mme-voke]], [[data-replay]], [[moe-lora]]
|
||||
- **断链修复**:创建了 4 个占位概念(knowledge-internalization, structured-knowledge, null-space, covariance-matrix)
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面:11 个(1 论文 + 6 核心概念 + 4 占位概念)
|
||||
- 核心概念平均 5 个链接
|
||||
- 网络完整性:100% 无断链
|
||||
- 总规模:361 → 372 页
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **结构化增强 > 离散增强**:一般的 data augmentation 只生成孤立的表面变体;KORE 构建了连贯的知识树,实现了质的飞跃。这印证了之前 MMEVOKE 论文的发现:knowledge-agnostic 增强有害,knowledge-aware 增强有效 —— KORE 进一步证明了 structured knowledge-aware 才是最优路径。
|
||||
|
||||
2. **零空间是持续学习的"免费午餐"**:协方差矩阵的零空间提供了天然的参数隔离机制 —— 无需存储旧数据(vs Replay),无需修改架构(vs MoE),只需一次 SVD 分解即可实现精确的知识保护。这是一个优雅的线性代数解决方案。
|
||||
|
||||
3. **MMEVOKE → KORE 形成了完整的研究弧**:前者定义了问题和基准,后者提供了解决方案。两篇论文合在一起,构成了多模态进化知识注入领域的奠基性工作。
|
||||
54
reviews/lou-autoharness-review.md
Normal file
54
reviews/lou-autoharness-review.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
paper: "lou-autoharness-2026"
|
||||
arxiv: "2603.03329"
|
||||
---
|
||||
|
||||
# 📌 Review: AutoHarness
|
||||
|
||||
**论文**: AutoHarness: improving LLM agents by automatically synthesizing a code harness
|
||||
**作者**: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy
|
||||
**机构**: Google DeepMind
|
||||
**arXiv**: 2603.03329 | **领域**: cs.CL | **时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[autoharness|AutoHarness]]** — LLM 自动合成为自己服务的代码 harness,消除 Agent 的非法动作
|
||||
2. **[[code-as-harness|Code as Harness]]** — LLM + auto-generated plumbing 的框架哲学:不是让模型完美,而是让它可以被代码约束
|
||||
3. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]** — LLM 提议动作 → 代码验证合法性 → 非法则重试的 rejection sampling 模式
|
||||
4. **[[harness-as-policy|Harness-as-Policy]]** — 代码直接决策,推理时零 LLM 调用:小模型 Flash 训练出的 policy 超越 GPT-5.2-High
|
||||
5. **[[thompson-sampling-code-search|Thompson Sampling Code Search]]** — 在代码假设树中平衡探索与利用的搜索算法
|
||||
6. **[[iterative-code-refinement|Iterative Code Refinement]]** — LLM 作为 gradient-free optimizer,基于环境 feedback 反复改进代码
|
||||
7. **[[action-applicability|Action Applicability]]** — AI Agent 在给定状态下判定动作合法性的基本问题
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `autoharness` ↔ `code-as-harness` ↔ `harness-as-action-verifier` ↔ `iterative-code-refinement` ↔ `thompson-sampling-code-search`
|
||||
|
||||
**终极形态**: `harness-as-policy` — 从 LLM+harness 到纯代码策略,完全消除推理时 LLM 依赖
|
||||
|
||||
**问题→解**: `action-applicability` → `code-as-harness`
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 9 个(1 论文 + 1 raw + 7 概念)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 512 → 520 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "小模型 + 代码外壳 > 大模型裸奔"**:这是本文最反直觉的结果。Gemini-2.5-Flash(小模型)加上自己生成的代码 harness,不仅在合法性上完胜,在最终 reward 上也超越了 Gemini-2.5-Pro 甚至 GPT-5.2-High。这说明 LLM 能力的瓶颈往往不在"智能"本身,而在与结构化环境的接口可靠性。
|
||||
|
||||
**2. 从 rejection sampling 到 code-as-policy 的连续谱**:论文优雅地展示了 harness 的三个抽象层级——从最保守的 verifier(LLM 仍负责决策)到最激进的 policy(代码全权决策)。这个连续谱为不同场景提供了灵活的部署选择。
|
||||
|
||||
**3. 递归自我改进的潜力**:论文展望了将 domain-specific harness 蒸馏回 base LLM 的未来方向——如果 harness 学习到的"合法性直觉"能被吸收进 LLM 本身,整个系统就实现了递归自我改进。这与 [[hyperagents]] 中的自我修改框架形成有趣的呼应。
|
||||
54
reviews/lyu-model-harness-review.md
Normal file
54
reviews/lyu-model-harness-review.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "Review: Model与Harness的关系演进"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
article: "lyu-model-harness-evolution-2026"
|
||||
source: "微信公众号"
|
||||
---
|
||||
|
||||
# 📌 Review: Model与Harness的关系演进
|
||||
|
||||
**文章**: Model与Harness的关系演进:从AutoHarness到Heuristic Learning
|
||||
**作者**: 吕明
|
||||
**来源**: 微信公众号 | **时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[model-harness-relationship|Model-Harness Relationship]]** — 从主从到融合的动态演进:策略算法与工程约束的边界正在消失
|
||||
2. **[[harness-engineering|Harness Engineering]]** — 系统性地为 LLM Agent 构建约束层的新工程学科
|
||||
3. **[[heuristic-learning|Heuristic Learning]]** — 替代梯度下降的新学习范式:以 Agent 整体为进化主体
|
||||
4. **[[strategy-engineering-unification|Strategy-Engineering Unification]]** — coding tokenlized 空间下策略与工程的统一融合
|
||||
5. **[[compiled-ai-paradigm|Compiled AI Paradigm]]** — 编译阶段生成代码,推理阶段零 LLM 调用
|
||||
6. **[[generative-general-unification|Generative-General-Unification]]** — GenAI 区别于历史 AI 浪潮的三支柱框架
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `model-harness-relationship` ↔ `harness-engineering` ↔ `strategy-engineering-unification` ↔ `compiled-ai-paradigm`
|
||||
|
||||
**范式层**: `heuristic-learning` — 将上述工程实践上升为通用学习范式
|
||||
|
||||
**历史定位**: `generative-general-unification` — 为整个 GenAI 时代提供历史坐标系
|
||||
|
||||
**与已有 wiki 的深度连接**: 本文是 [[autoharness|AutoHarness]] 论文的**思想层解读**——不是重复介绍方法,而是将其置于 Model-Harness 关系演进的大框架中审视
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 9 个(1 raw + 1 article + 6 概念 + 1 review)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 520 → 527 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "世界的本质是泛化策略 + 抽象约束"**:这是本文最深刻的哲学命题。如果将数学视为"公理(约束)+ 推导(策略)"的系统,那么 GenAI 的 Model-Harness 融合正是这一世界观的工程化表达。Harness 不是 Model 的附属品——它是与策略同等重要的**第一性组件**。
|
||||
|
||||
**2. 从论文到思想体系的升维**:本文最独特的价值在于它**不做复读机**——它没有停留在介绍 AutoHarness 的三种模式,而是从第一性原理出发,构建了 GenAI 区别于前几次 AI 浪潮的三支柱分析框架(生成式·通用性·统一性),并将 Heuristic Learning 与 AutoHarness 连接成一条统一的演进脉络。
|
||||
|
||||
**3. 编译型 AI 的产业意义**:Code-as-Policy 不只是学术 demo——它指向一种全新的 AI 部署模式:训练用 GPU,推理用 CPU,成本从 $640 降至 $0。这对 ToB 交付和边缘部署的冲击是根本性的。
|
||||
52
reviews/lyu-skillopt-deep-dive-review.md
Normal file
52
reviews/lyu-skillopt-deep-dive-review.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Review: SkillOpt深度解读 — 自进化Agent的'反向传播'"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
article: "lyu-skillopt-deep-dive-2026"
|
||||
source: "微信公众号"
|
||||
---
|
||||
|
||||
# 📌 Review: SkillOpt深度解读
|
||||
|
||||
**文章**: SkillOpt深度解读:自进化Agent技能的"反向传播"与工程化Continued Evolve
|
||||
**作者**: 吕明 | **字数**: ~1.2万字
|
||||
**来源**: 微信公众号 | **时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[text-vs-weight-optimization|Text vs Weight Optimization]]** — 文本空间优化与权重空间梯度下降的三个根本差异:梯度本质(局部 vs 全局因果)、验证机制(解析链式 vs 经验主义)、度量结构(连续 vs 无天然度量)
|
||||
2. **[[controlled-autonomy|Controlled Autonomy]]** — "受控的自主性":人类立法(验证集+约束)、Optimizer 执行、Gate 司法
|
||||
3. **[[skill-data-flywheel|Skill Data Flywheel]]** — Skill 进化轨迹反哺模型训练的正向飞轮
|
||||
4. **[[skill-ecosystem|Skill Ecosystem]]** — 从"Agent Skill App Store"到企业私域沉淀
|
||||
5. **[[dual-layer-rl|Dual-Layer RL]]** — 内层 Agent RL + 外层 Optimizer RL = Learning to Learn
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**思辨层**: `text-vs-weight-optimization` — 为 SkillOpt 的"文本梯度"类比提供严谨的数学-哲学根基
|
||||
|
||||
**工程层**: `controlled-autonomy` ↔ `skill-data-flywheel` ↔ `dual-layer-rl` ↔ `skill-ecosystem`
|
||||
|
||||
**与已有 wiki 的深层连接**:
|
||||
- 与 `model-harness-relationship` (吕明前文) 形成精确共振
|
||||
- 为 `text-space-optimizer` / `skillopt` (原论文) 提供哲学深度
|
||||
- 连接 `heuristic-learning` → 元优化的更广义框架
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 8 个(1 raw + 1 article + 5 概念 + 1 review)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 535 → 541 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "启示性的类比"而非"结构性的同构"**:这是本文最深刻的智力贡献。吕明没有满足于"SkillOpt = 文本空间的梯度下降"这个表层类比,而是深入到优化动力学的本质——指出了连续空间(可微、解析链式、向量度量)与离散文本空间(不可微、经验验证、无天然度量)之间的根本鸿沟。这种"知其所以然"的剖析,比论文本身提供了更多的理解深度。
|
||||
|
||||
**2. 从技术到哲学的升维**:将梯度下降映射为"英国经验主义"(被动被数据塑形)、将 SkillOpt 映射为"大陆理性主义"(主动理性演绎)——这是罕见的技术文章能做到的哲学抽象。它让读者不仅理解了 SkillOpt 怎么工作,更理解了它**为什么是这个时代需要的东西**。
|
||||
52
reviews/peng-tst-2026-review.md
Normal file
52
reviews/peng-tst-2026-review.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Review: Token Superposition Training"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
paper: "peng-tst-2026"
|
||||
arxiv: "2605.06546"
|
||||
---
|
||||
|
||||
# 📌 Review: Token Superposition Training
|
||||
|
||||
**论文**: Efficient Pre-Training with Token Superposition
|
||||
**作者**: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research)
|
||||
**arXiv**: 2605.06546 | **领域**: cs.CL | **评审时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[token-superposition-training|Token Superposition Training (TST)]]** — 两阶段预训练方法:叠加阶段用 s-token 提高吞吐量,恢复阶段回归标准训练。不修改模型架构,纯 drop-in
|
||||
2. **[[multi-hot-cross-entropy|Multi-hot Cross-Entropy (MCE)]]** — 预测下一个 bag 全部 token 的损失函数,是标准 CE 的多标签推广
|
||||
3. **[[input-superposition|Input Superposition]]** — 将连续 s 个 token embedding 取平均形成 s-token,序列长度缩短 s×
|
||||
4. **[[representation-alignment|Representation Alignment]]** — 两阶段间必须共享 embedding 和 LM head,重新初始化会完全消除增益
|
||||
5. **[[coarse-to-fine-granularity|Coarse-to-Fine Granularity]]** — 跨模态设计原则:先用粗粒度高吞吐量表示训练,后切换到细粒度
|
||||
6. **[[throughput-hypothesis|Throughput Hypothesis]]** — coarser token → 更高训练数据吞吐 → 更好性能
|
||||
7. **[[two-phase-pretraining|Two-Phase Pre-Training]]** — 先用替代目标预训练再回归标准的通用范式
|
||||
8. **[[s-token|S-Token]]** — 叠加后形成的 latent representation
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心连接**: `token-superposition-training` ↔ `input-superposition` ↔ `multi-hot-cross-entropy` ↔ `two-phase-pretraining`
|
||||
|
||||
**设计原则层**: `coarse-to-fine-granularity` ↔ `throughput-hypothesis` ↔ `representation-alignment`
|
||||
|
||||
**扩展连接**: 与 wiki 内已有概念(如 multi-token-prediction、subword-tokenization、mixture-of-experts)构成预训练效率优化的概念集群
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 10 个(1 论文 + 1 raw 存档 + 8 概念)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 447 → 456 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "不修改"的力量**:TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则:**训练时的表示粒度和推理时的架构可以解耦**。
|
||||
|
||||
**2. 表示对齐的隐藏重要性**:通过对照实验(随机重新初始化 embedding → 所有增益消失),论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键,更是对任何多阶段训练范式的一般性启示。
|
||||
53
reviews/pretrain-space-rl-review-20260518.md
Normal file
53
reviews/pretrain-space-rl-review-20260518.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "Review: Pre-train Space Reinforcement Learning"
|
||||
paper: "pre-train-space-reinforcement-learning"
|
||||
arxiv: "2604.14142"
|
||||
date: "2026-05-18"
|
||||
type: review
|
||||
---
|
||||
|
||||
# Review: Pre-train Space Reinforcement Learning
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文标题:*Pre-train Space Reinforcement Learning: From P(y|x) to P(y)*
|
||||
- 作者:Yuqiao Tan, Minzheng Wang (CASIA/UCAS), Bo Liu, Zichen Liu (NUS), Tian Liang (Tencent AI Lab), Shizhu He†, Jun Zhao, Kang Liu (CASIA)
|
||||
- 领域:LLM Reasoning, Reinforcement Learning, Pre-training
|
||||
- arXiv: [2604.14142](https://arxiv.org/abs/2604.14142) | 2026-04-15
|
||||
- 添加时间:2026-05-18
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **PreRL(预训练空间 RL)** — 将 RL 优化目标从 P(y|x) 移至 P(y),梯度更新时遮蔽输入条件 x。基于梯度对齐(⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0)证明为有效代理
|
||||
2. **NSR(负样本强化)** — 在预训练空间中剪枝错误推理路径;transition thoughts 增长 14.89×,reflection thoughts 增长 6.54×
|
||||
3. **DSRL(双空间 RL)** — 策略转生:先 NSR-PreRL 扩展推理视野(10-25 步),再切换标准 RL 进行细粒度优化
|
||||
4. **PSR 退化** — 正样本强化在预训练空间中导致 on-policy collapse,需 out-of-distribution 专家示范
|
||||
5. **内生推理** — NSR-PreRL 解锁模型预训练中已编码但被条件约束抑制的推理能力
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
核心连接:
|
||||
```
|
||||
PreRL ←→ Post-train Space RL ←→ DSRL
|
||||
↓ ↓ ↓
|
||||
梯度对齐 P(y|x) 瓶颈 策略转生
|
||||
↓ ↓
|
||||
共享参数影响 NSR → PSR
|
||||
↓
|
||||
内生推理 ← on-policy collapse
|
||||
```
|
||||
|
||||
- 核心概念:11 个
|
||||
- 链接完整性:100% 无断链
|
||||
|
||||
📚 **Wiki 集成**
|
||||
- 新增页面:13 个(1 论文 + 1 raw + 11 概念)
|
||||
- 总规模:335 → 347 页
|
||||
- 网络完整性:100%
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **范式转折**:从"条件空间锐化分布"到"边际空间剪枝错误路径"——NSR 证明删除比添加更有效,这是 RL for LLM 中一个重要但被忽视的不对称性
|
||||
|
||||
2. **预训练空间的"负优化"优势**:PSR(正样本强化)在预训练空间中是退化的,而 NSR 极有效——这种不对称性暗示预训练空间的优化本质上是"约束释放"而非"能力注入"
|
||||
|
||||
3. **双空间协同**:DSRL 的优雅之处在于它认识到不同训练阶段需要不同的"优化空间"——初期在 P(y) 中消除根本性错误(全局剪枝),后期在 P(y|x) 中精调条件策略(局部优化),这类似于从 exploration 到 exploitation 的自然过渡
|
||||
80
reviews/toolcua-review-20260531.md
Normal file
80
reviews/toolcua-review-20260531.md
Normal file
@@ -0,0 +1,80 @@
|
||||
---
|
||||
title: "ToolCUA Review: GUI-Tool路径编排的概念网络分析"
|
||||
created: 2026-05-31
|
||||
type: review
|
||||
source: https://arxiv.org/abs/2605.12481
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文标题**: ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
|
||||
- **作者**: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
|
||||
- **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
|
||||
- **领域**: Computer Use Agents, Reinforcement Learning, GUI-Tool Orchestration
|
||||
- **arXiv**: 2605.12481 (2026-05-12)
|
||||
- **添加时间**: 2026-05-31
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[computer-use-agents|Computer Use Agents (CUAs)]]** — 在桌面环境中通过感知截图、执行原子操作完成复杂任务的 AI Agent
|
||||
2. **[[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]]** — GUI 原子操作与高层工具调用的统一动作空间;直接暴露反而降低性能
|
||||
3. **[[optimal-gui-tool-path-selection|最优 GUI-Tool 路径选择]]** — 动态决定何时 GUI、何时工具的轨迹级策略学习问题
|
||||
4. **[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]]** — 从已有纯 GUI 轨迹合成大规模混合数据的四步管线
|
||||
5. **[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]]** — Warmup SFT + 关键切换点单轮 RL 的两阶段训练
|
||||
6. **[[tool-efficient-path-reward|工具高效路径奖励]]** — $R_{\text{tool}}$(适当性)+ $R_{\text{length}}$(效率)的轨迹级奖励设计
|
||||
7. **[[osworld-mcp|OSWorld-MCP]]** — 支持 150+工具、333个任务、混合动作空间的 CUA 评估基准
|
||||
8. **[[next-state-grounding|下一状态锚定]]** — 将合成工具步骤锚定到原始 GUI 截图状态的验证机制
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
## 核心连接(方法链条)
|
||||
```
|
||||
interleaved-gui-tool-trajectory-scaling
|
||||
→ tool-bootstrapped-rft
|
||||
→ tool-efficient-path-reward
|
||||
→ online-agentic-rl (via grpo)
|
||||
```
|
||||
|
||||
## 问题-解法映射
|
||||
```
|
||||
gui-tool-hybrid-action-space
|
||||
→ optimal-gui-tool-path-selection (问题形式化)
|
||||
→ toolcua-optimal-gui-tool-orchestration (解法)
|
||||
```
|
||||
|
||||
## 奖励设计分解
|
||||
```
|
||||
tool-efficient-path-reward
|
||||
├── R_tool (工具适当性) → 解耦工具使用与任务成功
|
||||
└── R_length (路径效率) → 长短轨迹的差异化激励
|
||||
```
|
||||
|
||||
## 扩展连接
|
||||
- **[[grpo]]**: 单轮 RL 和在线 RL 阶段的优化算法
|
||||
- **[[agent-computer-interface]]**: CUA 的交互接口
|
||||
- **[[agentic-systems]]**: CUA 作为 Agentic System 在桌面自动化领域的实例
|
||||
- **[[computer-use-agents]]**: 连接回更大的 CUA 生态系统
|
||||
|
||||
# 📊 实验洞察
|
||||
|
||||
| 现象 | 数据 | 启示 |
|
||||
|------|------|------|
|
||||
| 混合空间反降性能 | EvoCUA-32B: 52.6%→40.5% (-12.1%) | 暴露两种动作空间≠掌握两种动作空间 |
|
||||
| 合成数据有效性 | 无真实工具轨迹收集,纯合成 → SOTA | 数据质量 > 数据来源 |
|
||||
| 跨平台泛化 | 新 Linux 任务 23.9%,新 Windows 应用 33.8% | 混合动作空间训练产生可迁移的策略 |
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 10 个(1 raw + 1 paper + 8 concepts)
|
||||
- **链接密度**: 核心概念平均 6+ 个交叉引用
|
||||
- **网络完整**: ✅ 0 断链
|
||||
- **总规模**: 从 564 → 527 页(重建后,消除历史重复条目)
|
||||
- **概念连接**: 8 个新概念全部链接到已有 [[grpo]]、[[agent-computer-interface]]、[[agentic-systems]]
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **"工具悖论"**:论文最反直觉的发现——给 Agent 更多能力(工具调用)反而降低性能,除非有专门的训练策略。这类似于"选择悖论"在 AI 行动空间的体现。不是能力越多越好,而是需要**学习何时使用哪种能力**。
|
||||
|
||||
2. **数据管线的优雅性**:"从已有 GUI 轨迹→MLLM 合成工具→生成交错数据"的管线极为优雅,因为它绕过了 CUA 领域最大的瓶颈——真实工具轨迹的数据稀缺。这是一个经典的 **repurpose** 策略:让已有资源发挥新的训练价值。
|
||||
|
||||
3. **轨迹级 vs 步骤级优化**:$R_{\text{tool}} + R_{\text{length}}$ 组合是方法论上的关键贡献。单独的任务成功奖励无法区分"12步 GUI 完成"和"3步(1次工具+2步 GUI)完成",而路径效率奖励弥补了这一盲区。
|
||||
48
reviews/ultradata-l3-review.md
Normal file
48
reviews/ultradata-l3-review.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "Review: UltraData — 大模型数据分级治理的开源实践"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
article: "ultradata-l3-open-source-2026"
|
||||
source: "Datawhale (微信公众号)"
|
||||
---
|
||||
|
||||
# 📌 Review: UltraData 数据分级治理
|
||||
|
||||
**文章**: UltraData:面壁智能L3数据开源与L0-L4数据分级治理体系
|
||||
**作者**: 面壁智能团队 | **来源**: Datawhale
|
||||
**时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[data-hierarchical-governance|L0-L4 分级治理]]** — 五级数据体系:原始→过滤→精筛→合成→编排,按阶段匹配
|
||||
2. **[[ultradata|UltraData]]** — 面壁智能+清华+OpenBMB 的开源数据系统(600B合成+千万SFT)
|
||||
3. **[[synthetic-data-qa-generation|合成Q&A生成]]** — 将"可读"网页转化为"好学"结构化数据
|
||||
4. **[[stage-matched-data-config|分阶段数据配置]]** — 退火用L3推理注入,SFT用深思考对齐
|
||||
5. **[[deep-thinking-sft|深思考SFT]]** — 含完整思维链标注,同时训练推理与效率
|
||||
6. **[[data-quality-over-scale|质量重于规模]]** — 行业下半场:1B登顶的秘密是数据而非参数
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `data-hierarchical-governance` ↔ `stage-matched-data-config` ↔ `synthetic-data-qa-generation` ↔ `deep-thinking-sft`
|
||||
|
||||
**行业转向**: `data-quality-over-scale` — 连接今日已集成的 LLM 训练效率方法(TST、Skill as External State 等)
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 9 个(1 raw + 1 article + 6 概念 + 1 review)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 541 → 547 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "数据治理"从口号变成了可度量、可复现的工程路线**:L0-L4 分级体系的核心洞见是——不同训练阶段需要不同质量的数据。前期用廉价L1广撒网,后期用昂贵L3激发推理。这不是直觉,是经过 MiniCPM5-1B 全链路验证的工程方法论。
|
||||
|
||||
**2. 数据配方的公开化是行业转折点**:当 UltraData 将 L3 合成数据和 SFT 数据全部开源时,它改变的不只是面壁智能一家——它为整个社区提供了可审计、可复现的数据工程范式,让"数据精细化"从少数团队的秘方变成了公共资产。
|
||||
52
reviews/yang-skillopt-review.md
Normal file
52
reviews/yang-skillopt-review.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Review: SkillOpt — Agent Skill 的文本空间优化器"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
paper: "yang-skillopt-2026"
|
||||
arxiv: "2605.23904"
|
||||
---
|
||||
|
||||
# 📌 Review: SkillOpt
|
||||
|
||||
**论文**: SkillOpt: Executive Strategy for Self-Evolving Agent Skills
|
||||
**作者**: Yifan Yang, Ziyang Gong, Weiquan Huang et al. (15 authors)
|
||||
**机构**: Microsoft, SJTU, Tongji, Fudan
|
||||
**arXiv**: 2605.23904 | **领域**: cs.AI | **时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[skillopt|SkillOpt]]** — 首个系统性 Agent Skill 文本空间优化器,52/52 best or tied
|
||||
2. **[[text-space-optimizer|Text-Space Optimizer]]** — 将 skill 训练建模为文本空间优化,与权重空间形成精确类比
|
||||
3. **[[textual-learning-rate|Textual Learning Rate]]** — 编辑预算 L_t 控制优化步长
|
||||
4. **[[held-out-validation-gate|Held-Out Validation Gate]]** — 候选编辑仅在留出集上改善时才被接受
|
||||
5. **[[rejected-edit-buffer|Rejected-Edit Buffer]]** — 失败编辑的负反馈信号,epoch-local
|
||||
6. **[[slow-meta-update|Slow/Meta Update]]** — Momentum 在文本空间的对应:跨 epoch 持久规律
|
||||
7. **[[skill-as-external-state|Skill as External State]]** — 适应不一定要改权重,skill 就是可训练的外部状态
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `skillopt` ↔ `text-space-optimizer` ↔ `textual-learning-rate` ↔ `held-out-validation-gate` ↔ `slow-meta-update`
|
||||
|
||||
**反馈闭环**: `held-out-validation-gate` → `rejected-edit-buffer` → optimizer → `held-out-validation-gate`
|
||||
|
||||
**上层哲学**: `skill-as-external-state` → 连接 `model-harness-relationship` + `heuristic-learning`
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 10 个(1 raw + 1 paper + 7 概念 + 1 review)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 527 → 535 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "类比是操作性的,不是装饰性的"**:SkillOpt 最精妙之处是它对深度学习优化器的类比**每个组件都有操作性对应**——learning rate → edit budget、validation → held-out gate、momentum → slow update。这不是比喻,是一个完整翻译过来的优化框架。这在 AI 历史上可能是第一次有人把"优化自然语言 artifact"这件事做得如此系统。
|
||||
|
||||
**2. 从"改参数"到"改文档"的范式转移**:SkillOpt 明确指出 adaptation ≠ weight update。Skill 作为可训练外部状态,与今日已在推进的 `model-harness-relationship`、`heuristic-learning`、`compiled-ai-paradigm` 形成了一条完整的叙事线——AI 的适应正在从模型内部(权重)迁移到模型外部(skill/harness/code),这是一个与本次 GenAI 浪潮本质特征(生成式·通用性·统一性)高度一致的深层趋势。
|
||||
50
reviews/zhou-agent-symbolic-learning-review.md
Normal file
50
reviews/zhou-agent-symbolic-learning-review.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Review: Agent Symbolic Learning — 符号学习驱动的自进化Agent"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
paper: "zhou-agent-symbolic-learning-2024"
|
||||
arxiv: "2406.18532"
|
||||
---
|
||||
|
||||
# 📌 Review: Agent Symbolic Learning
|
||||
|
||||
**论文**: Symbolic Learning Enables Self-Evolving Agents
|
||||
**作者**: Wangchunshu Zhou et al. (AIWaves, 2024)
|
||||
**arXiv**: 2406.18532 | **领域**: cs.CL | **时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[agent-symbolic-learning|Agent Symbolic Learning]]** — 模仿连接主义学习的 Agent 优化框架:BP + GD 的符号化对应
|
||||
2. **[[symbolic-network|Symbolic Network]]** — Agent Pipeline 作为符号网络:节点=层,Prompts/Tools=权重
|
||||
3. **[[language-gradient|Language Gradient]]** — 自然语言 simulacrum 的梯度:全局因果推理而非局部一阶
|
||||
4. **[[symbolic-backpropagation|Symbolic Back-Propagation]]** — 从末节点向前传播 Language Loss 到所有节点
|
||||
5. **[[self-evolving-agents|Self-Evolving Agents]]** — 部署后从经验中自主学习,无需 ground-truth
|
||||
6. **[[language-loss|Language Loss]]** — 用自然语言评估执行结果的损失函数
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `agent-symbolic-learning` ↔ `symbolic-network` ↔ `language-loss` ↔ `symbolic-backpropagation` ↔ `language-gradient`
|
||||
|
||||
**自进化线**: `self-evolving-agents` — 连接 `skillopt`、`heuristic-learning`、`controlled-autonomy`
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 9 个(1 raw + 1 paper + 6 概念 + 1 review)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 548 → 555 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. 填补了今日集成中的"历史空白"**:今天集成的 SkillOpt (2026)、Heuristic Learning、吕明的文本vs权重优化分析——它们的共同思想源头都可以追溯到这篇 2024 年的 Agent Symbolic Learning。它是最早明确提出"模仿 BP+GD 来优化 Agent 符号组件"的工作,SkillOpt 的"文本空间优化器"类比和 Heuristic Learning 的"替代梯度下降"都可视为其后续发展。
|
||||
|
||||
**2. Holistic Joint Optimization 的远见**:论文指出 DSPy 等方法"只优化单个 prompt/tool"会导致局部最优——这类似于早期神经网络逐层训练(layer-wise pretraining)的困境。Agent Symbolic Learning 的 Holistic 联合优化呼应了神经网络端到端训练的演进逻辑,在当时是非常有远见的设计选择。
|
||||
|
||||
**3. 从 engineering-centric 到 data-centric 的范式宣言**:这篇论文不仅提出方法,更提出了一个根本性问题——Agent 开发应该像训练神经网络一样从数据中学习,而不是靠人类工程手工调优。这个 vision 在两年后的 SkillOpt 和 Heuristic Learning 中得到了工程化的验证。
|
||||
Reference in New Issue
Block a user