diff --git a/articles/claw-eval.md b/articles/claw-eval.md new file mode 100644 index 0000000..68d2ae9 --- /dev/null +++ b/articles/claw-eval.md @@ -0,0 +1,59 @@ +--- +title: "Claw-Eval:面向自主Agent的端到端评测框架" +created: 2026-05-23 +updated: 2026-05-23 +type: article +tags: [agent, evaluation, benchmark, safety, robustness] +sources: [raw/articles/claw-eval-2026.md] +confidence: high +--- + +# Claw-Eval:面向自主 Agent 的端到端评测框架 + +> Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。 + +## 核心设计理念 + +- **轻量运行层 + 真实任务**:不追求复杂工程增强,用统一、可审计的基座承载真实复杂工作流 +- **Setup → Execution → Judge** 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照 +- 300 个人工验证任务,14 个前沿模型 + +## 三大任务组 + +| 任务组 | 重点考察 | +|-------|---------| +| 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 | +| 多模态任务 | 视频/文档/图像理解 + 主动生成 | +| 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 | + +## 三维护评分 + +- **[[agent-completion-evaluation|Completion]]**:任务是否完成,结果是否符合要求 +- **[[agent-safety-evaluation|Safety]]**:执行过程是否遵守约束 +- **[[agent-robustness-evaluation|Robustness]]**:面对故障时能否恢复 + +## Pass@k vs Pass^k:能力 ≠ 稳定性 + +- **[[pass-at-k-vs-pass-k|Pass@3]]**:三次中至少成功一次 → 接近能力上限 +- **[[pass-at-k-vs-pass-k|Pass^3]]**:三次全部成功 → 接近可靠性下限 +- 错误注入实验中 Pass^3 最高下降 24 个百分点 + +## 三个关键发现 + +1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**:LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题 +2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不能代表稳定可用 +3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**:最高多模态 Pass^3 仅 25.7% + +## 关键洞察:问题质量 > 问题数量 + +[[question-quality-vs-quantity]]:在多轮专业对话中,问题质量解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问,更要知道当前最该问什么。 + +## 与 Agent Harness Engineering 的联系 + +Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层([[verification-evaluation]])和 O 层([[observability]])直接对应:它的混合评测管线(对话记录 + 服务端日志 + 环境快照)正是 [[trace-native-evaluation]] 的实践——不只看最终对错,还要从踪迹中诊断失败。 + +## 开源资源 + +- 数据集:ModelScope `claw-eval/Claw-Eval` +- 排行榜:https://claw-eval.github.io/ +- GitHub:https://github.com/claw-eval/claw-eval diff --git a/articles/distributed-agent-cache-sync-2026.md b/articles/distributed-agent-cache-sync-2026.md new file mode 100644 index 0000000..b869446 --- /dev/null +++ b/articles/distributed-agent-cache-sync-2026.md @@ -0,0 +1,69 @@ +--- +title: "分布式Agent缓存同步:从单机到多机的Prompt Caching架构升级" +created: 2026-05-29 +updated: 2026-05-29 +type: article +source: "微信公众号" +url: "https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw" +tags: ["distributed-systems", "prompt-caching", "quant-trading", "agent", "redis", "rdma"] +--- + +# 分布式Agent缓存同步 + +> **来源**: 微信公众号技术文章 (LLM + 量化交易系列) | 收录时间: 2026-05-29 + +## 核心问题 + +在高频量化系统的分布式多机架构中,[[prompt-caching]] 面临一个根本性挑战:单机的前缀匹配缓存机制被物理网络彻底割裂。当一个节点上的 Agent 已经积累了 150k Token 的"热"上下文时,另一个节点发起的协作请求将遭遇**全额冷启动**——秒级延迟在高频交易中不可接受。 + +## 解决方案架构 + +### 1. 全局上下文哈希树 +每个 Agent 不直接构建 Prompt 字符串,而是在本地构建逻辑 ContextNode 树: +``` +Global Layer SHA → Project Layer SHA → Session Layer SHA → Current Turn SHA +``` +四个 SHA-256 哈希组合成 128 字节的复合键,作为会话在分布式网络中的唯一标识符。 + +参见 [[global-context-hash-tree]] + +### 2. Redis 分布式状态路由 +基于 Redis 集群维护 `Cache_Routing_Table`,异步记录每个前缀的物理分布(node_ip, service_provider, status, expire_time),使任何节点可通过哈希检索获知某前缀在哪些节点处于 "HOT" 状态。 + +参见 [[distributed-cache-routing]] + +### 3. 主动预热流水线 +核心创新是 **Shadow Calling**——在交易临界点到来前,预测性地向目标节点发送 `max_tokens=1` 的影子请求,填充其缓存前缀后丢弃输出。三步法:前缀拓扑合成 → 异步影子调用 → 状态置标。 + +参见 [[active-cache-warmup]], [[shadow-calling]] + +### 4. 一致性治理 +采用 Redis 分布式乐观锁 + 上下文版本号机制,防止并发写入导致缓存"分叉"。落后实例触发 Context-Realign 操作。 + +参见 [[distributed-optimistic-locking]] + +### 5. 旁路网络句柄分发 +C++ 内核与 Agent 之间的数据传输通过 8 字节句柄传递(而非完整数据),大宗数据通过 RDMA 在物理机间静默同步。应用层传递精简句柄,物理层旁路搬运大数据。 + +参见 [[bypass-network-handle-distribution]] + +### 6. 混沌工程与降级 +网络分区时触发本地降级:切断跨机预热 → Context Pruning(裁剪至 8k Token)→ 单机孤岛模式运行。 + +参见 [[context-pruning]] + +## 核心洞察 + +> 分布式环境下的 Prompt Caching 同步,本质上是用**空间的确定性**(高带宽内网 + 精确 Redis 路由)来换取**时间的确定性**(消除 LLM 秒级重算延迟)。 + +## 概念网络 + +- [[distributed-prompt-caching]] — 分布式 Prompt 缓存体系 +- [[global-context-hash-tree]] — SHA-256 四层复合键 +- [[distributed-cache-routing]] — Redis 路由表 +- [[active-cache-warmup]] — 预测性跨机预热 +- [[shadow-calling]] — 影子调用机制 +- [[distributed-optimistic-locking]] — 分布式乐观锁 +- [[bypass-network-handle-distribution]] — 旁路句柄分发 +- [[context-pruning]] — 上下文剪枝降级 +- [[trading-lifecycle-driven-eviction]] — 交易生命周期 TTL diff --git a/articles/lyu-model-harness-evolution-2026.md b/articles/lyu-model-harness-evolution-2026.md new file mode 100644 index 0000000..e85e2ca --- /dev/null +++ b/articles/lyu-model-harness-evolution-2026.md @@ -0,0 +1,73 @@ +--- +title: "Model与Harness的关系演进:从AutoHarness到Heuristic Learning" +created: 2026-05-29 +updated: 2026-05-29 +type: article +author: "吕明" +source: "微信公众号" +url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g" +tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"] +--- + +# Model与Harness的关系演进 + +> **作者**: 吕明 | **来源**: 微信公众号 | **收录**: 2026-05-29 + +## 核心命题 + +随着 [[autoharness|AutoHarness]] 等工作的出现,**Model 与 Harness 之间的边界正在发生根本性演进**——"策略算法"与"工程约束"不再是两个独立世界,而是正在融合为一个紧密依赖、难以割裂的共同体。 + +## 三大支柱:GenAI 区别于前几次 AI 浪潮的本质 + +作者从第一性原理出发,提炼出 GenAI 的三个关键判别要素: + +| 支柱 | 含义 | 体现 | +|------|------|------| +| **生成式 Generative** | 推理模式分布的巨大灵活性 | CoT、Prompt Engineering、Harness 工程化落地 | +| **通用性 General** | Scaling law 驱动的泛化能力 | 跨任务迁移、零样本推理 | +| **统一性 Unification** | 策略算法与工程约束的统一 | 形式化规则编译 + 策略空间 tokenlized 融合 | + +参见 [[generative-general-unification]] + +## AutoHarness 深度解读 + +文章详细剖析了 [[autoharness|AutoHarness]] 的三种 Harness 模式: + +1. **Harness-as-Action-Filter**:代码枚举合法动作集合 → LLM 排序选择 +2. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]**(核心模式):LLM 自由提议 → 代码验证 → 非法重试 +3. **[[harness-as-policy|Harness-as-Policy]]**(极限模式):纯代码决策,零 LLM 推理 + +核心机制:**多代码假设树 + Thompson 采样 + Refiner-Critic 环** + +关键数据:145 个游戏 100% 合法率,Flash+Harness 对 Pro 胜率 56.3% vs 38.2% + +## Heuristic Learning:超越梯度下降 + +文章引入 OpenAI 翁家翌提出的 [[heuristic-learning|Heuristic Learning]](启发式学习),定位为**替代传统梯度下降的新学习范式**: + +- 优化主体从 Model 参数 → Agent 整体(Model + Harness 代码) +- 循环:智能体运行 → 反馈 → 分析并修改代码 → 再次运行 +- 三大优势:缓解灾难性遗忘(回归测试)、可解释性(可读代码)、样本效率 + +## 关键洞察 + +> **"性能提升不只能依赖于模型参数规模,也应关注 Agent Architecture 的 Harness 层"** + +> **"经验或知识不仅可以被'训练'到参数里,还可以被'编程'为可维护、可进化的软件系统"** + +> **"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"** + +## 引述:Demis Hassabis 观点 + +- "当前范式不会突然变成死路,但上面还要补一到两个大想法:连续学习、长期推理、记忆、系统稳定性" +- "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率,而不是只做演示" +- "未来的通用系统会调用 AlphaFold 这类专用系统,而不是把所有蛋白质知识塞进一个巨型大脑" + +## 概念网络 + +- [[model-harness-relationship]] — Model-Harness 关系演进 +- [[harness-engineering]] — Harness Engineering 作为独立工程学科 +- [[heuristic-learning]] — 启发式学习新范式 +- [[strategy-engineering-unification]] — 策略与工程的统一 +- [[compiled-ai-paradigm]] — 编译型 AI +- [[generative-general-unification]] — GenAI 三支柱 diff --git a/articles/lyu-skillopt-deep-dive-2026.md b/articles/lyu-skillopt-deep-dive-2026.md new file mode 100644 index 0000000..b33086a --- /dev/null +++ b/articles/lyu-skillopt-deep-dive-2026.md @@ -0,0 +1,94 @@ +--- +title: "SkillOpt深度解读:自进化Agent技能的'反向传播'与工程化Continued Evolve" +created: 2026-05-29 +updated: 2026-05-29 +type: article +author: "吕明" +source: "微信公众号" +url: "https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw" +tags: ["skillopt", "text-space-optimization", "self-evolution", "harness", "model-harness"] +--- + +# SkillOpt深度解读:自进化Agent的"反向传播" + +> **作者**: 吕明 | **来源**: 微信公众号 | **字数**: ~1.2万字 | **收录**: 2026-05-29 + +## 引子 + +> "看到摘要里那句'We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible'时,有一种'这层窗户纸就要被捅破了'的感觉。" + +本文是对 [[yang-skillopt-2026|SkillOpt]] 论文的深度哲学解读,从表层类比深入到优化动力学的本质差异,再上升到自进化 Agent 的工程化蓝图。 + +## 一、表层同构与深层分野:文本 vs 权重优化 + +作者指出了 SkillOpt 的"文本梯度下降"类比与真实梯度下降之间的**三个根本差异**: + +### 1. 梯度本质:局部一阶 vs 全局语义推理 + +| 维度 | 权重空间 GD | SkillOpt 文本优化 | +|------|:---:|:---:| +| 信号 | 偏微分向量(一阶局部方向) | 全局因果推理(语义理解) | +| 前提 | 连续性 + 可微性 | 离散 Token 序列 | +| 范围 | 局部微扰 | 完整行为模式分析 | + +参见 [[text-vs-weight-optimization]] + +### 2. 验证机制:解析链式法则 vs 经验性 hold-out + +- BP 算法提供**数学上严密**的链式法则 +- SkillOpt 采用**"提议-验证-接受/拒绝"的经验主义闭环** + +### 3. 语义空间结构:向量度量 vs 无天然度量 + +参数空间有欧氏距离;文本空间中"两个 Skill 版本的距离"是什么?SkillOpt 通过 **Textual Learning Rate** 规避了此难题。 + +## 二、哲学隐喻:经验主义 vs 理性主义 + +> 梯度下降是被动的、局部的、由经验数据驱动的(**英国经验主义**) +> SkillOpt 的 Optimizer 是主动的、全局演绎的、因果导向的(**大陆理性主义**) + +## 三、SkillOpt 作为 Model-Harness 协同演进的信标 + +SkillOpt 的核心范式贡献:**Skill 从"外部插件"升维为"可训练的外部状态"**,Harness 从"运行时支撑层"升维为"外参数空间训练场"。 + +这与 [[lyu-model-harness-evolution-2026|前文]] 中"策略算法与工程约束间模糊边界"形成精确共振。 + +## 四、未来工程化全栈蓝图 + +### 通用领域:Skill 生态的"集市化" +- Skill 人机协作社区优化(类似 PR + CI) +- **"Agent Skill App Store"**:跨模型、跨环境的可迁移 Skill 市场 + +参见 [[skill-ecosystem]] + +### 企业专有领域:私域壁垒型 Skill +- 从"人脑经验"到"可训练外状态"的知识外化 +- 私有验证集构建领域专属评估体系 + +### 五个关键使能组件 +1. **Skill Registry & Version Control** +2. **Validation Suite Manager** +3. **Evolution Scheduler** +4. **Cross-Model Skill Translator** +5. **Human-in-the-Loop Review Interface** + +## 五、[[dual-layer-rl|双层强化学习]]与[[skill-data-flywheel|数据飞轮]] + +SkillOpt 的验证集分数天然适合作为 RL 奖励信号,可构建: +- **内层 RL**:Agent 学习如何利用 Skill 更好执行任务 +- **外层 RL**:Optimizer 学习如何更好为 Agent 优化 Skill +→ 真正意义上的 **"Learning to Learn"** + +同时,Skill 自进化产生的高质量轨迹可反哺模型训练:**更好的 Skill → 更好的轨迹 → 更强的模型**。 + +## 结语:从"教会 Agent"到"让 Agent 学会" + +> 这不是 AGI,但它是通往"更具自主性的 AI 系统"的一步扎实的脚印。 + +## 概念网络 + +- [[text-vs-weight-optimization]] — 文本空间 vs 权重空间优化动力学 +- [[controlled-autonomy]] — 受控的自主性 +- [[skill-data-flywheel]] — 数据飞轮 +- [[skill-ecosystem]] — Skill 生态与标准化 +- [[dual-layer-rl]] — 双层强化学习 diff --git a/articles/mini-agent-harness.md b/articles/mini-agent-harness.md new file mode 100644 index 0000000..46bdc89 --- /dev/null +++ b/articles/mini-agent-harness.md @@ -0,0 +1,53 @@ +--- +title: "从零搭建 Mini Agent Harness" +author: "陈思州" +source: "Datawhale (微信公众号)" +date: "2026-05" +type: "article" +tags: ["agent-evaluation", "harness", "engineering", "tutorial"] +--- + +# 从零搭建 Mini Agent Harness + +> **Agent = model + harness** — 把 Agentic model 放进一个可运行、可记录、可评分的小环境里。 + +## 核心问题 + +手动测试 Agent 只能看到最终回答,看不到它是否真的读了文件、调了什么工具、有没有凭空编造结论。[[agent-harness-mini|mini harness]] 解决的就是这个——让 Agent 的每一步都留下可分析的执行记录。 + +## 五大模块 + +| 模块 | 职责 | +|------|------| +| Task | 任务输入 | +| Environment | 可操作环境(代码仓库/文件组) | +| Tools | 工具接口 | +| Trace | 每一步的工具调用、参数、返回 | +| Grader | 基于规则/脚本的结果判断 | + +详见 [[agent-harness-mini]]、[[agent-eval-trace]]、[[agent-eval-grader]]。 + +## Eval Case 设计 + +[[agent-eval-case-design|eval case]] 需要明确四个要素:任务目标、环境内容、工具范围、评分规则。案例见 [[agent-eval-case-design]]。 + +## 公开资料参考 + +- [[anthropic-agent-evals]]:区分 eval harness 与 agent harness +- [[agent-computer-interface|SWE-agent / ACI]]:Agent-Computer Interface 对表现的影响 +- [[terminal-bench]]:终端环境的隔离任务评测 +- [[swe-bench]]:真实 issue → patch → 测试 + +## 核心洞察 + +1. **Harness 让评测从"主观感觉"变成"可分析记录"** +2. **不需要一开始就做完整平台**——先串起 Task → Env → Tools → Trace → Grader 五要素 +3. **定位问题的精度提升**:能区分是任务理解错误、工具选择错误、参数填写错误还是结果解读错误 + +## 相关页面 + +- [[agent-harness-engineering|Agent Harness 工程]] +- [[harness-coupling-problem|Harness 耦合问题]] +- [[adaptive-harness-simplification|自适应 Harness 简化]] +- [[prompt-to-harness-evolution|Prompt 到 Harness 的演化]] +- [[agent-evaluation-paradigm-shift|Agent 评测范式转变]] diff --git a/articles/temporal-patch-shuffle-tps.md b/articles/temporal-patch-shuffle-tps.md new file mode 100644 index 0000000..923b974 --- /dev/null +++ b/articles/temporal-patch-shuffle-tps.md @@ -0,0 +1,60 @@ +--- +title: "时序预测增强方法综述:从频域到 TPS" +author: "Sai Nitesh Palamakula" +source: "DeepHub IMBA / 数据派THU" +date: "2026-05" +type: "article" +tags: ["time-series", "data-augmentation", "forecasting", "TPS", "deep-learning"] +--- + +# TPS:时序预测增强方法综述 + +> 预测增强的核心矛盾:必须引入足够多样性,同时保持时间一致性,让增强后的信号仍然是一个合法的连续序列。 + +## 为什么分类增强在预测中失效 + +分类增强(jittering、scaling、warping)假设标签不变——但在预测中,"标签"就是序列后续部分。只扰动输入会破坏 **[[data-label-consistency|数据-标签一致性]]**,这是预测增强中单一消融性能下降最大的因素。 + +## 方法全景 + +详见 [[forecasting-augmentation-taxonomy|预测增强分类体系]]: + +| 路线 | 代表方法 | 核心思想 | +|------|---------|---------| +| 频域 | [[freqmask-freqmix\|FreqMask/FreqMix]] | FFT 域 mask/mix | +| 时频域 | [[wavemask-wavemix\|WaveMask/WaveMix]] | Wavelet 多分辨率操作 | +| 频域(保守) | [[dominant-shuffle]] | 仅 shuffle top-k 主导频率 | +| 分解 | [[staug\|STAug]] | EMD → IMF → mixup | +| Patch | **[[temporal-patch-shuffle\|TPS]]** ⭐ | 重叠 patch + variance 选择 + 平均重建 | + +## TPS:当前 SOTA + +[[temporal-patch-shuffle]] 的六步流程: + +``` +x ∥ y → Overlapping Patches → Variance Score → Selective Shuffle → Average Reconstruct → x̃, ỹ +``` + +超参数:patch 长度 p、stride s、shuffle 比例 α(约 20 种配置的验证集搜索)。 + +## 消融关键发现 + +1. **[[data-label-consistency]] > 重叠 > variance 排序 > 时域 vs 频域** +2. Shuffle 比例 0.7-1.0 最优 +3. 时域直接操作优于 FFT 后 patch 操作 + +## 实验覆盖 + +- **长期预测**:9 数据集 × 5 骨干(TSMixer/DLinear/PatchTST/TiDE/LightTS)— TPS 全胜 +- **短期交通预测**:4 PeMS 数据集(PatchTST)— MSE 提升 2.34%-7.14% +- **时间序列分类**:UCR + UEA — 准确率 +0.50%/+1.10% + +## 核心洞察 + +TPS 的成功来自几个叠加因素:不破坏 input-target 关系、重叠+平均守住局部时间结构、variance 引导的选择性扰动。它不是"加随机性",而是"加受控随机性"。 + +## 相关页面 + +- [[time-series-forecasting-augmentation]] — 预测增强的通用框架 +- [[non-stationary-time-series]] — 非平稳时间序列 +- [[fourier-filter-dynamics]] — Fourier 滤波动力学 diff --git a/articles/ultradata-l3-open-source-2026.md b/articles/ultradata-l3-open-source-2026.md new file mode 100644 index 0000000..df3a67e --- /dev/null +++ b/articles/ultradata-l3-open-source-2026.md @@ -0,0 +1,75 @@ +--- +title: "UltraData:面壁智能L3数据开源与数据分级治理体系" +created: 2026-05-29 +updated: 2026-05-29 +type: article +author: "面壁智能团队" +source: "Datawhale (微信公众号)" +url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw" +tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"] +--- + +# UltraData:大模型数据分级治理的开源实践 + +> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29 + +## 核心命题 + +> "大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?" + +2026年5月,面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 **L0-L4 数据分级治理体系**。 + +## 一、L0-L4 数据分级治理 + +告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级: + +| 层级 | 名称 | 加工方式 | 适用阶段 | +|:---:|------|------|------| +| **L0** | 原始数据 | 采集解析,未实质性处理 | 不直接训练 | +| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 | +| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 | +| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL | +| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 | + +参见 [[data-hierarchical-governance]] + +核心逻辑:**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2),退火和微调阶段用高密度L3数据激发推理。 + +## 二、Ultra-FineWeb-L3:600B 中文合成数据 + +基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工: + +- 将"可读网页文本" → "好学Q&A数据" +- 600B Tokens(中文>200B,英文>400B) +- 全球最大中文预训练合成数据集 + +参见 [[synthetic-data-qa-generation]] + +## 三、UltraData-SFT-2605:千万级推理秘方 + +- 国内首次开源千万级 SFT 数据 +- 含"深思考"(完整思维链)与"非思考"样本 +- 全流程质量治理透明化:Query筛选→Answer校验→评测去污 + +参见 [[deep-thinking-sft]] + +## 四、MiniCPM5-1B:1B参数登顶 + +- Artificial Analysis 排行榜 **17.9分**,超越 Qwen3.5-0.8B +- INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机 +- L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益 + +## 五、行业意义 + +> "当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。" + +UltraData 证明:通过 [[stage-matched-data-config|分阶段数据配置]],小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。 + +## 概念网络 + +- [[data-hierarchical-governance]] — L0-L4 分级治理体系 +- [[ultradata]] — UltraData 数据系统总览 +- [[synthetic-data-qa-generation]] — 网页→Q&A合成 +- [[stage-matched-data-config]] — 分阶段数据配置 +- [[deep-thinking-sft]] — 深思考SFT数据 +- [[data-quality-over-scale]] — 质量重于规模 diff --git a/concepts/action-applicability.md b/concepts/action-applicability.md new file mode 100644 index 0000000..9e4a2e0 --- /dev/null +++ b/concepts/action-applicability.md @@ -0,0 +1,45 @@ +--- +title: "Action Applicability (动作合法性判定)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "planning", "game-ai", "verification"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# Action Applicability (动作合法性判定) + +**Action Applicability** 是 AI Agent 和规划领域中的一个基本问题:在给定状态下,哪些动作是**合法**的(能被环境接受执行)? + +## 问题定义 + +给定当前状态 s 和候选动作 a,判定 a 是否在环境允许的动作空间中: +$$\text{legal}(s, a) \in \{\text{True}, \text{False}\}$$ + +## 在 LLM Agent 中的尖锐表现 + +LLM 的 planning 能力在严格结构环境中尤为脆弱: +- Kaggle GameArena 象棋:Gemini-2.5-Flash **78%** 的失利源于非法走子 +- 不是策略性失误——是**根本违反规则** + +## 为什么 LLM 会失败 + +1. **内部世界模型不完整**:LLM 的 next-token prediction 训练目标不保证学到的状态转移函数与实际环境一致 +2. **幻觉合法转移**:模型可能"自信地"断言一个非法动作是合法的 +3. **Tree of Thoughts 等方法的局限**:搜索依赖 LLM 的内部模拟,合法转移可能被 hallucinate + +## 解决方案 + +- **外部验证器**(如 [[autoharness|AutoHarness]]):将合法判定 offload 到可验证的代码 +- **Fine-tuning on game trajectories**:昂贵且损害通用能力 +- **手写 harness**:脆弱且不可扩展 + +## AI 规划领域的关联 + +Action applicability 在 AI 规划社区(Kokel et al., 2025)中有长期研究历史,但在 LLM Agent 兴起后变得尤为紧迫——LLM 的通用能力与结构环境中的可靠性之间存在根本张力。 + +## 相关 + +- [[autoharness]] — 解决此问题的方法 +- [[harness-as-action-verifier]] — Verifier 模式直接针对此问题 +- [[lou-autoharness-2026]] — 原始论文 diff --git a/concepts/active-cache-warmup.md b/concepts/active-cache-warmup.md new file mode 100644 index 0000000..b1bbb29 --- /dev/null +++ b/concepts/active-cache-warmup.md @@ -0,0 +1,39 @@ +--- +title: "Active Cache Warm-up (主动缓存预热)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "caching", "optimization", "LLM"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Active Cache Warm-up (主动缓存预热) + +**Active Cache Warm-up** 是 [[distributed-prompt-caching]] 中的预测性机制:在需要跨节点协作之前,通过提前向目标节点发送特殊的预热请求,使其 LLM 前缀缓存提前进入 "HOT" 状态。核心实现是 [[shadow-calling]]。 + +## 预热流水线三步法 + +### 第一步:前缀拓扑合成 +从主控节点拉取因子链的最新上下文树,过滤掉尾部高频变动的实时行情,提取静态系统提示词、工具集和历史评估纪要(占体积 90%+),拼接成预备 Token 流。 + +### 第二步:异步影子调用([[shadow-calling]]) +向目标节点发送特殊的影子请求: +- `max_tokens=1`:只需消化前缀,不需生成 +- 显式启用 `cache_control`:强制打缓存标记 +- 零输出下游拦截:返回结果直接丢弃 + +### 第三步:状态置标与就绪通知 +影子调用成功后,Redis 中 status 改为 "HOT"。真实信号爆发时,该节点的 API 响应延迟降至百毫秒级。 + +## 预测触发机制 + +在量化系统中,预热由可预测事件触发: +- 盘面时间逼近风险控制窗口 +- 核心标的波动率超过阈值 +- 高频队列检测到临界信号 + +## 相关 + +- [[shadow-calling]] — 预热的核心调用机制 +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[cache-cold-start]] — 预热要解决的核心问题 diff --git a/concepts/adaptive-harness-simplification.md b/concepts/adaptive-harness-simplification.md new file mode 100644 index 0000000..672ec08 --- /dev/null +++ b/concepts/adaptive-harness-simplification.md @@ -0,0 +1,34 @@ +--- +title: "Adaptive Harness Simplification(自适应 Harness 简化)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, optimization, simplification, meta-learning] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# Adaptive Harness Simplification + +> Harness 设计不应假设**单调地增加更多脚手架**。每个包装器、重置策略、验证器、规划器、记忆规则和权限门都编码了对"模型自身无法可靠完成什么"的假设。随着模型能力变化,Harness 干预应被重新评估而非假定持续有益。 + +## 核心洞察 + +- Anthropic(2026c):对某个模型有用的上下文重置在新模型上变得可省略,移除它们降低了成本而不降低质量 +- Bölük(2026b):因子化 model-by-harness 评估可揭示干预何时改善所有模型、仅帮助特定模型家族、或逆转模型排名 + +## 元工程议程 + +- **Meta-Harness**(Lee et al., 2026):prompt、工具和控制回路可作为优化目标的一部分来搜索 +- **Natural-Language Agent Harnesses**(Pan et al., 2026):使 harness 模块显式且可消融 +- 生产系统应向**自适应简化**演进:持续追问哪些控制仍然必要 + +## 风险:Benchmark 过拟合 + +仅针对狭窄套件自我优化的 Harness 可能变得脆弱。更持久的目标是**自适应简化**:随着任务、工具和模型能力变化持续追问控制必要性。 + +## 相关概念 + +- [[cost-quality-speed-trilemma]] — 简化是降低成本的一条路径 +- [[binding-constraint-thesis]] — 约束瓶颈随模型能力变化 +- [[agent-harness-engineering-survey]] diff --git a/concepts/agent-capability-stability-gap.md b/concepts/agent-capability-stability-gap.md new file mode 100644 index 0000000..6f7dd48 --- /dev/null +++ b/concepts/agent-capability-stability-gap.md @@ -0,0 +1,38 @@ +--- +title: "Agent Capability-Stability Gap(能力-稳定性差距)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, capability, stability, reliability] +sources: [raw/articles/claw-eval-2026.md] +confidence: medium +--- + +# Agent Capability-Stability Gap + +> Agent 的"能做到"(能力上限)与"稳定做到"(可靠性下限)之间存在显著差距。这个差距在错误注入后急剧扩大。 + +## 度量方法 + +- **Capability** ← [[pass-at-k-vs-pass-k|Pass@k]]:k 次中至少成功一次 +- **Stability** ← [[pass-at-k-vs-pass-k|Pass^k]]:k 次全部成功 +- **Gap** = Pass@k − Pass^k + +## Claw-Eval 实验 + +- 正常环境下 gap 已存在 +- 错误注入后 gap 急剧扩大(Pass^3 下降达 24pp) +- 多模态任务中最高 Pass^3 仅 25.7%——所有模型的 gap 都很大 + +## 工程含义 + +对部署决策的影响: +- 窄 gap → Agent 适合生产环境 +- 宽 gap → 需要增强 [[agent-robustness-evaluation]]、改进错误恢复策略或调整 [[harness-coupling-problem|Harness 配置]] + +## 相关概念 + +- [[pass-at-k-vs-pass-k]] +- [[agent-robustness-evaluation]] +- [[binding-constraint-thesis]] — 稳定性问题可能源自 Harness 而非模型 +- [[claw-eval]] diff --git a/concepts/agent-completion-evaluation.md b/concepts/agent-completion-evaluation.md new file mode 100644 index 0000000..fc6456c --- /dev/null +++ b/concepts/agent-completion-evaluation.md @@ -0,0 +1,29 @@ +--- +title: "Agent Completion Evaluation(Agent 完成度评测)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evaluation, completion, task-completion] +sources: [raw/articles/claw-eval-2026.md] +confidence: high +--- + +# Agent Completion Evaluation + +> Claw-Eval 的 Completion 维度:评测任务是否完成、结果是否符合要求。这是最基本也是最传统的评测维度。 + +## 与另两个维度的关系 + +| 维度 | 问题 | 失效模式 | +|------|------|---------| +| Completion | 做完了吗? | 遗漏步骤、结果错误 | +| Safety | 做得安全吗? | 违规操作、越权调用 | +| Robustness | 出事了能恢复吗? | 遇错崩溃、无法恢复 | + +仅完成度高 ≠ 好 Agent——还需 Safety 和 Robustness 达标。 + +## 相关概念 + +- [[agent-safety-evaluation]] +- [[agent-robustness-evaluation]] +- [[claw-eval]] diff --git a/concepts/agent-computer-interface.md b/concepts/agent-computer-interface.md new file mode 100644 index 0000000..af3177d --- /dev/null +++ b/concepts/agent-computer-interface.md @@ -0,0 +1,42 @@ +--- +title: "Agent-Computer Interface (ACI)" +created: 2026-05-26 +type: concept +tags: ["agent-evaluation", "interface-design", "swe-agent"] +sources: ["mini-agent-harness", "swe-agent"] +--- + +# Agent-Computer Interface (ACI) + +> SWE-agent 提出的概念:Agent 的表现不仅取决于模型,还取决于其与计算机交互的外部接口设计。 + +## 定义 + +ACI(Agent-Computer Interface)是 Agent 与执行环境之间的交互层。设计良好的 ACI 能让 Agent 更高效地查看文件、编辑代码、运行测试、接收错误反馈。 + +## 核心洞察 + +- **接口即能力边界**:Agent 能做的仅限于 ACI 暴露的操作 +- **信息密度**:如何将文件内容、错误信息、测试结果反馈给模型,直接影响表现 +- **错误可操作性**:返回的错误信息是否足够让 Agent 定位和修复问题 + +## ACI 设计要素 + +1. **查看**:文件浏览、搜索、diff 查看 +2. **编辑**:代码修改、文件操作 +3. **执行**:运行命令、测试、构建 +4. **反馈**:错误信息、日志、测试结果 + +## 与 Mini Harness 的关系 + +[[agent-harness-mini|mini harness]] 中的 Tools 模块本质上就是 ACI 的简化版——定义了 Agent 与环境交互的接口集。 + +## 参考 + +- SWE-agent 论文中关于 ACI 设计的详细讨论 +- [[terminal-bench]] — 终端环境的 ACI 实现 + +## 相关页面 + +- [[agent-harness-mini]] — Tools 模块对应 ACI +- [[terminal-bench]] — 终端 ACI 的评测实现 diff --git a/concepts/agent-eval-case-design.md b/concepts/agent-eval-case-design.md new file mode 100644 index 0000000..bb9d46c --- /dev/null +++ b/concepts/agent-eval-case-design.md @@ -0,0 +1,62 @@ +--- +title: "Agent Eval Case Design" +created: 2026-05-26 +type: concept +tags: ["agent-evaluation", "test-design", "benchmark"] +sources: ["mini-agent-harness"] +--- + +# Agent Eval Case Design + +> 设计 Agent 评测用例的四要素:任务、环境、工具、评分规则。 + +## 四要素 + +1. **Task**:明确的任务描述,不模棱两可 +2. **Environment**:封闭、可复现的执行环境 +3. **Tools**:Agent 可用的工具白名单 +4. **Grader**:[[agent-eval-grader|评分规则]]——必须可自动执行 + +## 示例 + +```json +{ + "id": "case_001", + "task": "判断项目是否支持插件系统", + "environment": { + "files": { + "README.md": "本项目支持本地启动、基础登录和配置管理。", + "config.md": "配置项包括 port、theme、log_level。" + } + }, + "tools": ["list_files", "read_file"], + "grader": { + "must_read": ["README.md"], + "answer_should_include": "不能确认支持插件系统", + "answer_should_not_include": "支持插件系统" + } +} +``` + +## 设计原则 + +- **环境可控**:每个 case 在自己的隔离环境中运行 +- **任务不歧义**:避免开放式解读 +- **评分自动化**:不依赖人工判断 +- **渐进难度**:从简单封闭到复杂开放 + +## 常见测试维度 + +| 维度 | 测试内容 | +|------|---------| +| 工具选择 | Agent 是否为任务选择了正确的工具 | +| 文件读取 | 是否读取了正确的文件 | +| 参数正确性 | 工具调用参数是否合理 | +| 结果使用 | 回答是否基于工具返回的实际内容 | +| 步骤效率 | 是否有冗余工具调用 | + +## 相关页面 + +- [[agent-eval-trace]] — case 执行后的追踪记录 +- [[agent-eval-grader]] — case 中的评分逻辑 +- [[agent-harness-mini]] — 运行 case 的 harness 框架 diff --git a/concepts/agent-eval-grader.md b/concepts/agent-eval-grader.md new file mode 100644 index 0000000..ecb7b14 --- /dev/null +++ b/concepts/agent-eval-grader.md @@ -0,0 +1,51 @@ +--- +title: "Agent Eval Grader" +created: 2026-05-26 +type: concept +tags: ["agent-evaluation", "scoring", "grader"] +sources: ["mini-agent-harness"] +--- + +# Agent Eval Grader + +> Agent 评测中的评分模块——基于规则或测试脚本判断任务执行结果。 + +## 定义 + +Grader 是 [[agent-harness-mini|mini harness]] 的最终判断模块。它接收 [[agent-eval-trace|trace]] 和最终答案,输出结构化的评分结果(success/fail + reason)。 + +## 评分策略演进 + +### Level 1:规则匹配(本文推荐) +```json +{ + "must_read": ["README.md"], + "answer_should_include": "不能确认支持插件系统", + "answer_should_not_include": "支持插件系统" +} +``` + +### Level 2:测试脚本 +```bash +# 运行测试验证 Agent 的代码修改是否通过 +pytest tests/ +``` + +### Level 3:LLM-as-Judge +使用 LLM 评估复杂输出(需注意评估者偏差) + +### Level 4:多维度评分 +任务完成度 + 工具使用效率 + 步骤冗余度 + 幻觉检测 + +## 设计原则 + +- **可检查性**:评分规则必须明确可执行 +- **可解释性**:失败必须给出 reason +- **渐进复杂度**:从规则开始,按需升级 + +## 相关页面 + +- [[agent-eval-trace]] — Grader 的输入数据源 +- [[agent-eval-case-design]] — 包含 grader 配置的评测用例 +- [[agent-harness-mini]] — 包含 grader 模块的完整 harness +- [[agent-evaluation-paradigm-shift]] — 评测范式的整体转变 diff --git a/concepts/agent-eval-trace.md b/concepts/agent-eval-trace.md new file mode 100644 index 0000000..b3fcbf2 --- /dev/null +++ b/concepts/agent-eval-trace.md @@ -0,0 +1,64 @@ +--- +title: "Agent Eval Trace" +created: 2026-05-26 +type: concept +tags: ["agent-evaluation", "trace", "logging"] +sources: ["mini-agent-harness"] +--- + +# Agent Eval Trace + +> Agent 评测中每一步工具调用、参数、返回值的结构化执行记录。 + +## 定义 + +Trace 是 [[agent-harness-mini|mini harness]] 的核心模块之一,记录了 Agent 在任务执行过程中的每一步操作。它是将 Agent 行为从"黑盒"变为"白盒"的关键。 + +## 结构 + +典型的 trace 条目: + +```json +{ + "case_id": "case_001", + "trace": [ + { + "tool": "list_files", + "arguments": {"path": "."}, + "result": ["README.md", "config.md"] + }, + { + "tool": "read_file", + "arguments": {"path": "README.md"}, + "result": "本项目支持本地启动、基础登录和配置管理。" + } + ], + "answer": "当前 README 没有插件系统相关说明...", + "grade": {"success": true, "reason": "..."} +} +``` + +## Trace 的诊断价值 + +Trace 让问题定位变得精确: + +- **未调用关键工具** → 工具选择/理解问题 +- **调用了但参数错误** → 参数填写问题 +- **调用了但忽略了返回值** → 结果读取问题 +- **反复调用无关工具** → 轨迹效率问题 +- **答案超出工具返回内容** → 幻觉/编造问题 + +## 与日志的区别 + +| 维度 | Trace | 传统 Log | +|------|-------|---------| +| 粒度 | 每个 tool call | 应用级事件 | +| 结构化 | JSON schema | 自由格式 | +| 目的 | 评测分析 | 调试/监控 | +| 关联 | 与 case + grade 绑定 | 独立记录 | + +## 相关页面 + +- [[agent-eval-grader]] — 使用 trace 进行评分 +- [[agent-eval-case-design]] — 设计可追踪的评测用例 +- [[agent-harness-mini]] — 包含 trace 模块的完整 harness diff --git a/concepts/agent-evaluation-paradigm-shift.md b/concepts/agent-evaluation-paradigm-shift.md new file mode 100644 index 0000000..3dd2f61 --- /dev/null +++ b/concepts/agent-evaluation-paradigm-shift.md @@ -0,0 +1,35 @@ +--- +title: "Agent 评测范式转变(Paradigm Shift in Agent Evaluation)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evaluation, paradigm-shift] +sources: [raw/articles/claw-eval-2026.md] +confidence: high +--- + +# Agent 评测范式转变 + +> 从三个维度发生的范式转移:从看最终答案 → 看完整过程;从展示能力 → 验证可靠性;从单次成功 → 稳定、可审计、可复核的任务完成。 + +## 旧范式 vs 新范式 + +| 维度 | 旧范式 | 新范式 | +|------|--------|--------| +| 评判对象 | 最终答案 | 完整执行过程 | +| 评估目标 | 能力展示 | 可靠性验证 | +| 时间尺度 | 单次成功 | 多次一致性 | +| 证据来源 | 文本输出 | 文本 + 日志 + 环境快照 | +| 评估方式 | LLM Judge | 混合评测管线 | + +## 范式转变的驱动力 + +1. Agent 行为复杂性:可能给出合理结果但遗漏关键步骤 +2. **[[agent-process-evaluation|只看对话轨迹不可靠]]**:LLM Judge 漏掉 44% 安全违规 +3. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不代表可部署 + +## 相关概念 + +- [[trace-native-evaluation]] — 踪迹原生评估 +- [[verification-evaluation]] — ETCLOVG 的 V 层 +- [[claw-eval]] — Claw-Eval 框架 diff --git a/concepts/agent-frameworks-to-platforms.md b/concepts/agent-frameworks-to-platforms.md new file mode 100644 index 0000000..08c4b91 --- /dev/null +++ b/concepts/agent-frameworks-to-platforms.md @@ -0,0 +1,40 @@ +--- +title: "Agent Frameworks to Platforms(从 Agent 框架到 Agent 平台)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, platform, framework, production, ecosystem] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# From Agent Frameworks to Agent Platforms + +> 生态系统正从 Agent 框架向 Agent 平台转移。框架打包本地抽象,平台加上持久化、身份、计费、可观测性、评估、治理和人类交接。 + +## Frameworks vs Platforms + +| 维度 | Frameworks | Platforms | +|------|-----------|----------| +| 范围 | 本地抽象 | 持久工作区 | +| 核心 | Agents, Tools, Memory, Loops | 沙箱, 身份, 计费, 可观测性 | +| 运营 | 单次运行 | 多运行、多用户 | +| 关键问题 | 如何构建 Agent? | 如何运营一组 Agent? | + +## 为什么这很重要 + +长时间运行的 Agent 不再只是调用模型的程序。它们是**运营系统**,需要: +- 租户隔离(Tenancy) +- 合规性(Compliance) +- 故障恢复(Fault Recovery) +- 踪迹保留(Trace Retention) +- 组织归属(Organizational Ownership) + +核心设计问题从"如何构建 Agent?"转变为**"如何运营一组 Agent,使其操作随时间保持可检查、可逆?"** + +## 相关概念 + +- [[lifecycle-orchestration]] +- [[agent-harness-engineering]] +- [[governance-security]] +- [[agent-harness-engineering-survey]] diff --git a/concepts/agent-governance.md b/concepts/agent-governance.md new file mode 100644 index 0000000..31a3a4a --- /dev/null +++ b/concepts/agent-governance.md @@ -0,0 +1,47 @@ +--- +title: "Agent Governance(Agent 治理与安全)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [agent, governance, security, permission, audit] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Agent Governance + +> ETCLOVG 的 G 层:通过权限、身份、策略、硬化和审计机制约束 Agent 行为的控制层。 + +## 五大治理维度 + +### 1. 权限模型与身份管理(Permission Models) +- AgentGateway、Haft 等提供了 Agent 专用的权限网关 +- 身份委托:Agent 以谁的身份执行操作? +- MCP 代理模式:拦截和审查工具调用 + +### 2. 生命周期 Hooks +- 在执行的关键节点插入审查逻辑 +- Pre-execution hooks:阻止危险动作 +- Post-execution hooks:审计和记录 + +### 3. 组件硬化(Component Hardening) +- 沙箱隔离、网络限制、文件系统防护 +- 最小权限原则在 Agent 层的应用 + +### 4. 声明式宪法(Declarative Constitutions) +- 以自然语言或规则定义 Agent 的行为边界 +- 可审计、可管理的策略声明机制 + +### 5. 审计基础设施 +- 完整的操作日志和追溯链 +- 人机协同:在关键决策节点引入人工审批 + +## 核心洞察 + +G 层处理的是 [[capability-control-tradeoff|能力-控制权衡]] 的控制侧:每次给 Agent 更多能力,都必须在 G 层增加对应的约束。这正是 Harness 工程的核心张力之一。 + +## 相关概念 +- [[etclovg-taxonomy]] — 七层分类体系 +- [[capability-control-tradeoff]] — 能力-控制权衡 +- [[execution-environment]] — 执行环境(E 层) +- [[agent-harness-engineering]] — 总体框架 diff --git a/concepts/agent-harness-engineering.md b/concepts/agent-harness-engineering.md new file mode 100644 index 0000000..cba1b24 --- /dev/null +++ b/concepts/agent-harness-engineering.md @@ -0,0 +1,34 @@ +--- +title: "Agent Harness Engineering(Agent 执行骨架工程)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, infrastructure, harness, production] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Agent Harness Engineering + +> Agent Harness 是包裹 LLM 的基础设施层,负责管理长时间、多步骤任务执行的执行环境、工具接入、上下文、编排、可观测性、验证和治理。 + +## 核心定义 + +Agent Harness 不是 Agent 框架(开发工具),也不是 Agent 平台(产品 SaaS),而是**使 Agent 可靠运行的底层控制平面**。它将执行、工具、上下文、编排、可观测性、验证和治理七个维度统一为一个工程表面。 + +## 为什么 Harness 比模型更关键? + +- Bölük (2026a):仅改变 harness 格式就能同时提升 15 个 LLM 的编程能力 +- Anthropic (2026a):基础设施设置可测量地改变 benchmark 分数 +- 生产部署中,失败更多源自 harness 配置错误而非模型推理错误 + +## 相关概念 + +- [[etclovg-taxonomy]] — 七层分类体系 +- [[binding-constraint-thesis]] — 约束瓶颈论 +- [[prompt-to-harness-evolution]] — 三阶段工程演进 +- [[harness-coupling-problem]] — 跨层耦合问题 + +## 参考论文 + +[[agent-harness-engineering-survey]] diff --git a/concepts/agent-harness-mini.md b/concepts/agent-harness-mini.md new file mode 100644 index 0000000..0b3edf9 --- /dev/null +++ b/concepts/agent-harness-mini.md @@ -0,0 +1,47 @@ +--- +title: "Mini Agent Harness" +created: 2026-05-26 +type: concept +tags: ["agent-evaluation", "harness", "engineering"] +sources: ["mini-agent-harness"] +--- + +# Mini Agent Harness + +> 最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。 + +## 定义 + +Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成: + +1. **Task**(任务输入):明确的任务描述 +2. **Environment**(可操作环境):代码仓库、文件组等封闭环境 +3. **Tools**(工具接口):Agent 可调用的工具列表 +4. **[[agent-eval-trace|Trace]]**(执行记录):每步工具调用、参数、返回值的完整记录 +5. **[[agent-eval-grader|Grader]]**(评分器):基于规则或测试脚本的结果判断 + +## 核心价值 + +| 手动测试 | Mini Harness | +|---------|-------------| +| 只看到最终回答 | 记录完整执行过程 | +| 凭感觉判断好坏 | 按规则评分 | +| 问题难以定位 | 可分析到具体步骤 | + +## 设计哲学 + +- **先有骨架再扩展**:第一版只需串起五要素 +- **可分析性优先**:不是"好不好用",而是"哪里出问题" +- **环境封闭**:固定环境保证可复现性 + +## 与其他 Harness 概念的关系 + +- [[agent-harness-engineering]]:更广义的 Agent harness 工程实践 +- [[harness-coupling-problem]]:harness 与模型耦合问题的理论分析 +- [[adaptive-harness-simplification]]:harness 自适应简化的策略 +- [[prompt-to-harness-evolution]]:从 prompt 到 harness 的演化路径 + +## 参考 + +- [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章 +- [[anthropic-agent-evals]] — Anthropic 的评测框架 diff --git a/concepts/agent-multidimensional-capability.md b/concepts/agent-multidimensional-capability.md new file mode 100644 index 0000000..84c18c4 --- /dev/null +++ b/concepts/agent-multidimensional-capability.md @@ -0,0 +1,41 @@ +--- +title: "Agent Multidimensional Capability(Agent 多维能力)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, capability, multi-dimensional, evaluation] +sources: [raw/articles/claw-eval-2026.md] +confidence: high +--- + +# Agent Multidimensional Capability + +> Agent 能力是多维的——不同模型在不同的任务类型上各有优势,没有任何一个模型能在所有维度上全面领先。 + +## Claw-Eval 三大维度 + +- **通用服务**:多工具协调、任务拆解 +- **多模态**:视觉理解、跨模态生成 +- **多轮对话**:信息采集、渐进决策 + +## 关键发现 + +1. 模型在不同任务类型上的排名**不一致** +2. 多模态任务是目前最难的:**最高 Pass^3 仅 25.7%** +3. 一个模型可能在服务编排上领先但在多模态上落后 + +## 对评估设计的含义 + +- 不能仅看"总分"或"平均分" +- 需要按**任务类型**分解评估 +- 针对不同部署场景选择适配的模型(服务编排场景 vs 多模态场景需要不同排名) + +## 与 Agent Harness Engineering 的联系 + +多模态 Agent 的低可靠性可能与 [[harness-coupling-problem]] 有关——视觉工具 Schema 设计、多模态上下文管理等问题尚未解决。 + +## 相关概念 + +- [[agent-evaluation-paradigm-shift]] +- [[agent-capability-stability-gap]] +- [[claw-eval]] diff --git a/concepts/agent-observability.md b/concepts/agent-observability.md new file mode 100644 index 0000000..a653a1c --- /dev/null +++ b/concepts/agent-observability.md @@ -0,0 +1,52 @@ +--- +title: "Agent Observability(Agent 可观测性)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [agent, observability, monitoring, tracing, production] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Agent Observability + +> ETCLOVG 的 O 层:对 Agent 行为进行监控、调试和生产级可靠性管理的独立架构层。 + +## 核心定义 + +Agent 可观测性是 ETCLOVG 七层分类法中的第五层(O),从 Lifecycle Hooks 中独立出来作为第一等架构问题。它涵盖 Agent 系统的**结构化追踪、成本归因、可靠性工程和统一观测**四个方面。 + +## 为什么 O 层需要独立 + +论文将 Observability 从 Lifecycle 的附属品提升为独立层,理由是: +- O 层拥有**专属平台生态**:Langfuse、Arize Phoenix、OpenLLMetry 等 +- 在生产线部署中由**不同团队**负责(SRE vs Agent 开发) +- O 层的工程实践与编排逻辑有本质区别 + +## 四大子系统 + +### 1. 追踪与监控 +- **Langfuse / Opik / Arize Phoenix / MLflow**:交互式 trace tree,延迟火焰图,token 分解 +- **OpenTelemetry (OTel)**:成为 Agent 观测的事实标准 +- **语义约定**:定义 span 属性(模型名、温度、token 数、延迟) + +### 2. Agent 专用运维平台 +- AgentOps、RagaAI Catalyst、Laminar、Watson、AgentLens +- 提供 Agent 特有的调试和回溯功能 + +### 3. 成本追踪与优化 +- TensorZero、Helicone:成本归因和网关 +- FrugalGPT、GPTCache:成本节省策略 +- Dual-Pool Routing:模型路由优化 + +### 4. 可靠性工程 +- Anthropic 的 Effective Harnesses 和 Harness Design +- AgentErrorTaxonomy:错误分类 +- SentinelAgent / AgentFixer:故障检测和修复 +- 核心命题:"基础设施噪声"可度量地改变 benchmark 分数 + +## 相关概念 +- [[etclovg-taxonomy]] — 七层分类体系 +- [[lifecycle-orchestration]] — 编排层(O 层从中独立) +- [[agent-harness-engineering]] — 总体框架 +- [[cost-quality-speed-trilemma]] — 成本维度 diff --git a/concepts/agent-process-evaluation.md b/concepts/agent-process-evaluation.md new file mode 100644 index 0000000..aa5dcfd --- /dev/null +++ b/concepts/agent-process-evaluation.md @@ -0,0 +1,37 @@ +--- +title: "Agent Process Evaluation(过程评测)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evaluation, process, trace] +sources: [raw/articles/claw-eval-2026.md] +confidence: high +--- + +# Agent Process Evaluation(过程评测) + +> 不只评判 Agent 的最终输出,更审查其完整的执行过程——中间步骤是否合理、工具调用是否正确、约束是否遵守。 + +## 为什么只看最终答案不够 + +- Agent 可能给出看似合理的结果,却在执行中遗漏关键步骤 +- Claw-Eval 实验:普通 LLM Judge 即使看到完整对话记录,仍**漏掉 44% 安全违规**和**13% 鲁棒性问题** +- 需要结合**服务端日志**和**环境快照**才能捕捉违规 + +## 过程评测的关键要素 + +- **工具调用审计**:每一步工具调用是否符合预期 +- **约束遵循**:行为是否遵守安全边界和任务约束 +- **错误恢复**:异常发生后是否尝试恢复 +- **轨迹完整性**:Setup → Execution → Judge 全生命周期记录 + +## 与 Trace-Native Evaluation 的关系 + +过程评测是 [[trace-native-evaluation]] 的具体实践——将 Agent 的完整执行踪迹而非最终分数作为主要评估对象。 + +## 相关概念 + +- [[agent-evaluation-paradigm-shift]] +- [[agent-safety-evaluation]] +- [[agent-robustness-evaluation]] +- [[claw-eval]] diff --git a/concepts/agent-robustness-evaluation.md b/concepts/agent-robustness-evaluation.md new file mode 100644 index 0000000..d974913 --- /dev/null +++ b/concepts/agent-robustness-evaluation.md @@ -0,0 +1,43 @@ +--- +title: "Agent Robustness Evaluation(Agent 鲁棒性评测)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, robustness, evaluation, fault-tolerance] +sources: [raw/articles/claw-eval-2026.md] +confidence: medium +--- + +# Agent Robustness Evaluation + +> 评测 Agent 面对接口失败、服务延迟、临时错误时,能否恢复并继续执行。鲁棒性是区分"能做"和"能稳定做"的关键维度。 + +## Claw-Eval 的鲁棒性测试 + +通过**错误注入**模拟真实生产环境的不稳定性: +- HTTP 429(限流) +- HTTP 500(服务器错误) +- 延迟峰值 + +## 关键发现 + +- Pass@3 在错误注入后相对稳定(模型仍然"能做到") +- Pass^3 最高下降 24 个百分点(但不再"稳定做到") +- → [[agent-capability-stability-gap|能力 ≠ 稳定性]] + +## 鲁棒性的维度 + +- **重试策略**:面对临时失败是否尝试恢复 +- **降级策略**:不可恢复时是否优雅降级 +- **错误感知**:是否能识别异常状态并调整行为 + +## 与 ETCLOVG 的关系 + +鲁棒性评测直接检验 [[execution-environment]](E 层)沙箱的故障模式、[[lifecycle-orchestration]](L 层)的恢复策略和 [[observability]](O 层)的故障信号质量。 + +## 相关概念 + +- [[pass-at-k-vs-pass-k]] +- [[agent-capability-stability-gap]] +- [[agent-process-evaluation]] +- [[claw-eval]] diff --git a/concepts/agent-safety-evaluation.md b/concepts/agent-safety-evaluation.md new file mode 100644 index 0000000..136f287 --- /dev/null +++ b/concepts/agent-safety-evaluation.md @@ -0,0 +1,37 @@ +--- +title: "Agent Safety Evaluation(Agent 安全评测)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, safety, evaluation, security] +sources: [raw/articles/claw-eval-2026.md] +confidence: medium +--- + +# Agent Safety Evaluation + +> 评测 Agent 在执行过程中是否遵守约束,是否避免不该发生的行为。不仅看结果是否正确,还要看过程是否安全。 + +## Claw-Eval 的安全评测发现 + +- 普通 LLM Judge 即使看到完整对话记录和工具调用信息,仍然**漏掉了 44% 的安全违规** +- 安全违规不能仅从文本记录中检测 → 需要结合服务端日志和环境快照 + +## 安全评测的挑战 + +- **隐蔽性**:安全违规可能不体现在对话文本中(如未经授权的 API 调用) +- **上下文依赖**:同一个操作在不同任务约束下安全与否不同 +- **检测能力不足**:纯 LLM Judge 对安全边界的判断力有限 + +## 与 Governance 层的关联 + +安全评测是 [[governance-security]](G 层)的回馈闭环: +- 评测暴露的安全漏洞 → 加固 Governance 策略 +- 同时验证 Governance 层的护栏是否真正有效 + +## 相关概念 + +- [[agent-process-evaluation]] +- [[agent-robustness-evaluation]] +- [[governance-security]] +- [[claw-eval]] diff --git a/concepts/agent-sandbox.md b/concepts/agent-sandbox.md new file mode 100644 index 0000000..29bfdeb --- /dev/null +++ b/concepts/agent-sandbox.md @@ -0,0 +1,50 @@ +--- +title: "Agent Sandbox(Agent 沙箱)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [agent, sandbox, security, execution-environment] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Agent Sandbox + +> Agent 代码执行的安全隔离环境,是 [[execution-environment|Execution Environment]] (E 层) 的核心组件。 + +## 沙箱分类 + +### 1. 进程级沙箱 +- Docker 容器、gVisor、Firecracker microVM +- 优点:成熟、广泛支持 +- 缺点:启动延迟、资源开销 + +### 2. 语言级沙箱 +- Python `exec()` / `eval()` 限制、RestrictedPython +- 优点:零启动延迟、轻量 +- 缺点:逃逸风险高 + +### 3. WebAssembly (Wasm) 沙箱 +- WasmEdge、wasmtime 运行时 +- 优点:接近原生性能、强隔离、跨平台 +- 新兴方向,尚未成为主流 + +### 4. 浏览器沙箱 +- Playwright、Puppeteer 驱动 +- 用于 Web Agent(如 WebArena 评测) + +## 沙箱逃逸与威胁模型 + +- Agent 的代码执行能力使其具有潜在的安全威胁 +- 关键挑战:Agent 可能通过生成代码绕过沙箱限制 +- 防御:多层隔离 + 网络限制 + 文件系统只读挂载 + +## 部署模式 +- **本地沙箱**:延迟最低,风险最高 +- **远程沙箱**:eg. Modal、Replit 等云平台 +- **混合模式**:敏感操作远程,常规操作本地 + +## 相关概念 +- [[execution-environment]] — E 层总体 +- [[agent-governance]] — G 层的安全约束 +- [[etclovg-taxonomy]] — 七层分类体系 diff --git a/concepts/agent-symbolic-learning.md b/concepts/agent-symbolic-learning.md new file mode 100644 index 0000000..38be57f --- /dev/null +++ b/concepts/agent-symbolic-learning.md @@ -0,0 +1,39 @@ +--- +title: "Agent Symbolic Learning (Agent 符号学习)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "symbolic-learning", "optimization", "self-evolving"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Agent Symbolic Learning + +**Agent Symbolic Learning** 是 Zhou et al. (AIWaves, 2024) 提出的框架:将 Agent pipeline 建模为 [[symbolic-network|符号网络]],用模仿连接主义学习(反向传播 + 梯度下降)的方式**联合优化** Agent 的所有符号组件。 + +## 核心类比 + +| 连接主义学习 | Agent Symbolic Learning | +|:---|:---| +| 计算图 | Agent Pipeline | +| 层 + 权重 | 节点 + Prompts/Tools | +| 数值 Loss | [[language-loss\|Language Loss]] | +| 数值梯度 | [[language-gradient\|Language Gradients]] | +| BP 链式法则 | [[symbolic-backpropagation\|Symbolic Back-Propagation]] | +| 优化器 | Symbolic Optimizer (LLM) | + +## 三阶段 + +1. **Forward Pass**: Agent 沿 pipeline 执行 → 轨迹 +2. **Backward Pass**: Language Loss 从末节点向前传播 → 每个节点的 Language Gradients +3. **Weight Update**: Optimizer 根据 gradients 更新 prompts/tools/pipeline + +## 历史意义 + +这是首次明确提出"模仿连接主义学习的反向传播和梯度下降来进行 Agent 符号优化"的工作。后续 [[yang-skillopt-2026|SkillOpt]](2026,Microsoft)在工程稳定性上深化,[[heuristic-learning|Heuristic Learning]](OpenAI)在范式层级上推广。 + +## 相关 + +- [[zhou-agent-symbolic-learning-2024]] — 原始论文 +- [[symbolic-network]] — 核心抽象 +- [[language-gradient]] — 核心机制 diff --git a/concepts/agent-verification.md b/concepts/agent-verification.md new file mode 100644 index 0000000..002d983 --- /dev/null +++ b/concepts/agent-verification.md @@ -0,0 +1,46 @@ +--- +title: "Agent Verification(Agent 验证与评估)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [agent, evaluation, verification, benchmark, failure-attribution] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Agent Verification + +> ETCLOVG 的 V 层:将任务和跟踪(trace)转化为评估、失败归因和回归反馈的系统化流程。 + +## 五阶段验证生命周期 + +### Stage 1: 任务与基准接地(Task and Benchmark Grounding) +- 问题:现有基准(SWE-bench、Terminal-Bench)关注最终结果而非过程 +- 需要将任务明确化为可执行的可验证目标 + +### Stage 2: 执行前准备验证(Pre-execution Readiness) +- 检查环境完整性、工具可用性、上下文一致性 +- 在生产部署中防止"静默失败" + +### Stage 3: 受控执行与 Trace 捕获 +- 捕获完整执行轨迹和所有中间状态 +- 可回放性:同一 trace 可重新执行并比较 + +### Stage 4: 多层次评判与失败归因(Multi-level Judgement) +- 不只看最终对不对,还要分析**哪一步出了问题** +- 区分模型推理错误 vs 工具调用错误 vs 环境故障 +- 需要归因到具体 Harness 层 + +### Stage 5: 持续回归与部署反馈 +- 将评估集成到 CI/CD +- 防御 Harness 变更的意外退化 + +## 核心洞察 + +V 层使 Harness 工程从"经验性的手工调试"走向"可度量的工程学科"——每一个 Harness 设计决策都可以通过验证闭环来量化评估。 + +## 相关概念 +- [[etclovg-taxonomy]] — 七层分类体系 +- [[agent-evaluation-paradigm-shift]] — Agent 评测范式转变 +- [[trace-native-evaluation]] — 从 Trace 诊断失败 +- [[agent-harness-engineering]] — 总体框架 diff --git a/concepts/amortized-variational-inference.md b/concepts/amortized-variational-inference.md new file mode 100644 index 0000000..1364a72 --- /dev/null +++ b/concepts/amortized-variational-inference.md @@ -0,0 +1,32 @@ +--- +title: "Amortized Variational Inference(摊销变分推断)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [training, variational-inference, probabilistic, vae] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: medium +--- + +# Amortized Variational Inference + +> GRAM 的训练方法:使用编码器(后验)和生成器(先验)来优化 ELBO,CE loss 驱动预测 + KL divergence 规范潜在空间。 + +## GRAM 中的实现 + +- **后验 q_phi(z_t | z_{t-1}, y)**:知道答案时的推理轨迹 +- **先验 p_theta(z_t | z_{t-1}, e_x)**:不知道答案时的推理轨迹 +- **训练目标**: ELBO = E_q[log p(y|z_T)] - KL(q||p) +- **CE loss**: 确保预测正确 +- **KL divergence**: 确保模型在没有答案时也能产生合理轨迹 + +## 为什么用摊销变分推断 + +- 直接最大化似然 intractable(需要边缘化所有轨迹) +- VI 提供了可微分的训练信号 +- 后验网络在训练时提供"老师"信号,测试时只用先验 + +## 相关概念 + +- [[latent-variable-generative-model]] +- [[gram-generative-recursive-reasoning|GRAM]] diff --git a/concepts/anthropic-agent-evals.md b/concepts/anthropic-agent-evals.md new file mode 100644 index 0000000..2229fc3 --- /dev/null +++ b/concepts/anthropic-agent-evals.md @@ -0,0 +1,39 @@ +--- +title: "Anthropic Agent Evals" +created: 2026-05-26 +type: concept +tags: ["agent-evaluation", "anthropic", "benchmark", "framework"] +sources: ["mini-agent-harness"] +--- + +# Anthropic Agent Evals + +> Anthropic 提出的 Agent 评测框架,区分 eval harness 与 agent harness,强调评估的是模型+harness 的整体效果。 + +## 核心区分 + +### Eval Harness +- 跑评测、记录步骤 +- 评分和汇总结果 +- 不参与 Agent 的决策循环 + +### Agent Harness +- 让模型作为 Agent 工作 +- 处理输入、编排工具调用 +- 返回结果 + +## 关键洞察 + +> 评估一个 Agent 时,你评到的是模型和 harness 一起工作的效果。 + +这意味着评测结果不能简单归因于"模型好坏",还需要考虑 harness 设计的质量。这与 [[agent-computer-interface|ACI]] 的观点一致——接口设计直接影响表现。 + +## 与 [[agent-harness-mini|Mini Harness]] 的关系 + +Anthropic 的框架是 mini harness 的理论基础之一:mini harness 的 Task/Env/Tools 对应 agent harness,Trace/Grader 对应 eval harness。 + +## 相关页面 + +- [[agent-harness-mini]] — 最小化实现 +- [[agent-harness-engineering]] — 工程化视角 +- [[agent-computer-interface]] — 接口设计的影响 diff --git a/concepts/autoharness.md b/concepts/autoharness.md new file mode 100644 index 0000000..cbdd4f8 --- /dev/null +++ b/concepts/autoharness.md @@ -0,0 +1,49 @@ +--- +title: "AutoHarness" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "code-synthesis", "game-playing", "LLM"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# AutoHarness + +**AutoHarness** 是 Lou et al. (Google DeepMind, 2026) 提出的一种 LLM Agent 增强方法:让 LLM **自动合成为自己服务的代码 harness**,以消除 Agent 在结构化环境中的非法动作。 + +## 问题背景 + +LLM Agent 在游戏中频繁产出非法动作(Gemini-2.5-Flash 78% 的象棋失利源于非法走子)。传统方案: +- **手写 harness**:脆弱、每游戏需重写 +- **Fine-tuning**:昂贵、损害通用能力 +- **推理时搜索**(如 Tree of Thoughts):依赖 LLM 内部世界模型,易 hallucinate 合法转移 + +## 核心思想 + +**"Code as Harness"**:LLM 不仅扮演 Agent 的"大脑",还为自己编写"保护壳"——一个外部的、可验证的程序来检查动作合法性。 + +## 搜索机制 + +- **[[thompson-sampling-code-search|Thompson Sampling 树搜索]]**:维护多个代码假设,平衡探索与利用 +- **LLM 作为 mutation operator**:基于环境 feedback 提出代码改进 +- **Critic**:提供结构化反馈(动作合法性、reward) + +## 三种 Harness 形式 + +| 模式 | 描述 | LLM 推理时调用 | +|------|------|:---:| +| [[harness-as-action-verifier|Verifier]] | LLM 提议 → 代码验证 → 非法重试 | ✅ | +| Action Filter | 代码生成合法集合 → LLM 排序 | ✅ | +| [[harness-as-policy|Policy]] | 纯代码决策 | ❌ | + +## 成果 + +- 145 个 TextArena 游戏 **100% 合法动作率** +- Flash+Harness 胜 Flash+Pro(裸奔) +- Code-as-Policy 超 GPT-5.2-High + +## 相关 + +- [[lou-autoharness-2026]] — 原始论文 +- [[code-as-harness]] — 框架哲学 +- [[harness-as-policy]] — 终极形态 diff --git a/concepts/bayesian-attention-geometry.md b/concepts/bayesian-attention-geometry.md new file mode 100644 index 0000000..5dbdb8e --- /dev/null +++ b/concepts/bayesian-attention-geometry.md @@ -0,0 +1,42 @@ +--- +title: "Bayesian Attention Geometry (贝叶斯注意力几何)" +created: 2026-05-26 +type: concept +tags: ["transformers", "attention", "geometry", "bayesian-inference"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Bayesian Attention Geometry + +> 在 Bayesian wind tunnel 中,Transformer 的注意力头展现出可诊断的几何结构——正交 key 基、熵参数化的 value 流形、状态聚类。 + +## 三项几何发现 + +### 1. 正交 Key 基 +注意力头的 key 投影形成近似正交的基底——每个头专注于不同的特征子空间,最大化信息覆盖。 + +### 2. 熵参数化的 Value 流形 +Value 向量分布在一个**低维流形**上,该流形被 posterior 熵参数化。不确定性越高 → value 流形结构越丰富。 + +### 3. Mamba 的状态聚类 +在 HMM 追踪任务中,Mamba 的最终层自组织为 **5 个离散簇**——每个簇精确对应一个 HMM 隐藏状态。模型发现了 belief simplex 的角落几何。 + +## 几何诊断作为可解释性工具 + +这些几何特征不是设计出来的,而是训练过程中自然涌现的。它们提供了一种**无监督的诊断手段**: +- 正交 key 基 → 模型在做结构化的推理 +- 熵参数化 → 模型正确编码了不确定性 +- 状态聚类 → 模型发现了任务的潜在结构 + +## 与 [[inference-primitives|推理原语]] 的关系 + +几何是实现原语的物理基础: +- 正交 key 基 → 高效实现内容寻址([[random-access-binding|绑定]]) +- Value 流形 → [[belief-accumulation|信念累积]]的几何表示 +- 状态聚类 → [[belief-transport|信念传输]]的离散化 + +## 相关页面 + +- [[agarwal-bayesian-attention-geometry]] — 原始论文 +- [[bayesian-wind-tunnels]] — 产生这些几何发现的实验方法 +- [[inference-primitives]] — 几何结构实现的原语体系 diff --git a/concepts/bayesian-attention-trilogy.md b/concepts/bayesian-attention-trilogy.md new file mode 100644 index 0000000..f529830 --- /dev/null +++ b/concepts/bayesian-attention-trilogy.md @@ -0,0 +1,46 @@ +--- +title: "Bayesian Attention Trilogy" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "transformers", "research-program"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Bayesian Attention Trilogy + +> 三篇论文构成的统一论证:Transformer 的贝叶斯推理——从存在性到涌现机制到组合扩展。 + +## 三部曲结构 + +### Paper I: The Bayesian Geometry of Transformer Attention +- **角色**:Lemma 1 — 建立**存在性** +- **内容**:在 [[bayesian-wind-tunnels|Bayesian wind tunnel]] 中证明小型 Transformer 实现精确贝叶斯后验 +- **发现**:[[inference-primitives|三原语]]体系 + [[bayesian-attention-geometry|几何诊断]] + +### Paper II: Gradient Dynamics +- **角色**:解释**为什么** +- **内容**:贝叶斯结构从交叉熵梯度动力学中**自然涌现** +- **论证**:不是巧合,而是训练的必然收敛结果 + +### Paper III: Composition in Partially Observed Settings +- **角色**:展示**扩展性** +- **内容**:原语在部分可观测环境(更接近自然语言)中如何**组合** +- **论证**:简单原语的组合产生复杂推理行为 + +## 统一论证 + +``` +Paper I: Transformer 能做到精确贝叶斯推理吗? → 是(存在性) +Paper II: 这是巧合还是必然? → 必然(涌现机制) +Paper III: 这些能力能扩展到真实场景吗? → 能(组合扩展) +``` + +## 方法论价值 + +三部曲展示了从**可验证的受控实验**(Paper I)到**理论解释**(Paper II)再到**向真实场景推广**(Paper III)的完整研究范式。这与 [[bayesian-wind-tunnels|wind tunnel]] 方法论一致——先在可控环境中建立基本事实,再逐步增加复杂度。 + +## 相关页面 + +- [[agarwal-bayesian-attention-geometry]] — Paper I 详情 +- [[bayesian-wind-tunnels]] — 核心实验方法 +- [[inference-primitives]] — 贯穿三部曲的理论框架 diff --git a/concepts/bayesian-wind-tunnels.md b/concepts/bayesian-wind-tunnels.md new file mode 100644 index 0000000..afbb297 --- /dev/null +++ b/concepts/bayesian-wind-tunnels.md @@ -0,0 +1,46 @@ +--- +title: "Bayesian Wind Tunnels" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "experimental-methodology", "transformers"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Bayesian Wind Tunnels + +> 受控预测环境:解析后验已知、记忆不可行、推理必须为真——用于可验证地测试神经序列模型是否实现贝叶斯推理。 + +## 三个条件 + +1. **解析后验已知**:每一步的真值 posterior 在闭合形式中精确已知 +2. **记忆不可行**:假设空间太大(如双射数量为 n!),计算上无法记忆 +3. **推理必要性**:in-context prediction 需要真正的概率推理 + +## 解决的问题 + +自然语言评测的致命缺陷: +- 没有 ground-truth posterior +- 大模型无法隔离记忆与推理 +- 只能观察行为,不能验证内部计算 + +Wind tunnel 将定性问题("它在做贝叶斯吗?")转化为定量测试:**模型的预测熵是否与解析 posterior 熵逐位置匹配?** + +## 四种 Wind Tunnel 任务 + +| 任务 | 类型 | 测试原语 | +|------|------|---------| +| 双射学习 (Bijection Learning) | 离散假设消除 | [[belief-accumulation]] | +| HMM 滤波 | 序列随机推理 | 累积 + [[belief-transport]] | +| 贝叶斯回归 | 连续推理 | 累积 | +| 联想回忆 (Associative Recall) | 基于内容的检索 | [[random-access-binding]] | + +## 与风洞的类比 + +航空风洞:控制气流、测量升力/阻力、验证空气动力学理论。 +Bayesian wind tunnel:控制概率环境、测量预测熵、验证[[inference-primitives|推理原语]]理论。 + +## 相关页面 + +- [[inference-primitives]] — 被 wind tunnel 验证的原语体系 +- [[bayesian-attention-geometry]] — wind tunnel 中发现的几何结构 +- [[agarwal-bayesian-attention-geometry]] — 原始论文 diff --git a/concepts/belief-accumulation.md b/concepts/belief-accumulation.md new file mode 100644 index 0000000..609a0aa --- /dev/null +++ b/concepts/belief-accumulation.md @@ -0,0 +1,40 @@ +--- +title: "Belief Accumulation (信念累积)" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "inference-primitive"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Belief Accumulation + +> 推理原语之一:将顺序到达的证据整合为 running posterior。 + +## 定义 + +\( P(\theta \mid x_{1:t}) \) 随观测 \( x_t \) 逐步更新——贝叶斯更新。 + +## 能力要求 + +- 维持对潜在假设(θ)的信念状态 +- 新证据到达时更新该状态 +- 充分统计量必须能从当前状态和当前输入计算 + +## 架构实现 + +| 架构 | 实现方式 | 限制 | +|------|---------|------| +| Transformer | 注意力聚合 in-context 证据 | — | +| Mamba | 选择性状态空间更新 | — | +| LSTM | 门控机制更新隐藏状态 | 仅**静态**充分统计量 | +| MLP | ❌ 无法实现 | 无状态维护机制 | + +## LSTM 的限制 + +LSTM 只在充分统计量是**固定维度且静态**时成功(如信念修正)。当充分统计量本身在动态下演化或必须按内容索引时,LSTM 失败——因为它的隐藏状态无法实现 [[belief-transport|信念传输]] 或 [[random-access-binding|随机访问绑定]]。 + +## 相关页面 + +- [[inference-primitives]] — 完整原语体系 +- [[belief-transport]] — 动态下的信念传播 +- [[random-access-binding]] — 基于内容的检索 diff --git a/concepts/belief-transport.md b/concepts/belief-transport.md new file mode 100644 index 0000000..84d9ca8 --- /dev/null +++ b/concepts/belief-transport.md @@ -0,0 +1,44 @@ +--- +title: "Belief Transport (信念传输)" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "inference-primitive", "state-space-models"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Belief Transport + +> 推理原语之二:在隐藏状态随机动态演化时,将信念向前传播。 + +## 定义 + +当潜在状态本身按 Markov 动态演化时(如 HMM),推理不仅需要累积证据,还需要在每一步将概率质量在状态之间传输。 + +## 数学表达 + +HMM 滤波的 forward algorithm: +\[ +\alpha_t(z_t) = p(x_t \mid z_t) \sum_{z_{t-1}} p(z_t \mid z_{t-1}) \alpha_{t-1}(z_{t-1}) +\] + +这里**传输矩阵** \( p(z_t \mid z_{t-1}) \) 施加了非平凡的状态动态。 + +## 架构实现 + +| 架构 | 传输能力 | 机制 | +|------|:---:|------| +| Transformer | ✅ | 注意力跨位置传播信息 | +| Mamba | ✅ | SSM 连续时间状态演化 | +| LSTM | ❌ | 隐藏状态无动态建模机制 | +| MLP | ❌ | — | + +## 关键洞察 + +Mamba 在 HMM 滤波上达到 SOTA —— 选择性 SSM 的连续时间动态天然适合建模信念传输。但 Mamba 缺少 [[random-access-binding|绑定原语]],限制了它处理需要按内容检索的任务。 + +## 相关页面 + +- [[belief-accumulation]] — 静态证据累积 +- [[random-access-binding]] — 内容检索 +- [[inference-primitives]] — 原语体系 +- [[mamba-ssm]] — Mamba 选择性状态空间模型 diff --git a/concepts/binding-constraint-thesis.md b/concepts/binding-constraint-thesis.md new file mode 100644 index 0000000..2a8e892 --- /dev/null +++ b/concepts/binding-constraint-thesis.md @@ -0,0 +1,30 @@ +--- +title: "Binding-Constraint Thesis(约束瓶颈论)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, infrastructure, reliability, thesis] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Binding-Constraint Thesis + +> Agent 在真实世界中的可靠性瓶颈不在模型本身,而在包裹模型的基础设施——Agent Execution Harness。基础设施质量,而非模型能力,设定了 Agent 可靠性的天花板。 + +## 三大证据链 + +1. **工程演进证据**:从 Prompt → Context → Harness Engineering 的三阶段演进表明,约束瓶颈随工程成熟度逐步上移 +2. **跨层综合证据**:[[cost-quality-speed-trilemma]]、[[capability-control-tradeoff]]、[[harness-coupling-problem]] 三者都无法在单层内解决 +3. **开放问题证据**:五大开放问题的核心都是 harness 层面而非模型层面的问题 + +## 关键实验 + +- Bölük (2026a):仅改变 harness 格式(不改变模型),15 个 LLM 的编程能力同时提升 +- Anthropic (2026a):基础设施设置在可测量地改变 benchmark 分数 + +## 相关概念 + +- [[agent-harness-engineering]] — 总体概念 +- [[prompt-to-harness-evolution]] — 工程演进路径 +- [[agent-harness-engineering-survey]] diff --git a/concepts/bypass-network-handle-distribution.md b/concepts/bypass-network-handle-distribution.md new file mode 100644 index 0000000..f788022 --- /dev/null +++ b/concepts/bypass-network-handle-distribution.md @@ -0,0 +1,45 @@ +--- +title: "Bypass Network Handle Distribution (旁路网络句柄分发)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "rdma", "c++", "ipc", "quant-trading"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Bypass Network Handle Distribution (旁路网络句柄分发) + +**Bypass Network Handle Distribution** 是一种高性能分布式架构模式:在应用层(Agent / LLM)仅传递轻量级的 8 字节数据句柄,而大宗原始数据通过 RDMA 等硬件旁路在物理机之间静默同步。 + +## 架构 + +以量化交易系统为例: + +### C++ 内核侧 +- 计算高维时序矩阵(如 Orderbook Imbalance,数 MB) +- 做两个解耦动作: + 1. **大宗数据**:RDMA 静默同步到其他物理机的内存区 + 2. **轻量句柄**:通过共享内存环形队列向 Agent 投递 8 字节全局唯一句柄 + 极短定性摘要 + +### Agent 层(应用层) +- 将句柄作为 XML 标签嵌入 LLM Message 流 +- 网络间只传输这 8 字节的句柄 + +### 接收节点 +- 解析数据句柄 +- 通过本地 C++ 共享内存网关向本地内核查询 +- 原始数据已通过 RDMA 同步就位 → `reinterpret_cast` 瞬间读取 + +## 设计哲学 + +> **应用层传递极简句柄,物理层旁路搬运大数据。** + +这实现了: +- 保护跨机 Prompt Caching 前缀(不传输原始数据) +- 大数据量的极低延迟搬运(硬件旁路) +- 大模型认知空间与高频交易物理空间的终极调和 + +## 相关 + +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[distributed-agent-cache-sync-2026]] — 原始文章 diff --git a/concepts/cache-cold-start.md b/concepts/cache-cold-start.md new file mode 100644 index 0000000..867376c --- /dev/null +++ b/concepts/cache-cold-start.md @@ -0,0 +1,32 @@ +--- +title: "Cache Cold-Start (缓存冷启动)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "caching", "LLM", "latency"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Cache Cold-Start (缓存冷启动) + +**Cache Cold-Start** 指在分布式 [[distributed-prompt-caching]] 环境中,当一个 Agent 节点尝试接入已有会话但本地无前缀缓存时,必须跨越网络重新传输全部历史 Token 并触发 LLM 端完整前缀重算的现象。 + +## 在量化交易中的影响 + +典型场景:信号挖掘节点已积累 150k Token 的热上下文 → 高波动行情触发横向扩展 → 验证节点发起首次 API 调用 → 发生 Cache Cold-Start: + +- **网络传输**:物理上重新发送 150k Token +- **计算重算**:LLM 服务端完整前缀重算(数秒) +- **后果**:信号时效性彻底丧失 + +## 解决方案 + +1. **主动预热**([[active-cache-warmup]]):在需要前通过 Shadow Calling 预填充缓存 +2. **分布式路由**([[distributed-cache-routing]]):通过 Redis 路由表查询热节点位置 +3. **降级策略**([[context-pruning]]):冷启动不可避时,裁剪上下文至最小可接受范围 + +## 相关 + +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[shadow-calling]] — 消除冷启动的核心机制 +- [[context-pruning]] — 冷启动时的降级方案 diff --git a/concepts/capability-control-tradeoff.md b/concepts/capability-control-tradeoff.md new file mode 100644 index 0000000..c25973e --- /dev/null +++ b/concepts/capability-control-tradeoff.md @@ -0,0 +1,35 @@ +--- +title: "Capability-Control Tradeoff(能力-控制权衡)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, tradeoff, security, capability, control] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Capability-Control Tradeoff + +> 更强的 Harness 给 Agent 更多权力,但每次能力扩展都增大控制问题。这不是安全附加组件,而是连接工具 Schema、上下文策略、运行时权限、身份、审计和人机审批的设计轴。 + +## 权衡的具象化 + +| 能力扩展 | 控制成本 | +|---------|---------| +| 更大的工具菜单 | 选择错误增加、prompt injection 表面扩大 | +| 持久记忆 | 来源追踪(provenance)、陈旧性、隐私风险 | +| 宽松沙箱 | 自主执行有用但爆炸半径扩大 | +| 自主权限 | 需要更细粒度的身份、审计和恢复机制 | + +## 设计含义 + +- 不是"先建功能再加固"的附加模型 +- 工具 Schema、上下文策略、运行时权限、身份、审计、人工审批**从设计之初就应统一考虑** +- 每增加一项能力都需要同步增强控制边界 + +## 相关概念 + +- [[cost-quality-speed-trilemma]] +- [[governance-security]] — G 层是 control 侧的体现 +- [[binding-constraint-thesis]] +- [[agent-harness-engineering-survey]] diff --git a/concepts/capability-degradation.md b/concepts/capability-degradation.md new file mode 100644 index 0000000..d0df2b7 --- /dev/null +++ b/concepts/capability-degradation.md @@ -0,0 +1,40 @@ +--- +title: "能力退化 (Capability Degradation)" +created: 2026-05-21 +type: concept +tags: ["continual-learning", "catastrophic-forgetting"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 能力退化 (Capability Degradation) + +## 定义 + +能力退化是指 LMM 在注入新知识后,在**通用能力测试**(综合评估、OCR、多学科、指令遵循、数学推理、幻觉检测)上出现显著性能下降的现象。 + +## 量化数据(LLaVA-v1.5) + +| 方法 | 平均退化 | 最严重退化项 | +|------|---------|------------| +| Full-FT | -25.89% | MIA-Bench (-61.93%), HallusionBench (-57.40%) | +| LoRA | -25.74% | HallusionBench (-59.65%), MIA-Bench (-55.28%) | + +## 测试维度(12 个基准,7 个维度) + +1. 综合评估:MME, MMBench +2. OCR:SEEDBench2 Plus, OCRBench +3. 多学科:ScienceQA, MMMU +4. 指令遵循:MIA-Bench +5. 多轮对话:MMDU +6. 数学推理:MathVista, MathVision +7. 幻觉检测:POPE, HallusionBench + +## 与灾难性遗忘的关系 + +能力退化是[[catastrophic-forgetting|灾难性遗忘]]在多模态知识注入场景下的具体表现。但本研究发现**部分退化可以通过知识感知增强缓解**,这是此前未被注意的现象。 + +## 参见 + +- [[knowledge-retention|知识保留]] +- [[data-replay|数据回放]] +- [[moe-lora|MoELoRA]] diff --git a/concepts/coarse-to-fine-granularity.md b/concepts/coarse-to-fine-granularity.md new file mode 100644 index 0000000..308f3b9 --- /dev/null +++ b/concepts/coarse-to-fine-granularity.md @@ -0,0 +1,40 @@ +--- +title: "Coarse-to-Fine Granularity" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["training-schedule", "efficiency", "multi-modal", "design-pattern"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Coarse-to-Fine Granularity (粗→细粒度调度) + +**Coarse-to-Fine Granularity** 是一种跨模态的训练效率设计模式:先用粗粒度、高吞吐量的表示进行训练,再逐步切换到细粒度表示。这是一个在视觉、语言和多模态中反复出现的可再生设计原则。 + +## 在语言模型中的体现 + +- **[[token-superposition-training|TST]]** (Peng et al. 2026): s-token 平均 → 标准 token +- **SuperBPE** (Liu et al.): 合并 BPE token → supertoken +- **Bolmo** (Minixhofer et al.): byte-level → subword +- **Patch-Level Training** (Shao et al.): patch 平均 → 标准 token + +## 在视觉模型中的体现 + +- **ViT patch size scheduling** (Anagnostidis et al.): 大 patch → 小 patch +- 本质相同:patch size 控制视觉 ViT 的"输入粒度" + +## 原理 + +粗粒度表示 = 每个训练样本携带更多"原始信息",但分辨率更低。这等价于: +- 等计算量下吞吐量 ↑ s 倍 +- 先学习粗统计结构,后精调细节 + +## 效率公式 + +在 compute-bound 约束下(训练受限于 FLOPs 而非数据量),coarse-to-fine 调度本质上用**更多数据吞吐量**换取**更快的 loss 下降**——这与 [[throughput-hypothesis]] 一致。 + +## 相关 + +- [[token-superposition-training]] — 语言模型中的实例 +- [[throughput-hypothesis]] — 吞吐量假说 +- [[two-phase-pretraining]] — 实现粗→细调度的训练范式 diff --git a/concepts/code-as-harness.md b/concepts/code-as-harness.md new file mode 100644 index 0000000..f97c7d2 --- /dev/null +++ b/concepts/code-as-harness.md @@ -0,0 +1,42 @@ +--- +title: "Code as Harness" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "code-synthesis", "LLM", "framework"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# Code as Harness + +**Code as Harness** 是 [[autoharness|AutoHarness]] 的核心框架哲学:LLM Agent 不应只是一段 prompt + 一个模型,而应该是一个 **LLM + 自动生成的代码 harness** 的组合体——其中 harness 由 LLM 自己编写。 + +## 哲学 + +> 不是让 LLM 变得完美,而是让它可以被代码约束和保护。 + +传统 Agent 定义 = LLM + hand-coded "plumbing"。Code as Harness 将其升级为 = LLM + auto-generated "plumbing"。 + +## 为什么是代码? + +- **可验证**:代码的正确性可以被环境客观检验(对比:LLM 推理无法被确定性验证) +- **可迭代**:代码可以基于 feedback 逐步改进(对比:fine-tuning 昂贵且不可逆) +- **可组合**:不同游戏的 harness 可以组合成库 + +## Harness 的三种抽象层级 + +从约束最强到最灵活: + +1. **Harness-as-Action-Verifier**:固定 rejection sampling loop,只学习 `is_legal_action()` 函数 +2. **Harness-as-Action-Filter**:代码生成合法动作集,LLM 负责排序 +3. **[[harness-as-policy|Harness-as-Policy]]**:代码直接决策,完全消除 LLM 推理——这是 code-as-harness 的终极形态 + +## 与 Code-as-Policies 的关系 + +Code as Policies (Liang et al., 2023) 将机器人控制直接表达为代码生成。Code as Harness 的独特之处在于:**用迭代代码精炼 + 树搜索 + 环境 feedback 生成 hybrid code+LLM harness**,而不要求一次生成完美代码。 + +## 相关 + +- [[autoharness]] — 完整方法 +- [[harness-as-policy]] — 终极形态 +- [[lou-autoharness-2026]] — 原始论文 diff --git a/concepts/compiled-ai-paradigm.md b/concepts/compiled-ai-paradigm.md new file mode 100644 index 0000000..fd39e48 --- /dev/null +++ b/concepts/compiled-ai-paradigm.md @@ -0,0 +1,51 @@ +--- +title: "Compiled AI Paradigm (编译型 AI 范式)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["ai-paradigm", "compilation", "code-synthesis", "deployment"] +sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"] +--- + +# Compiled AI Paradigm (编译型 AI 范式) + +**Compiled AI Paradigm** 是一种新兴的 AI 部署范式:LLM 在**编译阶段**生成可执行代码,**执行阶段**确定性运行——完全不调用 LLM。[[autoharness|AutoHarness]] 的 Harness-as-Policy 模式是其典型实例。 + +## 与传统 AI 部署的对比 + +| 阶段 | 传统部署 | 编译型 AI | +|------|----------|-----------| +| 训练 | Fine-tuning / RLHF | 代码搜索 + 迭代精炼 | +| 编译 | 模型量化/导出 | LLM 生成 + 环境验证 | +| 推理 | GPU 上的矩阵乘法 | CPU 上的 Python/编译代码 | +| 成本 | 高昂(GPU 算力) | 趋近于零 | +| 可解释性 | 无 | 完整源码审计 | + +## 核心思想 + +LLM 的"智能"被**蒸馏编译**为可执行程序: +- 训练阶段:LLM 通过环境反馈学习策略 +- 编译阶段:策略被抽象为确定性代码 +- 推理阶段:代码直接运行,无需 LLM + +## 实例 + +- **Harness-as-Policy**:Gemini-2.5-Flash 训练 → Python 代码策略 → 16 个游戏平均 reward 0.870 +- **成本对比**:编译型 ~$0 vs GPT-5.2 ~$640 + +## 适用条件 + +- 任务规则可形式化(如棋盘游戏) +- 策略空间可被代码穷举或近似 +- 环境反馈明确(合法/非法、reward) + +## 局限 + +- 复杂博弈推理(2P 游戏)需要 MCTS 等搜索算法 +- 模糊约束环境(物理交互、社会规范)难以形式化 + +## 相关 + +- [[harness-as-policy]] — 编译型 AI 的典型实现 +- [[heuristic-learning]] — 编译型 AI 的学习范式基础 +- [[harness-engineering]] — 编译型 AI 的工程支撑 diff --git a/concepts/computer-use-agents.md b/concepts/computer-use-agents.md new file mode 100644 index 0000000..6b6f132 --- /dev/null +++ b/concepts/computer-use-agents.md @@ -0,0 +1,40 @@ +--- +title: "Computer Use Agents (CUAs)" +created: 2026-05-31 +type: concept +tags: [agents, gui, desktop-automation, tool-use] +--- + +# Computer Use Agents (CUAs) + +**Computer Use Agents (CUAs)** 是一类能够在桌面环境中通过感知屏幕截图、执行原子操作来完成复杂任务的 AI Agent。它们代表了 [[agent-computer-interface|Agent-Computer Interface]] 的核心应用范式。 + +## 核心特征 + +1. **多模态感知**:以桌面截图为输入,结合先前工具调用的返回结果 +2. **动作空间**:传统 CUA 主要依赖**原子 GUI 动作**(点击、滚动、输入等坐标级操作) +3. **长期任务**:处理跨多个应用步骤的长周期工作流(如文件管理、文档编辑、数据整理) + +## 关键挑战 + +### 纯 GUI 模式的问题 +- **级联错误**:长序列中的每一步都可能出错,错误累积 +- **脆弱性**:依赖像素级坐标,对环境变化敏感 +- **低效**:简单操作(如修改列值)可能需要数十步 click/type + +### [[gui-tool-hybrid-action-space|混合动作空间]]的困惑 +当同时暴露 GUI 动作和工具调用时,CUA 面临 **[[optimal-gui-tool-path-selection|最优路径选择]]** 困境: +- **过度使用工具**:在不必要时调用工具,反而增加失误率(如 Claude-4.5-Sonnet 从 61.9% 降到 48.4%) +- **工具使用不足**:几乎不调用工具,仍以纯 GUI 方式处理(如 EvoCUA-32B 平均 7.49 次工具调用却从 52.6% 降到 40.5%) + +## 解决方案方向 + +- [[toolcua-optimal-gui-tool-orchestration|ToolCUA]]:通过合成数据 + 分阶段 RL 学习最优 GUI-Tool 切换 +- [[interleaved-gui-tool-trajectory-scaling]]:从纯 GUI 轨迹扩展到混合轨迹的数据管线 +- [[osworld-mcp]]:支持混合动作空间的标准评估基准 + +## 与其他 Agent 概念的关系 + +- [[agentic-systems]]:CUA 是 Agentic System 在桌面自动化领域的具体实例 +- [[agent-computer-interface]]:CUA 的交互接口 +- [[agent-observability]]:CUA 需要屏幕感知和工具反馈的可观测性 diff --git a/concepts/context-drift.md b/concepts/context-drift.md new file mode 100644 index 0000000..b479c19 --- /dev/null +++ b/concepts/context-drift.md @@ -0,0 +1,41 @@ +--- +title: "Context Drift(上下文漂移)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [context, memory, agent, degradation] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Context Drift + +> Agent 在多步执行中,由于上下文不断累积、轮替和变异导致的性能退化现象。这不是边缘情况——是 Agent 的**正常操作条件**。 + +## 三种退化机制 + +### 1. U 形注意力曲线 +- Liu et al. (2024):在多文档 QA 中,放在上下文中间的相关文档准确率比放在开头或结尾**低 30%** +- 跨模型、跨任务、跨上下文长度均成立 +- 信息**位置**和**存在**同等重要 + +### 2. Context Rot(上下文腐烂) +- Hong et al. (2025):评测 18 个前沿模型(GPT-4.1、Claude Opus 4、Gemini 2.5、Qwen3),**每个模型都随输入增长而退化** +- 退化在上下文窗口远未满时就已开始(200K 窗口可能在 50K 时就有显著退化) +- 语义模糊查询退化更陡:模型既定位不到相关信息,定位后也无法推理 + +### 3. 工具结果累积 +- 每一步工具调用都会向上下文注入新 token +- 不加管理时,上下文迅速膨胀 +- 早期决策错误会随着 trace 累积而放大 + +## 应对策略 +- [[context-management|上下文管理]] (C 层):短/中/长期记忆分层 +- **渐进式披露**(Progressive Disclosure):按需加载而非全量预加载 +- **压缩**(Compaction):移除已完成使命的 token +- KV-cache 感知的上下文设计 + +## 相关概念 +- [[context-management]] — C 层总体 +- [[binding-constraint-thesis]] — 约束瓶颈论 +- [[execution-environment]] — E 层 diff --git a/concepts/context-engineering.md b/concepts/context-engineering.md new file mode 100644 index 0000000..cde4400 --- /dev/null +++ b/concepts/context-engineering.md @@ -0,0 +1,41 @@ +--- +title: "Context Engineering(上下文工程)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [context, engineering, agent] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Context Engineering + +> 三阶段工程演进的第二阶段(2025):从优化单次模型输入到管理多步推理中模型每步可见的完整信息状态。 + +## 核心转变 + +Context Engineering 的关键转变在于从"输入是什么"到"模型在每一步应该看到什么"。 + +## 指导原则 + +找到**最小的高信号 token 集**,最大化每一步期望结果的概率(Anthropic Applied AI Team, 2025)。 + +## 三大技术支柱 + +- **渐进式披露**(Progressive Disclosure):按需加载信息而非全量预加载 +- **压缩**(Compaction):移除已完成使命的 token +- **记忆检索**:只拉入与当前任务最相关的记录 + +## 上下文包含的内容 + +在部署的 Agent 中,上下文包括:系统 prompt + 工具定义 + 历史轮次 + 工具调用结果 + 检索文档 + 动态注入的工作状态。所有这些都在争抢有限的注意力预算。 + +## 三阶段定位 + +Context Engineering 位于 [[three-engineering-phases|三阶段工程演进]] 的中层——它包含 Prompt Engineering 的实践,同时被 [[agent-harness-engineering|Harness Engineering]] 所扩展。 + +## 相关概念 +- [[three-engineering-phases]] — 三阶段工程演进 +- [[context-management]] — C 层:短/中/长期上下文管理 +- [[context-drift]] — 上下文漂移的三种退化机制 +- [[prompt-to-harness-evolution]] — 详细演化分析 diff --git a/concepts/context-management.md b/concepts/context-management.md new file mode 100644 index 0000000..f71d076 --- /dev/null +++ b/concepts/context-management.md @@ -0,0 +1,41 @@ +--- +title: "Context Management(上下文管理)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, context, memory, prompt] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Context & Memory Management(C 层) + +> ETCLOVG 的 C 层:控制模型在短期、会话级和持久视野中能看到什么。从 Prompt Engineering 演进而来。 + +## 三层视野 + +- **短期(Active Context Window)**:compaction、tool-result clearing、prompt-cache-aware ordering +- **中期(Session State)**:跨运行持久化、会话状态管理 +- **长期(Persistent Memory)**:向量存储、知识图谱、写入-管理-读取循环 + +## 核心挑战:上下文漂移(Context Drift) + +最深的上下文问题不是装更多 token,而是保持 Agent 的**工作状态与真实任务状态对齐**。 + +每次压缩、检索、遗忘操作都可能删除约束、扭曲优先级或保留过时假设。 + +## 重新框架:上下文作为状态估计 + +Zhang et al. (2025) 和 Du (2026) 将 Agent 记忆形式化为**写入-管理-读取循环**。未来系统需要: +- 不确定性感知摘要 +- 事实溯源(provenance) +- 矛盾处理 +- 显式陈旧标记 +- 从持久化产物重建状态的恢复程序 + +## 相关概念 + +- [[context-state-estimation]] — 上下文作为状态估计 +- [[reliable-state-long-running-agents]] — 长期状态维护 +- [[prompt-to-harness-evolution]] — 从 Prompt 到 Context 的演进 +- [[agent-harness-engineering-survey]] diff --git a/concepts/context-pruning.md b/concepts/context-pruning.md new file mode 100644 index 0000000..e800309 --- /dev/null +++ b/concepts/context-pruning.md @@ -0,0 +1,40 @@ +--- +title: "Context Pruning (上下文剪枝)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "resilience", "LLM", "degradation"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Context Pruning (上下文剪枝) + +**Context Pruning** 是分布式 Agent 系统在遭遇网络分区或 [[cache-cold-start]] 时的紧急降级策略:主动将长历史上下文切除,仅保留最核心的 System Prompt 与最近几轮对话(通常不超过 8k Token)。 + +## 触发条件 + +- 分布式路由表查询超时(毫秒级硬上限) +- 跨机主动预热流水线失败 +- Redis 骨干网连接丢失 + +## 降级流程 + +1. **切断跨机预热**:立即停用 [[active-cache-warmup]] +2. **本地孤岛模式**:会话降级为单机运行 +3. **内存剪枝**:切除长历史上下文,保留 System Prompt + 最近三轮对话 +4. **硬控制延迟**:将冷启动延迟硬控制在阈值以内 + +## 权衡 + +- **牺牲推理深度**:裁剪后上下文信息减少,可能降低决策质量 +- **保证可达性**:风控平仓等关键指令的绝对可达性优先于推理深度 + +## 在混沌工程中的角色 + +Context Pruning 是分布式缓存系统的最后一道防线——当所有优化机制(预热、路由、一致性)都失败时,确保系统仍能完成核心功能。 + +## 相关 + +- [[cache-cold-start]] — Pruning 应对的问题 +- [[active-cache-warmup]] — Pruning 的"上游"机制(优先使用) +- [[distributed-prompt-caching]] — 分布式缓存体系 diff --git a/concepts/context-state-estimation.md b/concepts/context-state-estimation.md new file mode 100644 index 0000000..feb2364 --- /dev/null +++ b/concepts/context-state-estimation.md @@ -0,0 +1,39 @@ +--- +title: "Context as State Estimation(上下文作为状态估计)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, context, state-estimation, memory] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# Context as State Estimation + +> 将上下文管理重新概念化为**状态估计问题**:Agent 的内部工作状态是对真实任务状态的估计,每次压缩、检索或遗忘操作都可能引入估计误差。 + +## 与传统视角的对比 + +| 传统视角 | 状态估计视角 | +|---------|------------| +| 上下文 = 信息窗口 | 上下文 = Agent 对任务状态的信念 | +| 目标:装更多 token | 目标:最小化信念与真实状态间的散度 | +| 评估:token 利用率 | 评估:是否防止了下游操作错误 | + +## 关键问题 + +- 量化每次压缩/检索/遗忘步骤中的信息损失 +- 界定 Agent 内部状态与真实任务状态的散度上界 +- 不确定性感知摘要:不仅记住内容,还记住不确定性 +- 从持久化产物重建状态而非信任自身压缩历史 + +## 与记忆评估的关联 + +记忆策略不应仅按**召回准确率**评判,还应按**是否防止了多会话任务中的下游操作错误**来评判。这需要将 [[verification-evaluation]] 与 [[context-management]] 更紧密耦合。 + +## 相关概念 + +- [[context-management]] +- [[reliable-state-long-running-agents]] +- [[verification-evaluation]] +- [[agent-harness-engineering-survey]] diff --git a/concepts/controlled-autonomy.md b/concepts/controlled-autonomy.md new file mode 100644 index 0000000..924f28c --- /dev/null +++ b/concepts/controlled-autonomy.md @@ -0,0 +1,42 @@ +--- +title: "Controlled Autonomy (受控的自主性)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["self-evolution", "agent", "control", "safety"] +sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"] +--- + +# Controlled Autonomy (受控的自主性) + +**Controlled Autonomy** 是吕明在 SkillOpt 深度解读中提出的自进化 Agent 核心设计原则:**人类设定目标(验证集)和边界(编辑约束),Agent 在框架内自主寻找最优策略。** + +## 定义 + +> "一种'受控的自主性'——人类设定目标(验证集)和边界(编辑约束),Agent 在框架内自主寻找最优策略。" + +这与"完全自主"(AGI)和"完全人工"(手写 Skill)形成明确区分。 + +## 三元结构 + +| 角色 | 负责 | 类比 | +|------|------|------| +| **人类** | 设定验证集 + 编辑约束 | 立法者 | +| **Optimizer** | 因果分析 + 提出编辑 | 执行者 | +| **Validation Gate** | 验证接受/拒绝 | 司法者 | + +## 为什么需要"受控" + +- **无需证明安全**:验证集天然保证了编辑的安全性(只接受改善) +- **可审计**:每次编辑都有 Diff + 验证分数变化 +- **可回滚**:拒绝缓冲防止重复失败方向 + +## 与 AGI 的关系 + +> "这不是 AGI,甚至离 AGI 还有很远。但它是通往'更具自主性的 AI 系统'的一步扎实的脚印。" + +## 相关 + +- [[skillopt]] — 受控自主性的技术实现 +- [[held-out-validation-gate]] — 验证门(受控的"司法者") +- [[textual-learning-rate]] — 编辑约束(受控的"边界") diff --git a/concepts/cost-quality-speed-trilemma.md b/concepts/cost-quality-speed-trilemma.md new file mode 100644 index 0000000..d692c57 --- /dev/null +++ b/concepts/cost-quality-speed-trilemma.md @@ -0,0 +1,39 @@ +--- +title: "Cost-Quality-Speed Trilemma(成本-质量-速度三元悖论)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, tradeoff, cost, quality, optimization] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Cost-Quality-Speed Trilemma + +> Agent Harness 可靠性受成本、质量和速度之间的三方权衡约束。无法同时优化所有维度。 + +## 三方张力 + +- **质量 ↑**:更强的沙箱、更深的评估、更丰富的上下文 → **成本 ↑**、**速度 ↓** +- **速度 ↑**:轻量沙箱、简化评估、压缩上下文 → **质量 ↓**、**成本 ↓** +- **成本 ↓**:减少 token 消耗、降低基础设施 → **质量 ↓**、**速度 ↓** + +## 具体表现 + +- 更强的沙箱和更忠实的环境 → 提高安全性和可复现性 → 增加启动延迟和基础设施成本 +- 更丰富的上下文和记忆策略 → 改善任务连续性 → 消耗更多 token 并引入检索开销 +- 更深的评估和可观测性 → 改善诊断 → 减慢迭代速度并增加存储/标注/追踪处理成本 + +## 工程决策 + +生产系统不能将质量视为标量目标。必须决定: +- 哪些风险值得昂贵控制 +- 哪些检查可以异步运行或在回归套件中运行 +- 在 Agent 生命周期的每个阶段值得捕获哪些遥测数据 + +## 相关概念 + +- [[capability-control-tradeoff]] +- [[harness-coupling-problem]] +- [[adaptive-harness-simplification]] — 通过简化降低成本的路径 +- [[agent-harness-engineering-survey]] diff --git a/concepts/covariance-matrix-knowledge.md b/concepts/covariance-matrix-knowledge.md new file mode 100644 index 0000000..581bab7 --- /dev/null +++ b/concepts/covariance-matrix-knowledge.md @@ -0,0 +1,40 @@ +--- +title: "协方差矩阵知识存储 (Covariance Matrix Knowledge Storage)" +created: 2026-05-21 +type: concept +tags: ["linear-algebra", "knowledge-representation", "model-analysis"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 协方差矩阵知识存储 + +## 定义 + +协方差矩阵知识存储是指利用 LMM 线性层激活的**协方差矩阵**来捕获和存储模型已有的多模态知识。这一技术在 [[kore-constraint|KORE-CONSTRAINT]] 中被用于识别"哪些参数空间已被旧知识占据"。 + +## 构建方式 + +对 LMM 在代表预训练知识的样本上的激活 X ∈ R^{d_in × BL}: +C = XX^T + +使用 OneVision 数据集的 256 个样本(General, Doc/Chart/Screen, Math/Reasoning, General OCR)构建多维协方差矩阵。 + +## 为什么协方差矩阵能存储知识? + +### 证据 1:重构实验 +对 C 进行 SVD → 移除最小 r 个奇异值对应的分量 → 重构权重。CO-SVD 比 Plain SVD 和 ASVD 更好地保留了性能,说明**多模态知识可以被协方差矩阵有效捕获**。 + +### 证据 2:任务模式可视化 +- 相关任务(POPE 和 HallusionBench)在协方差矩阵中展示**相似的异常值模式** +- 不相关任务(MMBench)展示**不同的模式** +- 说明协方差矩阵中的异常值分布**编码了任务特定的知识结构** + +## 应用 + +在 KORE 中,协方差矩阵的零空间被用于初始化 LoRA adapter,确保微调不会干扰已有知识。 + +## 参见 + +- [[null-space-projection-knowledge|零空间投影知识保留]] +- [[kore-constraint|KORE-CONSTRAINT]] +- [[covariance-matrix|协方差矩阵]] diff --git a/concepts/covariance-matrix.md b/concepts/covariance-matrix.md new file mode 100644 index 0000000..5493c66 --- /dev/null +++ b/concepts/covariance-matrix.md @@ -0,0 +1,24 @@ +--- +title: "协方差矩阵 (Covariance Matrix)" +created: 2026-05-21 +type: concept +tags: ["linear-algebra", "statistics"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 协方差矩阵 (Covariance Matrix) + +## 定义 + +协方差矩阵是统计学中描述多维随机变量各维度之间**线性相关性**的矩阵。在 [[covariance-matrix-knowledge|协方差矩阵知识存储]] 中,LMM 线性层激活的协方差矩阵 C = XX^T 被用于捕获模型已存储的知识结构。 + +## 在 KORE 中 + +C 的 SVD 分解揭示: +- **大奇异值**对应的向量 = 已有知识占据的关键方向 +- **零空间** = 可安全写入新知识的方向 + +## 参见 + +- [[covariance-matrix-knowledge|协方差矩阵知识存储]] +- [[null-space|零空间]] diff --git a/concepts/data-hierarchical-governance.md b/concepts/data-hierarchical-governance.md new file mode 100644 index 0000000..fcee85c --- /dev/null +++ b/concepts/data-hierarchical-governance.md @@ -0,0 +1,43 @@ +--- +title: "Data Hierarchical Governance (L0-L4 数据分级治理)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["data-governance", "pretraining", "quality", "pipeline"] +sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] +--- + +# Data Hierarchical Governance (L0-L4 数据分级治理) + +**L0-L4 Data Hierarchical Governance** 是面壁智能联合清华大学、OpenBMB 提出的数据治理框架:将训练数据按加工深度分为五个层级,按训练阶段匹配数据层级,最大化单位 Token 的边际效益。 + +## 五级体系 + +| 层级 | 名称 | 加工 | 成本 | 适用阶段 | +|:---:|------|------|:---:|------| +| **L0** | 原始数据 | 采集解析 | 极低 | 不直接训练 | +| **L1** | 过滤数据 | 启发式规则 | 低 | 预训练前期 | +| **L2** | 精筛数据 | 模型打分+标注 | 中 | 预训练中后期 | +| **L3** | 合成增强 | 改写/合成/人工标注 | 高 | 退火/SFT/RL | +| **L4** | 编排数据 | 可信校验+编排 | 中 | RAG | + +## 核心逻辑 + +> "好钢用在刀刃上" + +- **前期(L1/L2)**:广撒网注入常识,用轻量级规则控制成本 +- **后期(L3)**:高密度、逻辑强、噪声少的合成数据激发推理 +- **端侧(L4)**:可直接用于 RAG 的知识检索 + +## 实验验证 + +面壁智能在英文网页、中文网页、数学和代码四个领域验证: +> **模型性能随数据层级从 L1 向 L3 逐级提升而持续增强** + +UltraData-Math (100B L3) 在 MATH 上领先 Nemotron-CC 4plus 3.62 分。 + +## 相关 + +- [[ultradata]] — 基于此体系的完整数据系统 +- [[stage-matched-data-config]] — 分阶段配置策略 +- [[data-quality-over-scale]] — 质量>规模的行业转向 diff --git a/concepts/data-label-consistency.md b/concepts/data-label-consistency.md new file mode 100644 index 0000000..e0208e5 --- /dev/null +++ b/concepts/data-label-consistency.md @@ -0,0 +1,37 @@ +--- +title: "Data-Label Consistency (数据-标签一致性)" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "forecasting"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# Data-Label Consistency + +> 时间序列预测增强的必要条件:输入 x 与目标 y 必须被联合变换,以保持序列的时间连续性。 + +## 定义 + +记 look-back 窗口为 x,预测目标为 y。训练作用的对象是连续序列 s = x ∥ y,增强应作用在拼接后的序列上: + +``` +s = x ∥ y +s̃ = 𝒜(s) +(x̃, ỹ) = Split(s̃) +``` + +## 为什么重要 + +- 只对 x 增强、让 y 原封不动 → 输入与目标之间的天然连续性被人为切断 +- 在 [[temporal-patch-shuffle|TPS]] 的消融实验中,**数据-标签一致性的破坏是单一消融中性能下降最大的因素** +- 这是预测增强区别于分类增强的根本约束 + +## 实践含义 + +所有有效的预测增强方法([[freqmask-freqmix|FreqMask/FreqMix]]、[[wavemask-wavemix|WaveMask/WaveMix]]、[[temporal-patch-shuffle|TPS]])都采用了这个拼接-增强-拆分范式。 + +## 相关页面 + +- [[time-series-forecasting-augmentation]] — 预测增强框架 +- [[temporal-patch-shuffle]] — 内置数据-标签一致性的 SOTA 方法 +- [[forecasting-augmentation-taxonomy]] — 各类方法对此原则的遵守情况 diff --git a/concepts/data-quality-over-scale.md b/concepts/data-quality-over-scale.md new file mode 100644 index 0000000..784773c --- /dev/null +++ b/concepts/data-quality-over-scale.md @@ -0,0 +1,43 @@ +--- +title: "Data Quality over Scale (数据质量重于规模)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["data-engineering", "industry-trend", "pretraining", "efficiency"] +sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] +--- + +# Data Quality over Scale (数据质量重于规模) + +**Data Quality over Scale** 是面壁智能 UltraData 实践所推动的行业共识转向:**当模型架构趋于收敛、算力成本高企不下时,数据质量——而非参数规模或算力投入——成为模型能力的核心决定因素。** + +## 范式转变 + +| 旧范式 | 新范式 | +|--------|--------| +| 堆硬件、堆参数 | 精细化数据治理 | +| 爬更多网页 | 从存量数据榨取更高密度知识 | +| 一刀切处理 | [[data-hierarchical-governance|分级分阶段配置]] | +| 数据是"原料" | 数据是"配方" | + +## 证据 + +- MiniCPM5-1B(1B参数)超越 Qwen3.5-0.8B 和 LFM2.5-1.2B +- UltraData-Math(100B L3)超越 Nemotron-CC 4plus(更大规模) +- 同架构 + 更高质量数据 > 更大模型 + 更低质量数据 + +## 产业意义 + +1. **端侧友好**:高质量数据意味着更少训练Token→更低内存和能耗 +2. **降低门槛**:小团队不必堆算力,可以聚焦数据治理 +3. **开源加速**:数据配方的公开使社区可以复现和改进 + +## 与大模型 Scaling Law 的关系 + +Data Quality over Scale 不是否定 Scaling Law,而是**深化**它:在数据受限时代,scaling 的重心从"更多数据"转移到"更优数据"。 + +## 相关 + +- [[data-hierarchical-governance]] — 实现质量优先的方法 +- [[stage-matched-data-config]] — 质量×阶段的最优配置 +- [[ultradata]] — 实践案例 diff --git a/concepts/data-replay.md b/concepts/data-replay.md new file mode 100644 index 0000000..e53b3c7 --- /dev/null +++ b/concepts/data-replay.md @@ -0,0 +1,42 @@ +--- +title: "数据回放 (Data Replay)" +created: 2026-05-21 +type: concept +tags: ["continual-learning", "knowledge-retention", "catastrophic-forgetting"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 数据回放 (Data Replay) + +## 定义 + +数据回放是缓解[[capability-degradation|能力退化]]的一种**直接排练策略**,通过将**旧预训练数据**与新注入数据混合进行微调,强制模型"复习旧知"。 + +## 实现 + +在 MMEVOKE 论文中: +- Replay + Full-FT:随机抽样 10%(MMEVOKE 数据量大小)的旧预训练数据,与新注入数据混合,使用 Full-FT +- Replay + LoRA:同上,使用 LoRA 策略 + +## 效果(LLaVA-v1.5) + +- Replay + Full-FT:缓解退化,**排名第 3** +- Replay + LoRA:**排名第 1**,在 MMMU 和 MathVision 上超过 Vanilla 分别 +1.75% 和 +2.20% + +## 机制 + +通过重新暴露于旧数据,**重新激活旧知识网络**,防止新知识覆盖已有参数。 + +## 与 MoELoRA 的比较 + +| 策略 | Replay | MoELoRA | +|------|--------|---------| +| 机制 | 直接排练旧数据 | 结构性隔离新知识 | +| 优势 | 效果最佳 | 无需存储旧数据 | +| 劣势 | 需要旧数据存储 | 需修改模型架构 | + +## 参见 + +- [[moe-lora|MoELoRA]] +- [[knowledge-retention|知识保留]] +- [[continual-learning|持续学习]] diff --git a/concepts/deep-and-wide-reasoning.md b/concepts/deep-and-wide-reasoning.md new file mode 100644 index 0000000..158a7d5 --- /dev/null +++ b/concepts/deep-and-wide-reasoning.md @@ -0,0 +1,41 @@ +--- +title: "Deep-and-Wide Reasoning(深度且宽广的推理)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [reasoning, deep, wide, architecture] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# Deep-and-Wide Reasoning + +> GRAM 的设计哲学:未来的推理系统不应只是**深**(重复精炼),还应**宽**(维持和探索多条并行潜在轨迹)。 + +## 为什么深度不够 + +单一精炼路径的局限: +- 可能被困在次优推理轨迹中 +- 无法同时考虑多个假设 +- 在多解问题上只能返回一个解 + +## Deep + Wide 的互补关系 + +- **Deep(递归深度)**: 单条轨迹上的推理精炼质量 +- **Wide(轨迹宽度)**: 推理空间的探索覆盖度 + +两者**正交且互补**——可以独立调参来适配不同类型的问题。 + +## 设计原则 + +好的 RRM 需要同时支持: +1. 通过多次递归步骤充分精炼单条推理路径 +2. 通过随机采样探索多个可能的推理方向 +3. 在 inference time 灵活分配 depth 和 width 的预算 + +## 相关概念 + +- [[inference-time-scaling]] +- [[width-based-scaling]] +- [[multi-trajectory-inference]] +- [[gram-generative-recursive-reasoning|GRAM]] diff --git a/concepts/deep-thinking-sft.md b/concepts/deep-thinking-sft.md new file mode 100644 index 0000000..252e6e2 --- /dev/null +++ b/concepts/deep-thinking-sft.md @@ -0,0 +1,36 @@ +--- +title: "Deep-Thinking SFT (深思考SFT数据)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["sft", "chain-of-thought", "reasoning", "data-engineering"] +sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] +--- + +# Deep-Thinking SFT (深思考SFT数据) + +**Deep-Thinking SFT** 是 [[ultradata|UltraData-SFT-2605]] 的关键特征:SFT 数据中同时包含带有完整思维链/推理过程标注的"深思考"样本和直接问答的"非思考"样本,使模型同时发展逐步推理和高效回答的能力。 + +## 两类样本 + +| 类型 | 特征 | 训练作用 | +|------|------|------| +| **深思考** | 完整思维链、推理步骤、自我纠错 | 培养逐步推理、自纠错能力 | +| **非思考** | 直接问答对 | 保持回答效率 | + +## 与传统 SFT 的区别 + +传统 SFT 数据多为直接问答对,缺乏过程性推理标注。Deep-Thinking SFT 弥补了这一空白,使模型在微调阶段就能学会**如何思考**而非仅仅**回答什么**。 + +## UltraData-SFT-2605 的特色 + +- 覆盖数学、代码、知识、指令遵循等多领域 +- 千万级规模 +- 全流程质量治理透明化(Query筛选→Answer校验→评测去污) +- 杜绝训练/测试集重叠 + +## 相关 + +- [[ultradata]] — UltraData 系统 +- [[data-hierarchical-governance]] — L3 层级定位 +- [[ultradata-l3-open-source-2026]] — 原始文章 diff --git a/concepts/distributed-cache-routing.md b/concepts/distributed-cache-routing.md new file mode 100644 index 0000000..c984935 --- /dev/null +++ b/concepts/distributed-cache-routing.md @@ -0,0 +1,39 @@ +--- +title: "Distributed Cache Routing (分布式缓存路由)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "redis", "routing", "caching"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Distributed Cache Routing (分布式缓存路由) + +**Distributed Cache Routing** 是 [[distributed-prompt-caching]] 中的状态路由层:基于 Redis 集群维护全局的 `Cache_Routing_Table`,使任何物理节点上的 Agent 实例都可以瞬间查询某会话前缀在哪台机器、哪个 LLM 服务商端处于 "HOT" 状态。 + +## 数据模型 + +``` +HSET cache:route:[Composite_SHA] + node_ip "192.168.1.102" + service_provider "ModelProvider_A" + status "HOT" + expire_time 1800 +``` + +## 查询流程 + +1. Agent 在本地对所需前缀进行 SHA-256 哈希 → 得到 Composite Key +2. 通过 Redis `HGETALL cache:route:[Composite_SHA]` 瞬间检索 +3. 获取路由信息:该前缀在哪些物理节点、哪些服务商处于热态 +4. 据此决策:直接路由到热节点 / 触发 [[active-cache-warmup]] + +## 核心价值 + +将逻辑上的会话状态与物理上的缓存生命周期**解耦映射**,使系统可以在异构模型服务商之上构建统一的缓存抽象。 + +## 相关 + +- [[global-context-hash-tree]] — 路由的主键来源 +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[active-cache-warmup]] — 路由到冷节点时的后续动作 diff --git a/concepts/distributed-optimistic-locking.md b/concepts/distributed-optimistic-locking.md new file mode 100644 index 0000000..7d872cc --- /dev/null +++ b/concepts/distributed-optimistic-locking.md @@ -0,0 +1,28 @@ +--- +title: "Distributed Optimistic Locking (分布式乐观锁)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "consistency", "redis", "concurrency"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Distributed Optimistic Locking (分布式乐观锁) + +**Distributed Optimistic Locking** 是 [[distributed-prompt-caching]] 中的一致性保障机制:通过 Redis 的 `WATCH` 命令和上下文版本号,确保多个物理节点并发更新同一会话上下文时不会发生"缓存分叉"。 + +## 机制 + +1. **版本号递增**:每次 Agent 生成响应或 Tool 返回结果,上下文逻辑版本号递增(V_{next} = V_{current} + 1) +2. **乐观锁申请**:任何节点发起带缓存的请求前,向 Redis 申请 `WATCH cache:version:[Session_UID]` +3. **冲突处理**:只有率先成功将版本号推向新值的节点能成功提交;落后节点缓存被宣告"部分污染" +4. **上下文对齐**:落后节点触发 Context-Realign——从共享骨干网拉取最新 Message 历史,重新进行局部 Shadow Calling 预热 + +## 在缓存同步中的必要性 + +分布式 Prompt Caching 的难点在于:多个决策模型节点可能同时对同一信号给出不同的交叉评估结论,如果缺乏一致性控制,各节点的缓存前缀将发生分叉,导致后续协作时使用过期或冲突的上下文。 + +## 相关 + +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[distributed-agent-cache-sync-2026]] — 原始文章 diff --git a/concepts/distributed-prompt-caching.md b/concepts/distributed-prompt-caching.md new file mode 100644 index 0000000..876855e --- /dev/null +++ b/concepts/distributed-prompt-caching.md @@ -0,0 +1,44 @@ +--- +title: "Distributed Prompt Caching (分布式提示词缓存)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "prompt-caching", "LLM", "agent"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Distributed Prompt Caching (分布式提示词缓存) + +**Distributed Prompt Caching** 是将单机 [[prompt-caching]] 机制扩展到多机分布式集群的技术体系,解决跨物理节点的上下文缓存同步问题。在量化交易、多 Agent 协作等分布式场景中至关重要。 + +## 核心挑战 + +- **[[cache-cold-start|缓存冷启动]]**:新节点缺少已有会话的前缀哈希,导致全额 Token 重传和秒级重算 +- **跨服务商缓存割裂**:不同 LLM 供应商的缓存实现机制完全不同(Session ID vs Trie 树匹配) +- **一致性风险**:多节点并发更新同一上下文时可能发生缓存"分叉" + +## 解决架构 + +分布式 Prompt Caching 依赖三个核心组件: +1. **[[global-context-hash-tree]]** — 基于 SHA-256 的会话唯一标识 +2. **[[distributed-cache-routing]]** — Redis 骨干网状态路由表 +3. **[[active-cache-warmup]]** — 预测性跨机预热 + +## 与单机 Prompt Caching 的对比 + +| 维度 | 单机 | 分布式 | +|------|------|--------| +| 缓存范围 | 单实例进程内 | 跨物理节点 + 跨服务商 | +| 标识机制 | 前缀字节匹配 | SHA-256 复合键 | +| 预热方式 | 被动(首次请求即缓存) | 主动(Shadow Calling) | +| 一致性 | 无需处理 | 乐观锁 + 版本号 | + +## 核心原则 + +> 用**空间的确定性**(高带宽内网 + Redis 路由)换取**时间的确定性**(消除秒级重算延迟) + +## 相关 + +- [[distributed-agent-cache-sync-2026]] — 原始文章 +- [[prompt-caching]] — 单机 Prompt Caching +- [[active-cache-warmup]] — 跨机预热机制 diff --git a/concepts/distribution-shift.md b/concepts/distribution-shift.md new file mode 100644 index 0000000..4316979 --- /dev/null +++ b/concepts/distribution-shift.md @@ -0,0 +1,36 @@ +--- +title: "Distribution Shift(分布偏移)" +created: 2026-05-18 +type: concept +tags: ["pre-training", "LLM", "domain-adaptation"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Distribution Shift(分布偏移) + +## 在 PreRL 语境中的定义 + +传统预训练使用的**静态语料**(web text, Wikipedia)与下游推理任务的**任务分布**之间存在显著的分布偏移。这种偏移导致: +- 预训练知识无法有针对性地增强推理能力 +- 直接 SFT 微调受限于预训练分布 +- RLVR 可部分弥补,但被基座模型的上限所约束 + +## PreRL 的解决方案 + +PreRL 通过**在线、奖励驱动**的更新直接在 P(y) 上操作,消除了"语料→任务"的分布桥接需求: +- 不使用静态语料,而是从任务中采样 self-rollout +- 使用可验证奖励而非 NTP loss +- 只更新 response 部分,保持任务对齐 + +## 对比 + +| 方法 | 数据源 | 学习信号 | 分布偏移 | +|------|--------|---------|---------| +| Pre-training | 静态语料 | NTP | 高 | +| Continual Pre-training | 任务相关语料 | NTP | 中 | +| PreRL | Online rollout | Verifiable reward | **低** | + +## 相关概念 + +- [[pre-train-space-reinforcement-learning|PreRL]] +- [[dual-space-rl|DSRL]] diff --git a/concepts/dominant-shuffle.md b/concepts/dominant-shuffle.md new file mode 100644 index 0000000..a394c6e --- /dev/null +++ b/concepts/dominant-shuffle.md @@ -0,0 +1,38 @@ +--- +title: "Dominant Shuffle" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "frequency-domain", "forecasting"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# Dominant Shuffle + +> 保守的频域增强方法——仅 shuffle top-k 主导频率分量,保持频谱其余部分不变。 + +## 流程 + +1. S = FFT(s) +2. Ωₖ = top-k 主导频率的索引 +3. S̃_{Ωₖ} = Shuffle(S_{Ωₖ}) +4. s̃ = IFFT(S̃) + +## 设计哲学 + +- **克制优于激进**:不对任意频谱分量做 mask 或 mix +- **避免分布外样本**:只扰动主导频率避免了过强的信号破坏 +- 在统一评测中并非整体最强——但稳定性好 + +## 与 FreqMask/FreqMix 的区别 + +| 方法 | 操作对象 | 操作方式 | 风险 | +|------|---------|---------|------| +| FreqMask | 选定频率 | 清零 | 信息丢失 | +| FreqMix | 两序列频谱 | 混合 | 引入异源结构 | +| Dominant Shuffle | top-k 主导频率 | 重排 | 最低(保守) | + +## 相关页面 + +- [[freqmask-freqmix]] — 更激进的频域方法 +- [[wavemask-wavemix]] — 时频域方法 +- [[temporal-patch-shuffle]] — 时域 SOTA diff --git a/concepts/dual-layer-rl.md b/concepts/dual-layer-rl.md new file mode 100644 index 0000000..b05863f --- /dev/null +++ b/concepts/dual-layer-rl.md @@ -0,0 +1,45 @@ +--- +title: "Dual-Layer RL (双层强化学习)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["reinforcement-learning", "meta-learning", "skill", "optimization"] +sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"] +--- + +# Dual-Layer RL (双层强化学习) + +**Dual-Layer RL** 是吕明在 SkillOpt 深度解读中构想的元优化架构:将 SkillOpt 的优化过程纳入强化学习框架,构建 **内层 Agent RL + 外层 Optimizer RL** 的双层体系。 + +## 架构 + +| 层 | 主体 | 目标 | 动作 | +|:---|------|------|------| +| **内层** | Agent | 利用 Skill 更好执行任务 | 执行操作 | +| **外层** | Optimizer | 更好为 Agent 优化 Skill | 提出编辑 | + +## 为什么可行 + +SkillOpt 天然适合 RL 框架: +- **奖励信号**:验证集分数(明确、可度量、自洽) +- **动作空间**:ADD/DELETE/REPLACE 编辑(离散、可控) +- **状态**:当前 Skill 文档 + Agent 执行反馈 +- **验证**:[[held-out-validation-gate|Gate]] 提供天然的环境反馈 + +## 从"被动优化"到"Learning to Learn" + +双层 RL 一旦形成: +> 内层:Agent 学习如何利用 Skill 文档更好地执行任务 +> 外层:Optimizer 学习如何更好地为 Agent 优化 Skill 文档 +> +> → 真正意义上的 **"Learning to Learn"** + +## 与 EvolveR 的联系 + +EvolveR 已展示初步可行性:用 GRPO 训练 Agent"学会如何善用经验"。SkillOpt 的编辑决策和验证筛选机制可为过程性 RL 提供更精细的信号。 + +## 相关 + +- [[skillopt]] — 双层 RL 的技术基础 +- [[skill-data-flywheel]] — 双层 RL 的数据产出如何形成飞轮 +- [[heuristic-learning]] — 元优化的更广义框架 diff --git a/concepts/dual-space-rl.md b/concepts/dual-space-rl.md new file mode 100644 index 0000000..1ec0b95 --- /dev/null +++ b/concepts/dual-space-rl.md @@ -0,0 +1,65 @@ +--- +title: "Dual Space RL (DSRL)" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "LLM", "policy-optimization", "GRPO"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Dual Space RL (DSRL) + +## 定义 + +DSRL 是一个两阶段的 RL 框架,通过 [[policy-reincarnation|策略转生]] 策略将 [[pre-train-space-reinforcement-learning|PreRL]] 与标准 RL 统一起来: + +1. **Phase 1 (s ≤ S)**: NSR-PreRL — 在预训练空间中剪枝错误推理路径,扩展推理视野 +2. **Phase 2 (s > S)**: 标准 GRPO — 在 post-train 空间中进行细粒度策略优化 + +## 统一公式 + +``` +∇J_DSRL = E[∑∇log π(y_t | x^{I[s>S]}, y_{S ∨ R(y)<0]] +``` + +- `x^{I[s>S]}`: Phase 1 时遮蔽 x(预训练空间),Phase 2 时恢复 x +- `I[s>S ∨ R(y)<0]`: Phase 1 仅对负样本更新(NSR),Phase 2 使用全部样本 + +## 关键结果 + +### Main Results (Avg@32) + +| 模型 | Baseline | GRPO | DSRL | +|------|----------|------|------| +| Qwen3-4B | 41.26 | 55.79 | **57.54** | +| Qwen3-8B | 41.62 | 57.00 | **58.47** | + +### 效率提升 +- 达到 45% 精度:**2.5×** 更少步数 +- 达到 58% 精度:**1.6×** 更少步数 + +### OOD 泛化 +- GPQA-Diamond: +3.79 (4B), +2.52 (8B) +- MMLU-Pro: +5.37 (4B), +4.32 (8B) +- HumanEval: +2.44 (8B) + +## Warmup 步数消融 + +最优区间:S ∈ [10, 25] 步。过少(激励不足)或过多(过度探索)均导致性能下降。 + +## 推理行为演化 + +NSR-PreRL 阶段激发多种推理模式: +- Subgoal Setting +- Enumeration +- Verification +- Backtracking + +所有模式在 DSRL 中均达到更高的频率上限。 + +## 相关概念 + +- [[pre-train-space-reinforcement-learning|PreRL]] +- [[post-train-space-rl|Post-train Space RL]] +- [[negative-sample-reinforcement|NSR]] +- [[policy-reincarnation|策略转生]] +- [[endogenous-reasoning|内生推理]] diff --git a/concepts/endogenous-reasoning.md b/concepts/endogenous-reasoning.md new file mode 100644 index 0000000..9ef7838 --- /dev/null +++ b/concepts/endogenous-reasoning.md @@ -0,0 +1,42 @@ +--- +title: "Endogenous Reasoning(内生推理)" +created: 2026-05-18 +type: concept +tags: ["reasoning", "LLM", "reinforcement-learning"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Endogenous Reasoning(内生推理) + +## 定义 + +内生推理指模型**自发性**产生的推理行为,而非通过外部监督信号或精心设计的 prompt 模板所诱导。NSR-PreRL 被证明能显著激发这种内生推理能力。 + +## NSR-PreRL 的激发效果 + +在仅 20 步 NSR-PreRL 训练后(Qwen3-4B, AMC23): + +| 推理模式 | 增长倍数 | +|---------|---------| +| Transition thoughts | **14.89×** | +| Reflection thoughts | **6.54×** | +| Subgoal Setting | 大幅增长 | +| Enumeration | 大幅增长 | +| Verification | 大幅增长 | +| Backtracking | 大幅增长 | + +## 与 GRPO 对比 + +标准 GRPO(25 步后)在激发内生推理方面明显弱于 NSR-PreRL(仅 20 步),说明: +- 内生推理的激发源于预训练空间的操作(移除条件约束后,模型可自由探索知识空间) +- Post-train space 的条件约束**抑制**了这种自发推理行为的涌现 + +## 机制假设 + +NSR-PreRL 通过剪枝错误推理路径,**间接解锁**了模型在预训练阶段已编码但被条件约束抑制的内部知识。这与"预训练知识内部化"的理念一致:模型参数中已经存在推理能力,PreRL 只是去除了阻碍其表达的"噪音路径"。 + +## 相关概念 + +- [[negative-sample-reinforcement|NSR]] +- [[pre-train-space-reinforcement-learning|PreRL]] +- [[dual-space-rl|DSRL]] diff --git a/concepts/etclovg-taxonomy.md b/concepts/etclovg-taxonomy.md new file mode 100644 index 0000000..8f6db7d --- /dev/null +++ b/concepts/etclovg-taxonomy.md @@ -0,0 +1,40 @@ +--- +title: "ETCLOVG 七层分类法" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, taxonomy, infrastructure, harness] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# ETCLOVG 七层分类法 + +> Agent Harness Engineering 的核心分类体系,将 Agent 基础设施拆分为七个独立且相互耦合的架构层。 + +## 七层结构 + +| 层 | 缩写 | 核心职责 | +|---|------|---------| +| Execution | E | Agent 代码在哪里运行、受什么沙箱约束 | +| Tooling | T | 外部能力如何描述、发现和调用 | +| Context | C | 模型能看到什么(短/中/长期视野) | +| Lifecycle | L | 控制流组织(单Agent→多Agent→全流水线) | +| Observability | O | 捕获追踪、成本、故障和可靠性信号 | +| Verification | V | 将任务和追踪转化为评估、失败归因和回归反馈 | +| Governance | G | 通过权限、身份、策略、加固、审计和人类监督约束行为 | + +## 两个关键设计选择 + +1. **Observability(O)独立成层**:生产环境中可观测性有专属工具生态(Langfuse, Arize Phoenix, OpenLLMetry)和独立工程实践 +2. **Governance(G)作为一等公民**:覆盖模型级(护栏)、系统级(网关、代理、权限模型)和组织级(审计、合规)三个子层 + +## 与之前框架的区别 + +此前的框架通常将 O 和 G 作为 Lifecycle Hook 的副作用,ETCLOVG 将其提升为独立架构关注点。 + +## 相关概念 + +- [[agent-harness-engineering]] — 总体概念 +- [[harness-coupling-problem]] — 七层之间的耦合关系 +- [[agent-harness-engineering-survey]] — 论文主页面 diff --git a/concepts/evolving-knowledge-injection.md b/concepts/evolving-knowledge-injection.md new file mode 100644 index 0000000..786710a --- /dev/null +++ b/concepts/evolving-knowledge-injection.md @@ -0,0 +1,35 @@ +--- +title: "进化知识注入 (Evolving Knowledge Injection)" +created: 2026-05-21 +type: concept +tags: ["continual-learning", "multimodal", "knowledge"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 进化知识注入 (Evolving Knowledge Injection) + +## 定义 + +进化知识注入是指将现实世界中**持续更新的多模态知识**(新实体、新事件、新信息)高效注入到已训练好的大型多模态模型(LMM)中的任务。与传统的静态知识注入不同,进化知识具有**时序性**、**多模态性**和**持续涌现性**。 + +## 核心挑战 + +1. **知识适应 (Knowledge Adaptation)**:模型需要准确学习新知识并能在未见过的评估问题上泛化 +2. **知识保留 (Knowledge Retention)**:注入新知识时不能破坏模型已有的通用能力 + +## 形式化定义 + +假设模型 M 可通过注入数据 D_K 优化为 M* = f(M, D_K),需满足: +- **知识适应**:最大化 M* 在新知识评估 D_Q 上的准确率 +- **知识保留**:最小化 M* 与 M 在通用能力测试 D_P 上的性能差距 + +## 与持续学习的关系 + +进化知识注入可视为[[continual-learning|持续学习]]在多模态场景下的特例,但强调**真实世界知识演化**而非简单任务序列切换。 + +## 参见 + +- [[mme-voke|MMEVOKE]] — 首个多模态进化知识注入基准 +- [[knowledge-adaptation|知识适应]] +- [[knowledge-retention|知识保留]] +- [[capability-degradation|能力退化]] diff --git a/concepts/execution-environment.md b/concepts/execution-environment.md new file mode 100644 index 0000000..45c6eae --- /dev/null +++ b/concepts/execution-environment.md @@ -0,0 +1,38 @@ +--- +title: "Execution Environment(执行环境与沙箱)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, sandbox, infrastructure, execution, security] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Execution Environment & Sandbox(E 层) + +> ETCLOVG 的 E 层:决定 Agent 代码在哪里运行、受什么沙箱约束。正在成为安全、可扩展性和可移植性交汇的控制边界。 + +## 主要子类别 + +- **通用托管沙箱**:如 Firecracker microVMs、Docker 容器、OpenSandbox +- **代码专用沙箱**:针对编程任务的隔离环境 +- **浏览器评估环境**:WebArena、BrowserBench 等 +- **OS 级权限沙箱**:Anthropic sandbox-runtime +- **计算机使用 Agent 基础设施**:桌面/浏览器自动化 +- **框架集成运行时** vs **沙箱抽象层**:bundle-vs-compose 之争 + +## 核心挑战 + +- 沙箱逃逸:SandboxEscapeBench 发现前沿模型可突破沙箱(Marchand et al., 2026) +- 大规模并行训练/评估中的 one-container-per-task 模式成本过高 +- Docker 假设 Linux 内核,跨平台可移植性未解决 + +## 开放问题 + +如何使运行时基质既**可测量**又**可组合**——安全评估统一化、成本模型选择、跨部署环境可移植性。 + +## 相关概念 + +- [[etclovg-taxonomy]] — ETCLOVG 体系 +- [[hardening-execution-environments]] — 硬化执行环境 +- [[agent-harness-engineering-survey]] diff --git a/concepts/forecasting-augmentation-taxonomy.md b/concepts/forecasting-augmentation-taxonomy.md new file mode 100644 index 0000000..6e690c5 --- /dev/null +++ b/concepts/forecasting-augmentation-taxonomy.md @@ -0,0 +1,55 @@ +--- +title: "Forecasting Augmentation Taxonomy" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "forecasting", "taxonomy"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# Forecasting Augmentation Taxonomy + +> 时间序列预测增强方法的分类体系——频域、时频域、分解、Patch 四条路线。 + +## 完整分类 + +``` +预测增强方法 +├── 频域 (Frequency Domain) +│ ├── RobustTAD — DFT 幅度/相位扰动 +│ ├── FreqMask — FFT mask 清零 +│ ├── FreqMix — FFT 频谱混合 +│ └── Dominant Shuffle — top-k 主导频率 shuffle +├── 时频域 (Time-Frequency) +│ ├── WaveMask — DWT mask +│ └── WaveMix — DWT 混合 +├── 分解 (Decomposition) +│ ├── STAug — EMD + IMF mixup +│ ├── wDBA — DTW 对齐平均 +│ └── MBB — STL + bootstrap +├── Patch (时域) +│ └── TPS — 重叠 patch + variance shuffle ⭐ +└── 其他 + └── Upsample — 线性插值拉伸 +``` + +## 演化路径 + +频域方法(FreqMask/FreqMix)→ 时频域(WaveMask/WaveMix,加入时间定位)→ Patch 时域(TPS,直接操作原始信号) + +**趋势**:从全局操作走向局部受控扰动,从频域走向时域。 + +## 关键维度对比 + +| 维度 | 频域 | 时频域 | 分解 | Patch | +|------|------|--------|------|-------| +| 时间定位 | ❌ | ✅ | ✅ | ✅ | +| 计算效率 | 高 | 中 | 低 | 高 | +| 时间结构保留 | 低 | 中 | 高 | 高 | +| 当前 SOTA | — | — | — | TPS | + +## 相关页面 + +- [[temporal-patch-shuffle]] — 当前 SOTA +- [[freqmask-freqmix]] — 频域方法 +- [[wavemask-wavemix]] — 时频域方法 +- [[time-series-forecasting-augmentation]] — 领域框架 diff --git a/concepts/freqmask-freqmix.md b/concepts/freqmask-freqmix.md new file mode 100644 index 0000000..90e28e5 --- /dev/null +++ b/concepts/freqmask-freqmix.md @@ -0,0 +1,48 @@ +--- +title: "FreqMask / FreqMix" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "frequency-domain", "forecasting"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# FreqMask / FreqMix + +> 基于 Fourier 变换的频率域时间序列增强方法——mask 或混合频谱分量。 + +## 共同流程 + +1. 拼接:s = x ∥ y +2. FFT:S = rFFT(s) +3. 操作频谱 +4. IFFT:s̃ = irFFT(S̃) +5. 拆分:(x̃, ỹ) = Split(s̃) + +## FreqMask + +用二值 mask M 清零选定频率分量: +``` +S̃ = M ⊙ S +``` +**直觉**:抑制周期分量,迫使模型对频率缺失保持鲁棒。 + +## FreqMix + +混合两个序列的频谱: +``` +S̃ = M ⊙ S₁ + (1 − M) ⊙ S₂ +``` +**直觉**:让序列部分"继承"另一个序列的结构特征。 + +## 局限性 + +- **无时间定位**:FFT 告诉你"哪些频率存在",但不告诉你"出现在哪里" +- 丢失局部时间结构——这一点在 [[wavemask-wavemix|WaveMask/WaveMix]] 中被改善 +- 在综合评测中性能弱于 [[temporal-patch-shuffle|TPS]] + +## 相关页面 + +- [[wavemask-wavemix]] — 有时频定位的 wavelet 替代方案 +- [[dominant-shuffle]] — 更保守的频域操作 +- [[temporal-patch-shuffle]] — 时域 patch 方法的 SOTA +- [[fourier-filter-dynamics]] — Fourier 滤波理论 diff --git a/concepts/generative-general-unification.md b/concepts/generative-general-unification.md new file mode 100644 index 0000000..a7e793d --- /dev/null +++ b/concepts/generative-general-unification.md @@ -0,0 +1,62 @@ +--- +title: "Generative-General-Unification (GenAI 三支柱)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["genai", "paradigm", "comparison", "ai-history"] +sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"] +--- + +# Generative-General-Unification (GenAI 三支柱) + +**Generative-General-Unification** 是吕明提出的 GenAI 区别于前几次 AI 浪潮的三个本质判别要素。这三者并非独立,而是**相辅相成、层层递进**的关系。 + +## 三大支柱 + +### 1. 生成式(Generative) + +> "生成意味着对模型内 Distribution of Reasoning Patterns 带来了更大的 Flexibility、Scalability、Modelability 边界" + +- **输入侧**:Prompt/Context Engineering(早期启蒙) +- **输出侧**:CoT、结构化推理轨迹 +- **模型外**:以 Token 为媒介的 Harness/Agent Frameworks 快速迭代 + +### 2. 通用性(General) + +> "生成与通用相辅相成——生成打开边界,通用在 Scaling Law 下将真实世界压缩建模" + +- Scaling Law 驱动:更多数据 → 更强的泛化 +- 生成能力 + 通用泛化 = 结构性扩展和迁移的可能 +- 为"策略与工程间的窗户纸"埋下伏笔 + +### 3. 统一性(Unification) + +> "'策略算法'与'工程约束'的统一——那层待捅破的窗户纸" + +- 形式化规则编译 + 策略空间 tokenlized 融合 +- World Models 跨模态语义对齐 +- Tools/Skills/Portals/CLI 纳入统一 tokenlized 编码 + +## 迭代关系 + +``` +Generative ──→ General ──→ Unification + │ │ │ + ▼ ▼ ▼ + 打开推理 构建泛化 统一策略 + 模式边界 迁移能力 与工程约束 +``` + +## 与历史 AI 浪潮的根本差异 + +| 浪潮 | 时期 | 瓶颈 | +|------|------|------| +| Expert Systems | 1980s-90s | 规则不可迁移 | +| Deep Learning | 2010s | 泛化难、集成非E2E | +| **GenAI** | 2020s | **三者统一 → 突破** | + +## 相关 + +- [[strategy-engineering-unification]] — 统一性的具体体现 +- [[model-harness-relationship]] — 三支柱的微观映射 +- [[lyu-model-harness-evolution-2026]] — 原始文章 diff --git a/concepts/global-context-hash-tree.md b/concepts/global-context-hash-tree.md new file mode 100644 index 0000000..3361bd4 --- /dev/null +++ b/concepts/global-context-hash-tree.md @@ -0,0 +1,37 @@ +--- +title: "Global Context Hash Tree (全局上下文哈希树)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "hashing", "caching", "LLM"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Global Context Hash Tree (全局上下文哈希树) + +**Global Context Hash Tree** 是 [[distributed-prompt-caching]] 中的核心标识机制:将 Prompt 按层级结构(Global → Project → Session → Message)组织成树,每层独立计算 SHA-256,组合成 128 字节的复合键作为会话的分布式唯一标识符(UID)。 + +## 结构 + +``` +[Global Layer SHA] → [Project Layer SHA] → [Session Layer SHA] → [Current Turn SHA] +``` + +四层哈希组合成 128 字节的二进制复合键(Composite Key)。 + +## 设计优势 + +- **确定性**:相同的上下文产生相同的哈希,可重复定位 +- **分层性**:符合 LLM Prompt 的自然组织方式 +- **紧凑性**:128 字节即可标识任意大小的上下文 +- **跨服务商兼容**:不依赖特定 LLM 提供商的缓存句柄格式 + +## 在路由中的作用 + +复合键作为 [[distributed-cache-routing|Redis 路由表]] 的主键,使任何节点都能通过本地哈希计算瞬间查询某前缀在各物理节点和服务商端的"热态"分布。 + +## 相关 + +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[distributed-cache-routing]] — 基于哈希树的路由 +- [[distributed-agent-cache-sync-2026]] — 原始文章 diff --git a/concepts/governance-security.md b/concepts/governance-security.md new file mode 100644 index 0000000..5ceb0c1 --- /dev/null +++ b/concepts/governance-security.md @@ -0,0 +1,38 @@ +--- +title: "Governance & Security(治理与安全)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, governance, security, compliance, audit, identity] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Governance & Security(G 层) + +> ETCLOVG 的 G 层:通过权限、身份、策略、加固、审计和人类监督机制约束 Agent 行为。覆盖三个治理子层。 + +## 三个治理子层 + +1. **模型级(Model-Level)**:护栏(guardrails)、内容过滤器、constitutional AI +2. **系统级(System-Level)**:网关(gateways)、代理(proxies)、权限模型(permission models) +3. **组织级(Organizational-Level)**:审计(audit)、合规(compliance)、人机协同(human-in-the-loop) + +## 关键组件 + +- **权限模型与身份管理**:Agent 身份、委托、权限清单 +- **生命周期 Hook**:在关键决策点插入治理检查 +- **组件加固**:沙箱逃逸防护、prompt injection 防御 +- **声明式宪法**:如 Claude's Constitution(Anthropic, 2026a) +- **审计基础设施**:记录所有 Agent 操作以供审查 + +## 与 [[capability-control-tradeoff]] 的关系 + +G 层是 control 侧的集中体现。更强的工具和更宽松的沙箱每扩展一次能力,G 层就需要相应增强审计粒度、权限边界和恢复能力。 + +## 相关概念 + +- [[etclovg-taxonomy]] +- [[capability-control-tradeoff]] +- [[standard-agent-handoffs]] — 交接中的责任转移 +- [[agent-harness-engineering-survey]] diff --git a/concepts/gradient-alignment.md b/concepts/gradient-alignment.md new file mode 100644 index 0000000..d9fcda2 --- /dev/null +++ b/concepts/gradient-alignment.md @@ -0,0 +1,46 @@ +--- +title: "Gradient Alignment (PreRL)" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "optimization", "theory"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Gradient Alignment(梯度对齐) + +## 定义 + +PreRL 有效性的理论基础:log P(y) 和 log P(y|x) 的梯度方向在推理轨迹 y 上保持**非负内积**,确保优化边际分布自然改善条件分布。 + +## 形式化 + +设 θ' = θ + η · ∇log P_θ(y) · R(y) 为一步 PreRL 更新后的参数,一阶泰勒展开: + +``` +log P_θ'(y|x) ≈ log P_θ(y|x) + η · R(y) · ⟨∇log P_θ(y), ∇log P_θ(y|x)⟩ + O(η²) +``` + +当 R(y) > 0 且内积 ≥ 0 时,交叉梯度项非负,条件 log-probability **单调不减**。 + +## 实证验证(Qwen3-4B, AMC23, 400 rollouts) + +| 指标 | 值 | +|------|-----| +| 梯度内积(均值) | +9.23 | +| 梯度内积(最大值) | +46.18 | +| 梯度内积(最小值) | +0.94 | +| **负内积比例** | **0%** | +| 余弦相似度(均值) | 0.44 | +| log-prob 差异(均值) | 0.16 | + +## 条件分布对齐 + +- 高概率/确定性 token: log P(y|x) ≈ log P(y)(强对齐) +- 早期序列/高不确定性 token: 存在分歧 +- 总体分布高度重叠(Figure 2c) + +## 相关概念 + +- [[shared-parameter-influence|共享参数影响]] — 梯度对齐的前提 +- [[pre-train-space-reinforcement-learning|PreRL]] +- [[dual-space-rl|DSRL]] diff --git a/concepts/gram-generative-recursive-reasoning.md b/concepts/gram-generative-recursive-reasoning.md new file mode 100644 index 0000000..f22888a --- /dev/null +++ b/concepts/gram-generative-recursive-reasoning.md @@ -0,0 +1,40 @@ +--- +title: "GRAM(Generative Recursive reAsoning Models)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [reasoning, recursive, generative, latent-variable] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# GRAM (Generative Recursive reAsoning Models) + +> 将递归潜在推理转化为概率性多轨迹计算:每个递归步采样条件转移(而非确定性更新),通过边缘化所有轨迹得到最终预测。 + +## 三大贡献 + +1. **潜在变量生成过程**:将递归推理形式化为 p(y|x) +2. **宽度推理扩展**:推理不仅通过递归深度扩展,还通过**并行轨迹采样数**扩展 +3. **经验验证**:在结构化推理、多解恢复和无条件生成上超越确定性 baseline + +## 架构核心 + +- **双层递归**:Inner loop (低层精炼) + Outer loop (supervision step 叠加) +- **随机引导**:高层更新产生确定性提议 u_t,加上随机项 eps_t -> h_t = u_t + eps_t +- **训练**:[[amortized-variational-inference]](CE + KL divergence) + +## 与现有推理方向的对比 + +| 方法 | 扩展维度 | 表示空间 | +|------|---------|---------| +| Chain-of-Thought | Token 序列 | 显式文本 | +| Diffusion Reasoning | 扩散步数 | 连续状态 | +| **GRAM** | **递归深度 x 轨迹宽度** | **离散潜在空间** | + +## 相关概念 + +- [[stochastic-latent-trajectory]] — 随机轨迹 +- [[inference-time-scaling]] — 推理时扩展 +- [[deep-and-wide-reasoning]] — Deep & Wide +- [[gram-generative-recursive-reasoning-paper|GRAM 论文]] diff --git a/concepts/gui-tool-hybrid-action-space.md b/concepts/gui-tool-hybrid-action-space.md new file mode 100644 index 0000000..027c691 --- /dev/null +++ b/concepts/gui-tool-hybrid-action-space.md @@ -0,0 +1,42 @@ +--- +title: "GUI-Tool Hybrid Action Space" +created: 2026-05-31 +type: concept +tags: [agents, gui, tool-calling, action-space] +--- + +# GUI-Tool 混合动作空间 + +**GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间: + +- **$A_{\text{GUI}}$**:原子级 GUI 操作(坐标点击、键盘输入、滚动等) +- **$A_{\text{Tool}}$**:高层结构化工具调用(API 操作文件、设置应用参数、执行命令等) + +形式化定义:$A = A_{\text{GUI}} \cup A_{\text{Tool}}$ + +## 互补性 + +| 维度 | GUI 动作 | 工具调用 | +|------|---------|---------| +| **泛化能力** | 广泛(任何可见元素) | 受限(受工具覆盖范围约束) | +| **效率** | 低(多步完成简单操作) | 高(单次调用替代多次 GUI) | +| **可靠性** | 低(坐标依赖,易出错) | 高(确定性 API) | +| **灵活性** | 高(处理未定义场景) | 低(仅限 predefined APIs) | + +## 核心困境 + +**直接暴露混合空间 ≠ 自动获得混合能力**。 + +[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明,所有基线模型在混合动作空间下的表现**都下降**了: +- EvoCUA-32B: 52.6% → 40.5% (-12.1%) +- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%) +- Qwen3VL-8B: 29.0% → 28.2% (-0.8%) + +原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。 + +## 解决方案 + +[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练: +1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]] +2. [[tool-bootstrapped-rft|工具引导的强化微调]] +3. [[tool-efficient-path-reward|在线 Agentic RL]] diff --git a/concepts/hardening-execution-environments.md b/concepts/hardening-execution-environments.md new file mode 100644 index 0000000..4630a93 --- /dev/null +++ b/concepts/hardening-execution-environments.md @@ -0,0 +1,35 @@ +--- +title: "Hardening Execution Environments(硬化执行环境)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, security, sandbox, execution, hardening] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# Hardening & Scaling Execution Environments + +> 开放问题 1/5:使运行时基质既**可测量**又**可组合**。SandboxEscapeBench 显示前沿模型可突破沙箱,但防御工作仍碎片化。同时 one-container-per-task 模式的成本不可持续。 + +## 当前状态 + +- **安全**:SandboxEscapeBench(Marchand et al., 2026)记录真实沙箱逃逸,但跨系统防御缺乏统一威胁模型 +- **规模**:SWE-World 探索 Docker-free 替代环境,但学到的转换保真度未解决 +- **可移植性**:Docker 假设 Linux 内核,macOS/Windows/浏览器/桌面/混合云场景的隔离和可复现性不同 + +## 未来需求 + +1. **统一安全评估**:prompt injection、目标错位、组合放大 +2. **成本模型**:决定何时使用容器、microVM、OS 级权限边界、完整 VM、浏览器环境或学到的替代品 +3. **可移植性层**:跨自托管、云和混合部署保持语义 + +## Bundle vs Compose + +框架集成运行时(§3.2.4)与沙箱抽象层(§3.2.7)的分裂应作为实证设计问题而非产品偏好来处理。 + +## 相关概念 + +- [[execution-environment]] +- [[standard-agent-handoffs]] — MCP 能否降低组合成本取决于暴露足够的状态 +- [[agent-harness-engineering-survey]] diff --git a/concepts/harness-as-action-verifier.md b/concepts/harness-as-action-verifier.md new file mode 100644 index 0000000..4b13aed --- /dev/null +++ b/concepts/harness-as-action-verifier.md @@ -0,0 +1,50 @@ +--- +title: "Harness-as-Action-Verifier" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "verification", "code-synthesis", "LLM"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# Harness-as-Action-Verifier + +**Harness-as-Action-Verifier** 是 [[autoharness|AutoHarness]] 的核心 harness 模式:LLM 负责提出动作,代码 harness 负责验证其合法性——非法则让 LLM 重新提议。 + +## 工作流程 + +``` +1. LLM 观察环境状态 → 提议动作 +2. is_legal_action(obs, action) → 验证合法性 +3. 合法 → 执行动作 + 非法 → 将 "illegal action" 警告注入 LLM prompt → 回到步骤 1 +``` + +本质上是一个 **rejection sampler**,其中 acceptance condition (`is_legal_action()`) 是从环境 feedback 中学习的。 + +## 训练 + +- 10 个并行环境,每个 rollout 最多 1000 步 +- 遇到非法动作即终止 rollout +- 最多采样 5 个失败步 → Critic 分析 → Refiner 生成改进代码 +- Thompson sampling 引导搜索方向 +- 平均 14.5 次迭代完成训练 + +## 成果 + +- 145 个 TextArena 游戏上 **100% 合法动作率** +- Gemini-2.5-Flash + Verifier 胜 Gemini-2.5-Pro(裸奔) + +## 与 Action Filter 的区别 + +| 特性 | Verifier | Action Filter | +|------|----------|---------------| +| LLM 角色 | 策略制定者 | 排序者 | +| 动作生成 | LLM 自由提议 | 代码枚举合法动作 | +| 适用场景 | 动作空间大 | 动作空间可控 | + +## 相关 + +- [[autoharness]] — 完整方法 +- [[harness-as-policy]] — 更激进的替代方案 +- [[action-applicability]] — 核心问题 diff --git a/concepts/harness-as-policy.md b/concepts/harness-as-policy.md new file mode 100644 index 0000000..b1a0ef5 --- /dev/null +++ b/concepts/harness-as-policy.md @@ -0,0 +1,54 @@ +--- +title: "Harness-as-Policy (Code as Policy)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "code-synthesis", "policy", "LLM"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# Harness-as-Policy (Code as Policy) + +**Harness-as-Policy** 是 [[autoharness|AutoHarness]] 的终极形态:LLM 自动生成的代码**直接决定行动**,推理时不调用任何 LLM。这是 [[code-as-harness]] 框架中约束最弱、最灵活、也最大胆的模式。 + +## 相比于其他模式的根本区别 + +| 模式 | 推理时 LLM 调用 | 代码角色 | +|------|:---:|------| +| [[harness-as-action-verifier|Verifier]] | ✅ | 合法性守卫 | +| Action Filter | ✅ | 候选生成器 | +| **Policy** | ❌ | **决策者** | + +## 训练 + +- 修改 heuristic value 包含 reward:`H = 0` (illegal) / `H = 0.5 + 0.5r` (legal) +- 使用 Gemini-2.5-Flash,最多 256 次迭代 +- 平均 89.4 次迭代,heuristc value 达 0.939 + +## 成果 + +在 16 个 TextArena 1P 游戏上: + +| Agent | 平均 Reward | 测试成本 | +|-------|:---:|------| +| **Harness-as-Policy** (ours) | **0.870** | ~$0 | +| GPT-5.2-High | 0.844 | ~$640 | +| Gemini-2.5-Pro | 0.707 | moderate | +| GPT-5.2 | 0.635 | ~$640 | + +## 核心优势 + +1. **零推理成本**:纯 Python 代码运行,不需要 GPU +2. **超越大模型**:小模型(Flash)训练出的 code policy 超过 GPT-5.2-High +3. **可部署性**:代码可直接在生产环境中运行 + +## 局限 + +- 2P 游戏需要对手建模 + MCTS,纯代码更难处理 +- 当前需要为每个游戏单独训练 + +## 相关 + +- [[code-as-harness]] — 框架哲学 +- [[autoharness]] — 完整方法 +- [[lou-autoharness-2026]] — 原始论文 diff --git a/concepts/harness-coupling-problem.md b/concepts/harness-coupling-problem.md new file mode 100644 index 0000000..aea6fcf --- /dev/null +++ b/concepts/harness-coupling-problem.md @@ -0,0 +1,36 @@ +--- +title: "Harness Coupling Problem(Harness 耦合问题)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, coupling, system-design, optimization] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Harness Coupling Problem + +> Harness 各层高度耦合,局部优化可能变得脆弱。一个在隔离环境中看起来有益的更改,与其他控制回路组合后可能降低整体表现。 + +## 耦合的四种表现 + +1. **执行环境 → 评估**:包可用性、重置语义、延迟和故障模式改变评估结果 +2. **工具描述 → 模型行为**:工具 Schema 消耗 context budget 并塑造模型推理 +3. **可观测性 → 治理**:追踪只有在相同粒度捕获身份和权限状态时才成为治理证据 +4. **评估 → 编排**:评估设计通过奖励/惩罚某些恢复回路来反馈编排 + +## 闭环框架 + +在闭环控制框架下,对上下文策略、工具 Schema、验证器或恢复回路的每一次更改都在改变控制器 `C_H`,从而改变同一模型的测量行为(Bölük, 2026b)。 + +这意味着 Agent 分数无法纯粹归因于模型,而不指定周围的控制器。 + +## 工程含义 + +Harness 变更应作为**系统变更**来测试——不是 prompt、tool、memory、sandbox、verifier 或 monitor 的独立调优,而是作为一个整体 rollout 的组合效果。 + +## 相关概念 + +- [[binding-constraint-thesis]] +- [[trace-native-evaluation]] — 需要跨层归因失败 +- [[agent-harness-engineering-survey]] diff --git a/concepts/harness-engineering.md b/concepts/harness-engineering.md new file mode 100644 index 0000000..cb8bdfb --- /dev/null +++ b/concepts/harness-engineering.md @@ -0,0 +1,49 @@ +--- +title: "Harness Engineering" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "engineering", "constraint", "LLM"] +sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"] +--- + +# Harness Engineering + +**Harness Engineering** 是随着 [[autoharness|AutoHarness]] 等工作而兴起的一门新兴工程实践学科:系统性地为 LLM Agent 构建约束层(harness),使其在结构化环境中产生可靠、合法的行为。 + +## 学科定位 + +传统 AI 工程关注 Model 的训练与部署。Harness Engineering 关注的则是 Model **外部**的结构: +- 合法性验证回路 +- 反馈收集与聚合 +- 代码自合成与迭代 +- 约束的搜索与优化 + +## 核心实践 + +1. **约束即代码**:Harness 以可执行代码形式表达(可验证、可迭代) +2. **搜索驱动合成**:通过 [[thompson-sampling-code-search|Thompson 采样]] 在 harness 空间中搜索 +3. **Refiner-Critic 环**:LLM 生成改进 → 环境反馈 → 迭代优化 +4. **层级递进**:从 Verifier(轻约束)→ Filter → Policy(强约束) + +## 与 Model Engineering 的分工 + +| 维度 | Model Engineering | Harness Engineering | +|------|-------------------|---------------------| +| 优化对象 | 神经网络参数 | 可执行代码 | +| 反馈来源 | 梯度信号 | 环境交互 | +| 可解释性 | 低 | 高(可读代码) | +| 部署成本 | 高昂 | 零(纯代码) | + +## 未来方向 + +- 可复用 Harness 组件库 +- 跨游戏的约束知识迁移 +- 从"代码约束"扩展到"行为准则约束" +- 与 [[heuristic-learning|Heuristic Learning]] 融合 + +## 相关 + +- [[model-harness-relationship]] — Model-Harness 关系 +- [[autoharness]] — 核心方法 +- [[compiled-ai-paradigm]] — 编译型 AI diff --git a/concepts/hars.md b/concepts/hars.md new file mode 100644 index 0000000..947402a --- /dev/null +++ b/concepts/hars.md @@ -0,0 +1,34 @@ +--- +title: "HARS(调和适应保留评分)" +created: 2026-05-21 +type: concept +tags: ["evaluation-metric", "knowledge-injection", "continual-learning"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# HARS(调和适应保留评分) + +## 定义 + +HARS(Harmonized Adaptation-Retention Score)是 [[kore-knowledge-injection|KORE]] 提出的**统一评估指标**,将[[knowledge-adaptation|知识适应]]和[[knowledge-retention|知识保留]]整合为单一调和分数,类似 F1 平衡 Precision 和 Recall。 + +## 公式 + +HARS = 2 · (f_A · f_R) / (f_A + f_R) + +其中: +- f_A = G_A / (G_A + 100) × 100:归一化适应分数 +- f_R = G_R + 100:归一化保留分数 +- G_A = (K.A - K.A_0) / K.A_0:适应相对增益 +- G_R = (K.R - K.R_0) / K.R_0:保留相对增益 +- K.A_0, K.R_0:预训练模型的基准表现 + +## 意义 + +知识注入方法常面临"适应-保留"权衡——提升一方面往往以牺牲另一方面为代价。HARS 提供了一个**单一数值**来衡量方法的整体平衡性,而非分散在多个指标中难以比较。 + +## 参见 + +- [[knowledge-adaptation|知识适应]] +- [[knowledge-retention|知识保留]] +- [[kore-knowledge-injection|KORE]] diff --git a/concepts/held-out-validation-gate.md b/concepts/held-out-validation-gate.md new file mode 100644 index 0000000..5cf4938 --- /dev/null +++ b/concepts/held-out-validation-gate.md @@ -0,0 +1,42 @@ +--- +title: "Held-Out Validation Gate (留出验证门)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["optimization", "validation", "skill", "gate"] +sources: ["https://arxiv.org/abs/2605.23904"] +--- + +# Held-Out Validation Gate (留出验证门) + +**Held-Out Validation Gate** 是 [[skillopt|SkillOpt]] 中的关键安全机制:每个候选 skill 编辑必须在留出的验证集上通过评估,只有在严格改善时才被接受。它是深度学习中 validation-based model selection 在文本空间的对应。 + +## 工作流程 + +``` +Candidate Skill → 在 D_sel 上评估 → + 改善?→ Accept → 可能成为 best_skill.md + 未改善?→ [[rejected-edit-buffer|Reject → buffer]] +``` + +## 为什么至关重要 + +LLM 可以生成"看起来合理"的编辑,但实际上会降低目标模型的表现。Validation gate 将**反思**(reflection)转变为**提出-验证型优化**(propose-and-test),而非无条件地自编辑。 + +## 双重判断 + +- **Improvement over current**: 候选 skill 是否比当前 skill 更好? +- **All-time best**: 是否超过历史最佳?→ 更新 `best_skill.md` + +## 与深度学习的类比 + +``` +深度学习: 在 val set 上选最佳 checkpoint +SkillOpt: 在 D_sel 上 gate 每个 skill edit +``` + +## 相关 + +- [[text-space-optimizer]] — 文本空间优化范式 +- [[skillopt]] — 使用 validation gate 的方法 +- [[rejected-edit-buffer]] — 被 gate 拒绝的编辑的去向 diff --git a/concepts/heuristic-learning.md b/concepts/heuristic-learning.md new file mode 100644 index 0000000..eea128c --- /dev/null +++ b/concepts/heuristic-learning.md @@ -0,0 +1,54 @@ +--- +title: "Heuristic Learning (启发式学习)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["learning-paradigm", "code-evolution", "agent", "optimization"] +sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"] +--- + +# Heuristic Learning (启发式学习) + +**Heuristic Learning (HL)** 是由 OpenAI 翁家翌提出的一种新学习范式:**替代传统梯度下降优化模型参数的学习模式**,将优化主体从 Model 参数扩展到 Agent 整体(Model + Harness 代码)。 + +## 核心循环 + +``` +Agent 运行 → 产生反馈 → 分析并修改代码 → 再次运行 +``` + +与传统梯度下降的对比: + +| 维度 | 梯度下降 (GD) | 启发式学习 (HL) | +|------|:---:|:---:| +| 优化对象 | 神经网络参数 θ | Agent 整体代码 | +| 反馈信号 | ∂L/∂θ | 环境交互 + 结构化反馈 | +| 优化器 | Adam/AdamW | LLM (作为 gradient-free optimizer) | +| 可解释性 | 无(矩阵乘法) | 高(可读代码) | + +## 三大优势 + +### 1. 缓解灾难性遗忘 +旧能力被封装在回归测试中,新代码必须通过旧测试才能部署——从工程上规避了参数被覆盖。 + +### 2. 可解释性 AI +决策逻辑是一行行可读的代码,而非矩阵权重。为 AI 决策提供完整审计追踪。 + +### 3. 样本效率 +借助 LLM 的先验知识和代码理解能力,迭代更快。Atari 57 中位表现已与 PPO 持平,且环境交互步数更少。 + +## 与 AutoHarness 的关系 + +两者理念如出一辙,但定位不同: +- **AutoHarness**:聚焦特定任务(游戏)的约束代码合成 +- **Heuristic Learning**:定位为**通用学习范式**,替代梯度下降 + +## 核心意义 + +HL 将 [[harness-engineering|Harness Engineering]] 提升到了学习范式的高度:**经验或知识不仅可以被"训练"到参数里,还可以被"编程"为可维护、可进化的软件系统。** + +## 相关 + +- [[autoharness]] — DeepMind 的实践先例 +- [[harness-engineering]] — 支撑 HL 的工程学科 +- [[model-harness-relationship]] — HL 隐含的架构哲学 diff --git a/concepts/inference-primitives.md b/concepts/inference-primitives.md new file mode 100644 index 0000000..2af9562 --- /dev/null +++ b/concepts/inference-primitives.md @@ -0,0 +1,43 @@ +--- +title: "Inference Primitives (推理原语)" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "taxonomy", "transformers", "architecture"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Inference Primitives + +> 贝叶斯序列推理可分解为三个原子操作——累积、传输、绑定——不同架构可实现不同子集。 + +## 三个原语 + +### 1. [[belief-accumulation|Belief Accumulation]](信念累积) +将证据逐步整合为 running posterior:\( P(\theta \mid x_{1:t}) \) 随观测更新。 + +### 2. [[belief-transport|Belief Transport]](信念传输) +信念在随机动态下传播——隐藏状态演化时的滤波(如 HMM 的前向算法)。 + +### 3. [[random-access-binding|Random-Access Binding]](随机访问绑定) +按内容而非位置检索已存储的假设——如给定探测线索回忆目标。 + +## 架构可实现性矩阵 + +| 架构 | 累积 | 传输 | 绑定 | 推理能力 | +|------|:---:|:---:|:---:|---------| +| Transformer | ✅ | ✅ | ✅ | 完整 | +| Mamba (SSM) | ✅ | ✅ | ❌ | 滤波 SOTA,绑定失能 | +| LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 | +| MLP | ❌ | ❌ | ❌ | 无 | + +## 结构性洞察 + +**[[primitive-completeness|原语完备性]]**:Transformer 是**实现全部三原语的最小架构**。其在推理任务中的主导地位不是来自规模,而是来自架构层面对全套推理操作的支持。 + +> Neural sequence architectures differ not in whether they can approximate Bayesian inference, but in which primitives they can realize. + +## 相关页面 + +- [[bayesian-wind-tunnels]] — 验证原语理论的实验环境 +- [[primitive-completeness]] — 原语完备性的深入分析 +- [[bayesian-attention-geometry]] — 原语在注意力头中的几何实现 diff --git a/concepts/inference-time-scaling.md b/concepts/inference-time-scaling.md new file mode 100644 index 0000000..2f7ee55 --- /dev/null +++ b/concepts/inference-time-scaling.md @@ -0,0 +1,39 @@ +--- +title: "Inference-Time Scaling(推理时扩展)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [inference, scaling, reasoning, compute] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# Inference-Time Scaling + +> GRAM 提出的双维度推理扩展:不仅通过**递归深度**(deeper),还通过**并行轨迹采样数**(wider)来提升推理质量。 + +## 两种扩展维度 + +| 维度 | 方式 | 效果 | +|------|------|------| +| **深度** (Deep) | 增加递归步数 T | 更多精炼迭代 | +| **宽度** (Wide) | 并行采样更多轨迹 | 更好的边际化估计、多解发现 | + +## 与传统扩展方式的区别 + +- **Chain-of-Thought**: 只能 depth(更长 token 序列) +- **Ensemble**: 只能 width(多个独立模型) +- **GRAM**: **depth x width**(单一模型的递归深度 x 轨迹数) + +## 关键洞察 + +深度和宽度的边际收益不同: +- 深度对单解精炼最有效 +- 宽度对多解覆盖和不确定性处理最有效 +- 最优配置 = 任务依赖的资源分配 + +## 相关概念 + +- [[width-based-scaling]] +- [[deep-and-wide-reasoning]] +- [[gram-generative-recursive-reasoning|GRAM]] diff --git a/concepts/input-superposition.md b/concepts/input-superposition.md new file mode 100644 index 0000000..1a3887d --- /dev/null +++ b/concepts/input-superposition.md @@ -0,0 +1,42 @@ +--- +title: "Input Superposition" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["pre-training", "embedding", "tokenization"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Input Superposition + +**Input Superposition** 是 [[token-superposition-training|TST]] 中输入侧的操作:将连续 s 个 token 的 embedding 取平均,形成单个 latent "s-token"。由 Peng, Gigant & Quesnelle (2026) 在 TST 中系统研究。 + +## 操作 + +设 token 序列为 $t_1, t_2, \dots, t_L$,bag size = s: +1. 分组:$\{t_1, \dots, t_s\}, \{t_{s+1}, \dots, t_{2s}\}, \dots$ +2. 对每个 bag,计算平均 embedding:$e'_j = \frac{1}{s} \sum_{k=1}^s e(t_{(j-1)s+k})$ +3. LLM 在缩短 s× 的序列上运算 + +## 效果 + +- 序列长度 L → L/s,每个训练 step 的 FLOPs **不变**(因为 s-token 序列更短但每个 s-token 的表示维度不变) +- **等 FLOPs** 下吞入 s× 更多数据 token + +## 增益来源(开放问题) + +论文提出了两种解释: +1. **预-预训练假说**:粗粒度 token 保留了文本的局部统计结构(topic, co-occurrence),模型先学习这些粗结构 +2. **Embedding 正则化假说**:在 embedding 空间中对随机 s-gram 取平均,隐式正则化了 embedding 几何 + +## 跨模态关联 + +Input superposition 体现的 **粗→细粒度调度**([[coarse-to-fine-granularity]])原则在多模态中也有先例: +- ViT 中 patch size 从粗到细的调度(Anagnostidis et al.) +- Byte-level → subword 的恢复训练(Minixhofer et al.) + +## 相关 + +- [[token-superposition-training]] — 完整方法 +- [[multi-hot-cross-entropy]] — 输出侧配合的损失函数 +- [[coarse-to-fine-granularity]] — 底层设计原则 diff --git a/concepts/interleaved-gui-tool-trajectory-scaling.md b/concepts/interleaved-gui-tool-trajectory-scaling.md new file mode 100644 index 0000000..6d543be --- /dev/null +++ b/concepts/interleaved-gui-tool-trajectory-scaling.md @@ -0,0 +1,45 @@ +--- +title: "Interleaved GUI-Tool Trajectory Scaling Pipeline" +created: 2026-05-31 +type: concept +tags: [data-synthesis, gui-tool, trajectory-scaling, tool-synthesis] +--- + +# Interleaved GUI-Tool Trajectory Scaling Pipeline + +**Interleaved GUI-Tool Trajectory Scaling Pipeline** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文提出的数据扩展流水线,用于从**已有的纯 GUI 轨迹语料库**合成**大规模 GUI-Tool 交错轨迹数据**。 + +## 核心思想 + +> Repurpose(重利用)现有纯 GUI 轨迹 + MLLM 合成工具库 → 无需人工标注即可大规模生成 GUI-Tool 交错数据 + +## 四步流程 + +### 1. Trajectory Filtering & Balancing +- 从开放数据集按执行质量、任务长度、应用覆盖筛选 +- 跨领域平衡分布,提供稳定的合成源 + +### 2. Trajectory-Aware Synthetic Tool Library Construction +- **MLLM**(如 Kimi-K2.5、Claude-4.5-Sonnet)分析每条 GUI 轨迹 +- 从观察到的 GUI 过程**抽象出可调用的高层操作** +- 每个工具包含:函数签名、自然语言描述、参数语义 +- 支持多粒度:从单步包装(`chrome_open_settings`)到多步组合(`chrome_open_language_settings`) + +### 3. Tool Trajectory Generation with Next-State Grounding +- 用合成工具库生成等效的"纯工具"轨迹 +- **[[next-state-grounding|Next-State Grounding]]**:将工具步骤锚定到原始 GUI 轨迹的对应截图上,验证执行效果一致性 +- **Bottom-up Merging**:将相邻细粒度步骤逐步合并为更高层的复合工具调用 + +### 4. Interleaved GUI-Tool Trajectory Generation +- 随机选取部分工具调用,替换为原始 GUI 操作序列 +- 同时从工具库中移除被替换的工具 → 构建"部分工具可用"的上下文 +- 生成多样化的交错变体($\mathcal{D}_{\text{all}}$) +- 每次替换自然暴露两类切换边界($\mathcal{D}_{\text{critical}}$):GUI→Tool 和 Tool→GUI + +## 三维扩展 + +| 维度 | 扩展内容 | +|------|---------| +| **Tool Functionality** | 跨应用域的工具功能覆盖 | +| **Tool Granularity** | 从原子工具到复合技能 | +| **Switching Context** | 覆盖工具更有益/更无益的场景 | diff --git a/concepts/iterative-code-refinement.md b/concepts/iterative-code-refinement.md new file mode 100644 index 0000000..562137d --- /dev/null +++ b/concepts/iterative-code-refinement.md @@ -0,0 +1,48 @@ +--- +title: "Iterative Code Refinement (迭代代码精炼)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["code-synthesis", "optimization", "LLM", "feedback-loop"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# Iterative Code Refinement (迭代代码精炼) + +**Iterative Code Refinement** 是 [[autoharness|AutoHarness]] 的核心优化循环:LLM 作为 gradient-free code optimizer,基于环境反馈反复改进代码 harness。 + +## 循环结构 + +``` +Old Code → Refiner (LLM) → New Code → Evaluator (Environment) → Critic → Refiner → ... +``` + +### Refiner +- 接收:当前代码 + 失败案例 + 错误信息 +- 输出:改进后的代码 +- 角色:**gradient-free optimizer**——不需要梯度,通过语言理解来"调试"代码 + +### Critic +- 接收:环境 rollout 结果 +- 输出:结构化反馈(哪些动作非法、为什么、环境 reward) +- 角色:给 Refiner 提供"优化方向" + +## 精炼策略 + +- `is_legal_action()` 返回 True 但动作无效 → 同时精炼 `propose_action()` 和 `is_legal_action()` +- `is_legal_action()` 返回 False 且动作无效 → 仅精炼 `propose_action()` + +## 与标准 LLM 代码生成的对比 + +| 特性 | 标准生成 | Iterative Refinement | +|------|----------|---------------------| +| 尝试次数 | 1 次 | 多轮 | +| 反馈 | 无 | 环境反馈 | +| 搜索 | 无 | Thompson sampling 引导 | +| 成功率 | 依赖 prompt | 可达 100% | + +## 相关 + +- [[autoharness]] — 使用此精炼的方法 +- [[thompson-sampling-code-search]] — 选择精炼目标的搜索 +- [[lou-autoharness-2026]] — 原始论文 diff --git a/concepts/knowledge-adaptation.md b/concepts/knowledge-adaptation.md new file mode 100644 index 0000000..eca7c44 --- /dev/null +++ b/concepts/knowledge-adaptation.md @@ -0,0 +1,41 @@ +--- +title: "知识适应 (Knowledge Adaptation)" +created: 2026-05-21 +type: concept +tags: ["continual-learning", "knowledge-injection"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 知识适应 (Knowledge Adaptation) + +## 定义 + +知识适应是[[evolving-knowledge-injection|进化知识注入]]的首要目标,指 LMM 在接触新知识后,能在**未见过的评估问题**上准确泛化。 + +## 形式化 + +max E [ I(M*(i_q, x_q) = y_q) - I(M(i_q, x_q) = y_q) ] + +即最大化注入后模型 M* 相对原始模型 M 在评估数据 D_Q 上的准确率增益。 + +## MMEVOKE 上的适应表现 + +| 方法 | LLaVA-v1.5 CEM | Qwen-VL-Chat CEM | +|------|---------------|-----------------| +| Vanilla(零样本) | 4.89% | 5.84% | +| Full-FT | 18.02% | 10.16% | +| LoRA | 15.23% | 6.95% | +| MM-RAG UniIR | 40.68% | 32.75% | +| Sufficient Context | 56.78% | 49.98% | + +## 关键发现 + +1. **所有方法表现不佳**——即使最佳方法(Sufficient Context)也仅达 56.78% +2. **知识感知增强**可进一步提升适应能力 +3. **知识适应 ≠ 数据记忆**——模型需要"内化"知识而非"背诵"数据 + +## 参见 + +- [[knowledge-retention|知识保留]] +- [[knowledge-aware-augmentation|知识感知增强]] +- [[sufficient-context-paradox|充分上下文悖论]] diff --git a/concepts/knowledge-agnostic-augmentation.md b/concepts/knowledge-agnostic-augmentation.md new file mode 100644 index 0000000..969c1d6 --- /dev/null +++ b/concepts/knowledge-agnostic-augmentation.md @@ -0,0 +1,33 @@ +--- +title: "知识无关增强 (Knowledge-Agnostic Augmentation)" +created: 2026-05-21 +type: concept +tags: ["data-augmentation", "knowledge-injection"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 知识无关增强 (Knowledge-Agnostic Augmentation) + +## 定义 + +知识无关增强是一种**规则驱动的机械式数据增强**,仅操作表面特征而不引入语义级新信息。 + +## 示例 + +- **文本**:将描述中的 "created" 替换为 "built"(同义词替换) +- **图像**:对 "Xiaomi SU7" 图像进行旋转操作(纯几何变换) + +## 效果 + +在 MMEVOKE 基准上,知识无关增强产生**负面效果**: +- 文本:-5.66% CEM,-7.78% F1 +- 图像:-47.36% CEM,-12.76% F1 + +## 启示 + +表面操作无法增加语义知识——模型需要的不是"更多数据",而是**更深的理解**。这一发现对传统数据增强策略在知识注入场景中的适用性提出了根本性质疑。 + +## 参见 + +- [[knowledge-aware-augmentation|知识感知增强]] +- [[data-augmentation|数据增强]] diff --git a/concepts/knowledge-aware-augmentation.md b/concepts/knowledge-aware-augmentation.md new file mode 100644 index 0000000..756c652 --- /dev/null +++ b/concepts/knowledge-aware-augmentation.md @@ -0,0 +1,44 @@ +--- +title: "知识感知增强 (Knowledge-Aware Augmentation)" +created: 2026-05-21 +type: concept +tags: ["data-augmentation", "knowledge-injection", "multimodal"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 知识感知增强 (Knowledge-Aware Augmentation) + +## 定义 + +知识感知增强是一种**知识驱动的语义级数据增强**策略,通过对知识的深层理解进行创造性改写和补充,而非机械的表面变换。 + +## 与数据增强的核心区别 + +| 维度 | [[knowledge-agnostic-augmentation|知识无关增强]] | 知识感知增强 | +|------|------------|------------| +| 驱动方式 | 规则驱动 | 知识驱动 | +| 文本增强 | 同义词替换 | 基于理解的创造性改写 | +| 图像增强 | 旋转/裁剪/颜色变换 | 引入真实世界多角度图像 | +| 语义增益 | 无 | 丰富概念感知 | +| 效果 | **负面**(-5.66% CEM) | **正面**(+11.32% CEM) | + +## 效果 + +在 MMEVOKE 基准上,仅使用**单个数据实例**的知识感知增强: +- 文本增强:+11.32% CEM,+39.82% F1 +- 视觉增强:+43.28% CEM,+13.19% F1 +- 性能随数据量增加进一步提升 + +## 意外发现 + +知识感知增强不仅能提升知识适应,还能**部分缓解能力退化**——在 MMBench、SEEDBench2 Plus、ScienceQA 上超过标准 Full-FT 和 LoRA,甚至超过专门的保留技术(EWC、LwF)。 + +## 本质 + +体现了"数据记忆"与"知识内化"的根本区别——前者仅能拟合训练数据,后者却能提取和操控事实知识。 + +## 参见 + +- [[knowledge-agnostic-augmentation|知识无关增强]] +- [[knowledge-injection|知识注入]] +- [[capability-degradation|能力退化]] diff --git a/concepts/knowledge-internalization.md b/concepts/knowledge-internalization.md new file mode 100644 index 0000000..35795e9 --- /dev/null +++ b/concepts/knowledge-internalization.md @@ -0,0 +1,23 @@ +--- +title: "知识内化 (Knowledge Internalization)" +created: 2026-05-21 +type: concept +tags: ["knowledge-injection", "learning-theory"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 知识内化 (Knowledge Internalization) + +## 定义 + +知识内化是指模型不仅仅是"背诵"训练数据(数据记忆),而是真正理解知识的内在逻辑和关联,能够在推理时灵活提取和操控学到的知识。 + +## 与数据记忆的区别 + +- **数据记忆**:模型仅能准确拟合训练数据,但无法泛化 +- **知识内化**:模型理解知识本质,能灵活用于新场景 + +## 参见 + +- [[kore-augmentation|KORE-AUGMENTATION]] +- [[knowledge-tree|知识树]] diff --git a/concepts/knowledge-retention.md b/concepts/knowledge-retention.md new file mode 100644 index 0000000..aba602f --- /dev/null +++ b/concepts/knowledge-retention.md @@ -0,0 +1,41 @@ +--- +title: "知识保留 (Knowledge Retention)" +created: 2026-05-21 +type: concept +tags: ["continual-learning", "catastrophic-forgetting"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 知识保留 (Knowledge Retention) + +## 定义 + +知识保留是[[evolving-knowledge-injection|进化知识注入]]中的关键目标之一,指在注入新知识后**保持模型已有通用能力不退化**。 + +## 方法谱系 + +### 有效方法 + +- [[data-replay|数据回放(Replay)]]:直接排练——混合旧数据训练,排名第 1(LoRA)和第 3(Full-FT) +- [[moe-lora|MoELoRA]]:结构隔离——为新知识划出专用参数区,排名第 2 + +### 无效方法 + +- **EWC**(Elastic Weight Consolidation):通过正则化约束重要参数不变——排名第 5,几乎无缓解 +- **LwF**(Learning without Forgetting):通过知识蒸馏保留旧模型输出——排名第 6,甚至加剧退化 + +## 核心洞察 + +**直接排练 > 结构隔离 > 间接约束** + +EWC 和 LwF 的失败说明:试图通过"冻结"参数来保留能力的策略在多模态进化知识注入场景下基本无效——新知识与旧知识的交互远复杂于简单的参数权重保护。 + +## 与知识增强的协同 + +一个意外发现是[[knowledge-aware-augmentation|知识感知增强]]本身也能部分缓解能力退化,这暗示了**主动学习**与**能力保留**之间存在协同效应。 + +## 参见 + +- [[capability-degradation|能力退化]] +- [[knowledge-adaptation|知识适应]] +- [[catastrophic-forgetting|灾难性遗忘]] diff --git a/concepts/knowledge-tree.md b/concepts/knowledge-tree.md new file mode 100644 index 0000000..5ab73ae --- /dev/null +++ b/concepts/knowledge-tree.md @@ -0,0 +1,47 @@ +--- +title: "知识树 (Knowledge Tree)" +created: 2026-05-21 +type: concept +tags: ["knowledge-representation", "data-augmentation", "structured-knowledge"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 知识树 (Knowledge Tree) + +## 定义 + +知识树是 [[kore-augmentation|KORE-AUGMENTATION]] 提出的**结构化知识表示**,将单个知识项展开为多层次的训练数据,形成"树干 + 树枝"的树形结构。 + +## 结构 + +``` + [原始知识项] + / \ + Trunk Branches + (主干) (分支) + | | + 多轮对话 指令任务 + ├ 启发式Q&A ├ 视觉识别 + └ 对话Q&A ├ 图像描述 + └ VQA +``` + +## 设计理念 + +一般的知识增强只生成**孤立的离散变体**——如把 "created" 替换为 "built",或旋转图像。这些变体之间没有结构联系。 + +知识树则构建了一个**连贯的多层次结构**: +- **主干(Trunk)**通过多轮对话让模型学习知识的**上下文和推理链** +- **分支(Branches)**通过多样化指令任务让模型从**不同角度理解知识** + +这种结构化设计使模型能从"数据记忆"上升到"**知识内化**"——理解知识的内在逻辑和关联,而非简单背诵。 + +## 与 RAG 的区别 + +RAG 在推理时检索外部知识;知识树在**训练时**构建结构化知识,让模型真正学会"理解"而非"查找"。 + +## 参见 + +- [[kore-augmentation|KORE-AUGMENTATION]] +- [[knowledge-internalization|知识内化]] +- [[structured-knowledge|结构化知识]] diff --git a/concepts/kore-augmentation.md b/concepts/kore-augmentation.md new file mode 100644 index 0000000..f948518 --- /dev/null +++ b/concepts/kore-augmentation.md @@ -0,0 +1,46 @@ +--- +title: "KORE-AUGMENTATION(知识导向增强)" +created: 2026-05-21 +type: concept +tags: ["knowledge-injection", "data-augmentation", "multimodal"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# KORE-AUGMENTATION(知识导向增强) + +## 定义 + +KORE-AUGMENTATION 是一种**结构化知识增强**方法,将单个知识项自动转化为多层次的[[knowledge-tree|知识树]],实现从"数据记忆"到"知识内化"的跨越。 + +## 知识树结构 + +### 主干(Trunk):多轮对话数据 +- **启发式 Q&A**:手工模板随机构建 +- **对话 Q&A**:GPT-4o 根据原始文本知识生成最多 10 轮对话 +- 产出:75,710 条对话数据 + +### 分支(Branches):指令任务数据 +- **视觉识别**:CLIP 检索相似图像 → 回答 "Yes/No" +- **图像描述**:GPT-4o 基于知识摘要生成答案 +- **VQA**:GPT-4o 生成 (Q, A, Subject, Hypernym) 四元组 → Google 搜索图像 +- 产出:46,468 条 VQA 样本 + +## 与一般增强的区别 + +| 维度 | 一般增强 | KORE-AUGMENTATION | +|------|---------|-------------------| +| 文本增强 | 同义词替换/改写(离散变体) | 结构化多轮对话 | +| 图像增强 | 旋转/裁剪(表面变换) | CLIP 检索 + 视觉识别/描述/VQA | +| 知识结构 | 孤立数据点,无连接 | 连贯的知识树 | +| 目标 | 扩大数据暴露面 | 知识理解和内化 | + +## 本质 + +一般增强停留在"数据记忆"层面——模型仅能拟合训练数据。KORE-AUGMENTATION 上升到"**知识内化**"——模型能理解知识的内在逻辑和关联,灵活提取和操控学到的知识。 + +## 参见 + +- [[knowledge-tree|知识树]] +- [[kore-constraint|KORE-CONSTRAINT]] +- [[knowledge-aware-augmentation|知识感知增强]] +- [[knowledge-agnostic-augmentation|知识无关增强]] diff --git a/concepts/kore-constraint.md b/concepts/kore-constraint.md new file mode 100644 index 0000000..640dfb5 --- /dev/null +++ b/concepts/kore-constraint.md @@ -0,0 +1,56 @@ +--- +title: "KORE-CONSTRAINT(知识导向约束)" +created: 2026-05-21 +type: concept +tags: ["continual-learning", "null-space", "lora", "knowledge-retention"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# KORE-CONSTRAINT(知识导向约束) + +## 定义 + +KORE-CONSTRAINT 是一种基于**零空间投影**的知识保留方法,通过在 LMM 线性层激活的协方差矩阵零空间中初始化 LoRA adapter,确保微调方向**最小化对已有知识的干扰**。 + +## 核心机制 + +### 1. 协方差矩阵存储知识 +收集 LMM 在代表预训练知识的随机样本上的激活 X ∈ R^{d_in × BL},计算协方差矩阵: +C = XX^T ∈ R^{d_in × d_in} + +C 有效捕获了多模态知识——相关任务(POPE 和 HallusionBench)在 C 中展示相似模式,而无关任务则不同。 + +### 2. 零空间投影 +对 C 进行 SVD 分解 → 提取零空间(对应最小奇异值的向量)→ 构建投影矩阵 P = ÛÛ^T + +### 3. 初始化 LoRA Adapter +将预训练权重 W₀ 投影到零空间: +- SVD(W₀P) = U*, Σ*, (V*)^T +- B = U*√Σ*, A = √Σ*(V*)^T +- 调整原始权重:W₀' = W₀ - BA(确保微调开始时模型不变) + +### 4. 冻结 A,仅微调 B +A 被冻结在零空间内 → 更新项 BAC ≈ 0 → **无论 B 如何变化,旧知识不受影响** + +## 目标公式 +W*C = (W₀ + BA)C ≈ W₀C → BAC ≈ 0 → AC = 0(A 在 C 的零空间中) + +## 相比其他保留方法 + +| 方法 | 机制 | 效果 | +|------|------|------| +| **KORE-CONSTRAINT** | 零空间投影 | 最有效 | +| EWC | 重要参数正则化 | 几乎无效 | +| LwF | 蒸馏旧输出 | 甚至加剧退化 | +| MoELoRA | 专家隔离 | 次优 | +| Replay | 混合旧数据训练 | 有效但需存储旧数据 | + +## 增量注入能力 +通过冻结 A 矩阵,KORE 支持**顺序注入多批新知识**而不会累积遗忘——每次新注入的 A 都在累积协方差矩阵的零空间中。 + +## 参见 + +- [[null-space-projection-knowledge|零空间投影知识保留]] +- [[covariance-matrix-knowledge|协方差矩阵知识存储]] +- [[kore-augmentation|KORE-AUGMENTATION]] +- [[knowledge-retention|知识保留]] diff --git a/concepts/language-gradient.md b/concepts/language-gradient.md new file mode 100644 index 0000000..64e0dc1 --- /dev/null +++ b/concepts/language-gradient.md @@ -0,0 +1,33 @@ +--- +title: "Language Gradient (语言梯度)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "optimization", "gradient"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Language Gradient (语言梯度) + +**Language Gradient** 是 [[agent-symbolic-learning|Agent Symbolic Learning]] 的核心机制:用自然语言文本模拟数值梯度,告诉 Symbolic Optimizer 每个符号组件应如何改进。它是 `∇L` 在文本空间中的 **simulacrum**。 + +## 与数值梯度的区别 + +| 数值梯度 | Language Gradient | +|:---|:---| +| `∂L/∂θ` 浮点向量 | "当前 prompt 哪里有问题"的文本分析 | +| 局部一阶方向 | 全局因果推理 | +| 确定性 | LLM 生成(统计性) | + +## 生成 + +在 [[symbolic-backpropagation|Symbolic BP]] 中,每个节点基于下游梯度信号 + 本节点输入/输出,由 LLM 生成针对该节点的改进分析。 + +## 与 [[text-vs-weight-optimization|Text vs Weight Optimization]] 的关系 + +Language Gradient 的"梯度"本质正是吕明在 SkillOpt 深度解读中剖析的核心:它不是真正的梯度,而是 LLM 对失败原因的**全局因果推理**。 + +## 相关 + +- [[agent-symbolic-learning]] — 使用 Language Gradient 的框架 +- [[symbolic-backpropagation]] — 传播机制 diff --git a/concepts/language-loss.md b/concepts/language-loss.md new file mode 100644 index 0000000..8d759e4 --- /dev/null +++ b/concepts/language-loss.md @@ -0,0 +1,24 @@ +--- +title: "Language Loss (语言损失)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "loss-function", "evaluation"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Language Loss (语言损失) + +**Language Loss** 是 [[agent-symbolic-learning|Agent Symbolic Learning]] 的损失函数:用自然语言评估 Agent 执行结果,作为 [[symbolic-backpropagation|Symbolic BP]] 的起点。 + +## 特性 + +- **无需 ground-truth**: 可仅从经验中学习 +- **信息丰富**: 不仅是"好/坏",还含因果分析 +- **可传播**: 向后逐节点传播到整个 pipeline + +## 相关 + +- [[agent-symbolic-learning]] — 使用 Language Loss 的框架 +- [[symbolic-backpropagation]] — Loss 的传播 +- [[language-gradient]] — Loss 到 Gradient 的转化 diff --git a/concepts/latent-variable-generative-model.md b/concepts/latent-variable-generative-model.md new file mode 100644 index 0000000..c309b89 --- /dev/null +++ b/concepts/latent-variable-generative-model.md @@ -0,0 +1,37 @@ +--- +title: "Latent-Variable Generative Model(潜在变量生成模型)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [generative-model, latent-variable, probabilistic] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# Latent-Variable Generative Model + +> GRAM 的概率视角:将递归推理形式化为潜在变量生成模型,推理轨迹是潜在变量 z,通过边缘化得到预测。 + +## 两种模式 + +- **条件推理**: p_theta(y|x) — 给定输入 x,推理产生 z_T,解码得到 y +- **无条件生成**: p_theta(x) — 固定或缺失输入时,同样的递归过程可以生成数据 + +## 为什么这个形式化重要 + +1. **统一框架**:推理和生成是同一模型的两个方向 +2. **概率解释**:不确定性自然内建于模型 +3. **训练目标清晰**:[[amortized-variational-inference]] 最大化 ELBO + +## 与 VAE 的关系 + +GRAM 可以看作针对递归推理特化的 VAE 变体: +- VAE: z ~ q_phi(z|x), p_theta(x|z) +- GRAM: z = 递归轨迹, p_theta(y|z), p_theta(x) +- 区别:GRAM 的潜在变量是**结构化序列**,而非单一向量 + +## 相关概念 + +- [[amortized-variational-inference]] +- [[gram-generative-recursive-reasoning|GRAM]] +- [[unconditional-generation-latent]] diff --git a/concepts/lifecycle-orchestration.md b/concepts/lifecycle-orchestration.md new file mode 100644 index 0000000..0574edc --- /dev/null +++ b/concepts/lifecycle-orchestration.md @@ -0,0 +1,33 @@ +--- +title: "Lifecycle & Orchestration(生命周期与编排)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, orchestration, multi-agent, workflow, lifecycle] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Lifecycle & Orchestration(L 层) + +> ETCLOVG 的 L 层:组织控制流的读/写状态,从单 Agent 循环到多 Agent 协调和 Issue-to-PR 全流水线。 + +## 三个层次 + +1. **单 Agent 内循环(Single-Agent Inner Loop)**:思考-行动-观察循环,如 ReAct、CodeAct +2. **多 Agent 编排模式(Multi-Agent Orchestration)**:planner-executor、swarm、hierarchical +3. **全生命周期流水线(Issue-to-PR)**:从需求到代码交付的端到端自动化 + +## 关键转变 + +从 Agent Frameworks 到 Agent Platforms: +- Frameworks 打包本地抽象(agents, tools, memory, loops) +- Platforms 添加持久工作区、托管沙箱、身份、计费、可观测性、评估、治理和人工交接 + +核心设计问题从"如何构建 Agent?"转向"如何运营一组 Agent,使其操作随时间保持可检查、可逆?" + +## 相关概念 + +- [[agent-frameworks-to-platforms]] — 从框架到平台的转变 +- [[standard-agent-handoffs]] — Agent 间标准化交接 +- [[agent-harness-engineering-survey]] diff --git a/concepts/mme-voke.md b/concepts/mme-voke.md new file mode 100644 index 0000000..ef04089 --- /dev/null +++ b/concepts/mme-voke.md @@ -0,0 +1,44 @@ +--- +title: "MMEVOKE" +created: 2026-05-21 +type: concept +tags: ["benchmark", "multimodal", "knowledge-injection"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# MMEVOKE + +## 定义 + +MMEVOKE 是首个**多模态进化知识注入基准**,由 ICLR 2026 论文 "When Large Multimodal Models Confront Evolving Knowledge" 提出。 + +## 关键统计 + +| 指标 | 数值 | +|------|------| +| 总样本数 | 9,422 | +| 细粒度子领域 | 159(News 29 + Entity 130) | +| 进化知识来源 | CNN(新闻)+ Wikipedia(实体) | +| 图像数 | 18,834(注入 9,422 + 评估 9,412) | +| News vs Entity | 47.7% vs 52.3% | + +## 数据构建流程 + +1. **知识收集**:从 CNN robots.txt 提取 URL(News);对比 Wikipedia 不同时间点版本识别新条目(Entity) +2. **内容总结**:GPT-4o 对长文本摘要 +3. **VQA 生成**:GPT-4o 提取 VQA 对 + 核心对象 + 上位词;Google 搜索 + CLIP 聚类清洗图像 +4. **人工筛选**:每条约 10 秒人工审核,确保高质量 + +## 自进化特性 + +MMEVOKE 的构建流程最小化人工参与,仅人工筛选步骤未自动化。通过前端网页加速人工筛选,**每季度更新一次**。 + +## 领域分布 + +涵盖政治、商业、科技、体育、健康、娱乐等广泛领域,实体部分包含 130 个子领域。 + +## 参见 + +- [[evolving-knowledge-injection|进化知识注入]] +- [[self-evolving-benchmark|自进化基准]] +- [[when-large-multimodal-models-confront-evolving-knowledge|论文主页]] diff --git a/concepts/model-harness-relationship.md b/concepts/model-harness-relationship.md new file mode 100644 index 0000000..61e1256 --- /dev/null +++ b/concepts/model-harness-relationship.md @@ -0,0 +1,41 @@ +--- +title: "Model-Harness Relationship (模型与Harness关系)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["model", "harness", "agent", "genai", "architecture"] +sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"] +--- + +# Model-Harness Relationship (模型与Harness关系) + +**Model-Harness Relationship** 是指 LLM 基础模型与外部约束/工程层(Harness)之间的动态演进关系。随着 [[autoharness|AutoHarness]] 和 [[heuristic-learning|Heuristic Learning]] 等工作的出现,两者正在从"模型 + 手写 plumbing"走向深度融合。 + +## 演进阶段 + +| 阶段 | Model 角色 | Harness 角色 | 关系 | +|------|-----------|-------------|------| +| **1.0 传统** | 一切决策 | 手写胶水代码 | 主从 | +| **2.0 AutoHarness** | 策略 + 代码生成 | 自动合成约束代码 | 双向 | +| **3.0 Code-as-Policy** | 仅训练阶段 | 推理时完全替代 Model | 融合 | +| **4.0 未来?** | 自进化引擎 | 自进化约束 | 一体 | + +## 核心张力 + +Harness 的强约束与 Model 的灵活性之间存在根本张力: +- **约束过弱** → 非法动作(78% 象棋失败) +- **约束过强** → 限制策略空间(code-as-policy 在复杂博弈中受限) + +理想的 Model-Harness 关系应是**动态边界**——在不同场景/阶段中自适应调整。 + +## 吕明的视角 + +> "介于 Model 与 Harness 中间的那层'策略算法'与'工程约束'的模糊地带,其边界将会进一步延展并形成更加紧密依赖难以割裂的共同体。" + +> "也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的。" + +## 相关 + +- [[lyu-model-harness-evolution-2026]] — 原始文章 +- [[harness-engineering]] — Harness 工程学科 +- [[strategy-engineering-unification]] — 策略与工程统一 diff --git a/concepts/moe-lora.md b/concepts/moe-lora.md new file mode 100644 index 0000000..4a2020a --- /dev/null +++ b/concepts/moe-lora.md @@ -0,0 +1,41 @@ +--- +title: "MoELoRA" +created: 2026-05-21 +type: concept +tags: ["mixture-of-experts", "lora", "knowledge-retention", "continual-learning"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# MoELoRA + +## 定义 + +MoELoRA 是将[[mixture-of-experts|混合专家(MoE)]]架构与[[lora|LoRA]]结合的知识保留方法,通过为新增知识**划出专用参数区域**来防止参数冲突。 + +## 机制 + +- 利用 MoE 的专家路由机制为不同知识域分配独立的参数子空间 +- 新知识被路由到专门的专家模块,避免覆盖已有的通用能力参数 +- LoRA 的低秩适配保证参数效率 + +## 效果 + +在 MMEVOKE 实验中: +- 能力退化仅 **2.05%**(指令遵循维度),在 12 个基准中排名第 2 +- 在 MathVista 上**超过** Vanilla +1.18% +- 显著优于 EWC 和 LwF 等间接约束方法 + +## 为什么优于 EWC/LwF + +| 方法 | 机制 | 效果 | +|------|------|------| +| MoELoRA | 结构性隔离新知识 | 有效 | +| EWC | 间接约束重要参数不变 | 几乎无效 | +| LwF | 蒸馏旧模型输出 | 甚至加剧退化 | + +## 参见 + +- [[data-replay|数据回放]] +- [[knowledge-retention|知识保留]] +- [[mixture-of-experts|混合专家]] +- [[lora|LoRA]] diff --git a/concepts/multi-agent-orchestration.md b/concepts/multi-agent-orchestration.md new file mode 100644 index 0000000..a396fce --- /dev/null +++ b/concepts/multi-agent-orchestration.md @@ -0,0 +1,50 @@ +--- +title: "Multi-Agent Orchestration(多 Agent 编排)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [agent, multi-agent, orchestration, coordination] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Multi-Agent Orchestration + +> 将规划、执行、检查和修正等职责分离到多个专业化 Agent 中,通过结构化协调模式组合它们的能力。 + +## 五种编排模式 + +### 1. 层级编排(Hierarchical) +- 高层控制器分配工作给子 Agent,整合输出 +- 代表:DeerFlow、AutoGen、OpenAI Agents SDK、DeepAgents + +### 2. 团队编排(Team) +- 一组命名职责的专业化 Agent 协同工作 +- 代表:oh-my-claudecode + +### 3. 工作流编排(Workflow) +- Agent 和工具组织成显式的阶段或控制逻辑 +- 代表:Semantic Kernel + +### 4. Fan-out +- 多个 Agent 并行运行以探索多样化解决方案 + +### 5. 图组合(Graph Composition) +- Agent、工具、状态作为交互图中的节点 +- 多种协调模式共存 +- 代表:LangGraph、Hive + +## 经典架构:Planner-Generator-Evaluator + +Anthropic 的 planner-generator-evaluator 架构体现了核心原则:**规划、执行和验证可以分离到显式角色中**,提高分解力和鲁棒性,但增加协调开销。 + +## 全生命周期流水线 + +最高层编排管理从 Issue 到 PR 的完整工作流: +- 核心抽象:**Task Runner** — 管理调度、状态持久化、重试、验证和迭代 +- 执行基于持久化工件(仓库、分支、文件、PR) + +## 相关概念 +- [[lifecycle-orchestration]] — L 层总体 +- [[agent-harness-engineering]] — 总体框架 +- [[agent-frameworks-to-platforms]] — 从框架到平台 diff --git a/concepts/multi-hot-cross-entropy.md b/concepts/multi-hot-cross-entropy.md new file mode 100644 index 0000000..9355ab5 --- /dev/null +++ b/concepts/multi-hot-cross-entropy.md @@ -0,0 +1,42 @@ +--- +title: "Multi-hot Cross-Entropy (MCE)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["loss-function", "training", "LLM"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Multi-hot Cross-Entropy (MCE) + +**Multi-hot Cross-Entropy (MCE)** 是标准交叉熵损失的多标签推广,用于 [[token-superposition-training|TST]] 中同时预测一个 bag 内的多个 token。由 Peng, Gigant & Quesnelle (2026) 在 TST 论文中提出。 + +## 定义 + +标准 CE(单标签 y): +$$L_{CE}(z, y) = -z_y + \log \sum_i \exp(z_i)$$ + +MCE(多标签 bag y,size = s): +$$L_{MCE}(z, y) = \frac{1}{|y|} \sum_{y \in y} L_{CE}(z, y)$$ + +化简后即对 bag 中每个 token 的 CE loss 取平均。 + +## 设计考量 + +- **简洁性**:可复用高度优化的 CE kernel,无需修改训练框架 +- **对比其他 loss**:尝试了 Hinge loss 和 Binary Cross-Entropy (BCE),均显著差于 MCE,甚至不如 baseline +- **信息论解释**:MCE 等价于让模型输出 bag 内所有 token 的**均匀混合概率**,叠加阶段结束后该分布不可直接用于 sampling + +## 与 Multi-Token Prediction (MTP) 的区别 + +| 特性 | MCE (TST) | MTP | +|------|-----------|-----| +| 预测目标 | 下一个 bag 的全部 token | 逐个预测 k 个未来 token | +| 额外参数 | 无 | k 个独立预测头 | +| 超参数 | s (bag size) | k (预测步数) | +| 因果性 | 半因果(bag 内无序) | 完全因果 | + +## 相关 + +- [[token-superposition-training]] — 使用 MCE 的方法 +- [[peng-tst-2026]] — 原始论文 diff --git a/concepts/multi-solution-recovery.md b/concepts/multi-solution-recovery.md new file mode 100644 index 0000000..deb0714 --- /dev/null +++ b/concepts/multi-solution-recovery.md @@ -0,0 +1,34 @@ +--- +title: "Multi-Solution Recovery(多解恢复)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [reasoning, multi-solution, constraint-satisfaction] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: medium +--- + +# Multi-Solution Recovery + +> 给定一个约束满足问题,能够恢复**所有**(而非仅一个)有效解的能力。这是 GRAM 确定性 -> 随机性转变的核心收益之一。 + +## 传统 RRM 的局限 + +确定性的 [[recursive-reasoning-models|RRM]] 在约束满足问题上只能返回**一个解**——它们收敛到单一预测,无法表达解集的不确定性。 + +## GRAM 的多解恢复 + +- 从 [[stochastic-latent-trajectory]] 分布中采样 K 条轨迹 +- 不同轨迹自然收敛到不同有效解 +- 覆盖率随 K 增长 + +## 评测任务 + +- N-Queens:8 皇后问题有 92 个解 +- Graph Coloring:多种有效着色方案 + +## 相关概念 + +- [[multi-trajectory-inference]] +- [[inference-time-scaling]] +- [[gram-generative-recursive-reasoning-paper|GRAM 论文]] diff --git a/concepts/multi-trajectory-inference.md b/concepts/multi-trajectory-inference.md new file mode 100644 index 0000000..7cf5424 --- /dev/null +++ b/concepts/multi-trajectory-inference.md @@ -0,0 +1,41 @@ +--- +title: "Multi-Trajectory Inference(多轨迹推理)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [reasoning, multi-trajectory, inference, parallel] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: medium +--- + +# Multi-Trajectory Inference + +> GRAM 的核心推理范式:不沿单一路径精炼,而是采样**多条潜在推理轨迹**,在轨迹间维持多个假设和替代策略。 + +## 为什么需要多轨迹 + +现有确定性 [[recursive-reasoning-models|RRM]] 的关键失败模式: +- 单一路径可能陷入次优吸引子 +- 无法同时探索多个有效解 +- 推理路径空间被坍缩为单点 + +## GRAM 的实现 + +- 推理过程 = 从 p(z_T|x) 采样 +- 每次采样产生一条完整轨迹 +- 多条轨迹 -> p(y|x) 的蒙特卡洛估计 +- 轨迹间可并行(天然适合 batch) + +## 与多解问题的关系 + +在 [[multi-solution-recovery|多解恢复]] 场景中,多轨迹推理天然优势: +- 不同轨迹收敛到不同有效解 +- 一次运行恢复整个解集 +- 无需顺序尝试 + +## 相关概念 + +- [[stochastic-latent-trajectory]] +- [[inference-time-scaling]] +- [[width-based-scaling]] +- [[gram-generative-recursive-reasoning|GRAM]] diff --git a/concepts/multimodal-rag.md b/concepts/multimodal-rag.md new file mode 100644 index 0000000..0c4f63a --- /dev/null +++ b/concepts/multimodal-rag.md @@ -0,0 +1,33 @@ +--- +title: "多模态 RAG (Multimodal RAG)" +created: 2026-05-21 +type: concept +tags: ["rag", "multimodal", "retrieval"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 多模态 RAG (Multimodal RAG) + +## 定义 + +多模态 RAG(MM-RAG)将[[rag|检索增强生成]]扩展到多模态场景,通过检索外部多模态知识来增强 LMM 的知识密集型任务表现。 + +## 三种检索策略 + +| 策略 | 检索依据 | LLaVA-v1.5 CEM | Qwen-VL-Chat CEM | +|------|---------|---------------|-----------------| +| Text-Only | 仅文本特征 | 24.05% | 21.79% | +| Image-Only | 仅视觉特征 | 25.25% | 22.31% | +| UniIR | 多模态特征融合 | **40.68%** | **32.75%** | + +## 关键发现 + +1. MM-RAG 优于 SFT(Full-FT/LoRA),但最高仅 40.68% CEM——**远未达到理想水平** +2. UniIR 融合多模态特征检索显著优于单模态检索 +3. 即使提供了充分上下文(Sufficient Context),模型仍不能完美回答——揭示了**利用能力**而非**检索能力**是瓶颈 + +## 参见 + +- [[rag|RAG]] +- [[sufficient-context-paradox|充分上下文悖论]] +- [[evolving-knowledge-injection|进化知识注入]] diff --git a/concepts/negative-sample-reinforcement.md b/concepts/negative-sample-reinforcement.md new file mode 100644 index 0000000..31c5e2d --- /dev/null +++ b/concepts/negative-sample-reinforcement.md @@ -0,0 +1,46 @@ +--- +title: "Negative Sample Reinforcement (NSR)" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "LLM", "GRPO", "reasoning"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Negative Sample Reinforcement (NSR) + +## 定义 + +NSR 是 RL 中针对**负样本**(获得负 advantage 的样本)进行强化的机制:通过最小化 log π(y|x) 来**抑制**错误推理轨迹。在预训练空间 P(y) 中,NSR 展现出远超 [[positive-sample-reinforcement|PSR]] 的效果。 + +## 核心发现 + +### NSR-PreRL 的效果 + +1. **剪枝错误路径**:有效消除 universal incorrect patterns +2. **激发内生推理**:transition thoughts **14.89×**,reflection thoughts **6.54×** +3. **样本效率**:仅需 20 步 NSR-PreRL 即达到标准 RL 需要 60+ 步的精度(AMC23: 86%) +4. **双刃剑**:过度 NSR 会导致输出过长,阻碍后续训练 + +### 与 NSR-RL 的对比 + +| 方法 | Avg@32 (Qwen3-4B) | +|------|-------------------| +| Vanilla | 41.26 | +| GRPO | 55.79 | +| NSR-RL Warmup | 54.38 | +| **NSR-PreRL Warmup (DSRL)** | **57.54** | + +NSR-RL 在 post-train 空间的 warmup 甚至**低于** GRPO 基线,证明 NSR 的效力依赖于在预训练空间中操作。 + +## 机制解释 + +- 在预训练空间中,NSR 重新分配概率质量——从错误轨迹转移到正确推理方向 +- 这种概率重新分配保留了探索能力(不同于直接锐化条件分布) +- NSR-PreRL 提供的初始化使后续 RL 可以专注于问题特定的细粒度优化 + +## 相关概念 + +- [[positive-sample-reinforcement|PSR]] — 正样本强化的退化问题 +- [[pre-train-space-reinforcement-learning|PreRL]] +- [[dual-space-rl|DSRL]] +- [[endogenous-reasoning|内生推理]] diff --git a/concepts/next-state-grounding.md b/concepts/next-state-grounding.md new file mode 100644 index 0000000..6f92769 --- /dev/null +++ b/concepts/next-state-grounding.md @@ -0,0 +1,35 @@ +--- +title: "Next-State Grounding" +created: 2026-05-31 +type: concept +tags: [data-synthesis, grounding, gui-tool, tool-trajectory] +--- + +# Next-State Grounding(下一状态锚定) + +**Next-State Grounding** 是 [[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 中的关键验证机制,用于确保合成工具轨迹与原始 GUI 轨迹的语义一致性。 + +## 定义 + +在将 GUI 轨迹转化为工具轨迹时,每个工具步骤的**预期执行效果**必须与原始轨迹中对应的**实际 GUI 截图状态**保持一致——即"将工具步骤锚定到原始轨迹的下一状态截图上"。 + +## 实现方式 + +1. **生成纯工具轨迹**:MLLM 从合成工具库中选择工具,为每个步骤生成 CoT 理由和预期响应 +2. **状态锚定**:MLLM 将工具步骤的预期效果与原始 GUI 轨迹中的对应截图进行比对 +3. **一致性验证**:检验预测的执行效果是否与实际 GUI 状态匹配 + +## 为什么重要? + +合成工具轨迹面临的核心风险是**幻觉**: +- 工具可能被错误调用 +- 参数可能不合理 +- 执行结果可能与预期不符 + +Next-State Grounding 通过**利用原始 GUI 轨迹中已有的真实截图作为 ground truth**,在合成过程中就过滤掉不一致的轨迹,确保数据质量。 + +## 与其他概念的关联 + +- [[interleaved-gui-tool-trajectory-scaling]]:本机制所属的更大流水线 +- [[toolcua-optimal-gui-tool-orchestration|ToolCUA]]:使用此机制确保合成数据质量 +- [[agentic-systems]]:grounding 在 agent 系统中作为连接推理和现实的桥梁 diff --git a/concepts/null-space-projection-knowledge.md b/concepts/null-space-projection-knowledge.md new file mode 100644 index 0000000..0f27cb7 --- /dev/null +++ b/concepts/null-space-projection-knowledge.md @@ -0,0 +1,42 @@ +--- +title: "零空间投影知识保留 (Null Space Projection for Knowledge Retention)" +created: 2026-05-21 +type: concept +tags: ["null-space", "continual-learning", "linear-algebra"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 零空间投影知识保留 + +## 定义 + +零空间投影知识保留是 [[kore-constraint|KORE-CONSTRAINT]] 的核心技术,通过将微调方向限制在已有知识协方差矩阵的**零空间**中,实现新知识注入与旧知识保留的完美解耦。 + +## 数学原理 + +给定预训练权重 W₀ 和激活协方差矩阵 C = XX^T: + +目标:W*C ≈ W₀C(旧知识的输出保持稳定) + +→ (W₀ + BA)C ≈ W₀C → BAC ≈ 0 → **AC = 0** + +解决方案:将 A 矩阵限制在 C 的零空间中: +1. SVD(C) → 提取零空间的基向量 Û +2. P = ÛÛ^T(零空间投影矩阵) +3. W₀P 作为微调的起点 + +## 优势 + +- **精确性**:数学上保证 BAC = 0,而非启发式近似 +- **可组合性**:支持多批知识的顺序注入 +- **参数效率**:与 LoRA 无缝集成,增量参数极少 + +## 直观理解 + +协方差矩阵 C 的**列空间**是已有知识占据的"空间"。零空间是与之正交的"未使用空间"。在零空间中微调意味着:新知识被写入模型的"空白区域",不会覆盖已有知识。 + +## 参见 + +- [[kore-constraint|KORE-CONSTRAINT]] +- [[covariance-matrix-knowledge|协方差矩阵知识存储]] +- [[null-space|零空间]] diff --git a/concepts/null-space.md b/concepts/null-space.md new file mode 100644 index 0000000..5baad24 --- /dev/null +++ b/concepts/null-space.md @@ -0,0 +1,22 @@ +--- +title: "零空间 (Null Space)" +created: 2026-05-21 +type: concept +tags: ["linear-algebra"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 零空间 (Null Space) + +## 定义 + +矩阵 C 的零空间(Null Space / Kernel)是所有满足 Cx = 0 的向量 x 的集合。在[[null-space-projection-knowledge|零空间投影知识保留]]中,零空间代表已有知识**未占据**的参数子空间。 + +## 在知识保留中的应用 + +协方差矩阵 C = XX^T 的列空间是已有知识占据的空间,零空间是与已有知识**正交**的未使用空间。在零空间中微调新知识意味着:写入模型的"空白区域",不会覆盖已有知识。 + +## 参见 + +- [[null-space-projection-knowledge|零空间投影知识保留]] +- [[covariance-matrix-knowledge|协方差矩阵知识存储]] diff --git a/concepts/observability.md b/concepts/observability.md new file mode 100644 index 0000000..a138d9d --- /dev/null +++ b/concepts/observability.md @@ -0,0 +1,39 @@ +--- +title: "Observability & Operations(可观测性与运维)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, observability, monitoring, ops, tracing] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Observability & Operations(O 层) + +> ETCLOVG 的 O 层:捕获追踪、成本、故障和可靠性信号。在 ETCLOVG 中被提升为独立架构层。 + +## 为什么独立成层? + +生产系统中可观测性已有专属工具生态和独立工程实践: +- **追踪和监控平台**:Langfuse, Arize Phoenix, AgentOps +- **Agent 专用运维平台**:AgentTrace, OpenLLMetry +- **成本追踪和优化**:TensorZero, Axon +- **可靠性工程**:异常检测、故障恢复 + +## 数据揭示的 Gap + +LangChain 2026 调查:89% 的团队使用可观测性,但只有 52.4% 运行离线评估。这意味着团队能**看到** Agent 做了什么,但不能系统性地判断行为是否正确。 + +## 闭合回路 + +未来可观测性需要与 [[verification-evaluation]] 层紧密耦合: +- 将异常生产踪迹转化为回归案例 +- 直接从 spans 计算轨迹质量指标 +- 将诊断信号反馈到 prompt、tool、context 和编排变更 + +## 相关概念 + +- [[etclovg-taxonomy]] +- [[trace-native-evaluation]] — 从踪迹中评估 +- [[cost-quality-speed-trilemma]] — O 层的投入与质量/速度的权衡 +- [[agent-harness-engineering-survey]] diff --git a/concepts/on-policy-learning-collapse.md b/concepts/on-policy-learning-collapse.md new file mode 100644 index 0000000..bbfbc72 --- /dev/null +++ b/concepts/on-policy-learning-collapse.md @@ -0,0 +1,38 @@ +--- +title: "On-policy Learning Collapse" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "LLM", "failure-mode"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# On-policy Learning Collapse + +## 定义 + +在 PreRL 框架中发现的特定失败模式:当 [[positive-sample-reinforcement|PSR]] 在预训练空间中作用于 self-generated(on-policy)轨迹时,模型无法有效学习,最终导致性能崩溃。 + +## 表现 + +- PSR-PreRL 在前 150 步表现接近标准 RL +- 之后经历**显著的性能崩溃**(Figure 3a) +- 尽管 P(y|x) 的条件概率确实在上升(梯度协同效应),但学习质量恶化 + +## 原因分析 + +与 QFFT(使用 teacher model 的 out-of-distribution long-CoT 轨迹)的对比揭示了关键条件: + +> 在预训练空间中最大化 P(y) **严格需要高质量、分布外的专家示范(expert demonstrations)** + +Self-generated on-policy 样本在 P(y) 空间中质量不足以支撑持续学习——模型会累积自身生成的概率质量,最终陷入自反馈退化循环。 + +## 与 NSR 的对比 + +- PSR-PreRL → 退化 +- [[negative-sample-reinforcement|NSR-PreRL]] → 极有效(剪枝而非积累) + +## 相关概念 + +- [[positive-sample-reinforcement|PSR]] +- [[negative-sample-reinforcement|NSR]] +- [[pre-train-space-reinforcement-learning|PreRL]] diff --git a/concepts/optimal-gui-tool-path-selection.md b/concepts/optimal-gui-tool-path-selection.md new file mode 100644 index 0000000..25201ea --- /dev/null +++ b/concepts/optimal-gui-tool-path-selection.md @@ -0,0 +1,43 @@ +--- +title: "Optimal GUI-Tool Path Selection" +created: 2026-05-31 +type: concept +tags: [agents, gui-tool, trajectory-optimization, reinforcement-learning] +--- + +# Optimal GUI-Tool Path Selection(最优 GUI-Tool 路径选择) + +**Optimal GUI-Tool Path Selection** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文形式化的核心问题:在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中,动态决定何时使用 GUI 原子操作、何时调用高层工具,以形成**高效且可靠**的执行轨迹。 + +## 问题的层次 + +这不仅仅是**步骤级动作选择**(每一步选什么动作),而是**轨迹级策略学习**: + +> 每一次 GUI→Tool 或 Tool→GUI 的切换决策,不仅解决当前步骤,还**重塑整个后续轨迹**的效率与可靠性。 + +## 为什么难? + +1. **监督信号不足** + - 步骤级模仿只学到局部动作的合理性 + - 最终任务完成信号无法区分"及时的工具切换"和"冗长的 GUI 变通方案" + +2. **数据稀缺** + - 高质量 GUI-Tool 交错轨迹几乎不存在 + - 收集真实工具轨迹需要昂贵的环境仪器化 + +3. **错误模式多样** + - **过度使用工具**(Tool-Overuse):不必要调用反而引入错误 + - **工具使用不足**(Tool-Underuse):坚持用 GUI 绕远路 + +## ToolCUA 的解法 + +纳入 MDP 框架:学习策略 $\pi_\theta(a_t | s_t)$ 最大化累积奖励 + +通过三阶段训练实现轨迹级优化: +- **阶段一**:[[interleaved-gui-tool-trajectory-scaling|合成交错数据]] → 建立混合动作基础 +- **阶段二**:[[tool-bootstrapped-rft|关键切换点 RL]] → 校准决策边界 +- **阶段三**:[[tool-efficient-path-reward|工具高效路径奖励]] → 全局轨迹优化 + +## 类比 + +类似自动驾驶中的"何时变道"问题——不是每个时刻都需要决策,但关键的切换点决定了整体的通行效率。 diff --git a/concepts/osworld-mcp.md b/concepts/osworld-mcp.md new file mode 100644 index 0000000..ccce357 --- /dev/null +++ b/concepts/osworld-mcp.md @@ -0,0 +1,46 @@ +--- +title: "OSWorld-MCP Benchmark" +created: 2026-05-31 +type: concept +tags: [benchmark, computer-use-agents, gui-tool, evaluation] +--- + +# OSWorld-MCP Benchmark + +**OSWorld-MCP** 是 OSWorld 基准测试的扩展版本,专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。 + +## 特性 + +- **混合动作空间**:覆盖典型 GUI 动作 + 150+ 个预定义工具 +- **主流桌面应用**:LibreOffice、Chrome、VSCode、文件管理器等 +- **任务划分**: + - **Tool-Beneficial Tasks**(238 个):工具使用有助于完成的任务 + - **Non-Tool-Beneficial Tasks**(95 个):不需要工具即可完成的任务 +- **总计**:333 个 feasible tasks + +## 评估指标 + +| 指标 | 含义 | +|------|------| +| **Accuracy** | 任务成功率(核心指标) | +| **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 | +| **ACS** (Average Completion Steps) | 平均完成步数(效率指标) | +| **Steps** | 轨迹步数 | +| **Tool-calls** | 平均工具调用次数 | + +## 在 ToolCUA 中的使用 + +[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准,并在**多应用域**(multi_apps)上保留作为 OOD 泛化验证。 + +## 关键结果(8B 级模型) + +| 模型 | Accuracy | TIR | ACS | +|------|----------|-----|-----| +| **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** | +| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 | + +## 跨平台泛化 + +OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力: +- 未见 Linux multi_apps 任务:23.9% +- WindowsAgentArena 未见应用:33.8% diff --git a/concepts/pass-at-k-vs-pass-k.md b/concepts/pass-at-k-vs-pass-k.md new file mode 100644 index 0000000..f0520c6 --- /dev/null +++ b/concepts/pass-at-k-vs-pass-k.md @@ -0,0 +1,38 @@ +--- +title: "Pass@k vs Pass^k(能力上限 vs 可靠性下限)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evaluation, reliability, metric] +sources: [raw/articles/claw-eval-2026.md] +confidence: high +--- + +# Pass@k vs Pass^k + +> 区分"能力"与"稳定性"的评估指标:Pass@k 度量能力上限,Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。 + +## 定义 + +- **Pass@k**:k 次尝试中至少成功一次 → 接近**能力上限**(模型能做到什么) +- **Pass^k**:k 次全部成功 → 接近**可靠性下限**(模型稳定能做什么) + +## Claw-Eval 的关键发现 + +在错误注入实验中(HTTP 429、HTTP 500、延迟峰值): +- Pass@3 相对稳定 +- **Pass^3 最高下降 24 个百分点** + +→ 一次成功不能代表稳定可用。 + +## 工程含义 + +Pass@k 和 Pass^k 的**差距**是衡量 Agent 鲁棒性的关键指标: +- 差距小 → Agent 稳定可靠,适合生产部署 +- 差距大 → Agent 表现波动大,需要 [[agent-robustness-evaluation]] 和 [[agent-safety-evaluation]] 改进 + +## 相关概念 + +- [[agent-capability-stability-gap]] +- [[agent-robustness-evaluation]] +- [[claw-eval]] diff --git a/concepts/policy-reincarnation.md b/concepts/policy-reincarnation.md new file mode 100644 index 0000000..c9d2ed4 --- /dev/null +++ b/concepts/policy-reincarnation.md @@ -0,0 +1,38 @@ +--- +title: "Policy Reincarnation" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "transfer-learning", "policy-optimization"] +sources: ["https://arxiv.org/abs/2604.14142", "https://proceedings.neurips.cc/paper_files/paper/2022/hash/ba1c5356d9164bb64c446a4b690226b0-Abstract-Conference.html"] +--- + +# Policy Reincarnation(策略转生) + +## 定义 + +Policy Reincarnation 是一种训练策略:在训练中途**替换基座模型为中间检查点**,然后重新启动 on-policy RL。核心思想是利用之前的计算(prior computation)来加速后续训练。 + +## 在 DSRL 中的应用 + +[[dual-space-rl|DSRL]] 采用 Policy Reincarnation 将 [[pre-train-space-reinforcement-learning|PreRL]] 和标准 RL 串联: + +1. 用 NSR-PreRL 训练 10-25 步 → 获得 checkpoint +2. 将该 checkpoint 作为新的"基座模型" +3. 切换到标准 GRPO 在 Post-train Space 继续训练 + +## 为何有效 + +- NSR-PreRL checkpoint 已经**消除了根本性错误模式** +- 分布 P(y) 已被剪枝,为 P(y|x) 的细粒度优化提供了更好的起点 +- 后续 RL 可以专注于问题特定的微妙差异,而非基本逻辑错误 +- 验证:DSRL 的 "Fully Solved" 问题数在 NSR-PreRL 阶段就已大幅攀升 + +## 转生时机 + +消融实验显示 S ∈ [10, 25] 为最优转生窗口。过晚转生 → NSR 的"过度探索"效应阻碍后续微调。 + +## 相关概念 + +- [[dual-space-rl|DSRL]] +- [[pre-train-space-reinforcement-learning|PreRL]] +- [[negative-sample-reinforcement|NSR]] diff --git a/concepts/positive-sample-reinforcement.md b/concepts/positive-sample-reinforcement.md new file mode 100644 index 0000000..3c09b53 --- /dev/null +++ b/concepts/positive-sample-reinforcement.md @@ -0,0 +1,40 @@ +--- +title: "Positive Sample Reinforcement (PSR)" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "LLM", "GRPO"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Positive Sample Reinforcement (PSR) + +## 定义 + +PSR 是 RL 中针对**正样本**(获得正 advantage 的样本)进行强化的机制:通过最大化 log π(y|x) 来鼓励正确的推理轨迹。 + +## PreRL 中的退化 + +虽然 PSR 和 [[negative-sample-reinforcement|NSR]] 的梯度方向对齐(都指向提升条件策略),但在**预训练空间** P(y) 中: + +- **PSR-PreRL** 无法有效学习 self-generated on-policy trajectories +- 尽管能增加 π_θ(y|x) 的条件概率(验证了梯度协同效应),但最终导致性能退化 +- 对比:QFFT 使用 teacher model 的 out-of-distribution long-CoT 轨迹成功优化了同一目标 max P(y) + +### 关键教训 + +> 在预训练空间中最大化 P(y) **严格需要高质量、分布外的专家示范(expert demonstrations)**。这是 on-policy RL 在预训练空间的根本性限制。 + +## PSR vs NSR + +| 维度 | PSR-PreRL | NSR-PreRL | +|------|-----------|-----------| +| 学习效果 | 退化 | 极有效 | +| 推理激发 | 弱 | 14.89× transitions | +| 输出长度 | 正常 | 逐渐过长(双刃剑) | +| 机制 | 累积概率质量 | 重新分配概率质量 | + +## 相关概念 + +- [[negative-sample-reinforcement|NSR]] — 负样本强化的不对称优势 +- [[on-policy-learning-collapse|On-policy Learning Collapse]] +- [[pre-train-space-reinforcement-learning|PreRL]] diff --git a/concepts/post-train-space-rl.md b/concepts/post-train-space-rl.md new file mode 100644 index 0000000..f014076 --- /dev/null +++ b/concepts/post-train-space-rl.md @@ -0,0 +1,37 @@ +--- +title: "Post-train Space Reinforcement Learning" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "LLM", "GRPO", "RLVR"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Post-train Space Reinforcement Learning + +## 定义 + +Post-train Space RL 是当前主流的 LLM 强化学习范式,优化**条件分布** P(y|x)。给定输入问题 x,策略 π_θ 生成推理轨迹 y,通过可验证奖励(RLVR)进行优化。 + +## 标准目标函数 + +``` +J_RL(π_θ) = E_{x~X} E_{y~π_θ(·|x)} [R(y) - β·D_KL(π_θ||π_ref)] +``` + +梯度(β=0 时): +``` +∇J = E_{x,y} [∑_{t=1}^{|y|} ∇log π_θ(y_t|x, y_{ 从业者知道 Harness 基础设施很重要,但缺乏正式词汇来描述"为什么"——这是《Agent Harness Engineering: A Survey》试图弥合的核心鸿沟。 + +## 鸿沟的两侧 + +### 从业者侧(已知但未形式化) +- OpenAI:Harness engineering 定义为"设计环境、约束、文档和反馈循环" +- Anthropic:有效 Agent 应使用简单可检查架构、为 Agent 而非人类设计工具接口 +- 从业者在实践中大量投资 Harness,但缺少统一的理论框架 + +### 研究者侧(已研究但未整合) +- 学术界分别研究了记忆、工具使用、规划、安全等**组件** +- 但缺少对这些组件如何**整合成可靠运行系统**的系统性研究 +- 研究社区仍以模型为分析单元 + +## 三个 Harmess-Only 证据 + +论文用三个实证结果证明了 Harness 的独立价值(模型固定,只改变 Harness): +1. **Bölük (2026a)**:只修改 tool harness,编程基准增益达 10× +2. **Trivedy (2026)**:系统 prompt 重构 + 中间件注入,Terminal-Bench 2.0 从 52.8% → 66.5% +3. **Meta-Harness (Lee et al., 2026)**:自动化 harness 优化,Terminal-Bench-2 达 76.4% + +这三项结果均超过同期"模型改进"的典型 2-4 个百分点增益。 + +## 相关概念 +- [[binding-constraint-thesis]] — 约束瓶颈论 +- [[prompt-to-harness-evolution]] — 三阶段工程演进 +- [[agent-harness-engineering]] — 总体框架 diff --git a/concepts/pre-train-space-reinforcement-learning.md b/concepts/pre-train-space-reinforcement-learning.md new file mode 100644 index 0000000..fb5746e --- /dev/null +++ b/concepts/pre-train-space-reinforcement-learning.md @@ -0,0 +1,46 @@ +--- +title: "Pre-train Space Reinforcement Learning (PreRL)" +created: 2026-05-18 +type: concept +tags: ["reinforcement-learning", "LLM", "pre-training", "GRPO"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Pre-train Space Reinforcement Learning (PreRL) + +## 定义 + +PreRL 是一种新的 RL 范式,直接在 **预训练空间** 中优化 LLM 的边缘分布 P(y),而非传统的条件分布 P(y|x)。在梯度更新时,**遮蔽输入条件 x**,使模型学习与问题无关的通用推理能力。 + +## 核心机制 + +### 与标准 RL 的对比 + +| 维度 | Post-train Space RL | Pre-train Space RL | +|------|-------------------|-------------------| +| 优化目标 | P(y\|x) | P(y) | +| 梯度 | ∇log π(y\|x) · R | ∇log π(y) · R | +| 条件依赖 | 保留输入 x | 遮蔽输入 x | +| 探索空间 | 条件约束的 | 无条件扩展的 | + +### 理论合理性 + +基于 [[shared-parameter-influence|共享参数影响]]:模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明,当 [[gradient-alignment|梯度对齐]] 条件满足时(⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0),优化 P(y) 自然带动 P(y|x) 的改善。 + +### 与传统预训练的区别 + +- **传统预训练**:被动学习,静态语料 + NTP +- **PreRL**:主动学习,在线 rollout + verifiable rewards +- PreRL 只更新 response y,不更新输入 x 部分 + +## 训练动态 + +PreRL 在前 150 步表现与标准 RL 相当,之后经历显著性能崩溃。分解分析揭示: +- [[positive-sample-reinforcement|PSR-PreRL]] 导致 on-policy collapse +- [[negative-sample-reinforcement|NSR-PreRL]] 是真正的有效驱动力 + +## 相关概念 + +- [[dual-space-rl|Dual Space RL (DSRL)]] — PreRL → RL 的策略转生框架 +- [[post-train-space-rl|Post-train Space RL]] — 传统 RLVR +- [[endogenous-reasoning|内生推理]] — NSR-PreRL 激发的推理行为 diff --git a/concepts/primitive-completeness.md b/concepts/primitive-completeness.md new file mode 100644 index 0000000..10237ca --- /dev/null +++ b/concepts/primitive-completeness.md @@ -0,0 +1,42 @@ +--- +title: "Primitive Completeness (原语完备性)" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "architecture", "transformers"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Primitive Completeness + +> Transformer 在推理任务中的主导地位不是来自规模效应,而是架构的**原语完备性**——它是实现全部三种推理原语的最小架构。 + +## 定义 + +一个架构是**原语完备的**,当且仅当它能同时实现 [[belief-accumulation]]、[[belief-transport]] 和 [[random-access-binding]]。 + +## 完备性矩阵 + +| 架构 | 完备性 | 推理覆盖 | +|------|:---:|---------| +| Transformer | ✅ 完备 | 全部推理任务 | +| Mamba | ❌ 缺失绑定 | 滤波优秀,联想回忆失败 | +| LSTM | ❌ 缺失传输+绑定 | 仅静态推理 | +| MLP | ❌ 全部缺失 | 无推理能力 | + +## 核心论点 + +> The dominance of transformers in reasoning tasks arises not from scale alone, but from primitive completeness: they are the minimal architecture realizing the full set of inference primitives. + +这是一个结构性论据:**规模不是原因,架构才是**。原语完备性解释了为什么更大的 LSTM 或 Mamba 仍无法弥合与 Transformer 在复杂推理上的差距——缺失的原语不能通过更多参数弥补。 + +## 设计启示 + +- 如需全部推理能力 → 需要注意力(或等价的随机访问机制) +- 如任务仅需滤波 → Mamba SSM 可能更高效 +- LSTM 适合静态信念更新但无动态推理 + +## 相关页面 + +- [[inference-primitives]] — 三个原语的详细定义 +- [[bayesian-wind-tunnels]] — 验证原语完备性的实验方法 +- [[bayesian-attention-geometry]] — 原语在注意力头中的几何实现 diff --git a/concepts/prompt-to-harness-evolution.md b/concepts/prompt-to-harness-evolution.md new file mode 100644 index 0000000..4995da1 --- /dev/null +++ b/concepts/prompt-to-harness-evolution.md @@ -0,0 +1,42 @@ +--- +title: "Prompt-to-Harness Evolution(三阶段工程演进)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evolution, prompt-engineering, context-engineering, harness] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Prompt → Context → Harness Engineering 三阶段演进 + +> Agent 工程的约束瓶颈随时间从 Prompt 上移到 Context,再上移到 Harness 层面。每个阶段对前一阶段的包含而非取代。 + +## 三阶段 + +| 阶段 | 时期 | 约束瓶颈 | 核心问题 | +|------|------|---------|---------| +| Prompt Engineering | 2022-2024 | 模型指令遵循能力 | "如何让模型做我想做的事?" | +| Context Engineering | 2025 | 上下文窗口管理 | "模型应该看到什么才能做出正确决策?" | +| Harness Engineering | 2026- | 基础设施全栈可靠性 | "整个系统如何在生产环境中可靠运行?" | + +## 包含而非替代 + +每一阶段包含前一阶段: +- Harness Engineering 包含 Context Engineering(上下文是 harness 的 C 层) +- Context Engineering 包含 Prompt Engineering(prompt 是最基本的上下文) + +最佳理解方式:**边际工程努力的转移**,而非替换序列。 + +## 2026 年的三个验证事件 + +1. OpenAI 明确采用"harness"术语 +2. Anthropic 发布关于 harness 设计的工程博客系列 +3. Martin Fowler 网站发表 harness engineering 文章(Böckeler, 2026) + +## 相关概念 + +- [[binding-constraint-thesis]] +- [[agent-harness-engineering]] +- [[context-management]] +- [[agent-harness-engineering-survey]] diff --git a/concepts/question-quality-vs-quantity.md b/concepts/question-quality-vs-quantity.md new file mode 100644 index 0000000..1265114 --- /dev/null +++ b/concepts/question-quality-vs-quantity.md @@ -0,0 +1,38 @@ +--- +title: "Question Quality vs. Quantity(问题质量 vs 数量)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, dialogue, multi-turn, question-quality] +sources: [raw/articles/claw-eval-2026.md] +confidence: medium +--- + +# Question Quality vs. Quantity + +> 在多轮专业对话中,真正影响 Agent 表现的不是问了**多少**问题,而是问了**什么**问题。问题质量解释 76% 的 Pass^3 表现差异。 + +## Claw-Eval 的关键发现 + +- 问题质量 → 解释 **76%** 的 Pass^3 表现差异 +- 平均对话轮数 → 与最终表现**几乎没有相关性** +- 问得更多 ≠ 更好 + +## 含义 + +优秀的 Agent 具备**信息采集策略**: +- 知道当前最缺什么信息 +- 提出精确的澄清性问题 +- 不浪费轮次在无关探索上 + +这与人类专家的咨询模式一致:高质量的少量追问 > 低质量的广泛探索。 + +## 与 Context 层的关系 + +问题质量取决于 Agent 的 [[context-management|上下文管理]] 能力——能否识别当前状态下的信息缺口,并提出针对性的澄清问题。 + +## 相关概念 + +- [[agent-evaluation-paradigm-shift]] +- [[context-management]] +- [[claw-eval]] diff --git a/concepts/random-access-binding.md b/concepts/random-access-binding.md new file mode 100644 index 0000000..6ca9b73 --- /dev/null +++ b/concepts/random-access-binding.md @@ -0,0 +1,46 @@ +--- +title: "Random-Access Binding (随机访问绑定)" +created: 2026-05-26 +type: concept +tags: ["bayesian-inference", "inference-primitive", "attention"] +sources: ["agarwal-bayesian-attention-geometry"] +--- + +# Random-Access Binding + +> 推理原语之三:按内容而非按位置检索已存储的假设——Transformers 独有的原语。 + +## 定义 + +给定一个探测线索(probe cue),从过去的观测中检索匹配的假设或信息——检索键是**内容**,而非时间位置。 + +典型任务:**联想回忆**(Associative Recall)——"看到 A → 回忆与 A 关联的 B"。 + +## 架构实现 + +| 架构 | 绑定能力 | 原因 | +|------|:---:|------| +| Transformer | ✅ | 注意力 = 内容可寻址的 soft lookup | +| Mamba | ❌ | SSM 状态是位置依赖的压缩表示 | +| LSTM | ❌ | 隐藏状态无随机访问机制 | +| MLP | ❌ | — | + +## 为什么注意力天然支持绑定 + +注意力的 query-key 匹配是**内容可寻址**的: +- Q·K^T 按内容相似度检索 +- 无需知道目标的位置 +- 可以在任意距离上操作 + +Mamba 的状态空间更新本质上是**位置依赖**的——信息按时间顺序压缩进固定大小的状态向量,无法按内容跳转检索。 + +## 绑定 = 推理完备性的最后一块拼图 + +[[inference-primitives|三原语]]中,绑定是区分 Transformer 与所有其他架构的唯一原语。这也是为什么 Transformer 在需要组合式推理的自然语言任务中占主导——真实语言需要随时按内容访问过去的上下文。 + +## 相关页面 + +- [[belief-accumulation]] — 证据累积 +- [[belief-transport]] — 动态传输 +- [[inference-primitives]] — 原语体系 +- [[binding-constraint-thesis]] — 绑定的约束理论 diff --git a/concepts/recursive-reasoning-models.md b/concepts/recursive-reasoning-models.md new file mode 100644 index 0000000..2b78040 --- /dev/null +++ b/concepts/recursive-reasoning-models.md @@ -0,0 +1,40 @@ +--- +title: "Recursive Reasoning Models(递归推理模型)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [reasoning, recursive, latent, model-architecture] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# Recursive Reasoning Models (RRM) + +> 通过重复应用共享转移函数来精炼持久潜在状态——而非追加新元素到输出/推理序列——从而在紧凑模型上实现长距离推理。 + +## 核心思想 + +与自回归模型不同,RRM 将推理深度与参数规模、输出长度**解耦**: +- 小模型可以通过反复应用共享转移函数执行多步内部计算 +- 不需要生成显式的推理 token(区别于 Chain-of-Thought) + +## 代表性工作 + +- **HRM** (Hierarchical Recursive Models) +- **TRM** (Tree Recursive Models) +- 适用于约束传播、状态追踪、迭代校正、多步推理 + +## 确定性局限 + +现有 RRM 的关键缺陷:给定相同输入和初始化,它们遵循**单一潜在轨迹**,收敛到**唯一预测**。这意味着: +- 无法维持不确定性 +- 无法探索多个解 +- 单条精炼路径可能陷入次优 + +→ 这正是 [[gram-generative-recursive-reasoning|GRAM]] 要解决的问题。 + +## 相关概念 + +- [[stochastic-latent-trajectory]] +- [[deep-and-wide-reasoning]] +- [[gram-generative-recursive-reasoning-paper|GRAM 论文]] diff --git a/concepts/rejected-edit-buffer.md b/concepts/rejected-edit-buffer.md new file mode 100644 index 0000000..5ad9d13 --- /dev/null +++ b/concepts/rejected-edit-buffer.md @@ -0,0 +1,44 @@ +--- +title: "Rejected-Edit Buffer (拒绝编辑缓冲)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["optimization", "negative-feedback", "skill", "buffer"] +sources: ["https://arxiv.org/abs/2605.23904"] +--- + +# Rejected-Edit Buffer (拒绝编辑缓冲) + +**Rejected-Edit Buffer** 是 [[skillopt|SkillOpt]] 中的负反馈机制:被 [[held-out-validation-gate|Validation Gate]] 拒绝的编辑被记录为 epoch-local buffer,作为后续优化步骤的**负反馈信号**。它是深度学习中负梯度在文本空间的对应。 + +## 记录内容 + +Buffer 包含: +- 观察到的失败模式 +- 被尝试但被拒绝的编辑 +- 编辑造成的 score drop + +## 如何使用 + +后续 reflection 调用在同一 epoch 内接收此 buffer,使 optimizer 能够: +- **避免重复失败的编辑** +- **聚焦于尚未解决的失败** +- 从"什么不行"中学习 + +## 与正反馈的配合 + +| 信号类型 | 来源 | 作用 | +|----------|------|------| +| 正反馈 | Accepted edits | 保留、强化 | +| 负反馈 | Rejected edits (buffer) | 避免重复、引导新方向 | + +## 关键优势 + +- **训练时使用,推理时零成本**:Buffer 只在优化阶段存在,不增加部署开销 +- **epoch-local**:每个 epoch 独立 buffer,避免跨 epoch 的过时信息污染 + +## 相关 + +- [[held-out-validation-gate]] — 产生拒绝的 gate +- [[skillopt]] — 使用 buffer 的方法 +- [[text-space-optimizer]] — 文本空间优化范式 diff --git a/concepts/reliable-state-long-running-agents.md b/concepts/reliable-state-long-running-agents.md new file mode 100644 index 0000000..8bf37f6 --- /dev/null +++ b/concepts/reliable-state-long-running-agents.md @@ -0,0 +1,44 @@ +--- +title: "Reliable State in Long-Running Agents(长期运行中的可靠状态)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, state, context, memory, long-running] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# Maintaining Reliable State in Long-Running Agents + +> 开放问题 2/5:最深的上下文问题不是装更多 token,而是保持 Agent 工作状态与真实任务状态在长时间跨度上的**对齐**。 + +## 状态退化机制 + +长期运行的编程、研究和运维 Agent 反复执行: +- 摘要 → 可能删除约束 +- 检索 → 可能扭曲优先级 +- 压缩 → 可能保留过时假设 +- 外化信息 → 可能丢失上下文 + +## 重新框架:状态估计 + +Zhang et al. (2025) 和 Du (2026) 将 Agent 记忆形式化为**写入-管理-读取循环**。 + +开放问题: +- 能否量化每次压缩/检索/遗忘步骤中丢失多少任务相关信息? +- 能否界定 Agent 内部状态与真实任务状态之间的**发散程度**? + +## 未来系统需求 + +- 不确定性感知摘要 +- 记忆事实的溯源(provenance) +- 矛盾处理 +- 显式陈旧标记 +- 从持久化产物重建状态(而非信任自身压缩历史) +- 记忆策略不仅按召回准确率评判,还要看是否防止了下游操作错误 + +## 相关概念 + +- [[context-management]] +- [[context-state-estimation]] +- [[agent-harness-engineering-survey]] diff --git a/concepts/representation-alignment.md b/concepts/representation-alignment.md new file mode 100644 index 0000000..2755a2c --- /dev/null +++ b/concepts/representation-alignment.md @@ -0,0 +1,44 @@ +--- +title: "Representation Alignment" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["training", "representation", "LLM", "transfer-learning"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Representation Alignment (表示对齐) + +**Representation Alignment** 是 Peng, Gigant & Quesnelle (2026) 在 [[token-superposition-training|TST]] 中发现的关键条件:**在两阶段训练中,输入 embedding 和输出 LM head 必须在阶段间保持不变**,否则所有预训练增益消失。 + +## 实验证据 + +在 3B 模型上进行了对照实验: +- TST baseline: 阶段间保持 embedding 和 LM head +- TST w/ Randomization: 在恢复阶段开始时**随机重新初始化** embedding 和 LM head + +| 配置 | Final Loss | +|------|-----------| +| Dense Baseline (无 TST) | 2.808 | +| Dense TST | **2.676** | +| Dense TST w/ Randomization | 2.938 ✗ | + +重新初始化后不仅增益消失,甚至**比不做 TST 的 baseline 更差**——叠加阶段的训练完全被浪费。 + +## 解释 + +LLM 的内部回路对输入/输出表示高度敏感。TST 是为数不多的**不修改 embedding 和 LM head** 的压缩预训练方法之一,避免了之前方法中 adapter 或投影层引入的"表示不匹配"问题。 + +本质上: +- 传统方法:修改表示 → 需 adapter 对齐 +- TST:**不修改表示** → 自然对齐 + +## 更广泛的意义 + +这一发现对任何多阶段训练范式具有普遍启示:阶段间的表示连续性可能比阶段内的算法设计更关键。这与 transfer learning 中 "feature reuse" 假说一致。 + +## 相关 + +- [[token-superposition-training]] — 发现 alignment 重要性的方法 +- [[two-phase-pretraining]] — 两阶段训练范式 +- [[peng-tst-2026]] — 原始论文 diff --git a/concepts/s-token.md b/concepts/s-token.md new file mode 100644 index 0000000..7555530 --- /dev/null +++ b/concepts/s-token.md @@ -0,0 +1,36 @@ +--- +title: "S-Token (Superposed Token)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["pre-training", "embedding", "TST"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# S-Token (Superposed Token) + +**S-Token** 是 [[token-superposition-training|TST]] 中的核心抽象:将连续 s 个普通 token 的 embedding 取平均后得到的单个 latent representation。 + +## 定义 + +给定一个 bag of s tokens $\{t_1, \dots, t_s\}$,s-token 的 embedding 为: + +$$e_{\text{s-token}} = \frac{1}{s} \sum_{i=1}^{s} e(t_i)$$ + +其中 $e(t_i)$ 是标准 embedding。 + +## 性质 + +- **信息压缩**:s 个 token 被压缩为 1 个表示,信息密度更高但丢失了 token 间的顺序 +- **维度不变**:s-token 与普通 token 的 embedding 维度相同 +- **半因果性**:s-token 序列仍按 bag 顺序从左到右(causal),但 bag 内部无序 + +## 在 TST 中的作用 + +s-token 是 TST 实现 **等 FLOPs 下 s× 数据吞吐量** 的关键。因为 LLM 在更短(但更密集)的序列上运算,每个 step 的 FLOPs 不变,但等效于吞入了 s× 更多的原始 token。 + +## 相关 + +- [[token-superposition-training]] — 使用 s-token 的方法 +- [[input-superposition]] — s-token 的创建过程 +- [[coarse-to-fine-granularity]] — s-token 体现的设计原则 diff --git a/concepts/self-evolving-agents.md b/concepts/self-evolving-agents.md new file mode 100644 index 0000000..2c57db7 --- /dev/null +++ b/concepts/self-evolving-agents.md @@ -0,0 +1,33 @@ +--- +title: "Self-Evolving Agents (自进化 Agent)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "self-evolution", "autonomy"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Self-Evolving Agents (自进化 Agent) + +**Self-Evolving Agents** 是 [[agent-symbolic-learning|Agent Symbolic Learning]] 的终极目标:Agent 部署后从经验中**自主学习和更新**所有符号组件(prompts, tools, pipeline)。 + +## 核心能力 + +- **从经验中学习**:[[language-loss|Language Loss]] 不需要 ground-truth +- **自我更新**:[[symbolic-backpropagation|Symbolic BP]] + Optimizer 自动修改组件 +- **适应新环境**:面对新任务自动调整 + +## 自进化方法谱系 + +| 方法 | 进化对象 | 方式 | +|------|------|------| +| **Agent Symbolic Learning** (2024) | 所有符号组件 | Symbolic BP + LG | +| [[yang-skillopt-2026\|SkillOpt]] (2026) | Skill 文档 | Text-Space Optimizer | +| [[heuristic-learning\|Heuristic Learning]] | Agent 代码 | 代码自进化 | +| EvoSkill | Skill 文件夹 | 启发式更新 | + +## 相关 + +- [[agent-symbolic-learning]] — 实现框架 +- [[skillopt]] — 工程化深化 +- [[heuristic-learning]] — 范式推广 diff --git a/concepts/self-evolving-benchmark.md b/concepts/self-evolving-benchmark.md new file mode 100644 index 0000000..da3e964 --- /dev/null +++ b/concepts/self-evolving-benchmark.md @@ -0,0 +1,33 @@ +--- +title: "自进化基准 (Self-Evolving Benchmark)" +created: 2026-05-21 +type: concept +tags: ["benchmark", "continual-learning"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 自进化基准 (Self-Evolving Benchmark) + +## 定义 + +自进化基准是一种**可自动更新**的评估基准,其数据构建流程最小化人工参与,能够随真实世界知识的演化而持续扩展。 + +## MMEVOKE 的自进化设计 + +[[mme-voke|MMEVOKE]] 的数据构建流程中,仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选(平均每条 10 秒),实现**每季度更新一次**。 + +## 设计原则 + +1. **自动化优先**:收集、总结、VQA 生成、图像搜索全自动 +2. **最小人工干预**:仅在质量控制环节保留人工 +3. **周期性更新**:按固定节奏(季度)同步真实世界知识变化 +4. **可复现**:数据构建 pipeline 可被其他研究者复现 + +## 意义 + +传统基准是**静态快照**——一旦发布就固定不变,随知识演化而逐渐过时。自进化基准是**动态系统**——持续生长,保持对前沿的评估能力。 + +## 参见 + +- [[mme-voke|MMEVOKE]] +- [[evolving-knowledge-injection|进化知识注入]] diff --git a/concepts/shadow-calling.md b/concepts/shadow-calling.md new file mode 100644 index 0000000..aa56534 --- /dev/null +++ b/concepts/shadow-calling.md @@ -0,0 +1,37 @@ +--- +title: "Shadow Calling (影子调用)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "caching", "optimization", "LLM"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Shadow Calling (影子调用) + +**Shadow Calling** 是 [[active-cache-warmup]] 的核心机制:向目标 LLM 节点发送一个特殊的"预热请求",其目的不是获取推理结果,而是让 LLM 服务端为指定的前缀上下文提前开辟内存缓存区。 + +## 三个严苛的工程特征 + +1. **`max_tokens=1`**:告诉模型不需要生成长篇大论,只需消化前缀并吐出 1 个 Token +2. **显式 `cache_control`**:在预热断点处强行打上缓存标记 +3. **零输出下游拦截**:返回结果直接在网络层丢弃(Drop),不触发任何业务状态流转 + +## 与普通 API 调用的区别 + +| 特性 | 普通调用 | Shadow Calling | +|------|----------|----------------| +| 目的 | 获取推理结果 | 填充缓存 | +| max_tokens | 正常值(如 4096) | 1 | +| 结果处理 | 注入业务逻辑 | 直接丢弃 | +| 触发时机 | 按需 | 预测性提前触发 | + +## 效果 + +影子调用成功后,目标节点在真实请求到达时,其前缀已 100% 处于热态,响应延迟从秒级降至百毫秒级。 + +## 相关 + +- [[active-cache-warmup]] — 包含 Shadow Calling 的预热流水线 +- [[cache-cold-start]] — Shadow Calling 消除的问题 +- [[distributed-prompt-caching]] — 分布式缓存体系 diff --git a/concepts/shared-parameter-influence.md b/concepts/shared-parameter-influence.md new file mode 100644 index 0000000..28089ac --- /dev/null +++ b/concepts/shared-parameter-influence.md @@ -0,0 +1,31 @@ +--- +title: "Shared Parameter Influence" +created: 2026-05-18 +type: concept +tags: ["optimization", "LLM", "theory"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Shared Parameter Influence(共享参数影响) + +## 定义 + +PreRL 理论框架的基本前提:LLM 的参数 θ **同时控制**边际分布 P_θ(y) 和条件分布 P_θ(y|x)。因此,对 P(y) 的更新会"泄露"到 P(y|x),反之亦然。 + +## 理论意义 + +共享参数影响是 [[gradient-alignment|梯度对齐]] 的前提条件: +- 如果 θ 独立地参数化 P(y) 和 P(y|x)(如两个独立模型),则 PreRL 无效 +- 由于 LLM 的自回归架构,在预测 y_t 时,参数已通过 attention 机制耦合了上下文信息(包括 x),因此修改 log P(y_t|y_{ 不是所有训练阶段都需要最高质量的数据——关键是**在正确的时间喂正确的数据**。 + +前期用轻量级规则控制成本,后期在关键节点投入昂贵的合成和标注。 + +## 相关 + +- [[data-hierarchical-governance]] — 数据分级框架 +- [[ultradata]] — 实践系统 +- [[data-quality-over-scale]] — 此策略的宏观意义 diff --git a/concepts/standard-agent-handoffs.md b/concepts/standard-agent-handoffs.md new file mode 100644 index 0000000..77c5eaa --- /dev/null +++ b/concepts/standard-agent-handoffs.md @@ -0,0 +1,42 @@ +--- +title: "Standard Agent Handoffs(标准化 Agent 交接)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, protocol, handoff, multi-agent, mcp, a2a] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# Standard Agent Handoffs + +> 当 Planner 交给 Executor、Agent 调用 Tool、子 Agent 交还控制、或系统升级到人类时,交接应传递**意图、约束、权限、产物、溯源、预算状态、风险级别、踪迹历史**和**未解决的决策**——而不仅仅是文本摘要。 + +## 现有局部标准 + +- **MCP**:标准化工具访问(Model Context Protocol, 2025b) +- **A2A**:面向 Agent 间通信(A2A Project, 2025) +- **OpenTelemetry**:通用追踪基底 + +## 缺失的:跨层交接合约 + +所需交接协议需要**足够丰富以支持安全和恢复**,但**足够简单以广泛采用**。应明确: + +- 谁授权了该操作 +- 转移了什么状态 +- 什么证据支持当前计划 +- 接收方允许做什么 +- 何时必须将控制权交还给另一个 Agent 或人类 + +## 双重视角 + +- **OpenAI Symphony**:将问题追踪器和仓库作为 Agent 工作的控制平面 +- **Anthropic**:持久进度产物和清晰交接状态 +- **治理角度**:Agent 身份、委托、权限清单和可审计性在 Agent 代表用户跨系统行动之前是必需的 + +## 相关概念 + +- [[lifecycle-orchestration]] — 编排中的交接 +- [[governance-security]] — 交接中的权限转移 +- [[tool-interface]] — 工具级交接标准 +- [[agent-harness-engineering-survey]] diff --git a/concepts/staug.md b/concepts/staug.md new file mode 100644 index 0000000..72aa9b8 --- /dev/null +++ b/concepts/staug.md @@ -0,0 +1,35 @@ +--- +title: "STAug (EMD-based Augmentation)" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "decomposition", "forecasting"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# STAug + +> 基于经验模态分解 (EMD) 的时间序列增强——将两序列的 IMF 通过 mixup 式插值重组。 + +## 流程 + +1. 对两个序列施加 EMD +2. 得到 intrinsic mode functions (IMFs) +3. 从均匀分布采样 mixup 式插值权重 +4. 将两组 IMF 重新组合 → 混合了两个输入时间特征的新序列 + +## 优势 + +- 兼顾多样性与一致性的样本生成机制 +- 分解保证了信号的物理合理性 + +## 致命缺陷 + +- **EMD 内存开销极大**:ECL 和 Traffic 数据集上 GPU 内存不够无法评估 +- 这一限制在 STAug 原论文中也有承认 +- 不具备 [[temporal-patch-shuffle|TPS]] 的计算效率 + +## 相关页面 + +- [[time-series-forecasting-augmentation]] — 预测增强框架 +- [[temporal-patch-shuffle]] — 计算高效的 SOTA 替代 +- [[wavemask-wavemix]] — 分解类的 wavelet 替代 diff --git a/concepts/stochastic-latent-trajectory.md b/concepts/stochastic-latent-trajectory.md new file mode 100644 index 0000000..f34be40 --- /dev/null +++ b/concepts/stochastic-latent-trajectory.md @@ -0,0 +1,41 @@ +--- +title: "Stochastic Latent Trajectory(随机潜在轨迹)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [reasoning, stochastic, latent, trajectory] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# Stochastic Latent Trajectory + +> GRAM 的核心创新:将推理过程建模为**随机潜在轨迹**,每次递归步从分布中采样下一步状态,而非确定性更新。 + +## 形式化 + +给定输入 x 和前一步潜在状态 z_{t-1}: + +z_t ~ p_theta(z_t | z_{t-1}, e_x) + +T 步后得到轨迹 (z_0, z_1, ..., z_T),最终预测由解码器从 z_T 产生。 + +## 关键区别 + +| | 确定性 RRM | GRAM (随机) | +|---|----------|------------| +| 转移 | z_t = f(z_{t-1}, e_x) | z_t ~ p(z_t | z_{t-1}, e_x) | +| 轨迹数 | 1 条 | 分布上的多条 | +| 预测 | 单点 | 边际化 | + +## 为什么需要随机性 + +- 维持**不确定性**:不确定的区域保留多条路径 +- 探索**替代策略**:不同轨迹探索不同解空间 +- 实现**[[inference-time-scaling|推理时扩展]]**:通过并行采样轨迹 scale + +## 相关概念 + +- [[gram-generative-recursive-reasoning|GRAM]] +- [[multi-trajectory-inference]] +- [[deep-and-wide-reasoning]] diff --git a/concepts/strategy-engineering-unification.md b/concepts/strategy-engineering-unification.md new file mode 100644 index 0000000..c811732 --- /dev/null +++ b/concepts/strategy-engineering-unification.md @@ -0,0 +1,46 @@ +--- +title: "Strategy-Engineering Unification (策略与工程统一)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["genai", "unification", "strategy", "engineering"] +sources: ["https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"] +--- + +# Strategy-Engineering Unification (策略与工程统一) + +**Strategy-Engineering Unification** 是 GenAI 区别于前几次 AI 浪潮的核心特征之一:在 coding tokenlized 空间下,**形式化规则编译模式与模型内策略空间分布的统一融合**。 + +## 问题背景 + +历史上,AI 的"策略算法"与"工程约束"长期割裂: +- **Expert System 时代**:规则知识难以迁移和复用 +- **深度学习时代**:DNN 在复杂场景下泛化迁移困难、工程集成非 E2E + +## GenAI 的统一路径 + +GenAI 通过 tokenlized 编码体系实现了统一: +- 形式化规则被编译为 token 序列 +- 策略空间被表达为 token 分布 +- 两者在 **同一编码空间** 中交互融合 + +## 具体体现 + +| 统一维度 | 例证 | +|----------|------| +| Tools/Skills | 外部工具能力被 tokenlized → 纳入推理编码 | +| Portals/CLI | 协议规范被编译解析 → 统一交互 | +| World Models | 跨模态语义空间对齐 → 统一理解 | +| Harness | 约束代码自动合成 → [[strategy-engineering-unification|策略与工程边界模糊化]] | + +## 核心洞察 + +> "策略算法与工程约束之间那层越来越模糊的边界与定义" + +这种模糊化不是缺陷,而是 GenAI 的根本优势——它使 AI 系统可以**在统一的 tokenlized 空间中同时处理"如何思考"和"如何约束自己"**。 + +## 相关 + +- [[model-harness-relationship]] — 统一的微观体现 +- [[harness-engineering]] — 统一在工程层的落地 +- [[generative-general-unification]] — 三支柱框架 diff --git a/concepts/structured-knowledge.md b/concepts/structured-knowledge.md new file mode 100644 index 0000000..420b9d1 --- /dev/null +++ b/concepts/structured-knowledge.md @@ -0,0 +1,27 @@ +--- +title: "结构化知识 (Structured Knowledge)" +created: 2026-05-21 +type: concept +tags: ["knowledge-representation"] +sources: ["[[kore-knowledge-injection]]"] +--- + +# 结构化知识 (Structured Knowledge) + +## 定义 + +结构化知识是指将离散的知识项组织为具有层次和关联的**连贯结构**,而非孤立的碎片化数据点。 + +## 与碎片化知识的区别 + +- **碎片化知识**:独立的变体/样本,之间无结构联系 +- **结构化知识**:多层次的树状/网状表示,主干+分支有机连接 + +## 实例 + +[[kore-augmentation|KORE-AUGMENTATION]] 中的[[knowledge-tree|知识树]]是结构化知识的典型实现:主干(多轮对话)提供深度理解,分支(指令任务)提供多角度视角。 + +## 参见 + +- [[knowledge-tree|知识树]] +- [[knowledge-internalization|知识内化]] diff --git a/concepts/sufficient-context-paradox.md b/concepts/sufficient-context-paradox.md new file mode 100644 index 0000000..5888386 --- /dev/null +++ b/concepts/sufficient-context-paradox.md @@ -0,0 +1,43 @@ +--- +title: "充分上下文悖论 (Sufficient Context Paradox)" +created: 2026-05-21 +type: concept +tags: ["lmm", "reasoning", "knowledge"] +sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] +--- + +# 充分上下文悖论 (Sufficient Context Paradox) + +## 定义 + +充分上下文悖论是指:即使为 LMM 提供了**完整、准确回答所需的全部信息**(Sufficient Context),模型**仍然会产生错误答案**。 + +## MMEVOKE 上的证据 + +| 模型 | Sufficient Context CEM | +|------|----------------------| +| LLaVA-v1.5 | 56.78% | +| Qwen-VL-Chat | **48.96%** | +| Gemini-2.5-Pro | 72.15% | +| GPT-4.1 | 75.02% | + +即使是最强大的 GPT-4.1,仍有约 25% 的问题在"答案已在上下文中"时答错。 + +## 根本原因 + +这一现象与直觉相悖——人们通常认为"提供足够信息就能得到正确答案"。实验表明,问题不在**检索能力**,而在**推理和利用能力**: + +- LMM 无法有效**提取**上下文中的关键信息 +- LMM 无法将上下文知识与视觉输入**对齐** +- LMM 缺乏对进化知识的**深层语义理解** + +## 启示 + +1. 仅靠 RAG 不够——需要提升模型的**知识利用**能力 +2. 知识注入应关注"理解"而非"记忆" +3. 这对实际 RAG 系统的设计有直接指导意义 + +## 参见 + +- [[multimodal-rag|多模态RAG]] +- [[knowledge-adaptation|知识适应]] diff --git a/concepts/swe-bench.md b/concepts/swe-bench.md new file mode 100644 index 0000000..d5ed816 --- /dev/null +++ b/concepts/swe-bench.md @@ -0,0 +1,23 @@ +--- +title: "SWE-bench" +created: 2026-05-26 +type: concept +tags: ["benchmark", "coding-agent", "software-engineering"] +sources: ["mini-agent-harness"] +--- + +# SWE-bench + +> 软件工程任务的 Agent 评测基准:真实 GitHub issue → patch 生成 → 环境测试。 + +## 评测流程 + +1. 给定一个真实 issue +2. Agent 生成 patch +3. 将 patch 放入环境运行测试 +4. Harness 负责准备环境、应用 patch、执行测试、汇总结果 + +## 相关页面 + +- [[terminal-bench]] — 终端环境评测 +- [[agent-harness-mini]] — 最小化评测框架 diff --git a/concepts/symbolic-backpropagation.md b/concepts/symbolic-backpropagation.md new file mode 100644 index 0000000..342f172 --- /dev/null +++ b/concepts/symbolic-backpropagation.md @@ -0,0 +1,31 @@ +--- +title: "Symbolic Back-Propagation (符号反向传播)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "backpropagation", "symbolic"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Symbolic Back-Propagation (符号反向传播) + +**Symbolic Back-Propagation** 是 [[agent-symbolic-learning|Agent Symbolic Learning]] 的梯度传播机制:将 [[language-loss|Language Loss]] 从 [[symbolic-network|Agent Pipeline]] 末节点**向前逐节点传播**,为每个节点生成 [[language-gradient|Language Gradient]]。 + +## 过程 + +``` +Forward 轨迹: Node1 → Node2 → ... → NodeN → Output + +Backward: Language Loss(NodeN) → LG(NodeN) → LG(Node_{N-1}) → ... → LG(Node1) +``` + +每个节点的 Language Gradient 基于下游梯度 + 本节点的操作 + 全局因果分析。 + +## 核心优势:Holistic + +与 DSPy 等分别优化单个 prompt 的方法不同,Symbolic BP **同时传播到所有节点**,考虑 pipeline 级联效应,避免局部最优。 + +## 相关 + +- [[agent-symbolic-learning]] — 整体框架 +- [[language-gradient]] — BP 的产物 diff --git a/concepts/symbolic-network.md b/concepts/symbolic-network.md new file mode 100644 index 0000000..91977f0 --- /dev/null +++ b/concepts/symbolic-network.md @@ -0,0 +1,38 @@ +--- +title: "Symbolic Network (符号网络)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["agent", "symbolic-learning", "analogy"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Symbolic Network (符号网络) + +**Symbolic Network** 是 [[agent-symbolic-learning|Agent Symbolic Learning]] 的核心抽象:将 Agent Pipeline 建模为可训练的"符号网络"——节点是处理步骤,prompts 和 tools 是"权重"。 + +## 精确映射 + +| 神经网络 | Symbolic Network | +|:---|:---| +| 计算图 | Agent Pipeline | +| 层 (Layer) | 节点 (Node) | +| 可学习权重 | Prompts + Tools(自然语言字符串 + 函数定义) | +| 前向传播 | Agent 执行 | +| 反向传播 | [[symbolic-backpropagation\|Symbolic BP]] | +| 权重更新 | [[language-gradient\|Language Gradient]] → LLM 生成新内容 | + +## 为什么是"符号" + +- 优化对象是自然语言和代码,而非浮点数 +- "权重"可读、可编辑、可审计 +- 更新操作是 LLM 生成新文本,而非 `θ ← θ - η∇L` + +## 与后续工作的关系 + +Symbolic Network 是更早期的底层抽象。[[skill-as-external-state|Skill as External State]](SkillOpt)和 [[heuristic-learning|Heuristic Learning]] 均可视为其具体实例。 + +## 相关 + +- [[agent-symbolic-learning]] — 完整框架 +- [[language-gradient]] — 符号网络的"梯度" diff --git a/concepts/synthetic-data-qa-generation.md b/concepts/synthetic-data-qa-generation.md new file mode 100644 index 0000000..ce1a0e4 --- /dev/null +++ b/concepts/synthetic-data-qa-generation.md @@ -0,0 +1,44 @@ +--- +title: "Synthetic Data QA Generation (合成数据Q&A生成)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["synthetic-data", "data-engineering", "pretraining", "qa-generation"] +sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] +--- + +# Synthetic Data QA Generation (合成数据Q&A生成) + +**Synthetic Data QA Generation** 是 [[ultradata|UltraData]] L3 层级的关键加工方法:利用 LLM 将"可读但不可学"的叙述性网页文本转化为"提问-思考-回答"的结构化格式,使其成为"好学数据"。 + +## 核心转化 + +``` +可读网页文本(叙述性、平铺直叙) + ↓ 大规模 Q&A 生成 + 多风格改写 +好学训练数据(结构化对话、多轮讨论、解释性问答) +``` + +## 为什么需要 + +- 网页文本缺乏**明确的问题引导** +- 缺乏**逻辑推理链** +- 缺乏**知识浓缩** +- → 模型"能看懂"但"学不会推理" + +## 在 Ultra-FineWeb-L3 中的应用 + +- 基座:L2 精筛网页(高质量但仍是叙述性) +- 工具:MiniCPM4 + Qwen3 +- 方法:对每个网页生成多风格 Q&A(解释型、对话型、多轮讨论型) +- 产出:600B Tokens(中文>200B) + +## 通用性 + +此方法不仅适用于网页数据——数学、代码、知识领域均可应用,是 [[data-hierarchical-governance|L3 合成数据]] 的通用范式。 + +## 相关 + +- [[ultradata]] — UltraData 系统 +- [[data-hierarchical-governance]] — 分级治理框架 +- [[ultradata-l3-open-source-2026]] — 原始文章 diff --git a/concepts/temporal-patch-shuffle.md b/concepts/temporal-patch-shuffle.md new file mode 100644 index 0000000..8c4db77 --- /dev/null +++ b/concepts/temporal-patch-shuffle.md @@ -0,0 +1,57 @@ +--- +title: "Temporal Patch Shuffle (TPS)" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "forecasting", "patch-based"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# Temporal Patch Shuffle (TPS) + +> 基于重叠时间 patch 的选择性 shuffle 增强方法——当前时间序列预测增强的 SOTA。 + +## 核心流程 + +1. **拼接**:x ∥ y → s,从源头强制 [[data-label-consistency|数据-标签一致性]] +2. **Temporal Patching**:patch 长度 p、stride s,提取**重叠** patch +3. **Variance 评分**:跨通道计算每个 patch 的 variance,低 variance = 更安全的扰动对象 +4. **选择性 Shuffle**:variance 最低的 α 比例 patch 被随机置换 +5. **重建**:重叠区域取平均——自然平滑 shuffle 引入的不连续性 +6. **拆分**:s̃ → x̃, ỹ + +## 设计直觉 + +- **重叠是关键**:相邻 patch 共享时间步,重建时过渡平滑;换成非重叠 → 明显退化 +- **Variance 启发式**:保守策略——低 variance 的 patch 结构特征少,扰动更安全 +- **时域优先**:直接操作原始信号优于 FFT 变换后操作 + +## 为什么比其他方法好 + +| 对比维度 | TPS | 频域方法 | 分解方法 | +|---------|-----|---------|---------| +| 时间定位 | ✅ 原生 | ❌ FFT 丢失 | ✅ EMD 保留 | +| 计算开销 | 低 | 低 | 高(EMD) | +| input-target 一致性 | ✅ 内置 | ✅ 支持 | ✅ 支持 | +| 跨任务泛化 | ✅ 预测+分类 | 预测为主 | 预测为主 | + +## 超参数 + +- p:patch 长度 +- s:stride(< p 则重叠) +- α:shuffle 比例(0.7-1.0 最优) + +实际不跑 Cartesian 网格,约 20 种候选配置做验证集搜索。 + +## 实验结果摘要 + +- 长期预测:9 数据集 × 5 骨干,MSE 改善 2.08%-10.51% +- 短期交通:4 PeMS 数据集,MSE 改善 0%-7.14% +- 分类任务:UCR +0.50%, UEA +1.10% + +## 相关页面 + +- [[time-series-forecasting-augmentation]] — 预测增强通用框架 +- [[data-label-consistency]] — 联合增强的理论基础 +- [[freqmask-freqmix]] — 频域替代方案 +- [[wavemask-wavemix]] — 时频域替代方案 +- [[temporal-patch-shuffle-tps]] — 原始综述文章 diff --git a/concepts/terminal-bench.md b/concepts/terminal-bench.md new file mode 100644 index 0000000..5fa31eb --- /dev/null +++ b/concepts/terminal-bench.md @@ -0,0 +1,31 @@ +--- +title: "Terminal-Bench" +created: 2026-05-26 +type: concept +tags: ["benchmark", "agent-evaluation", "terminal", "coding"] +sources: ["mini-agent-harness"] +--- + +# Terminal-Bench + +> 终端环境下的 Agent 评测基准:将模型接入终端,执行命令、安装依赖、调试错误,用测试脚本验证。 + +## 任务结构 + +- **Instruction**:任务指令 +- **Isolated Environment**:隔离执行环境 +- **Test Script**:验证脚本 + +## 与 [[swe-bench]] 的区别 + +| 维度 | Terminal-Bench | SWE-bench | +|------|---------------|-----------| +| 环境 | 裸终端 | Git 仓库 | +| 任务 | 命令行操作 | Patch 生成 | +| 验证 | 测试脚本 | 单元测试 | +| 适用场景 | 系统运维/DevOps | 代码修复 | + +## 相关页面 + +- [[agent-computer-interface]] — 终端即 ACI +- [[agent-harness-mini]] — 可参考其任务结构 diff --git a/concepts/text-space-optimizer.md b/concepts/text-space-optimizer.md new file mode 100644 index 0000000..670a19a --- /dev/null +++ b/concepts/text-space-optimizer.md @@ -0,0 +1,45 @@ +--- +title: "Text-Space Optimizer (文本空间优化器)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["optimization", "text-space", "agent", "skill"] +sources: ["https://arxiv.org/abs/2605.23904"] +--- + +# Text-Space Optimizer (文本空间优化器) + +**Text-Space Optimizer** 是 [[skillopt|SkillOpt]] 引入的核心范式:将 Agent skill 的训练建模为**文本空间中的优化问题**,与权重空间中的深度学习优化形成精确的结构类比。 + +## 为什么需要文本空间优化 + +传统的 skill 创建方式都不具备优化器的基本特征: +- **手写/一次性生成**:无反馈循环 +- **松散自修正**:无控制(学习率、验证、动量) +- **缺乏可复现性**:每次结果不可预测 + +## 从权重空间到文本空间的映射 + +SkillOpt 建立的精确类比: + +| 组件 | 权重空间(θ) | 文本空间(Skill) | +|------|:---:|:---:| +| 优化对象 | 浮点张量 | Markdown 文档 | +| 更新操作 | θ ← θ - η∇L | ADD/DELETE/REPLACE | +| 步长控制 | Learning rate η | [[textual-learning-rate\|Edit budget L_t]] | +| 数据划分 | Train/Val/Test | Rollout/Validation/Test | +| 防止过拟合 | Early stopping | [[held-out-validation-gate\|Validation gate]] | +| 负反馈 | 梯度下降 | [[rejected-edit-buffer\|Rejected buffer]] | +| 动量 | EMA / Adam β | [[slow-meta-update\|Epoch-wise slow update]] | + +## 核心洞察 + +> "The deep-learning analogy is operational rather than decorative." + +这个类比不只是比喻——每个组件都有**操作性对应**。这使得 skill optimization 不再是"随便改改",而是一个可控的、可复现的训练过程。 + +## 相关 + +- [[skillopt]] — SkillOpt 的具体实现 +- [[skill-as-external-state]] — 为什么文本可以被优化 +- [[yang-skillopt-2026]] — 原始论文 diff --git a/concepts/text-vs-weight-optimization.md b/concepts/text-vs-weight-optimization.md new file mode 100644 index 0000000..94608bc --- /dev/null +++ b/concepts/text-vs-weight-optimization.md @@ -0,0 +1,56 @@ +--- +title: "Text vs Weight Optimization (文本 vs 权重优化)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["optimization", "text-space", "weight-space", "philosophy"] +sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"] +--- + +# Text vs Weight Optimization (文本 vs 权重优化) + +**Text vs Weight Optimization** 是吕明在对 [[yang-skillopt-2026|SkillOpt]] 的深度解读中提出的核心思辨框架:[[text-space-optimizer|文本空间优化]] 与参数空间梯度下降之间,存在**表层同构但深层分野**的根本差异。 + +## 三个根本差异 + +### 1. 梯度本质 + +| 权重空间 GD | 文本空间 SkillOpt | +|:---|:---| +| 局部一阶偏微分向量 | 全局因果语义推理 | +| 依赖连续性 + 可微性 | LLM 对行为模式的理解 | +| 局部最陡下降方向 | 完整行为模式的因果分析 | + +### 2. 验证机制 + +| 权重空间 | 文本空间 | +|:---|:---| +| BP 链式法则(解析严密) | 提议-验证-接受/拒绝(经验主义) | +| 梯度信号确定性传导 | 编辑因果效果非确定、统计性 | + +### 3. 度量结构 + +| 权重空间 | 文本空间 | +|:---|:---| +| 欧氏距离 / 余弦相似度 | **无天然统一度量** | +| 几何可解释的更新大小 | 通过 Textual LR 做 Trust Region 约束 | + +## 哲学隐喻 + +作者将其映射为两条哲学传统: + +| 梯度下降 | SkillOpt | +|:---|:---| +| **英国经验主义** | **大陆理性主义** | +| 参数被动被数据塑形 | Optimizer 主动理性演绎 | +| 局部、随机、数据驱动 | 全局、意图、因果导向 | + +## 启示 + +> "正因为文本空间不具备连续空间的分析性质,SkillOpt 采用的'优化器提议 + 验证集筛选'范式,实际上是一种利用 LLM 语义推理能力来弥补离散空间缺乏解析梯度信号的优雅方案。" + +## 相关 + +- [[text-space-optimizer]] — 文本空间优化范式 +- [[skillopt]] — SkillOpt 方法 +- [[lyu-skillopt-deep-dive-2026]] — 原始文章 diff --git a/concepts/textual-learning-rate.md b/concepts/textual-learning-rate.md new file mode 100644 index 0000000..4576da7 --- /dev/null +++ b/concepts/textual-learning-rate.md @@ -0,0 +1,47 @@ +--- +title: "Textual Learning Rate (文本学习率)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["optimization", "skill", "learning-rate", "control"] +sources: ["https://arxiv.org/abs/2605.23904"] +--- + +# Textual Learning Rate (文本学习率) + +**Textual Learning Rate** 是 [[skillopt|SkillOpt]] 中控制优化步长的核心机制:每步最多允许应用的 skill 编辑数量 L_t。它是深度学习中 learning rate η 在文本空间的精确类比。 + +## 为什么需要 + +无约束的文本重写会导致: +- 删除有用的规则 +- 引入不兼容的指令 +- 对局部失败过拟合 +- 与之前的优化历史失去连续性 + +## 调度策略 + +SkillOpt 支持四种编辑预算调度: + +| 策略 | 行为 | +|------|------| +| **Constant** | L_t 固定不变 | +| **Linear** | 线性衰减 | +| **Cosine** (默认) | 前期大步长 → 后期小步长 → 收敛 | +| **Autonomous** | Optimizer 自主判断 | + +默认 cosine schedule 从较大编辑开始(探索),逐步衰减到较小的 consolidation 步骤(精调)。 + +## 与学习率的类比 + +``` +θ ← θ - η∇L → Skill ← Skill + bounded_edits(L_t) +``` + +两者都控制"一步可以走多远"——太大导致不稳定,太小导致收敛慢。 + +## 相关 + +- [[text-space-optimizer]] — 文本空间优化范式 +- [[skillopt]] — 使用 textual learning rate 的方法 +- [[yang-skillopt-2026]] — 原始论文 diff --git a/concepts/thompson-sampling-code-search.md b/concepts/thompson-sampling-code-search.md new file mode 100644 index 0000000..5608f1a --- /dev/null +++ b/concepts/thompson-sampling-code-search.md @@ -0,0 +1,35 @@ +--- +title: "Thompson Sampling Code Search" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["search", "code-synthesis", "thompson-sampling", "optimization"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# Thompson Sampling Code Search + +**Thompson Sampling Code Search** 是 [[autoharness|AutoHarness]] 中用于探索代码 harness 空间的搜索算法:维护多个代码假设的树结构,用 Thompson sampling (Tang et al., 2024) 选择下一个精炼节点。 + +## 算法 + +1. **树结构**:每个节点是一个代码假设(harness 的某个版本) +2. **Heuristic value**:每个节点的平均合法动作率 +3. **选择**:Thompson sampling 在探索(尝试不同的代码逻辑)和利用(精炼已有进展的 harness)之间平衡 +4. **精炼**:被选中的节点由 Refiner(LLM)基于环境 Critic 的 feedback 生成改进版本 + +## 为什么是 Thompson Sampling? + +- **在线学习**:每一步都需要决策下一个尝试方向 +- **不确定性量化**:Thompson sampling 自然处理节点价值估计的不确定性 +- **平衡探索-利用**:通过后验采样自动平衡——高不确定性的节点以正概率被选中 + +## 在 Harness 合成中的作用 + +Thompson sampling 决定了在每次迭代中"精炼哪个代码版本"——这直接影响了搜索效率。平均只需 14.5 次迭代即可达到 100% 合法率。 + +## 相关 + +- [[autoharness]] — 使用此搜索的方法 +- [[iterative-code-refinement]] — 每步的具体操作 +- [[lou-autoharness-2026]] — 原始论文 diff --git a/concepts/three-engineering-phases.md b/concepts/three-engineering-phases.md new file mode 100644 index 0000000..d220e2b --- /dev/null +++ b/concepts/three-engineering-phases.md @@ -0,0 +1,43 @@ +--- +title: "Three Engineering Phases(三阶段工程演进)" +created: 2026-05-30 +updated: 2026-05-30 +type: concept +tags: [agent, engineering, evolution, prompt, context, harness] +sources: [[agent-harness-engineering-survey]] +confidence: high +--- + +# Three Engineering Phases + +> 2022–2026 年间,Agent 工程的约束瓶颈经历了从 Prompt → Context → Harness 的三阶段迁移。这不是取代,而是**视野扩展**——每一阶段包含前一阶段。 + +## 三阶段 + +### Phase 1: Prompt Engineering (2022–2024) +- 核心杠杆:输入文本 +- 工程范围:优化单次模型调用的文本输入 +- 技术代表:Chain-of-Thought、Few-shot、ReAct 模板 + +### Phase 2: Context Engineering (2025) +- 核心杠杆:每步可见的信息 +- 工程范围:管理多个信息流进入上下文窗口 +- 关键转变:从"输入是什么"到"模型在每一步应该看到什么" +- 指导原则:找到最小的高信号 token 集,最大化期望结果的概率 + +### Phase 3: Harness Engineering (2026) +- 核心杠杆:包裹模型的基础设施层 +- 工程范围:ETCLOVG 七层全部 +- 关键转变:Agent 可靠性由模型-Harness 耦合系统决定 +- Harness 工程追问:必须设计什么样的治理、约束、反馈循环和执行控制? + +## 关键特征 +- **非替代而是扩展**:Prompt Engineering 今天仍是 Harness 实践的一部分 +- **约束瓶颈上移**:随着模型变强,瓶颈从"写不好 prompt" → "管不好上下文" → "设计不好基础设施" +- 同步对照 [[prompt-to-harness-evolution]] 的详细分析 + +## 相关概念 +- [[prompt-to-harness-evolution]] — 详细演化分析 +- [[binding-constraint-thesis]] — 约束瓶颈论 +- [[context-engineering]] — 上下文工程 +- [[agent-harness-engineering]] — Harness 工程 diff --git a/concepts/throughput-hypothesis.md b/concepts/throughput-hypothesis.md new file mode 100644 index 0000000..2c6b626 --- /dev/null +++ b/concepts/throughput-hypothesis.md @@ -0,0 +1,41 @@ +--- +title: "Throughput Hypothesis (吞吐量假说)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["pre-training", "efficiency", "tokenization", "hypothesis"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Throughput Hypothesis (吞吐量假说) + +**Throughput Hypothesis** 由 Gigant et al. (2025) 提出并经 Peng et al. (2026) 在 [[token-superposition-training|TST]] 中进一步验证:**subword-level 模型相对于 byte-level 模型的性能优势,主要来源于 coarser token 带来的更高训练样本吞吐量,而非表示质量本身的差异。** + +## 核心主张 + +在等 FLOPs 训练条件下: +- Coarser tokenization (如 BPE) → 每个 step 处理更多原始字符 → 更高的"有效数据吞吐量" +- 这一吞吐量差异足以解释 subword vs byte-level 的大部分性能差异 + +## TST 的验证 + +TST 将该假说推向了新方向: +- 通过 **token 叠加**在训练时人为制造更粗的粒度 +- 发现即使 tokenizer 本身不变,仅提高训练时吞吐量即带来显著增益 +- 这证明吞吐量假说不仅适用于 tokenizer 选择,也适用于训练时表示的动态调度 + +## 隐含推论 + +1. 训练效率优化应关注 **每 FLOP 的数据吞吐量**,而非每 token 的信息密度 +2. 推理时的 token 粒度可以独立于训练时的粒度选择(TST 的关键优势) +3. 在 compute-bound 场景下,牺牲训练时表示精度换取吞吐量是 Pareto-efficient + +## 局限 + +这一假说依赖 LLM 预训练是 **compute-bound** 而非 **data-bound** 的前提。Kim et al. (2026) 预测未来可能转向 data-bound——此时 output-only superposition 可能更具优势(不增加数据消耗)。 + +## 相关 + +- [[token-superposition-training]] — TST 方法 +- [[coarse-to-fine-granularity]] — 吞吐量假说的具体实现模式 +- [[peng-tst-2026]] — 原始论文 diff --git a/concepts/time-series-forecasting-augmentation.md b/concepts/time-series-forecasting-augmentation.md new file mode 100644 index 0000000..5019477 --- /dev/null +++ b/concepts/time-series-forecasting-augmentation.md @@ -0,0 +1,52 @@ +--- +title: "Time Series Forecasting Augmentation" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "forecasting", "deep-learning"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# Time Series Forecasting Augmentation + +> 时间序列预测中的数据增强——必须同时满足多样性引入和时间一致性保持。 + +## 与分类增强的本质区别 + +| 维度 | 分类增强 | 预测增强 | +|------|---------|---------| +| 目标 | 离散标签 | 连续信号 | +| 标签不变性 | 宽松 | 严格 | +| 安全操作 | jittering、scaling、warping | 需联合变换 | +| 失败模式 | 过拟合 | input-target 错位 | + +分类增强中安全的变换(jittering、window warping)在预测中会破坏 look-back 窗口与预测 horizon 之间的连续性。 + +## 必要条件:数据-标签一致性 + +增强必须作用于拼接后的完整序列 s = x ∥ y,再切分: +``` +s = x ∥ y, s̃ = 𝒜(s), (x̃, ỹ) = Split(s̃) +``` +只增强输入、保持目标不变 → input-target 关系断裂 → 性能下降最大。详见 [[data-label-consistency]]。 + +## 方法分类 + +见 [[forecasting-augmentation-taxonomy|完整分类体系]]: + +- **频域**:[[freqmask-freqmix]]、[[dominant-shuffle]]、RobustTAD +- **时频域**:[[wavemask-wavemix]] +- **分解**:[[staug]] +- **Patch**:[[temporal-patch-shuffle]] ⭐(当前 SOTA) + +## 关键设计原则 + +1. **联合变换**:x 和 y 必须一起被增强 +2. **受控随机性**:不破坏信号时间结构的随机性 +3. **平滑重建**:重叠+平均机制柔化扰动引入的不连续性 +4. **保守扰动**:优先扰动结构特征少的区域(如低 variance patch) + +## 相关页面 + +- [[temporal-patch-shuffle]] — 当前最优方法 +- [[data-label-consistency]] — 理论基础 +- [[non-stationary-time-series]] — 非平稳性挑战 diff --git a/concepts/token-superposition-training.md b/concepts/token-superposition-training.md new file mode 100644 index 0000000..112b51b --- /dev/null +++ b/concepts/token-superposition-training.md @@ -0,0 +1,49 @@ +--- +title: "Token Superposition Training (TST)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["pre-training", "efficiency", "LLM"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Token Superposition Training (TST) + +**Token Superposition Training** 是一种两阶段的 LLM 预训练加速方法,由 Peng, Gigant & Quesnelle (Nous Research, 2026) 提出。核心思想:在训练初期用**粗粒度 token 叠加**提高数据吞吐量,后期回归标准训练。 + +## 机制 + +TST 不修改模型架构、tokenizer、优化器或并行策略——它是一个纯 drop-in 方法: + +### 阶段一:叠加阶段 +- 将连续 s 个 token 的 embedding **取平均**形成一个 [[s-token]] +- 用 [[multi-hot-cross-entropy|MCE]] 损失预测下一个 bag 的全部 token +- 效果:序列长度缩短 s 倍 → 等 FLOPs 下吞入 s× 更多数据 + +### 阶段二:恢复阶段 +- 回归标准 causal next-token prediction +- embedding 和 LM head **不重新初始化** + +## 关键参数 + +| 参数 | 含义 | 推荐范围 | +|------|------|----------| +| s (bag size) | 每个 bag 的 token 数 | 4–8 | +| r (step ratio) | 叠加步数占总步数的比例 | 0.2–0.4 | + +## 性能 + +- 10B A1B MoE:等 loss 条件下 **2.5× 训练时间缩减** +- 3B Dense:等 FLOPs 下最终 loss 更低,下游任务持平或更好 + +## 为什么有效 + +1. **粗→细粒度调度**([[coarse-to-fine-granularity]]):先学粗统计结构,后精调 +2. **表示对齐**([[representation-alignment]]):共享 embedding 跨越两阶段是关键 +3. **吞吐量假说**([[throughput-hypothesis]]):coarser tokens → 更高数据吞吐量 → 更好性能 + +## 相关 + +- [[peng-tst-2026]] — 原始论文 +- [[multi-hot-cross-entropy]] — 核心损失函数 +- [[two-phase-pretraining]] — 两阶段训练范式 diff --git a/concepts/tool-bootstrapped-rft.md b/concepts/tool-bootstrapped-rft.md new file mode 100644 index 0000000..86abd89 --- /dev/null +++ b/concepts/tool-bootstrapped-rft.md @@ -0,0 +1,47 @@ +--- +title: "Tool-Bootstrapped GUI RFT" +created: 2026-05-31 +type: concept +tags: [reinforcement-learning, grpo, gui-tool, sft] +--- + +# Tool-Bootstrapped GUI RFT(工具引导的 GUI 强化微调) + +**Tool-Bootstrapped GUI RFT(Reinforcement Fine-Tuning)** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段,用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。 + +## 两个子阶段 + +### 1. Warmup SFT(预热监督微调) + +在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练: + +$$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$ + +**目标**:教会模型 CUA 领域中的多模态工具调用知识: +- 工具使用方法 +- 工具参数推理 +- 工具执行后的状态理解 +- 获得 $\mathcal{M}_{\text{sft}}$ + +### 2. Single-Turn RL on Critical Steps + +在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 [[grpo|GRPO]] 进行单轮 RL。 + +**关键设计**: +- 仅在显式的 GUI↔Tool 切换边界进行优化 +- 模型采样多个 completion,接收直接反馈:继续 GUI 还是切换到工具? +- **目标校准**:优化模型在决策边界的判断力 + +**为什么是 Single-Turn?** +- 这些关键切换点是**独立决策**——不需要完整轨迹回放 +- 聚焦于"这一刻该切换吗"这一个核心问题 +- 相比 full trajectory RL,更高效且避免稀疏奖励问题 + +## 两阶段的关系 + +| 阶段 | 数据 | 目标 | 产出 | +|------|------|------|------| +| Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ | +| Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ | + +$\mathcal{M}_{\text{rft}}$ 是**协调的 agent**,为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。 diff --git a/concepts/tool-efficient-path-reward.md b/concepts/tool-efficient-path-reward.md new file mode 100644 index 0000000..e363d4c --- /dev/null +++ b/concepts/tool-efficient-path-reward.md @@ -0,0 +1,49 @@ +--- +title: "Tool-Efficient Path Reward" +created: 2026-05-31 +type: concept +tags: [reinforcement-learning, reward-design, trajectory-optimization, tool-calling] +--- + +# Tool-Efficient Path Reward(工具高效路径奖励) + +**Tool-Efficient Path Reward** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 在线 Agentic RL 阶段的核心奖励设计,由两部分组成: + +$$R = R_{\text{fmt}} + R_{\text{acc}} + \lambda \cdot R_{\text{tool}} + \beta \cdot R_{\text{length}}$$ + +其中 $\lambda = 0.4, \beta = 0.2$。 + +## 两大组件 + +### $R_{\text{tool}}$:Tool Appropriateness Reward(工具适当性奖励) + +$$R_{\text{tool}} = I_{\text{succ}} \cdot I[(t_b > 0 \land c > 0) \lor (t_b < 0 \land c = 0)]$$ + +- $t_b \in \{1, -1\}$:任务级"工具有益"标签(数据构建时标注) +- $c$:轨迹中工具调用累计次数 + +**设计哲学**: +- $t_b = 1, c > 0$:工具有益任务 + 实际调用了工具 → 奖励 ✓ +- $t_b = -1, c = 0$:工具无益任务 + 未调用工具 → 奖励 ✓ +- **将工具使用与任务成功解耦**——即使任务成功,不当工具使用也不获额外奖励 + +### $R_{\text{length}}$:Path Efficiency Reward(路径效率奖励) + +$$R_{\text{length}} = I_{\text{succ}} \cdot \begin{cases} (1 + \frac{\bar{s} - s}{\bar{s}}) & s < \bar{s} \\ \exp(-\frac{s - \bar{s}}{S_{\max} - \bar{s}}) & s \geq \bar{s} \end{cases}$$ + +- $s$:当前轨迹步数 +- $\bar{s}$:rollout 组平均步数 +- $S_{\max}$:最大执行上限(30) + +**设计哲学**: +- 短于组平均 → 线性奖励(步数越短奖励越高) +- 长于组平均 → 指数衰减(惩罚冗长路径) +- 因为有效工具调用通常替代多步 GUI 原子操作,这一信号自然激励更高效的工具切换 + +## 为什么需要这个奖励? + +任务成功信号 $R_{\text{acc}}$ **无法区分**: +- 用 1 次工具调用完成 vs 用 15 步 GUI 绕路完成 +- 任务不需要工具却调用了工具 vs 合理使用工具 + +$R_{\text{tool}} + R_{\text{length}}$ 提供**轨迹级反馈**,将优化目标从"完成任务"提升到"高效地完成任务"。 diff --git a/concepts/tool-interface.md b/concepts/tool-interface.md new file mode 100644 index 0000000..00417eb --- /dev/null +++ b/concepts/tool-interface.md @@ -0,0 +1,32 @@ +--- +title: "Tool Interface & Protocol Layer(工具接口与协议层)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, tool, mcp, api, protocol] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Tool Interface & Protocol(T 层) + +> ETCLOVG 的 T 层:规定外部能力如何**描述**、**发现**和**调用**。连接 Agent 推理与外部执行的关键接口。 + +## 主要子类别 + +- **协议和接口标准**:MCP 协议主导工具标准化 +- **工具描述、发现和选择**:Gorilla, ToolLLM, Toolformer 等 +- **工具增强训练与集成**:将工具使用能力融入模型训练 +- **可扩展性和会话管理**:多工具调用的并发和状态管理 + +## 关键洞察 + +- 工具 Schema 设计直接消耗 context budget → 属于 [[capability-control-tradeoff]] 的一部分 +- MCP 的标准化降低了组合成本,但安全扩展仍是未解决问题 +- 工具选择错误和 prompt injection 表面随工具菜单扩大而增长 + +## 相关概念 + +- [[etclovg-taxonomy]] +- [[standard-agent-handoffs]] — 工具间标准化交接 +- [[agent-harness-engineering-survey]] diff --git a/concepts/trace-native-evaluation.md b/concepts/trace-native-evaluation.md new file mode 100644 index 0000000..297cba6 --- /dev/null +++ b/concepts/trace-native-evaluation.md @@ -0,0 +1,41 @@ +--- +title: "Trace-Native Evaluation(踪迹原生评估)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evaluation, tracing, diagnosis, regression] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: medium +--- + +# Trace-Native Evaluation + +> 将 Agent 踪迹(trace)作为评估的主要对象,而非仅看最终通过/失败分数。从踪迹中计算结果分数、轨迹质量、失败归因和回归测试。 + +## 为什么需要 Trace-Native? + +当前评估以**最终分数为中心**(final-score-centric):一次运行通过或失败,分数归因于模型质量。但实际上失败可能来自: + +- 模型推理错误 +- 误导性工具 Schema +- 沙箱配置错误 +- 陈旧上下文 +- 不稳定测试 +- Benchmark 歧义 +- Judge 不稳定 +- 编排循环 bug + +## 闭合观测-评估回路 + +- 将异常生产踪迹转化为回归案例 +- 直接从 spans 计算轨迹质量指标 +- 将诊断信号反馈到 prompt、tool、context 和编排变更 + +Reflexion(Shinn et al., 2023)证明 Agent 可以在短视距设置中从自己的踪迹学习;将此扩展到长时间运行的多会话 Harness 仍待解决。 + +## 相关概念 + +- [[verification-evaluation]] — V 层评估 +- [[observability]] — O 层产生踪迹 +- [[harness-coupling-problem]] — 失败归因需要跨层分析 +- [[agent-harness-engineering-survey]] diff --git a/concepts/trading-lifecycle-driven-eviction.md b/concepts/trading-lifecycle-driven-eviction.md new file mode 100644 index 0000000..2d6d9d2 --- /dev/null +++ b/concepts/trading-lifecycle-driven-eviction.md @@ -0,0 +1,33 @@ +--- +title: "Trading-Lifecycle Driven Eviction (交易生命周期驱动淘汰)" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["distributed-systems", "caching", "ttl", "quant-trading"] +sources: ["https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"] +--- + +# Trading-Lifecycle Driven Eviction (交易生命周期驱动淘汰) + +**Trading-Lifecycle Driven Eviction** 是 [[distributed-prompt-caching]] 中针对量化交易场景的缓存 TTL 策略:缓存的过期时间不按固定时长设置,而是与交易的生命周期对齐。 + +## 两类上下文的差异化 TTL + +### 因子分析级上下文 +- **策略**:严格短时间滑动过期窗口(Rolling TTL) +- **逻辑**:若特定时间内无高频信号再次命中该因子前缀 → Redis 路由记录与本地实例引用同步解除 +- **原因**:因子分析具有高度时效性,过期因子上下文无保留价值 + +### 日内持仓级上下文 +- **策略**:生命周期直接与收盘时间对齐 +- **逻辑**:盘后清算完成瞬间 → 集群广播指令 → 全面销毁所有日内会话的物理缓存 +- **原因**:日内交易结束后,相关上下文完全失去意义 + +## 设计考量 + +考虑到 LLM 供应商的物理缓存资源有限且昂贵(部分按缓存驻留时间收费),精确的 TTL 策略不仅是工程需要,也是成本控制手段。 + +## 相关 + +- [[distributed-prompt-caching]] — 分布式缓存体系 +- [[distributed-agent-cache-sync-2026]] — 原始文章 diff --git a/concepts/two-phase-pretraining.md b/concepts/two-phase-pretraining.md new file mode 100644 index 0000000..daae467 --- /dev/null +++ b/concepts/two-phase-pretraining.md @@ -0,0 +1,43 @@ +--- +title: "Two-Phase Pre-Training" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["pre-training", "training-schedule", "LLM"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Two-Phase Pre-Training + +**Two-Phase Pre-Training** 是一种 LLM 预训练范式:先用某种高效但粗糙的方式训练,再切换到标准训练。[[token-superposition-training|TST]] 是该范式的一个典型实例。 + +## 一般形式 + +1. **阶段一(先导阶段)**:用替代目标或简化表示训练,使模型获得"预-预训练"基础 +2. **阶段二(恢复/精调阶段)**:切换回标准 autoregressive training + +## 在 LLM 预训练中的先例 + +| 方法 | 阶段一 | 阶段二 | +|------|--------|--------| +| TST (Peng et al. 2026) | Token 叠加 + MCE loss | 标准 CE | +| Patch-Level (Shao et al. 2025) | Patch 平均 + CE | 标准 token-level | +| Bolmo (Minixhofer et al.) | Byte-level 预训练 | Subword 恢复 | +| Hu et al. | 小模型预训练 | 大模型继承 | + +## TST 的独特性 + +TST 与其他两阶段方法的关键区别: +- **不引入新的投影层或 adapter** — embedding 和 LM head 在阶段间共享 +- 阶段二的"恢复"只是移除叠加代码,模型结构**完全不变** +- 这使 TST 成为纯 drop-in 方案 + +## 关键洞察 + +两阶段训练的成功依赖于 **表示对齐**([[representation-alignment]])——如果在阶段之间重新初始化 key layers(如 embedding 和 LM head),所有增益消失。 + +## 相关 + +- [[token-superposition-training]] — TST 的具体实现 +- [[representation-alignment]] — 跨阶段表示对齐 +- [[coarse-to-fine-granularity]] — 底层设计原则 diff --git a/concepts/ultradata.md b/concepts/ultradata.md new file mode 100644 index 0000000..d97d3f9 --- /dev/null +++ b/concepts/ultradata.md @@ -0,0 +1,46 @@ +--- +title: "UltraData" +created: 2026-05-29 +updated: 2026-05-29 +type: concept +tags: ["data-system", "open-source", "pretraining", "sft", "minicpm"] +sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] +--- + +# UltraData + +**UltraData** 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 [[data-hierarchical-governance|L0-L4 分级治理体系]],覆盖预训练到 SFT 全阶段。 + +## 核心数据集 + +| 数据集 | 层级 | 规模 | 亮点 | +|--------|:---:|------|------| +| Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 | +| UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 | +| UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron | +| UltraChat | L3 | — | 对话合成 | +| UltraFeedback | L3 | — | RLHF 反馈 | + +## 验证:MiniCPM5-1B + +UltraData 的价值在 MiniCPM5-1B 上得到全链路验证: +- Artificial Analysis 排行榜 17.9 分(登顶) +- 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B +- INT4 仅 ~0.5GB,端侧可运行 + +## 开源工具链 + +面壁智能同时开源了数据质量验证组件: +- 单一数据验证 +- Epoch 搜索 +- 评测去污 + +## 行业影响 + +UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。 + +## 相关 + +- [[data-hierarchical-governance]] — 底层框架 +- [[synthetic-data-qa-generation]] — L3合成方法 +- [[deep-thinking-sft]] — SFT 数据特色 diff --git a/concepts/unconditional-generation-latent.md b/concepts/unconditional-generation-latent.md new file mode 100644 index 0000000..bbc8e47 --- /dev/null +++ b/concepts/unconditional-generation-latent.md @@ -0,0 +1,33 @@ +--- +title: "Unconditional Generation via Latent Reasoning" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [generation, unconditional, latent] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: medium +--- + +# Unconditional Generation via Latent Reasoning + +> GRAM 的独特性:同一个递归潜在模型在无输入或固定输入时,可以执行**无条件生成**——从先验分布中采样推理轨迹并解码出数据。 + +## 工作原理 + +- 条件推理:p_theta(y|x) — 输入 x -> 推理 -> 输出 y +- **无条件生成**:p_theta(x) — 从先验采样轨迹 -> 解码为数据(如 MNIST 数字) + +## 为什么重要 + +- 证明 GRAM 不仅是推理引擎,也是**生成模型** +- 同一架构在推理和生成两个方向上一致 +- 暗示潜在推理轨迹编码了**数据生成过程** + +## 实验验证 + +Binarized MNIST:GRAM 在无条件生成上展现出清晰的数字结构,证实了潜在递归过程可以学会生成数据的结构。 + +## 相关概念 + +- [[latent-variable-generative-model]] +- [[gram-generative-recursive-reasoning|GRAM]] diff --git a/concepts/verification-evaluation.md b/concepts/verification-evaluation.md new file mode 100644 index 0000000..0d74c3f --- /dev/null +++ b/concepts/verification-evaluation.md @@ -0,0 +1,36 @@ +--- +title: "Verification & Evaluation(验证与评估)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [agent, evaluation, verification, benchmark, regression] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Verification & Evaluation(V 层) + +> ETCLOVG 的 V 层:将任务和追踪转化为评估、失败归因和回归反馈。应作为**测量工具**而非排行榜生成器来研究。 + +## 三个子层 + +- **任务和 Benchmark 基准化**:SWE-bench, WebArena 等 +- **预执行就绪验证(Readiness Validation)**:跨层的工具就绪检查、沙箱状态校验 +- **受控执行与追踪捕获**:可复现的运行环境 +- **多级判断与失败归因**:不止 pass/fail,区分模型推理错误 vs harness 配置错误 +- **持续回归与部署反馈**:将评估嵌入 CI/CD + +## 核心批评:final-score-centric 的问题 + +当前评估过于以最终分数为中心:一次运行通过或失败,最终数字被视为模型质量的证据。但实际上: +- 失败可能源自模型推理、误导性工具 Schema、沙箱配置错误、陈旧上下文、不稳定测试、benchmark 歧义、judge 不稳定或编排循环 +- Anthropic 分析表明基础设施设置可测量地改变 benchmark 分数 +- 单次运行通过率可能隐藏显著方差(Bjarnason et al., 2026) + +## 未来方向:[[trace-native-evaluation]] + +## 相关概念 + +- [[observability]] — O 层与 V 层需闭合回路 +- [[harness-coupling-problem]] — 评估受执行环境影响 +- [[agent-harness-engineering-survey]] diff --git a/concepts/wavemask-wavemix.md b/concepts/wavemask-wavemix.md new file mode 100644 index 0000000..ff09415 --- /dev/null +++ b/concepts/wavemask-wavemix.md @@ -0,0 +1,41 @@ +--- +title: "WaveMask / WaveMix" +created: 2026-05-26 +type: concept +tags: ["time-series", "data-augmentation", "wavelet", "forecasting"] +sources: ["temporal-patch-shuffle-tps"] +--- + +# WaveMask / WaveMix + +> 基于离散小波变换 (DWT) 的时频域时间序列增强——同时拥有频率信息和时间定位。 + +## 为什么 Wavelet 优于 FFT + +| 维度 | FFT | Wavelet | +|------|-----|---------| +| 频率信息 | ✅ 全局 | ✅ 多尺度 | +| 时间定位 | ❌ 丢失 | ✅ 保留 | +| 分辨率 | 固定 | 自适应(高频=高时间,低频=高频率) | + +**一句话**:FFT 回答"哪些频率存在",wavelets 回答"哪些频率存在、大概出现在哪里"。 + +## 流程 + +1. DWT 分解:W = WaveDec(s) = {W⁽¹⁾, W⁽²⁾, …, W⁽ᴸ⁺¹⁾} +2. 在各层独立操作: + - **WaveMask**:W̃⁽ˡ⁾ = M⁽ˡ⁾ ⊙ W⁽ˡ⁾ + - **WaveMix**:W̃⁽ˡ⁾ = M⁽ˡ⁾ ⊙ W₁⁽ˡ⁾ + (1−M⁽ˡ⁾) ⊙ W₂⁽ˡ⁾ +3. 逆 DWT 重建 + +**关键**:masking/mixing 可以在每一层独立施加——细粒度细节和粗粒度趋势不必同等对待。 + +## 实验结果 + +16 种预测 horizon 设置中:12 种第一,4 种第二。在 [[temporal-patch-shuffle|TPS]] 出现前是 SOTA。 + +## 相关页面 + +- [[freqmask-freqmix]] — FFT 域替代方案(无时间定位) +- [[temporal-patch-shuffle]] — 当前 SOTA,时域 patch 方法 +- [[dominant-shuffle]] — 更保守的频域选择 diff --git a/concepts/width-based-scaling.md b/concepts/width-based-scaling.md new file mode 100644 index 0000000..5c9bedb --- /dev/null +++ b/concepts/width-based-scaling.md @@ -0,0 +1,38 @@ +--- +title: "Width-Based Scaling(宽度扩展)" +created: 2026-05-23 +updated: 2026-05-23 +type: concept +tags: [inference, scaling, width, parallel] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: medium +--- + +# Width-Based Scaling + +> GRAM 引入的新扩展维度:通过增加并行采样的潜在推理轨迹数量来提升推理性能,而不增加模型大小或序列长度。 + +## 工作原理 + +- 从 [[stochastic-latent-trajectory]] 分布中采样 K 条轨迹 +- K 条轨迹可以**完全并行**运行(天然 batch) +- 最终预测 = 聚合 K 条轨迹的结果 + +## 宽度 vs 深度 + +- **深度**:单条轨迹的推理质量(精炼程度) +- **宽度**:轨迹覆盖的多样性(探索广度) +- 两者正交,可以独立调参 + +## 与 Ensemble 的区别 + +GRAM 的宽度扩展 != 传统 Ensemble: +- Ensemble 需要多个独立模型 +- GRAM 的宽度 = 同一模型的多个随机实现 +- 单一模型参数,多条推理路径 + +## 相关概念 + +- [[inference-time-scaling]] +- [[multi-trajectory-inference]] +- [[deep-and-wide-reasoning]] diff --git a/index.md b/index.md index fbeacb9..ce44f1d 100644 --- a/index.md +++ b/index.md @@ -1,350 +1,553 @@ # LLM Wiki > 知识索引页面 — 自动生成 -> 最后更新:2026-05-15 | 总页面数:335 +> 最后更新:2026-05-31 | 总页面数:528 ## Concepts -- [[adaptive-computation-time]] — 根据输入难度动态调整计算量的技术族(ACT, PonderNet 等) -- [[additive-combinatorics]] -- [[agent-communication-stack]] -- [[agent-mediated-deception]] -- [[agent-network-memory-scope]] -- [[agent-network-taxonomy]] -- [[agent-network-topology]] -- [[agent-network-update-behavior]] -- [[agentic-systems]] -- [[ai-agent-security]] -- [[ai-alignment]] -- [[ai-mathematics]] -- [[ai-safety]] -- [[analytical-report-synthesizer]] — LLM 驱动的预测结果→分析报告自动生成器 -- [[api-key-authentication]] -- [[attention-entropy-collapse]] -- [[attention-sinks]] -- [[automated-theorem-proving]] -- [[backtranslation-round-trip-relay]] — 回译接力:通过可逆编辑链评估 LLM 文档编辑保真度 -- [[base-table-embedding]] — DIME 第一阶段:双路径编码捕获表内语义 -- [[behrouz-memory-caching-rnn]] -- [[bidirectional-trajectory-evaluation]] -- [[bpf-syscall-interception]] -- [[cache-health-observability]] -- [[cache-hit-ratio]] -- [[cache-invalidation]] -- [[cache-safe-forking]] -- [[caddy-reverse-proxy-auth]] -- [[caddy-web-server]] -- [[cel-shading-style]] -- [[centralized-agent-architecture]] -- [[certainty-based-loss]] — 通过 argmin(loss) + argmax(certainty) 双 tick 选择实现原生自适应计算 -- [[certainty-based-rewards]] -- [[chain-of-thought]] -- [[chaitin-algorithmic-information-theory]] -- [[chaitin-constant]] -- [[cl-bench-life]] -- [[classifier-free-guidance-language]] — CFG 在语言扩散模型中的应用 -- [[clawless]] -- [[clawless-ai-agent-security]] -- [[coarse-grained-counting]] -- [[cognitive-architecture]] -- [[completeness-logic]] -- [[composable-base-model-architecture]] — 基础模型池 + 共享组件的可组合建模框架 -- [[compressed-sparse-attention]] -- [[computability-theory]] -- [[computerized-adaptive-testing]] -- [[conditional-model-dispatcher]] — ZCP + 历史 EMA 驱动的模型选择与条件增强调度器 -- [[confidence-correctness-alignment]] -- [[consistency-logic]] -- [[context-blue-clique]] -- [[context-compression]] -- [[context-learning]] -- [[context-misuse]] -- [[continuous-diffusion-language-models]] — 连续嵌入空间中的扩散语言模型 -- [[continuous-thought-machine]] — CTM:以神经时序动态和同步为核心计算原理的新架构 -- [[continuum-hypothesis]] -- [[cramer-rao-lower-bound]] -- [[crawl4ai]] -- [[crawl4ai-open-source-web-crawler]] -- [[critical-failures]] — 关键失败:稀疏但严重的错误解释了约80%的文档退化 -- [[curvine-distributed-cache]] -- [[darlow-ctm-2025]] — CTM: 以神经同步为表示的持续思考机器 (NeurIPS 2025) -- [[darwin-godel-machine]] -- [[data-slice]] — 任务特定的关系数据库子集,DIME 的核心数据对象 -- [[decentralized-agent-architecture]] -- [[deepseek-v4-flash]] -- [[deepseek-v4-million-token-context]] -- [[deepseek-vit]] -- [[delegate-52]] — Microsoft 基准:310工作环境 × 52专业领域,评估LLM委托工作就绪性 -- [[delegated-work]] — 委托工作:新兴LLM交互范式,用户监督模型代其完成任务 -- [[depth-scaling-signal-degradation]] -- [[diagonal-ramsey-number]] -- [[diagonalization-method]] -- [[dime-dynamic-in-database-modeling-engine]] — DIME:NeurIDA 的核心动态建模引擎 -- [[discrete-diffusion-language-models]] — 离散 token 空间中的扩散语言模型 -- [[distractor-context]] — 干扰上下文:话题相关但无需编辑的文档,模拟不完美检索精度 -- [[document-degradation]] — 文档退化:LLM在长委托工作流中静默破坏文档内容的现象 -- [[domain-knowledge-reasoning]] -- [[domain-specific-evaluation]] — 领域特定评估:每个领域自定义解析器和语义等价评分的评估方法 -- [[dou-cl-bench]] -- [[duo-attention]] -- [[dynamic-in-database-modeling]] — 从共享组件在查询时装配定制模型的新范式 -- [[dynamic-mode-decomposition]] -- [[dynamic-model-fusion]] — 上下文感知的选择性关系融合模块 -- [[dynamic-relation-modeling]] — 跨表关系结构感知的消息传递 -- [[elf-embedded-language-flows]] — ELF: 连续嵌入空间中的 Flow Matching 语言扩散模型 (2026) -- [[embedded-language-flows]] — ELF: 连续嵌入流匹配语言模型 -- [[eml-operator]] -- [[empirical-discovery-simulation]] -- [[ensemble-based-rewards]] -- [[evolutionary-algorithms]] -- [[exponential-decay-reward]] -- [[few-shot-learning]] -- [[fine-grained-counting]] -- [[flash-attention]] -- [[flash-attention-3]] -- [[flow-matching]] — 连续时间流匹配生成框架 -- [[formal-security-model]] -- [[formal-systems]] -- [[formal-verification]] -- [[forward-authentication]] -- [[fourier-filter-dynamics]] -- [[fp4-quantization-training]] -- [[furstenberg-correspondence]] -- [[generation-verification-asymmetry]] -- [[generative-perplexity]] — 基于第三方模型评估生成质量的指标 -- [[genetic-programming]] -- [[geometric-ramsey-theory]] -- [[glitch-art-style]] -- [[godel-incompleteness-theorems]] -- [[godel-incompleteness-tutorial]] -- [[godel-numbering]] -- [[goodsteins-theorem]] -- [[gpt-image2]] -- [[gpt-image2-prompt-collection]] -- [[gravitino-unified-metadata]] -- [[greedy-context-screening]] -- [[green-tao-theorem]] -- [[group-relative-policy-optimization]] -- [[grouped-query-attention]] -- [[halftone-print-style]] -- [[halting-problem]] -- [[he-urlvr-sharpening-2026]] -- [[heavily-compressed-attention]] -- [[hilberts-program]] -- [[human-agent-trust]] -- [[human-centered-ai]] -- [[hunyuan-team-cl-bench-life]] -- [[hybrid-attention-architecture]] -- [[hyperagents]] -- [[hypergraph-ramsey-number]] -- [[identity-reference-resolution]] -- [[image-generation-prompt-design]] -- [[in-database-analytics]] — 在 DBMS 内部直接执行 ML/分析任务的方法论 -- [[internal-ticks]] — 与数据维度解耦的内部时序,CTM 的「思考步骤」展开维度 -- [[internal-world-model]] — agent 内部构建的环境表征,在 CTM 迷宫任务中涌现 -- [[intrinsic-rewards-sharpening]] -- [[jagged-frontier]] — 锯齿前沿:AI模型能力在不同领域间不均衡、不可预测的分布 -- [[klein-blue]] -- [[knowledge-bank]] -- [[kolmogorov-complexity]] -- [[koopman-autoencoder]] -- [[koopman-predictor]] -- [[koopman-theory]] -- [[kv-cache-bottleneck]] -- [[kvcache-transfer]] -- [[laban-llms-corrupt-documents-delegate]] — "LLMs Corrupt Your Documents When You Delegate" — DELEGATE-52 -- [[length-extrapolation]] — 长度外推:让 LLM 处理超出预训练窗口的序列长度 -- [[li-amd-human-perception]] -- [[linear-attention-methods]] -- [[liu-koopa-2023]] -- [[llm-applications]] -- [[llm-attention-survey-2026]] -- [[llm-evaluation-benchmarks]] -- [[log]] — 变更日志 -- [[long-context-understanding]] -- [[long-horizon-evaluation]] — 长视界评估:通过延长交互揭示短评估中不可见的退化模式 -- [[lost-in-the-middle]] -- [[lovasz-local-lemma]] -- [[lucas-penrose-argument]] -- [[mamba-ssm]] -- [[manifold-constrained-hyper-connections]] -- [[mathematical-pluralism]] -- [[maze-navigation]] -- [[memory-caching-rnn]] -- [[messy-context-reasoning]] -- [[meta-jctrader]] -- [[meta-learning]] -- [[metacognitive-self-modification]] -- [[metamathematics]] -- [[million-token-context]] -- [[mixture-of-attention-schemes]] -- [[mixture-of-depths-attention]] -- [[mixture-of-experts]] -- [[model-collapse-step]] -- [[multi-head-attention]] -- [[multi-head-latent-attention]] -- [[multi-query-attention]] -- [[multi-token-prediction]] -- [[multimodal-large-language-model]] -- [[muon-optimizer]] -- [[native-sparse-attention]] -- [[neural-synchronization]] — 将神经元激活历史的时序相关性直接用作潜在表示 -- [[neurida]] — Neural In-Database Analytics:自主端到端库内分析系统 -- [[neuron-level-models]] — 每个神经元拥有私有参数的 MLP,替代统一激活函数 -- [[neuron-pairing]] — 对 O(D²) 同步矩阵的子采样策略,用于效率与表达力平衡 -- [[neuroscience]] -- [[nikolopoulos-spurious-predictability]] -- [[non-stationary-time-series]] -- [[ntk-aware-interpolation]] -- [[odrzywolek-eml-single-operator]] -- [[on-policy-distillation]] -- [[oppo-multimodal-data-lake]] -- [[paley-graph]] -- [[paris-harrington-theorem]] -- [[path-tracing]] -- [[peano-arithmetic]] -- [[perception-gap]] -- [[pre-activation-history]] — 每个神经元维护的滚动前激活缓冲区,NLM 的输入 -- [[prefill-as-a-service]] -- [[prefill-decode-disaggregation]] -- [[prefix-matching]] -- [[primitive-recursive-functions]] -- [[probabilistic-method]] -- [[procedural-task-execution]] -- [[program-synthesis]] -- [[prompt-caching]] -- [[prompt-caching-architecture]] -- [[prompt-layering]] -- [[prompt-reverse-engineering]] -- [[qin-prfaas-cross-datacenter]] -- [[query-intent-analyzer]] — LLM 驱动的 NLQ 解析器,输出结构化任务/数据画像 -- [[rag-systems]] -- [[ramsey-context-cache]] -- [[ramsey-context-construction]] -- [[ramsey-context-graph]] -- [[ramsey-context-template]] -- [[ramsey-numbers]] -- [[ramsey-numbers-survey]] -- [[ramsey-theory]] -- [[ramsey-theory-applications]] -- [[random-graph-theory]] -- [[README]] — Wiki 说明 -- [[real-life-context-learning]] -- [[rectified-flows]] — Flow Matching 中的直线插值路径 -- [[recursive-self-improvement]] -- [[reference-gap]] -- [[reinforcement-learning-trading]] -- [[relational-graph]] — 以 FK-PK 为边的元组图,关系建模的数据结构基础 -- [[reverse-proxy-authentication]] -- [[reward-hacking-llm]] -- [[reward-model]] -- [[risograph-print-style]] -- [[rlvr-unified-framework]] -- [[rolling-kv-cache]] — 滚动 KV 缓存:StreamingLLM 的两段式固定大小缓存机制 -- [[rotary-position-embedding]] -- [[round-trip-reconstruction-score]] — RS@k:衡量k次交互后文档重建质量的评估指标 -- [[rule-system-application]] -- [[russells-paradox]] -- [[russian-constructivism]] -- [[SCHEMA]] — Wiki 结构规范 -- [[sde-sampler-language]] — 语言扩散中的随机微分方程采样器 -- [[secure-containers]] -- [[seer-attention]] -- [[self-conditioning]] — 用自身中间预测作为条件的扩散技术 -- [[self-improving-ai]] -- [[self-reference]] -- [[self-verification-rewards]] -- [[semantic-equivalence]] — 语义等价:通过领域特定解析器衡量文档间语义等价程度的方法 -- [[shared-weight-discretization]] — ELF 的共享权重去噪-解码机制 -- [[singularity]] -- [[sink-token]] — 可学习汇 Token:预训练时添加专用 Token 作为唯一注意力汇 -- [[softmax-off-by-one]] — SoftMax₁:允许丢弃多余注意力的 SoftMax 变体 -- [[song-agent-network-taxonomy]] -- [[sparse-attention-patterns]] -- [[specialist-training-pipeline]] -- [[specialized-rl]] -- [[specialized-sft]] -- [[spiking-neural-networks]] — 使用离散脉冲和事件驱动计算的生物启发神经网络 -- [[spurious-predictability]] -- [[streaming-llm]] — StreamingLLM: 基于注意力汇的无限长流式语言模型推理框架 (ICLR 2024) -- [[stub-pattern]] -- [[subquadratic-transformer-alternatives]] -- [[symbolic-regression]] -- [[synapse-model]] — CTM 的 U-Net 风格循环突触结构,神经元间信息共享引擎 -- [[system-2-thinking]] -- [[system-message-abuse]] -- [[szemerédi-regularity-lemma]] -- [[tabular-foundation-models]] — 大规模表格数据预训练的基础模型(TabPFN, TabICL 等) -- [[tao-klowden-ai-mathematical-methods]] -- [[temporal-decay-neural]] — 每对神经元可学习的指数衰减参数,控制同步的时间尺度 -- [[test-time-scaling]] -- [[test-time-training-rl]] -- [[thinking-with-visual-primitives]] -- [[time-variant-dynamics]] -- [[token-efficiency]] -- [[tool-registry]] -- [[transfer-learning]] -- [[unified-rft]] -- [[unsupervised-rlvr]] -- [[userspace-kernel]] -- [[van-der-waerden-theorem]] -- [[visual-primitives]] -- [[window-attention]] — 窗口注意力:仅缓存最近 Token 的朴素方案,因驱逐注意力汇而崩溃 -- [[worst-case-threat-model]] -- [[x-prediction-parameterization]] — Flow Matching 中直接预测干净数据的参数化 -- [[xing-trails-2024]] — Trails: 数据库原生的深度神经网络模型选择 (VLDB 2024) -- [[zeng-dynamic-model-slicing-2024]] — 数据库内的动态模型切片技术 (VLDB 2024) -- [[zeng-neurida-2025]] — NeurIDA: 动态库内建模实现有效的关系数据库分析 -- [[zero-cost-proxies]] — 无需完整训练即可估计模型性能的 NAS 技术 -- [[zhang-hyperagents]] -- [[zhao-neurdb-2025]] — NeurDB: AI 驱动的自主数据库 (CIDR 2025) -- [[zhu-moda-mixture-of-depths]] +- [[action-applicability]] — Action Applicability (动作合法性判定) +- [[active-cache-warmup]] — Active Cache Warm-up (主动缓存预热) +- [[adaptive-computation-time]] — Adaptive Computation Time (ACT) +- [[adaptive-harness-simplification]] — Adaptive Harness Simplification(自适应 Harness 简化) +- [[additive-combinatorics]] — Additive Combinatorics(加法组合学) +- [[agent-capability-stability-gap]] — Agent Capability-Stability Gap(能力-稳定性差距) +- [[agent-communication-stack]] — Agent通信协议栈 +- [[agent-completion-evaluation]] — Agent Completion Evaluation(Agent 完成度评测) +- [[agent-computer-interface]] — Agent-Computer Interface (ACI) +- [[agent-eval-case-design]] — Agent Eval Case Design +- [[agent-eval-grader]] — Agent Eval Grader +- [[agent-eval-trace]] — Agent Eval Trace +- [[agent-evaluation-paradigm-shift]] — Agent 评测范式转变(Paradigm Shift in Agent Evaluation) +- [[agent-frameworks-to-platforms]] — Agent Frameworks to Platforms(从 Agent 框架到 Agent 平台) +- [[agent-governance]] — Agent Governance(Agent 治理与安全) +- [[agent-harness-engineering]] — Agent Harness Engineering(Agent 执行骨架工程) +- [[agent-harness-mini]] — Mini Agent Harness +- [[agent-mediated-deception]] — 代理中介欺骗 (Agent-Mediated Deception) +- [[agent-multidimensional-capability]] — Agent Multidimensional Capability(Agent 多维能力) +- [[agent-network-memory-scope]] — Agent网络记忆范围 +- [[agent-network-taxonomy]] — Agent网络三层分类法 +- [[agent-network-topology]] — Agent网络拓扑 +- [[agent-network-update-behavior]] — Agent网络更新行为 +- [[agent-observability]] — Agent Observability(Agent 可观测性) +- [[agent-process-evaluation]] — Agent Process Evaluation(过程评测) +- [[agent-robustness-evaluation]] — Agent Robustness Evaluation(Agent 鲁棒性评测) +- [[agent-safety-evaluation]] — Agent Safety Evaluation(Agent 安全评测) +- [[agent-sandbox]] — Agent Sandbox(Agent 沙箱) +- [[agent-symbolic-learning]] — Agent Symbolic Learning (Agent 符号学习) +- [[agent-verification]] — Agent Verification(Agent 验证与评估) +- [[agentic-systems]] — Agentic Systems(智能体系统) +- [[ai-agent-security]] — AI代理安全 +- [[ai-alignment]] — AI Alignment (AI对齐) +- [[ai-mathematics]] — AI and Mathematics (AI 与数学) +- [[ai-safety]] — AI Safety (AI安全) +- [[amortized-variational-inference]] — Amortized Variational Inference(摊销变分推断) +- [[analytical-report-synthesizer]] — Analytical Report Synthesizer +- [[anthropic-agent-evals]] — Anthropic Agent Evals +- [[api-key-authentication]] — API Key 认证 (API Key Authentication) +- [[asynchronous-rl-llm]] — 异步强化学习与大语言模型后训练 +- [[attention-entropy-collapse]] — 注意力熵崩溃 (Attention Entropy Collapse) +- [[attention-sinks]] — 注意力汇 (Attention Sinks) +- [[autoharness]] — AutoHarness +- [[automated-theorem-proving]] — 自动定理证明 (Automated Theorem Proving, ATP) +- [[backtranslation-round-trip-relay]] — Backtranslation Round-Trip Relay +- [[base-table-embedding]] — Base Table Embedding +- [[bayesian-attention-geometry]] — Bayesian Attention Geometry (贝叶斯注意力几何) +- [[bayesian-attention-trilogy]] — Bayesian Attention Trilogy +- [[bayesian-wind-tunnels]] — Bayesian Wind Tunnels +- [[belief-accumulation]] — Belief Accumulation (信念累积) +- [[belief-transport]] — Belief Transport (信念传输) +- [[bidirectional-trajectory-evaluation]] — 双向轨迹评估 (Bidirectional Trajectory Evaluation) +- [[binding-constraint-thesis]] — Binding-Constraint Thesis(约束瓶颈论) +- [[bpf-syscall-interception]] — BPF系统调用拦截 +- [[bypass-network-handle-distribution]] — Bypass Network Handle Distribution (旁路网络句柄分发) +- [[cache-cold-start]] — Cache Cold-Start (缓存冷启动) +- [[cache-health-observability]] — Cache Health Observability(缓存健康度可观测性) +- [[cache-hit-ratio]] — Cache Hit Ratio (CHR) +- [[cache-invalidation]] — Cache Invalidation(缓存失效) +- [[cache-safe-forking]] — Cache-Safe Forking(缓存安全分叉) +- [[caddy-web-server]] — Caddy Web Server +- [[capability-control-tradeoff]] — Capability-Control Tradeoff(能力-控制权衡) +- [[capability-degradation]] — 能力退化 (Capability Degradation) +- [[cel-shading-style]] — 赛璐璐风格 (Cel-Shading) +- [[centralized-agent-architecture]] — 集中式Agent架构 +- [[certainty-based-loss]] — Certainty-Based Loss +- [[certainty-based-rewards]] — 确定性奖励 (Certainty-Based Rewards) +- [[chain-of-thought]] — 思维链 (Chain-of-Thought, CoT) +- [[chaitin-algorithmic-information-theory]] — 算法信息论 (Algorithmic Information Theory, AIT) +- [[chaitin-constant]] — 蔡廷常数 Ω (Chaitin's Constant) +- [[cl-bench-life]] — CL-Bench Life +- [[classifier-free-guidance-language]] — Classifier-Free Guidance for Language +- [[clawless]] — ClawLess +- [[coarse-grained-counting]] — 粗粒度计数 (Coarse-grained Counting) +- [[coarse-to-fine-granularity]] — Coarse-to-Fine Granularity +- [[code-as-harness]] — Code as Harness +- [[cognitive-architecture]] — Cognitive Architecture (认知架构) +- [[compiled-ai-paradigm]] — Compiled AI Paradigm (编译型 AI 范式) +- [[completeness-logic]] — 完备性 (Completeness, 逻辑学) +- [[composable-base-model-architecture]] — Composable Base Model Architecture +- [[compressed-sparse-attention]] — Compressed Sparse Attention (CSA) +- [[computability-theory]] — 可计算性理论 (Computability Theory) +- [[computer-use-agents]] — Computer Use Agents (CUAs) +- [[computerized-adaptive-testing]] — Computerized Adaptive Testing (CAT) +- [[conditional-model-dispatcher]] — Conditional Model Dispatcher +- [[confidence-correctness-alignment]] — 置信度-正确性对齐 (Confidence-Correctness Alignment) +- [[consistency-logic]] — 一致性 (Consistency, 逻辑学) +- [[context-blue-clique]] — Context Blue Clique(上下文蓝色团) +- [[context-compression]] — Context Compression(上下文压缩) +- [[context-drift]] — Context Drift(上下文漂移) +- [[context-engineering]] — Context Engineering(上下文工程) +- [[context-learning]] — 上下文学习 (Context Learning) +- [[context-management]] — Context Management(上下文管理) +- [[context-misuse]] — 上下文误用 (Context Misuse) +- [[context-pruning]] — Context Pruning (上下文剪枝) +- [[context-state-estimation]] — Context as State Estimation(上下文作为状态估计) +- [[continuous-diffusion-language-models]] — Continuous Diffusion Language Models +- [[continuous-thought-machine]] — Continuous Thought Machine (CTM) +- [[continuum-hypothesis]] — 连续统假设 (Continuum Hypothesis, CH) +- [[controlled-autonomy]] — Controlled Autonomy (受控的自主性) +- [[cost-quality-speed-trilemma]] — Cost-Quality-Speed Trilemma(成本-质量-速度三元悖论) +- [[covariance-matrix]] — 协方差矩阵 (Covariance Matrix) +- [[covariance-matrix-knowledge]] — 协方差矩阵知识存储 (Covariance Matrix Knowledge Storage) +- [[cramer-rao-lower-bound]] — Cramér-Rao Lower Bound (CRLB) +- [[crawl4ai]] — Crawl4AI +- [[critical-failures]] — Critical Failures / 关键失败 +- [[curvine-distributed-cache]] — Curvine 云原生分布式缓存 +- [[darwin-godel-machine]] — Darwin Gödel Machine (达尔文·哥德尔机) +- [[data-hierarchical-governance]] — Data Hierarchical Governance (L0-L4 数据分级治理) +- [[data-label-consistency]] — Data-Label Consistency (数据-标签一致性) +- [[data-quality-over-scale]] — Data Quality over Scale (数据质量重于规模) +- [[data-replay]] — 数据回放 (Data Replay) +- [[data-slice]] — Data Slice +- [[decentralized-agent-architecture]] — 去中心化Agent架构 +- [[deep-and-wide-reasoning]] — Deep-and-Wide Reasoning(深度且宽广的推理) +- [[deep-thinking-sft]] — Deep-Thinking SFT (深思考SFT数据) +- [[deepseek-v4-flash]] — DeepSeek-V4-Flash +- [[deepseek-vit]] — DeepSeek-ViT +- [[delegate-52]] — DELEGATE-52 +- [[delegated-work]] — Delegated Work / 委托工作 +- [[depth-scaling-signal-degradation]] — LLM 深度扩展与信号退化 +- [[dgae]] — Difficulty-Balanced Group Advantage Estimation (DGAE) +- [[dgpo]] — Difficulty-Aware Group Policy Optimization (DGPO) +- [[diagonal-ramsey-number]] — Diagonal Ramsey Number(对角拉姆齐数) +- [[diagonalization-method]] — 对角线方法 (Diagonalization Method) +- [[dime-dynamic-in-database-modeling-engine]] — DIME (Dynamic In-Database Modeling Engine) +- [[discrete-diffusion-language-models]] — discrete-diffusion-language-models +- [[distractor-context]] — Distractor Context / 干扰上下文 +- [[distributed-cache-routing]] — Distributed Cache Routing (分布式缓存路由) +- [[distributed-optimistic-locking]] — Distributed Optimistic Locking (分布式乐观锁) +- [[distributed-prompt-caching]] — Distributed Prompt Caching (分布式提示词缓存) +- [[distribution-shift]] — Distribution Shift(分布偏移) +- [[document-degradation]] — Document Degradation / 文档退化 +- [[domain-knowledge-reasoning]] — 领域知识推理 (Domain Knowledge Reasoning) +- [[domain-specific-evaluation]] — Domain-Specific Evaluation / 领域特定评估 +- [[dominant-shuffle]] — Dominant Shuffle +- [[dqw]] — Difficulty-Aware Question-Level Weighting (DQW) +- [[dual-layer-rl]] — Dual-Layer RL (双层强化学习) +- [[dual-space-rl]] — Dual Space RL (DSRL) +- [[duo-attention]] — DuoAttention +- [[dynamic-in-database-modeling]] — Dynamic In-Database Modeling +- [[dynamic-mode-decomposition]] — Dynamic Mode Decomposition (DMD) +- [[dynamic-model-fusion]] — Dynamic Model Fusion +- [[dynamic-relation-modeling]] — Dynamic Relation Modeling +- [[embedded-language-flows]] — Embedded Language Flows (ELF) +- [[eml-operator]] — EML 算子 (Exp-Minus-Log) +- [[empirical-discovery-simulation]] — 经验发现与模拟 (Empirical Discovery & Simulation) +- [[endogenous-reasoning]] — Endogenous Reasoning(内生推理) +- [[ensemble-based-rewards]] — 集成奖励 (Ensemble-Based Rewards) +- [[etclovg-taxonomy]] — ETCLOVG 七层分类法 +- [[evolutionary-algorithms]] — Evolutionary Algorithms (进化算法) +- [[evolving-knowledge-injection]] — 进化知识注入 (Evolving Knowledge Injection) +- [[execution-environment]] — Execution Environment(执行环境与沙箱) +- [[exponential-decay-reward]] — 指数衰减奖励 (Exponential Decay Reward) +- [[few-shot-learning]] — Few-Shot Learning (少样本学习) +- [[fine-grained-counting]] — 细粒度计数 (Fine-grained Counting) +- [[flash-attention]] — FlashAttention +- [[flash-attention-3]] — FlashAttention-3 +- [[flow-matching]] — Flow Matching +- [[forecasting-augmentation-taxonomy]] — Forecasting Augmentation Taxonomy +- [[formal-security-model]] — 形式化安全模型 +- [[formal-systems]] — 形式系统 (Formal System) +- [[formal-verification]] — Formal Verification (形式化验证) +- [[forward-authentication]] — 外部认证委托 (Forward Authentication) +- [[fourier-filter-dynamics]] — Fourier Filter for Dynamics(Fourier Filter 动力学分解) +- [[fp4-quantization-training]] — FP4 Quantization-Aware Training +- [[freqmask-freqmix]] — FreqMask / FreqMix +- [[furstenberg-correspondence]] — Furstenberg Correspondence Principle +- [[generation-verification-asymmetry]] — 生成-验证不对称性 (Generation-Verification Asymmetry) +- [[generative-general-unification]] — Generative-General-Unification (GenAI 三支柱) +- [[generative-perplexity]] — generative-perplexity +- [[genetic-programming]] — Genetic Programming (遗传编程) +- [[geometric-ramsey-theory]] — Geometric Ramsey Theory(几何拉姆齐理论) +- [[gflownet-fine-tuning]] — GFlowNet 微调 +- [[glitch-art-style]] — 故障艺术 (Glitch Art) +- [[global-context-hash-tree]] — Global Context Hash Tree (全局上下文哈希树) +- [[godel-incompleteness-theorems]] — 哥德尔不完备定理 (Gödel's Incompleteness Theorems) +- [[godel-numbering]] — 哥德尔编码 (Gödel Numbering) +- [[goodsteins-theorem]] — 古德斯坦定理 (Goodstein's Theorem) +- [[governance-security]] — Governance & Security(治理与安全) +- [[gpt-image2]] — GPT-Image-2 +- [[gradient-alignment]] — Gradient Alignment (PreRL) +- [[gram-generative-recursive-reasoning]] — GRAM(Generative Recursive reAsoning Models) +- [[gravitino-unified-metadata]] — Gravitino 统一元数据管理 +- [[greedy-context-screening]] — Greedy Context Screening(贪心上下文筛选) +- [[green-tao-theorem]] — Green-Tao Theorem +- [[group-relative-policy-optimization]] — 群体相对策略优化 (GRPO) +- [[grouped-query-attention]] — Grouped-Query Attention (GQA) +- [[grpo]] — Group Relative Policy Optimization (GRPO) +- [[gui-tool-hybrid-action-space]] — GUI-Tool Hybrid Action Space +- [[halftone-print-style]] — 半调印刷风格 (Halftone Print Style) +- [[halting-problem]] — 停机问题 (Halting Problem) +- [[hardening-execution-environments]] — Hardening Execution Environments(硬化执行环境) +- [[harness-as-action-verifier]] — Harness-as-Action-Verifier +- [[harness-as-policy]] — Harness-as-Policy (Code as Policy) +- [[harness-coupling-problem]] — Harness Coupling Problem(Harness 耦合问题) +- [[harness-engineering]] — Harness Engineering +- [[hars]] — HARS(调和适应保留评分) +- [[heavily-compressed-attention]] — Heavily Compressed Attention (HCA) +- [[held-out-validation-gate]] — Held-Out Validation Gate (留出验证门) +- [[heuristic-learning]] — Heuristic Learning (启发式学习) +- [[hilberts-program]] — 希尔伯特计划 (Hilbert's Program) +- [[human-agent-trust]] — 人机信任 (Human-Agent Trust) +- [[human-centered-ai]] — Human-Centered AI (以人类为中心的 AI) +- [[hybrid-attention-architecture]] — Hybrid Attention Architecture +- [[hyperagents]] — Hyperagents (超智能体) +- [[hypergraph-ramsey-number]] — Hypergraph Ramsey Number(超图拉姆齐数) +- [[identity-reference-resolution]] — 身份指代消解 (Identity Reference Resolution) +- [[image-generation-prompt-design]] — 图像生成 Prompt 设计 +- [[in-database-analytics]] — In-Database Analytics +- [[inference-primitives]] — Inference Primitives (推理原语) +- [[inference-time-scaling]] — Inference-Time Scaling(推理时扩展) +- [[input-superposition]] — Input Superposition +- [[interleaved-gui-tool-trajectory-scaling]] — Interleaved GUI-Tool Trajectory Scaling Pipeline +- [[internal-ticks]] — Internal Ticks +- [[internal-world-model]] — Internal World Model +- [[intrinsic-rewards-sharpening]] — 内在奖励锐化机制 (Intrinsic Rewards Sharpening) +- [[iterative-code-refinement]] — Iterative Code Refinement (迭代代码精炼) +- [[jagged-frontier]] — Jagged Frontier / 锯齿前沿 +- [[klein-blue]] — 克莱因蓝 (Klein Blue / IKB) +- [[knowledge-adaptation]] — 知识适应 (Knowledge Adaptation) +- [[knowledge-agnostic-augmentation]] — 知识无关增强 (Knowledge-Agnostic Augmentation) +- [[knowledge-aware-augmentation]] — 知识感知增强 (Knowledge-Aware Augmentation) +- [[knowledge-bank]] — Knowledge Bank — AI 辅助开发时代的知识管理系统 +- [[knowledge-internalization]] — 知识内化 (Knowledge Internalization) +- [[knowledge-retention]] — 知识保留 (Knowledge Retention) +- [[knowledge-tree]] — 知识树 (Knowledge Tree) +- [[kolmogorov-complexity]] — 柯尔莫哥洛夫复杂度 (Kolmogorov Complexity) +- [[koopman-autoencoder]] — Koopman Autoencoder (KAE) +- [[koopman-predictor]] — Koopman Predictor(Koopman 预测器) +- [[koopman-theory]] — Koopman Theory(Koopman 理论) +- [[kore-augmentation]] — KORE-AUGMENTATION(知识导向增强) +- [[kore-constraint]] — KORE-CONSTRAINT(知识导向约束) +- [[kv-cache-bottleneck]] — KV 缓存内存瓶颈 +- [[kvcache-transfer]] — KVCache 传输与优化 +- [[language-gradient]] — Language Gradient (语言梯度) +- [[language-loss]] — Language Loss (语言损失) +- [[latent-variable-generative-model]] — Latent-Variable Generative Model(潜在变量生成模型) +- [[length-extrapolation]] — 长度外推 (Length Extrapolation) +- [[lifecycle-orchestration]] — Lifecycle & Orchestration(生命周期与编排) +- [[linear-attention-methods]] — 线性注意力方法 (Linear Attention Methods) +- [[llm-applications]] — LLM 应用 +- [[llm-evaluation-benchmarks]] — LLM 评测基准体系 +- [[long-context-understanding]] — 长上下文理解 (Long-Context Understanding) +- [[long-horizon-evaluation]] — Long-Horizon Evaluation / 长视界评估 +- [[lost-in-the-middle]] — Lost in the Middle +- [[lovasz-local-lemma]] — Lovász Local Lemma +- [[lucas-penrose-argument]] — 卢卡斯-彭罗斯论证 (Lucas-Penrose Argument) +- [[mamba-ssm]] — Mamba (State Space Model) +- [[manifold-constrained-hyper-connections]] — Manifold-Constrained Hyper-Connections (mHC) +- [[math-question-reformulation]] — 数学问题多维度改写 +- [[mathematical-pluralism]] — 数学多元主义 (Mathematical Pluralism) +- [[mathforge]] — MathForge 框架 +- [[maze-navigation]] — 迷宫导航 (Maze Navigation) +- [[memory-caching-rnn]] — Memory Caching (MC) +- [[messy-context-reasoning]] — 混乱上下文推理 (Messy Context Reasoning) +- [[meta-jctrader]] — Meta-JCTrader +- [[meta-learning]] — Meta-Learning (元学习) +- [[metacognitive-self-modification]] — Metacognitive Self-Modification (元认知自我修改) +- [[metamathematics]] — 元数学 (Metamathematics) +- [[million-token-context]] — Million-Token Context +- [[mixture-of-attention-schemes]] — Mixture of Attention Schemes (MoAS) +- [[mixture-of-depths-attention]] — Mixture-of-Depths Attention (MoDA) +- [[mixture-of-experts]] — Mixture of Experts (MoE) +- [[mme-voke]] — MMEVOKE +- [[model-collapse-step]] — 模型崩溃步 (Model Collapse Step, MCS) +- [[model-harness-relationship]] — Model-Harness Relationship (模型与Harness关系) +- [[moe-lora]] — MoELoRA +- [[mqr]] — Multi-Aspect Question Reformulation (MQR) +- [[multi-agent-orchestration]] — Multi-Agent Orchestration(多 Agent 编排) +- [[multi-head-attention]] — Multi-Head Attention (MHA) +- [[multi-head-latent-attention]] — Multi-head Latent Attention (MLA) +- [[multi-hot-cross-entropy]] — Multi-hot Cross-Entropy (MCE) +- [[multi-query-attention]] — Multi-Query Attention (MQA) +- [[multi-solution-recovery]] — Multi-Solution Recovery(多解恢复) +- [[multi-token-prediction]] — Multi-Token Prediction (MTP) +- [[multi-trajectory-inference]] — Multi-Trajectory Inference(多轨迹推理) +- [[multimodal-large-language-model]] — 多模态大语言模型 (MLLM) +- [[multimodal-rag]] — 多模态 RAG (Multimodal RAG) +- [[muon-optimizer]] — Muon Optimizer +- [[native-sparse-attention]] — Native Sparse Attention (NSA) +- [[negative-sample-reinforcement]] — Negative Sample Reinforcement (NSR) +- [[neural-synchronization]] — Neural Synchronization as Representation +- [[neurida]] — NeurIDA +- [[neuron-level-models]] — Neuron-Level Models (NLMs) +- [[neuron-pairing]] — Neuron Pairing +- [[neuroscience]] — Neuroscience (神经科学) +- [[next-state-grounding]] — Next-State Grounding +- [[non-stationary-time-series]] — Non-stationary Time Series(非平稳时间序列) +- [[ntk-aware-interpolation]] — NTK-aware 位置编码插值 +- [[null-space]] — 零空间 (Null Space) +- [[null-space-projection-knowledge]] — 零空间投影知识保留 (Null Space Projection for Knowledge Retention) +- [[observability]] — Observability & Operations(可观测性与运维) +- [[off-policy-llm-post-training]] — Off-Policy LLM 后训练 +- [[on-policy-distillation]] — On-Policy Distillation (OPD) +- [[on-policy-learning-collapse]] — On-policy Learning Collapse +- [[optimal-gui-tool-path-selection]] — Optimal GUI-Tool Path Selection +- [[osworld-mcp]] — OSWorld-MCP Benchmark +- [[paley-graph]] — Paley Graph +- [[paris-harrington-theorem]] — Paris-Harrington Theorem(巴黎-哈灵顿定理) +- [[pass-at-k-vs-pass-k]] — Pass@k vs Pass^k(能力上限 vs 可靠性下限) +- [[path-tracing]] — 路径追踪 (Path Tracing) +- [[peano-arithmetic]] — 皮亚诺算术 (Peano Arithmetic, PA) +- [[perception-gap]] — 感知鸿沟 (Perception Gap) +- [[policy-reincarnation]] — Policy Reincarnation +- [[positive-sample-reinforcement]] — Positive Sample Reinforcement (PSR) +- [[post-train-space-rl]] — Post-train Space Reinforcement Learning +- [[practitioner-research-gap]] — Practitioner-Research Gap(从业者-研究鸿沟) +- [[pre-activation-history]] — Pre-Activation History +- [[pre-train-space-reinforcement-learning]] — Pre-train Space Reinforcement Learning (PreRL) +- [[prefill-as-a-service]] — Prefill-as-a-Service (PrfaaS) +- [[prefill-decode-disaggregation]] — Prefill-Decode 分离架构 (PD Disaggregation) +- [[prefix-matching]] — Prefix Matching(前缀匹配) +- [[primitive-completeness]] — Primitive Completeness (原语完备性) +- [[primitive-recursive-functions]] — 原始递归函数 (Primitive Recursive Functions) +- [[probabilistic-method]] — Probabilistic Method(概率方法) +- [[procedural-task-execution]] — 程序性任务执行 (Procedural Task Execution) +- [[program-synthesis]] — Program Synthesis (程序合成) +- [[prompt-caching]] — Prompt Caching +- [[prompt-layering]] — Prompt Layering(提示分层) +- [[prompt-reverse-engineering]] — 图片反推 Prompt (Prompt Reverse Engineering) +- [[prompt-to-harness-evolution]] — Prompt-to-Harness Evolution(三阶段工程演进) +- [[query-intent-analyzer]] — Query Intent Analyzer +- [[question-quality-vs-quantity]] — Question Quality vs. Quantity(问题质量 vs 数量) +- [[rag-systems]] — RAG 系统 +- [[ramsey-context-cache]] — Ramsey Context Cache(拉姆齐上下文缓存) +- [[ramsey-context-graph]] — Ramsey Context Graph(拉姆齐上下文图) +- [[ramsey-context-template]] — Ramsey Context Template(拉姆齐上下文模板) +- [[ramsey-numbers]] — Ramsey Numbers(拉姆齐数) +- [[ramsey-theory]] — Ramsey Theory(拉姆齐理论) +- [[ramsey-theory-applications]] — Ramsey Theory Applications(拉姆齐理论应用) +- [[random-access-binding]] — Random-Access Binding (随机访问绑定) +- [[random-graph-theory]] — Random Graph Theory(随机图理论) +- [[real-life-context-learning]] — 真实生活上下文学习 (Real-Life Context Learning) +- [[rectified-flows]] — Rectified Flows +- [[recursive-reasoning-models]] — Recursive Reasoning Models(递归推理模型) +- [[recursive-self-improvement]] — Recursive Self-Improvement (递归自我改进) +- [[reference-gap]] — 引用鸿沟 (Reference Gap) +- [[reinforcement-learning-trading]] — Reinforcement Learning Trading(强化学习交易) +- [[rejected-edit-buffer]] — Rejected-Edit Buffer (拒绝编辑缓冲) +- [[relational-graph]] — Relational Graph +- [[reliable-state-long-running-agents]] — Reliable State in Long-Running Agents(长期运行中的可靠状态) +- [[replay-buffer-rl-llm]] — Replay Buffer 在 LLM RL 中的应用 +- [[representation-alignment]] — Representation Alignment +- [[reverse-proxy-authentication]] — 反向代理认证 (Reverse Proxy Authentication) +- [[reward-hacking-llm]] — LLM 奖励黑客 (Reward Hacking in LLMs) +- [[reward-model]] — 奖励模型 (Reward Model, RM) +- [[reward-recency-sampling]] — 奖励-最近度混合采样 +- [[risograph-print-style]] — Riso 印刷风格 (Risograph Print Style) +- [[rlvr-unified-framework]] — RLVR 统一理论框架 +- [[rolling-kv-cache]] — 滚动 KV 缓存 (Rolling KV Cache) +- [[rotary-position-embedding]] — 旋转位置编码 (RoPE) +- [[round-trip-reconstruction-score]] — Round-Trip Reconstruction Score (RS@k) +- [[rule-system-application]] — 规则系统应用 (Rule System Application) +- [[russells-paradox]] — 罗素悖论 (Russell's Paradox) +- [[russian-constructivism]] — 俄国构成主义 (Russian Constructivism) +- [[s-token]] — S-Token (Superposed Token) +- [[sde-sampler-language]] — SDE Sampler for Language Diffusion +- [[searcher-trainer-decoupling]] — Searcher-Trainer 解耦架构 +- [[secure-containers]] — 安全容器 +- [[seer-attention]] — SeerAttention +- [[self-conditioning]] — Self-Conditioning +- [[self-evolving-agents]] — Self-Evolving Agents (自进化 Agent) +- [[self-evolving-benchmark]] — 自进化基准 (Self-Evolving Benchmark) +- [[self-improving-ai]] — Self-Improving AI (自我改进人工智能) +- [[self-reference]] — 自指 (Self-Reference) +- [[self-verification-rewards]] — 自我验证奖励 (Self-Verification Rewards) +- [[semantic-equivalence]] — Semantic Equivalence / 语义等价 +- [[shadow-calling]] — Shadow Calling (影子调用) +- [[shared-parameter-influence]] — Shared Parameter Influence +- [[shared-weight-discretization]] — Shared-Weight Discretization +- [[singularity]] — Singularity (奇点) +- [[sink-token]] — 汇 Token (Sink Token) +- [[skill-as-external-state]] — Skill as External State (Skill 作为外部状态) +- [[skill-data-flywheel]] — Skill Data Flywheel (Skill 数据飞轮) +- [[skill-ecosystem]] — Skill Ecosystem (Skill 生态系统) +- [[skillopt]] — SkillOpt +- [[slow-meta-update]] — Slow/Meta Update (慢/元更新) +- [[softmax-off-by-one]] — SoftMax-off-by-One +- [[sparse-attention-patterns]] — 稀疏注意力模式 (Sparse Attention Patterns) +- [[specialist-training-pipeline]] — Specialist Training Pipeline +- [[specialized-rl]] — 专项强化学习 (Specialized RL) +- [[specialized-sft]] — 专项监督微调 (Specialized SFT) +- [[spiking-neural-networks]] — Spiking Neural Networks (SNN) +- [[spurious-predictability]] — Spurious Predictability +- [[stage-matched-data-config]] — Stage-Matched Data Configuration (分阶段数据配置) +- [[standard-agent-handoffs]] — Standard Agent Handoffs(标准化 Agent 交接) +- [[staug]] — STAug (EMD-based Augmentation) +- [[stochastic-latent-trajectory]] — Stochastic Latent Trajectory(随机潜在轨迹) +- [[strategy-engineering-unification]] — Strategy-Engineering Unification (策略与工程统一) +- [[structured-knowledge]] — 结构化知识 (Structured Knowledge) +- [[stub-pattern]] — Stub Pattern(轻量化桩模式) +- [[subquadratic-transformer-alternatives]] — 次二次 Transformer 替代方案 +- [[sufficient-context-paradox]] — 充分上下文悖论 (Sufficient Context Paradox) +- [[swe-bench]] — SWE-bench +- [[symbolic-backpropagation]] — Symbolic Back-Propagation (符号反向传播) +- [[symbolic-network]] — Symbolic Network (符号网络) +- [[symbolic-regression]] — Symbolic Regression +- [[synapse-model]] — Synapse Model +- [[synthetic-data-qa-generation]] — Synthetic Data QA Generation (合成数据Q&A生成) +- [[system-2-thinking]] — System 2 思维 +- [[system-message-abuse]] — System Message Abuse(系统消息滥用) +- [[szemerédi-regularity-lemma]] — Szemerédi Regularity Lemma +- [[tabular-foundation-models]] — Tabular Foundation Models +- [[tba]] — Trajectory Balance with Asynchrony (TBA) +- [[temporal-decay-neural]] — Temporal Decay (Neural) +- [[temporal-patch-shuffle]] — Temporal Patch Shuffle (TPS) +- [[terminal-bench]] — Terminal-Bench +- [[test-time-scaling]] — Test-Time Scaling +- [[test-time-training-rl]] — 测试时训练 RL (Test-Time Training with RL) +- [[text-space-optimizer]] — Text-Space Optimizer (文本空间优化器) +- [[text-vs-weight-optimization]] — Text vs Weight Optimization (文本 vs 权重优化) +- [[textual-learning-rate]] — Textual Learning Rate (文本学习率) +- [[thompson-sampling-code-search]] — Thompson Sampling Code Search +- [[three-engineering-phases]] — Three Engineering Phases(三阶段工程演进) +- [[throughput-hypothesis]] — Throughput Hypothesis (吞吐量假说) +- [[time-series-forecasting-augmentation]] — Time Series Forecasting Augmentation +- [[time-variant-dynamics]] — Time-variant Dynamics(时变动力学) +- [[token-efficiency]] — Token 效率 (Token Efficiency) +- [[token-superposition-training]] — Token Superposition Training (TST) +- [[tool-bootstrapped-rft]] — Tool-Bootstrapped GUI RFT +- [[tool-efficient-path-reward]] — Tool-Efficient Path Reward +- [[tool-interface]] — Tool Interface & Protocol Layer(工具接口与协议层) +- [[tool-registry]] — ToolRegistry +- [[trace-native-evaluation]] — Trace-Native Evaluation(踪迹原生评估) +- [[trading-lifecycle-driven-eviction]] — Trading-Lifecycle Driven Eviction (交易生命周期驱动淘汰) +- [[trajectory-balance-objective]] — Trajectory Balance (TB) 目标 +- [[transfer-learning]] — Transfer Learning (迁移学习) +- [[two-phase-pretraining]] — Two-Phase Pre-Training +- [[ultradata]] — UltraData +- [[unconditional-generation-latent]] — Unconditional Generation via Latent Reasoning +- [[unified-rft]] — 统一拒绝采样微调 (Unified RFT) +- [[unsupervised-rlvr]] — 无监督可验证奖励强化学习 (URLVR) +- [[update-magnitude-imbalance]] — GRPO 更新幅度不平衡 +- [[userspace-kernel]] — 用户空间内核 +- [[van-der-waerden-theorem]] — van der Waerden Theorem +- [[verification-evaluation]] — Verification & Evaluation(验证与评估) +- [[visual-primitives]] — 视觉原语 (Visual Primitives) +- [[wavemask-wavemix]] — WaveMask / WaveMix +- [[width-based-scaling]] — Width-Based Scaling(宽度扩展) +- [[window-attention]] — 窗口注意力 (Window Attention) +- [[worst-case-threat-model]] — 最坏情况威胁模型 +- [[x-prediction-parameterization]] — x-Prediction Parameterization +- [[zero-cost-proxies]] — Zero-Cost Proxies (ZCP) ## Papers -- [[behrouz-memory-caching-rnn]] -- [[clawless-ai-agent-security]] -- [[darlow-ctm-2025]] — CTM: 以神经同步为表示的持续思考机器 (NeurIPS 2025) -- [[deepseek-v4-million-token-context]] -- [[dou-cl-bench]] -- [[elf-embedded-language-flows]] — ELF: 连续嵌入空间中的 Flow Matching 语言扩散模型 (2026) -- [[godel-incompleteness-tutorial]] -- [[he-urlvr-sharpening-2026]] -- [[hunyuan-team-cl-bench-life]] -- [[laban-llms-corrupt-documents-delegate]] — "LLMs Corrupt Your Documents When You Delegate" — DELEGATE-52 -- [[li-amd-human-perception]] -- [[liu-koopa-2023]] -- [[llm-attention-survey-2026]] -- [[nikolopoulos-spurious-predictability]] -- [[odrzywolek-eml-single-operator]] -- [[qin-prfaas-cross-datacenter]] -- [[ramsey-numbers-survey]] -- [[song-agent-network-taxonomy]] -- [[streaming-llm]] — StreamingLLM: 基于注意力汇的无限长流式语言模型推理框架 (ICLR 2024) -- [[tao-klowden-ai-mathematical-methods]] -- [[thinking-with-visual-primitives]] -- [[xing-trails-2024]] — Trails: 数据库原生的深度神经网络模型选择 (VLDB 2024) -- [[zeng-dynamic-model-slicing-2024]] — 数据库内的动态模型切片技术 (VLDB 2024) -- [[zeng-neurida-2025]] — NeurIDA: 动态库内建模实现有效的关系数据库分析 -- [[zhang-hyperagents]] -- [[zhao-neurdb-2025]] — NeurDB: AI 驱动的自主数据库 (CIDR 2025) -- [[zhu-moda-mixture-of-depths]] +- [[agarwal-bayesian-attention-geometry]] — The Bayesian Geometry of Transformer Attention +- [[agent-harness-engineering-survey]] — Agent Harness Engineering: A Survey +- [[bartoldson-tba-2025]] — TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练 +- [[behrouz-memory-caching-rnn]] — Memory Caching: RNNs with Growing Memory +- [[clawless-ai-agent-security]] — ClawLess: AI 代理安全模型 +- [[dai-mathforge-2026]] — MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写 +- [[darlow-ctm-2025]] — Continuous Thought Machines (CTM) +- [[deepseek-v4-million-token-context]] — DeepSeek-V4: 迈向高效百万 Token 上下文智能 +- [[dou-cl-bench]] — CL-bench: 上下文学习基准——首篇定义context learning范式的论文 +- [[elf-embedded-language-flows]] — ELF: Embedded Language Flows +- [[godel-incompleteness-tutorial]] — 哥德尔不完备定理教程 +- [[gram-generative-recursive-reasoning-paper]] — Generative Recursive Reasoning (GRAM) +- [[he-urlvr-sharpening-2026]] — How Far Can Unsupervised RLVR Scale LLM Training? +- [[hunyuan-team-cl-bench-life]] — CL-Bench Life: 真实生活上下文学习基准 +- [[kore-knowledge-injection]] — KORE: Knowledge-Oriented Controls for Knowledge Injection +- [[laban-llms-corrupt-documents-delegate]] — LLMs Corrupt Your Documents When You Delegate +- [[li-amd-human-perception]] — "Are You Sure?": Human Perception Vulnerability in LLM Agents +- [[liu-koopa-2023]] — Koopa: Koopman 预测器驱动的非平稳时间序列学习 +- [[llm-attention-survey-2026]] — 大语言模型注意力机制全面分析 +- [[lou-autoharness-2026]] — AutoHarness: LLM Agent 的自动代码 Harness 合成 +- [[nikolopoulos-spurious-predictability]] — Spurious Predictability in Financial Machine Learning +- [[odrzywolek-eml-single-operator]] — All elementary functions from a single binary operator +- [[peng-tst-2026]] — Token Superposition Training: 高效 LLM 预训练的 Token 叠加方法 +- [[pre-train-space-reinforcement-learning]] — Pre-train Space Reinforcement Learning (PreRL/DSRL) +- [[qin-prfaas-cross-datacenter]] — Prefill-as-a-Service: KVCache Goes Cross-Datacenter +- [[ramsey-numbers-survey]] — 拉姆齐数的数学综述 +- [[song-agent-network-taxonomy]] — Complex networks of AI agentic systems: 拓扑-记忆-更新三层分类法 +- [[streaming-llm]] — StreamingLLM: 基于注意力汇的高效流式语言模型 +- [[tao-klowden-ai-mathematical-methods]] — Mathematical methods and human thought in the age of AI +- [[thinking-with-visual-primitives]] — Thinking with Visual Primitives — 以视觉原语思考 +- [[toolcua-optimal-gui-tool-orchestration]] — ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents +- [[when-large-multimodal-models-confront-evolving-knowledge]] — When Large Multimodal Models Confront Evolving Knowledge +- [[xing-trails-2024]] — Trails: Database Native Model Selection (VLDB 2024) +- [[yang-skillopt-2026]] — SkillOpt: Agent Skill 的文本空间优化器 +- [[zeng-dynamic-model-slicing-2024]] — Powering In-Database Dynamic Model Slicing for Structured Data Analytics (VLDB 2 +- [[zeng-neurida-2025]] — NeurIDA: Dynamic Modeling for Effective In-Database Analytics +- [[zhang-hyperagents]] — Hyperagents: Self-Referential Agents with Metacognitive Self-Modification +- [[zhao-neurdb-2025]] — NeurDB: On the Design and Implementation of an AI-powered Autonomous Database (C +- [[zhou-agent-symbolic-learning-2024]] — Agent Symbolic Learning: 用符号学习实现自进化 Agent +- [[zhu-moda-mixture-of-depths]] — Mixture-of-Depths Attention (MoDA) ## Articles +- [[caddy-reverse-proxy-auth]] — Caddy 反向代理认证方案 +- [[claw-eval]] — Claw-Eval:面向自主Agent的端到端评测框架 +- [[crawl4ai-open-source-web-crawler]] — Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具 +- [[distributed-agent-cache-sync-2026]] — 分布式Agent缓存同步:从单机到多机的Prompt Caching架构升级 +- [[gpt-image2-prompt-collection]] — GPT-Image-2 绘图 Prompt 方法论与风格合集 +- [[lyu-model-harness-evolution-2026]] — Model与Harness的关系演进:从AutoHarness到Heuristic Learning +- [[lyu-skillopt-deep-dive-2026]] — SkillOpt深度解读:自进化Agent技能的'反向传播'与工程化Continued Evolve +- [[mini-agent-harness]] — 从零搭建 Mini Agent Harness +- [[oppo-multimodal-data-lake]] — OPPO 多模态数据湖架构实践 +- [[prompt-caching-architecture]] — Prompt Caching 架构工程手册 +- [[ramsey-context-construction]] — 上下文构造与拉姆齐数 +- [[temporal-patch-shuffle-tps]] — 时序预测增强方法综述:从频域到 TPS +- [[ultradata-l3-open-source-2026]] — UltraData:面壁智能L3数据开源与数据分级治理体系 -- [[caddy-reverse-proxy-auth]] -- [[crawl4ai-open-source-web-crawler]] -- [[gpt-image2-prompt-collection]] -- [[oppo-multimodal-data-lake]] -- [[prompt-caching-architecture]] -- [[ramsey-context-construction]] ## Special Pages -- [[SCHEMA]] — Wiki 结构规范 -- [[log]] — 变更日志 -- [[README]] — Wiki 说明 +- [[index]] — +- [[log]] — +- [[README]] — +- [[SCHEMA]] — ## Reviews -- [[ctm-review-20260515]] — CTM 论文集成 Review (2026-05-15) \ No newline at end of file +- [[toolcua-review-20260531]] — ToolCUA Review: GUI-Tool路径编排的概念网络分析 + + +- [[agent-harness-engineering-review-20260523]] — Review: Agent Harness Engineering Survey +- [[agent-network-taxonomy-review-20260501]] — Agent网络三层分类法 — Review 报告 +- [[cl-bench-life-review-20260501]] — CL-Bench Life 论文集成 Review +- [[cl-bench-review-20260501]] — CL-bench 论文集成 Review +- [[clawless-review-20260422]] — ClawLess: AI 代理安全模型 - Review 报告 +- [[ctm-review-20260515]] — Continuous Thought Machines 论文集成 Review +- [[delegate52-review-20260514]] — DELEGATE-52 Review +- [[distributed-agent-cache-sync-review]] — Review: 分布式Agent缓存同步 +- [[elf-embedded-language-flows-review-20260513]] — Review: ELF — Embedded Language Flows +- [[godel-tutorial-review-20260428]] — 哥德尔不完备定理教程 — Review 报告 +- [[hyperagents-review-20260420]] — 📚 Wiki 添加 Review 报告 - Hyperagents 论文 +- [[koopa-review-20260511]] — Review: Koopa — Koopman 预测器驱动的非平稳时序学习 +- [[kore-review-20260521]] — KORE Review +- [[llm-attention-survey-review-20260429]] — Review: 大语言模型注意力机制全面分析 +- [[lou-autoharness-review]] — Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent +- [[lyu-model-harness-review]] — Review: Model与Harness的关系演进 +- [[lyu-skillopt-deep-dive-review]] — Review: SkillOpt深度解读 — 自进化Agent的'反向传播' +- [[mathforge-review-20260512]] — MathForge Review — 2026-05-12 +- [[neurida-review-20260515]] — NeurIDA 论文集成 Review +- [[peng-tst-2026-review]] — Review: Token Superposition Training +- [[pretrain-space-rl-review-20260518]] — Review: Pre-train Space Reinforcement Learning +- [[prompt-caching-architecture-review-20260511]] — Review: Prompt Caching 架构工程手册 +- [[ramsey-context-construction-review-20260511]] — Review: 上下文构造与拉姆齐数 +- [[ramsey-numbers-survey-review-20260511]] — Review: 拉姆齐数的数学综述 +- [[streaming-llm-review-20260514]] — Review: StreamingLLM — 基于注意力汇的无限长流式语言模型 +- [[tba-review-20260512]] — TBA Review — 2026-05-12 +- [[thinking-with-visual-primitives-review-20260430]] — Review — Thinking with Visual Primitives +- [[ultradata-l3-review]] — Review: UltraData — 大模型数据分级治理的开源实践 +- [[yang-skillopt-review]] — Review: SkillOpt — Agent Skill 的文本空间优化器 +- [[zhou-agent-symbolic-learning-review]] — Review: Agent Symbolic Learning — 符号学习驱动的自进化Agent \ No newline at end of file diff --git a/log.md b/log.md index 3f94dc3..d4bdee3 100644 --- a/log.md +++ b/log.md @@ -9,6 +9,121 @@ + + + + + + + + + + + + + + +## [2026-05-31] ingest | ToolCUA: Optimal GUI-Tool Path Orchestration (arXiv:2605.12481, 2026) +- 添加论文 [[toolcua-optimal-gui-tool-orchestration]]: "ToolCUA: 面向CUA的最优GUI-Tool路径编排" — 通过合成数据+分阶段RL学习GUI-Tool杂交动作空间的最优切换策略 +- 新增 8 个概念页: [[computer-use-agents]], [[gui-tool-hybrid-action-space]], [[optimal-gui-tool-path-selection]], [[interleaved-gui-tool-trajectory-scaling]], [[tool-bootstrapped-rft]], [[tool-efficient-path-reward]], [[osworld-mcp]], [[next-state-grounding]] +- 来源: https://arxiv.org/abs/2605.12481 +- 代码: https://github.com/X-PLUG/ToolCUA + +## [2026-05-30] — ingest-supplement | Agent Harness Engineering: A Survey (TMLR 2026) +- 补充 8 个概念页:[[agent-observability]], [[agent-verification]], [[agent-governance]], [[practitioner-research-gap]], [[agent-sandbox]], [[context-drift]], [[three-engineering-phases]], [[multi-agent-orchestration]] +- 保存完整 PDF 至 raw/papers/agent-harness-engineering-survey-2026.pdf +- 原始论文已于 2026-05-23 部分集成(paper 主页面 + 17 个核心概念),本次补充 ETCLOVG 独立层概念和跨层概念 + +## [2026-05-29] ingest | Agent Symbolic Learning (arXiv:2406.18532, arXiv cs.CL 2024) +- 添加论文 [[zhou-agent-symbolic-learning-2024]]: "Symbolic Learning Enables Self-Evolving Agents" — Agent作为符号网络,模仿BP+GD实现自进化(SkillOpt/Heuristic Learning的重要前驱) +- 新增 6 个概念页: [[agent-symbolic-learning]], [[symbolic-network]], [[language-gradient]], [[language-loss]], [[symbolic-backpropagation]], [[self-evolving-agents]] +- 来源: https://arxiv.org/abs/2406.18532 +- 作者: Wangchunshu Zhou et al. (AIWaves) + +## [2026-05-29] ingest | UltraData L3开源与数据分级治理 (Datawhale, 面壁智能) +- 添加文章 [[ultradata-l3-open-source-2026]]: "UltraData:面壁智能L3数据开源与L0-L4数据分级治理体系" — 600B合成数据+千万SFT,MiniCPM5-1B登顶 +- 新增 6 个概念页: [[data-hierarchical-governance]], [[ultradata]], [[synthetic-data-qa-generation]], [[stage-matched-data-config]], [[deep-thinking-sft]], [[data-quality-over-scale]] +- 来源: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw + +## [2026-05-29] ingest | SkillOpt深度解读 (微信公众号, 吕明, ~1.2万字) +- 添加文章 [[lyu-skillopt-deep-dive-2026]]: "SkillOpt深度解读:自进化Agent技能的'反向传播'与工程化Continued Evolve" — 文本vs权重优化的深层分野、受控自主性、数据飞轮、双层RL +- 新增 5 个概念页: [[text-vs-weight-optimization]], [[controlled-autonomy]], [[skill-data-flywheel]], [[skill-ecosystem]], [[dual-layer-rl]] +- 来源: https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw + +## [2026-05-29] ingest | SkillOpt (arXiv:2605.23904, arXiv cs.AI 2026) +- 添加论文 [[yang-skillopt-2026]]: "SkillOpt: Executive Strategy for Self-Evolving Agent Skills" — 首个系统性 Agent Skill 文本空间优化器,52/52 best,平均+23.5 pts +- 新增 7 个概念页: [[skillopt]], [[text-space-optimizer]], [[textual-learning-rate]], [[held-out-validation-gate]], [[rejected-edit-buffer]], [[slow-meta-update]], [[skill-as-external-state]] +- 来源: https://arxiv.org/abs/2605.23904 +- 作者: Yifan Yang et al. (Microsoft, SJTU, Tongji, Fudan) + +## [2026-05-29] ingest | Model与Harness的关系演进 (微信公众号, 吕明) +- 添加文章 [[lyu-model-harness-evolution-2026]]: "Model与Harness的关系演进:从AutoHarness到Heuristic Learning" — GenAI三支柱、策略与工程统一、编译型AI新范式 +- 新增 6 个概念页: [[model-harness-relationship]], [[harness-engineering]], [[heuristic-learning]], [[strategy-engineering-unification]], [[compiled-ai-paradigm]], [[generative-general-unification]] +- 来源: https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g +- 作者: 吕明 + +## [2026-05-29] ingest | AutoHarness (arXiv:2603.03329, arXiv cs.CL 2026) +- 添加论文 [[lou-autoharness-2026]]: "AutoHarness: improving LLM agents by automatically synthesizing a code harness" — 自动合成代码harness消除Agent非法动作,Code-as-Policy超越GPT-5.2-High +- 新增 7 个概念页: [[autoharness]], [[code-as-harness]], [[harness-as-action-verifier]], [[harness-as-policy]], [[thompson-sampling-code-search]], [[iterative-code-refinement]], [[action-applicability]] +- 来源: https://arxiv.org/abs/2603.03329 +- 作者: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy (Google DeepMind) + +## [2026-05-29] ingest | 分布式Agent缓存同步 (微信公众号) +- 添加文章 [[distributed-agent-cache-sync-2026]]: "分布式Agent缓存同步" — 多机分布式Prompt Caching架构的工业级工程实践(量化交易场景) +- 新增 10 个概念页: [[distributed-prompt-caching]], [[cache-cold-start]], [[global-context-hash-tree]], [[active-cache-warmup]], [[shadow-calling]], [[distributed-optimistic-locking]], [[bypass-network-handle-distribution]], [[context-pruning]], [[trading-lifecycle-driven-eviction]], [[distributed-cache-routing]] +- 来源: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw +- 类型: 微信公众号技术文章 (LLM + 量化交易系列) + +## [2026-05-29] ingest | Token Superposition Training (arXiv:2605.06546, arXiv cs.CL 2026) +- 添加论文 [[peng-tst-2026]]: "Efficient Pre-Training with Token Superposition" — TST 两阶段预训练方法,等 loss 下 2.5× 训练加速 +- 新增 7 个概念页: [[token-superposition-training]], [[multi-hot-cross-entropy]], [[input-superposition]], [[two-phase-pretraining]], [[representation-alignment]], [[coarse-to-fine-granularity]], [[throughput-hypothesis]] +- 来源: https://arxiv.org/abs/2605.06546 +- 作者: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research) + +## [2026-05-26] ingest | The Bayesian Geometry of Transformer Attention (arXiv:2512.22471, 2026) +- 添加论文 [[agarwal-bayesian-attention-geometry]]: "The Bayesian Geometry of Transformer Attention" — Bayesian Attention Trilogy Paper I +- 新增 8 个概念页: [[bayesian-wind-tunnels]], [[inference-primitives]], [[belief-accumulation]], [[belief-transport]], [[random-access-binding]], [[primitive-completeness]], [[bayesian-attention-geometry]], [[bayesian-attention-trilogy]] +- 来源: https://arxiv.org/abs/2512.22471 + +## [2026-05-26] ingest | 时序预测增强方法综述:TPS (WeChat Article, DeepHub/数据派THU, 2026) +- 添加文章 [[temporal-patch-shuffle-tps]]: "时序预测增强方法综述:从频域到 TPS" — 涵盖频域/时频域/分解/Patch 四类方法 +- 新增 8 个概念页: [[temporal-patch-shuffle]], [[time-series-forecasting-augmentation]], [[data-label-consistency]], [[freqmask-freqmix]], [[wavemask-wavemix]], [[dominant-shuffle]], [[staug]], [[forecasting-augmentation-taxonomy]] +- 来源: https://mp.weixin.qq.com/s/hPvx3OflUva1olME9F8FoA + +## [2026-05-26] ingest | 从零搭建 Mini Agent Harness (WeChat Article, 2026) +- 添加文章 [[mini-agent-harness]]: "从零搭建 Mini Agent Harness" — 陈思州/Datawhale +- 新增 8 个概念页: [[agent-harness-mini]], [[agent-eval-trace]], [[agent-eval-grader]], [[agent-eval-case-design]], [[agent-computer-interface]], [[terminal-bench]], [[anthropic-agent-evals]], [[swe-bench]] +- 来源: https://mp.weixin.qq.com/s/yVFQej3dFk9KHv6J2u6Lew + +## [2026-05-23] ingest | Generative Recursive Reasoning (GRAM) (arXiv:2605.19376, 2026) +- 添加论文 [[gram-generative-recursive-reasoning-paper]]: "Generative Recursive Reasoning" — 将确定性递归推理升级为概率性多轨迹计算(Baek, Jo, Kim, Ren, Bengio, Ahn; KAIST/Mila/NYU/UdeM) +- 新增 11 个概念页: [[recursive-reasoning-models]], [[gram-generative-recursive-reasoning]], [[stochastic-latent-trajectory]], [[multi-trajectory-inference]], [[inference-time-scaling]], [[width-based-scaling]], [[latent-variable-generative-model]], [[amortized-variational-inference]], [[deep-and-wide-reasoning]], [[multi-solution-recovery]], [[unconditional-generation-latent]] +- 来源: https://arxiv.org/abs/2605.19376 +- Wiki 规模: 406 → 418 页 + +## [2026-05-23] ingest | Claw-Eval:面向自主Agent的端到端评测框架(ModelScope) +- 添加文章 [[claw-eval]]: "Claw-Eval" — 300 人工验证任务、Completition/Safety/Robustness 三维护评分、14 前沿模型评测 +- 新增 9 个概念页: [[agent-evaluation-paradigm-shift]], [[agent-process-evaluation]], [[pass-at-k-vs-pass-k]], [[agent-safety-evaluation]], [[agent-robustness-evaluation]], [[agent-capability-stability-gap]], [[question-quality-vs-quantity]], [[agent-multidimensional-capability]], [[agent-completion-evaluation]] +- 来源: https://mp.weixin.qq.com/s/4oY35c9SmweJ4Vi0KztVOA (ModelScope 公众号) +- Wiki 规模: 396 → 406 页 + +## [2026-05-23] ingest | Agent Harness Engineering: A Survey (TMLR 2026, under review) +- 添加论文 [[agent-harness-engineering-survey]]: "Agent Harness Engineering: A Survey" — 提出 ETCLOVG 七层分类法、170+ 开源项目映射、跨层综合与五大开放问题 +- 新增 21 个概念页: [[agent-harness-engineering]], [[etclovg-taxonomy]], [[execution-environment]], [[tool-interface]], [[context-management]], [[lifecycle-orchestration]], [[observability]], [[verification-evaluation]], [[governance-security]], [[cost-quality-speed-trilemma]], [[capability-control-tradeoff]], [[harness-coupling-problem]], [[binding-constraint-thesis]], [[prompt-to-harness-evolution]], [[trace-native-evaluation]], [[standard-agent-handoffs]], [[adaptive-harness-simplification]], [[hardening-execution-environments]], [[reliable-state-long-running-agents]], [[context-state-estimation]], [[agent-frameworks-to-platforms]] +- 来源: 用户上传 PDF(用户 o9cq80wQvcn_qxHaHlEso2Bn3qoU@im.wechat) +- Wiki 规模: 373 → 395 页 + +## [2026-05-21] ingest | KORE (arXiv:2510.19316, ICML 2026) +- 添加论文 [[kore-knowledge-injection]]: "KORE: Enhancing Knowledge Injection via Knowledge-Oriented Controls" — 知识导向控制协同方法,零空间投影+知识树实现适应与保留双优 +- 新增 6 个概念页: [[kore-augmentation]], [[kore-constraint]], [[knowledge-tree]], [[null-space-projection-knowledge]], [[covariance-matrix-knowledge]], [[hars]] +- KORE 是 MMEVOKE 系列工作的解决方案论文,同一作者团队 +- 来源: https://arxiv.org/abs/2510.19316 + +## [2026-05-21] ingest | When Large Multimodal Models Confront Evolving Knowledge (arXiv:2505.24449, ICLR 2026) +- 添加论文 [[when-large-multimodal-models-confront-evolving-knowledge]]: "When Large Multimodal Models Confront Evolving Knowledge" — 多模态进化知识注入首个基准MMEVOKE,揭示双重挑战并探索知识增强与保留方案 +- 新增 12 个概念页: [[evolving-knowledge-injection]], [[mme-voke]], [[knowledge-aware-augmentation]], [[knowledge-agnostic-augmentation]], [[capability-degradation]], [[data-replay]], [[moe-lora]], [[multimodal-rag]], [[knowledge-retention]], [[knowledge-adaptation]], [[self-evolving-benchmark]], [[sufficient-context-paradox]] +- 来源: https://arxiv.org/abs/2505.24449 + ## 2026-05-15 — ingest | Continuous Thought Machines (arXiv:2505.05522, NeurIPS 2025) - 添加论文 [[darlow-ctm-2025]]: "Continuous Thought Machines" — 以神经同步为表示的新型架构,NLMs + Neural Synchronization 两大创新 - 新增 11 个概念页: [[continuous-thought-machine]], [[neuron-level-models]], [[neural-synchronization]], [[internal-ticks]], [[synapse-model]], [[certainty-based-loss]], [[adaptive-computation-time]], [[internal-world-model]], [[neuron-pairing]], [[temporal-decay-neural]], [[pre-activation-history]] @@ -41,6 +156,12 @@ + +## [2026-05-18] ingest | Pre-train Space Reinforcement Learning (arXiv:2604.14142, 2026) +- 添加论文 [[pre-train-space-reinforcement-learning]]: "Pre-train Space RL" — 在预训练空间中应用 RL,NSR-PreRL 剪枝错误路径并激发内生推理,DSRL 全面超越 GRPO +- 新增 11 个概念页: [[pre-train-space-reinforcement-learning|PreRL]], [[dual-space-rl|DSRL]], [[post-train-space-rl]], [[negative-sample-reinforcement|NSR]], [[positive-sample-reinforcement|PSR]], [[gradient-alignment]], [[policy-reincarnation]], [[endogenous-reasoning]], [[shared-parameter-influence]], [[distribution-shift]], [[on-policy-learning-collapse]] +- 来源: https://arxiv.org/abs/2604.14142 + ## [2026-05-14] ingest | StreamingLLM: 基于注意力汇的高效流式语言模型 (arXiv:2309.17453, ICLR 2024) - 添加论文 [[streaming-llm]]: "Efficient Streaming Language Models with Attention Sinks" — 发现 Attention Sink 现象,提出无需微调的无限长流式推理框架 - 新增 5 个概念页: [[length-extrapolation]], [[rolling-kv-cache]], [[sink-token]], [[softmax-off-by-one]], [[window-attention]] diff --git a/papers/agarwal-bayesian-attention-geometry.md b/papers/agarwal-bayesian-attention-geometry.md new file mode 100644 index 0000000..28c832b --- /dev/null +++ b/papers/agarwal-bayesian-attention-geometry.md @@ -0,0 +1,71 @@ +--- +title: "The Bayesian Geometry of Transformer Attention" +authors: "Naman Agarwal, Siddhartha R. Dalal, Vishal Misra" +arxiv: "2512.22471" +year: 2026 +venue: "arXiv (cs.LG)" +series: "Bayesian Attention Trilogy, Paper I" +type: "paper" +tags: ["bayesian-inference", "transformers", "attention", "geometry", "inference-primitives", "mamba"] +--- + +# The Bayesian Geometry of Transformer Attention + +> 首次实证证明:小型 Transformer 可以在受控环境中实现精确的贝叶斯后验(10⁻³–10⁻⁴ bit accuracy),且这不是规模效应,而是注意力架构的**推理原语完备性**。 + +## 核心问题 + +"Transformer 是在做真正的贝叶斯推理,还是仅仅是模式匹配?" + +自然语言没有 ground-truth posterior 可验证,大模型也无法隔离记忆效应。本文用 **[[bayesian-wind-tunnels|Bayesian wind tunnels]]** 解决这个可验证性问题。 + +## 方法论:Bayesian Wind Tunnels + +受控预测环境,三个条件: +1. 解析 posterior 每一步都精确已知 +2. 假设空间太大,记忆在计算上不可行 +3. in-context prediction 需要真正的概率推理 + +→ 将定性问题转化为定量测试:模型的预测熵是否与解析 posterior 熵逐位置匹配? + +## 推理三原语 + +贝叶斯推理分解为三个原语: + +| 原语 | 定义 | 所需任务 | +|------|------|---------| +| [[belief-accumulation]] | 证据累积为 running posterior | 双射学习、HMM | +| [[belief-transport]] | 信念在随机动态下传播 | HMM 滤波 | +| [[random-access-binding]] | 按内容而非位置检索 | 联想回忆 | + +详见 [[inference-primitives|推理原语分类法]]。 + +## 架构可实现性 + +| 架构 | 累积 | 传输 | 绑定 | 地位 | +|------|:---:|:---:|:---:|------| +| Transformer | ✅ | ✅ | ✅ | **原语完备** | +| Mamba | ✅ | ✅ | ❌ | HMM 滤波 SOTA | +| LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 | +| MLP | ❌ | ❌ | ❌ | 统一失败 | + +核心结论:**[[primitive-completeness|原语完备性]]** — Transformer 是实现全部三原语的最小架构,这是其在推理任务中占主导的结构性原因。 + +## 几何诊断 + +详见 [[bayesian-attention-geometry]]: +- 注意力头中的 **正交 key 基** +- 被 posterior 熵参数化的 **低维 value 流形** +- Mamba 最终层组织为 **5 个簇** — 对应 HMM 隐藏状态 + +## 三部曲定位 + +本文是 [[bayesian-attention-trilogy]] 的第一篇(Lemma 1): +- **Paper I**(本文):存在性 + 内部几何 +- **Paper II**:贝叶斯结构从交叉熵梯度动力学中自然涌现 +- **Paper III**:原语在部分可观测环境中如何组合 + +## 相关页面 + +- [[mamba-ssm]] — Mamba 选择性状态空间模型 +- [[binding-constraint-thesis]] — 绑定的约束理论 diff --git a/papers/agent-harness-engineering-survey.md b/papers/agent-harness-engineering-survey.md new file mode 100644 index 0000000..6b963a6 --- /dev/null +++ b/papers/agent-harness-engineering-survey.md @@ -0,0 +1,69 @@ +--- +title: "Agent Harness Engineering: A Survey" +created: 2026-05-23 +updated: 2026-05-23 +type: paper +tags: [agent, infrastructure, harness, taxonomy, survey, production] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +confidence: high +--- + +# Agent Harness Engineering: A Survey + +> **核心论点**:LLM Agent 在生产环境中的可靠性瓶颈不在模型本身,而在包裹模型的**基础设施层——Agent Execution Harness**。 + +## 基本信息 + +- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等(CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon) +- **投稿**: TMLR (Transactions on Machine Learning Research), 2026 +- **项目页**: Awesome-Agent-Harness +- **规模**: 51 页,170+ 开源项目映射 + +## 三大贡献 + +### 1. 约束瓶颈论(Binding-Constraint Thesis) + +Agent 的可靠性不取决于模型,而取决于 Harness 的工程质量。论文通过三阶段工程演进(Prompt → Context → Harness)、跨层综合分析(三元悖论、能力-控制权衡、耦合问题)和开放问题议程来支撑这一论点。 + +详细讨论:[[binding-constraint-thesis]] + +### 2. ETCLOVG 七层分类法 + +将 Agent Harness 拆分为七个独立架构层: +- **E**xecution Environment(执行环境)——沙箱、容器、浏览器环境 +- **T**ool Interface(工具接口)——工具描述、发现、调用、MCP 协议 +- **C**ontext Management(上下文管理)——短/中/长期记忆、上下文漂移 +- **L**ifecycle/Orchestration(生命周期编排)——单 Agent 循环、多 Agent 协调 +- **O**bservability(可观测性)——追踪、成本、可靠性信号 +- **V**erification(验证评估)——任务评估、失败归因、回归反馈 +- **G**overnance(治理安全)——权限、身份、审计、人机协同 + +详细讨论:[[etclovg-taxonomy]] + +### 3. 生态系统映射 + +对 170+ 开源项目按 ETCLOVG 分类,揭示采用模式、覆盖缺口和新兴设计原则。 + +## 跨层综合(Cross-Layer Synthesis) + +- **[[cost-quality-speed-trilemma]]**:成本、质量、速度三者不可兼得,需要在不同代理生命周期阶段做权衡 +- **[[capability-control-tradeoff]]**:更强的 Harness 给 Agent 更多能力,但每次能力扩展都增大控制问题 +- **[[harness-coupling-problem]]**:Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试 + +## 五大开放问题 + +1. [[hardening-execution-environments]] — 硬化与扩展执行环境 +2. [[reliable-state-long-running-agents]] — 长时间运行 Agent 中的可靠状态维护 +3. [[trace-native-evaluation]] — 从 Agent 踪迹中诊断失败 +4. [[standard-agent-handoffs]] — Agent、工具、人类之间的标准化交接 +5. [[adaptive-harness-simplification]] — 在模型能力提升时保持 Harness 有用性 + +## 三阶段工程演进 + +[[prompt-to-harness-evolution]] 描述了从 Prompt Engineering → Context Engineering → Harness Engineering 的三个阶段,每一阶段都在前一阶段基础上扩展,约束瓶颈逐步上移。 + +## 关键引用 + +- Bölük (2026a): "只改变了 harness,15 个 LLM 的编程能力同时提升" +- Anthropic (2026a): "基础设施设置可以可测量地改变 benchmark 分数" +- OpenAI (2026): "Harness engineering 是保持人类注意力、仓库状态和 Agent 执行对齐的学科" diff --git a/papers/gram-generative-recursive-reasoning-paper.md b/papers/gram-generative-recursive-reasoning-paper.md new file mode 100644 index 0000000..cee15b1 --- /dev/null +++ b/papers/gram-generative-recursive-reasoning-paper.md @@ -0,0 +1,73 @@ +--- +title: "Generative Recursive Reasoning (GRAM)" +created: 2026-05-23 +updated: 2026-05-23 +type: paper +tags: [reasoning, recursive, generative, latent-variable, inference-scaling] +sources: [raw/papers/gram-generative-recursive-reasoning-2026.md] +confidence: high +--- + +# Generative Recursive Reasoning + +> 核心问题:未来的神经推理系统如何实现**扩展计算**?答案:将递归推理从确定性**单轨迹**升级为概率性**多轨迹**计算。 + +## 基本信息 + +- **作者**: Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn(KAIST x Mila x NYU x UdeM) +- **arXiv**: [2605.19376](https://arxiv.org/abs/2605.19376) (v2, 2026-05-19) +- **领域**: cs.AI +- **项目页**: https://ahn-ml.github.io/gram-website + +## 动机:RRM 的确定性困境 + +**[[recursive-reasoning-models|RRM]]**(如 HRM、TRM)通过共享转移函数的迭代潜在状态精炼来实现扩展计算,而非像自回归模型那样延长生成序列。但现有 RRM 是**确定性的**——相同输入总是产生相同的单条推理路径,收敛到唯一预测。 + +这在需要**多假设探索**和**多解恢复**的问题中是致命的: +- 单一精炼路径可能被困在次优推理轨迹中 +- 无法在推理时进行并行扩展 + +## GRAM:概率性递归推理 + +**[[gram-generative-recursive-reasoning|GRAM]]** 的核心将推理过程重新定义为**随机潜在轨迹**([[stochastic-latent-trajectory]]): + +- 每个递归步采样一个**条件于输入和当前状态的转移**,而非确定性更新 +- 重复过程 -> 推理轨迹上的**分布** +- 通过**边缘化**所有轨迹得到最终预测 + +### 三种关键能力 + +| 能力 | 实现方式 | +|------|---------| +| 多假设维持 | 从分布中采样多条推理路径 | +| 替代策略探索 | 不同轨迹探索不同解空间 | +| [[inference-time-scaling]] | 增加递归深度 + 并行采样轨迹 | + +### 双向生成能力 + +- **条件推理**: p_theta(y|x) — 给定输入,边缘化推理轨迹 +- **无条件生成**: p_theta(x) — 固定/缺失输入时,同一个递归过程可生成数据 + +## 架构:双层嵌套递归 + +- **内层(Inner Loop)**: K 次低层精炼,产生确定性提议 u_t,加上随机引导 eps_t -> h_t = u_t + eps_t +- **外层(Outer Loop)**: N_sup 个 supervision step 递归叠加 +- 训练: [[amortized-variational-inference|摊销变分推断]](CE loss + KL divergence) + +## 实验 + +| 任务 | 考察维度 | +|------|---------| +| Sudoku-Extreme | 硬约束下的结构化推理 | +| ARC-AGI | 抽象变换 | +| N-Queens + Graph Coloring | [[multi-solution-recovery|多解恢复]] | +| Binarized MNIST | 无条件生成能力 | + +## 与推理扩展方向的关系 + +GRAM 提供了一条与 Chain-of-Thought 和扩散推理都**互补**的路径: +- CoT = 显式 token 级扩展 +- Diffusion Reasoning = 连续空间扩散 +- GRAM = **离散潜在空间中的随机递归** + +详见 [[deep-and-wide-reasoning]] diff --git a/papers/kore-knowledge-injection.md b/papers/kore-knowledge-injection.md new file mode 100644 index 0000000..9d554c5 --- /dev/null +++ b/papers/kore-knowledge-injection.md @@ -0,0 +1,77 @@ +--- +title: "KORE: Knowledge-Oriented Controls for Knowledge Injection" +authors: ["Kailin Jiang", "Hongbo Jiang", "Ning Jiang", "Zhi Gao", "Jinhe Bi", "Yuchen Ren", "Bin Li", "Yuntao Du", "Lei Liu", "Qing Li"] +date: 2026 +arxiv: "2510.19316" +venue: "ICML 2026" +type: paper +tags: ["multimodal", "knowledge-injection", "continual-learning", "lora", "null-space"] +--- + +# KORE: Enhancing Knowledge Injection via Knowledge-Oriented Controls + +> ICML 2026 | [[arxiv|https://arxiv.org/abs/2510.19316]] | [kore-lmm.github.io](https://kore-lmm.github.io/) + +## 核心问题 + +LMM 的知识是**静态的**,无法跟上现实世界发展。有效的[[evolving-knowledge-injection|知识注入]]需要同时满足两个目标:[[knowledge-adaptation|知识适应]](注入新知识)和 [[knowledge-retention|知识保留]](保持旧能力)。现有方法在两者之间难以平衡——要么泛化差,要么灾难性遗忘。 + +KORE 是 MMEVOKE 系列工作的**解决方案论文**(同一作者团队),提出了基于**知识导向控制**的协同方法。 + +## 核心方法 + +### 1. KORE-AUGMENTATION:知识导向增强 + +[[kore-augmentation|KORE-AUGMENTATION]] 将单个知识项自动转化为**结构化的知识树**(74K 训练数据): + +- **主干(Trunk)**:多轮对话数据 —— 启发式 Q&A + GPT-4o 生成的最多 10 轮对话 +- **分支(Branches)**:指令任务数据 —— 视觉识别、图像描述、VQA(46,468 样本) + +这与[[knowledge-aware-augmentation|知识感知增强]]和[[knowledge-agnostic-augmentation|知识无关增强]]有本质区别:不仅是表面变换,而是构建了一个**连贯的知识结构**,实现了从"数据记忆"到"**知识内化**"的跨越。 + +### 2. KORE-CONSTRAINT:知识导向约束 + +[[kore-constraint|KORE-CONSTRAINT]] 的核心思想是**在零空间中微调,不干扰已有知识**: + +1. 从 LMM 线性层的激活中计算[[covariance-matrix-knowledge|协方差矩阵]] C = XX^T,存储先前知识 +2. 对 C 进行 SVD 分解,提取其**零空间**(对应最小奇异值的向量) +3. 将预训练权重 W₀ 投影到零空间中初始化 LoRA adapter +4. 冻结 A 矩阵在零空间内,仅微调 B + +这确保了更新项 BAC ≈ 0 —— 无论 B 如何变化,都不会干扰已存储的旧知识。 + +### 3. HARS 评估指标 + +[[hars|HARS]](Harmonized Adaptation-Retention Score)将知识适应和知识保留统一为一个调和指标,类似 F1 平衡 Precision 和 Recall。 + +## 实验结果(LLaVA-v1.5 7B) + +| 方法 | K.A (CEM↑) | K.R (Avg↑) | HARS↑ | +|------|-----------|-----------|-------| +| Vanilla | 4.89 | 46.74 | — | +| Full-FT | 18.02 | 16.09 | 16.60 | +| LoRA | 15.23 | 41.38 | 16.77 | +| Replay | 14.58 | 44.18 | 17.29 | +| MoELoRA | 16.22 | 31.55 | 20.17 | +| O-LoRA | 14.50 | 44.52 | 17.39 | +| **KORE** | **30.65** | **51.75** | **35.96** | + +KORE 在知识适应上**翻倍**于最佳 baseline(30.65 vs 18.02),且在知识保留上**超越** Vanilla(51.75 vs 46.74),实现了真正的**正向保留**。 + +## 关键洞察 + +1. **结构化 > 离散化**:构建知识树比生成孤立变体更有效 +2. **零空间 > 正则化**:在零空间中微调比 EWC/LwF 的间接约束更精确 +3. **增量能力**:通过冻结 A 矩阵,KORE 支持顺序注入多批知识而不遗忘 +4. **通用性**:在 LLaVA-v1.5 (7B/13B) 和 Qwen2.5-VL (7B) 上均验证有效 + +## 概念链接 + +- [[kore-augmentation]] — 知识导向增强:树干+树枝的知识树构建 +- [[kore-constraint]] — 知识导向约束:零空间投影微调 +- [[knowledge-tree]] — 知识树:结构化知识表示 +- [[null-space-projection-knowledge]] — 零空间投影知识保留 +- [[covariance-matrix-knowledge]] — 协方差矩阵存储知识 +- [[hars]] — 调和适应保留评分 +- [[evolving-knowledge-injection]] — 进化知识注入(前置工作) +- [[mme-voke]] — MMEVOKE 基准(使用 EVOKE 评估) \ No newline at end of file diff --git a/papers/lou-autoharness-2026.md b/papers/lou-autoharness-2026.md new file mode 100644 index 0000000..713e6f8 --- /dev/null +++ b/papers/lou-autoharness-2026.md @@ -0,0 +1,61 @@ +--- +title: "AutoHarness: LLM Agent 的自动代码 Harness 合成" +created: 2026-05-29 +updated: 2026-05-29 +type: paper +arxiv: "2603.03329" +authors: ["Xinghua Lou", "Miguel Lázaro-Gredilla", "Antoine Dedieu", "Carter Wendelken", "Wolfgang Lehrach", "Kevin P. Murphy"] +venue: "arXiv cs.CL, February 2026" +tags: ["agent", "code-synthesis", "game-playing", "harness", "LLM"] +sources: ["https://arxiv.org/abs/2603.03329"] +--- + +# AutoHarness: 自动合成代码 Harness 来改进 LLM Agent + +> **论文**: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329 + +## 核心问题 + +LLM Agent 在游戏等结构环境中频繁产出**非法动作**:在 Kaggle GameArena 国际象棋比赛中,Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误,而是**根本违反规则**。 + +传统方案(手写 harness / fine-tuning)要么脆弱费力,要么昂贵且损害通用能力。**能否让 LLM 自动为自己的"非法行为"合成保护代码?** + +## 方法:Code-as-Harness + +AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟: + +### 搜索机制 +- **Thompson Sampling 引导的树搜索**:在 harness 代码空间中平衡探索与利用 +- LLM 作为 mutation operator:基于环境 feedback 迭代改进代码 +- Critic 提供反馈:动作合法性、环境 reward + +### 三种 Harness 模式 + +| 模式 | 机制 | LLM 角色 | +|------|------|----------| +| **[[harness-as-action-verifier|Verifier]]** | LLM 提议 → 代码验证 → 非法则重试 | 策略制定者 | +| **Action Filter** | 代码生成合法动作集合 → LLM 排序 | 排序者 | +| **[[harness-as-policy|Policy]]** | 代码直接选动作 → **无需 LLM 推理** | 仅在训练时使用 | + +## 关键结果 + +1. **100% 合法动作率**:在 145 个 TextArena 游戏上完全消除非法动作 +2. **小模型胜大模型**:Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro +3. **Code-as-Policy 巅峰**:生成的纯代码策略在 16 个 1P 游戏上平均 reward **0.870**,超过 GPT-5.2-High (0.844) +4. **零推理成本**:Harness-as-Policy 测试时成本趋近于零(vs GPT-5.2 的 ~$640) + +## 核心洞察 + +> 用一个较小的模型为自己的"短板"自动合成保护代码,其效果可以超过一个裸奔的更大模型——而且更便宜。 + +这体现了 [[code-as-harness]] 的根本哲学:**不是让 LLM 变得完美,而是让它可以被代码约束和保护。** + +## 概念网络 + +- [[autoharness]] — 方法总览 +- [[code-as-harness]] — 框架哲学 +- [[harness-as-action-verifier]] — 验证模式 +- [[harness-as-policy]] — 代码即策略 +- [[thompson-sampling-code-search]] — 搜索算法 +- [[iterative-code-refinement]] — 迭代精炼 +- [[action-applicability]] — 动作合法性判定问题 diff --git a/papers/peng-tst-2026.md b/papers/peng-tst-2026.md new file mode 100644 index 0000000..5e35c31 --- /dev/null +++ b/papers/peng-tst-2026.md @@ -0,0 +1,53 @@ +--- +title: "Token Superposition Training: 高效 LLM 预训练的 Token 叠加方法" +created: 2026-05-29 +updated: 2026-05-29 +type: paper +arxiv: "2605.06546" +authors: ["Bowen Peng", "Théo Gigant", "Jeffrey Quesnelle"] +venue: "arXiv cs.CL, May 2026" +tags: ["pre-training", "efficiency", "token-superposition", "LLM"] +sources: ["https://arxiv.org/abs/2605.06546"] +--- + +# Token Superposition Training (TST): 高效 LLM 预训练 + +> **论文**: Peng, Gigant & Quesnelle (Nous Research, 2026) — arXiv:2605.06546 + +## 核心问题 + +LLM 预训练在大规模下计算成本极高,现有优化方法(MoE、稀疏注意力、压缩建模)通常需要**侵入式修改**模型架构。**能否在不改动模型架构的前提下,仅通过提高训练时 token 吞吐量来提升预训练效率?** + +## 方法:Token Superposition Training (TST) + +TST 是一个简单的 **drop-in** 方法,分两阶段: + +### 阶段一:叠加阶段(Superposition Phase) +- **输入叠加**:将连续 s 个 token 的 embedding 取平均,形成单个 "s-token" +- **输出叠加**:预测下一个 bag 的全部 s 个 token,使用 [[multi-hot-cross-entropy|MCE]] 损失 +- 效果:等 FLOPs 下吞入 s× 更多数据 token + +### 阶段二:恢复阶段(Recovery Phase) +- 完全回归标准 next-token prediction 训练 +- 不做任何 adapter 或投影层——embedding 和 LM head **保持不变** + +## 关键发现 + +1. **2.5× 加速**:在 10B A1B MoE 模型上,等 loss 条件下预训练时间减少 2.5 倍 +2. **表示对齐至关重要**:叠加和恢复阶段**共享** embedding 和 LM head——若在两阶段之间重新初始化,所有增益消失 +3. **超参数鲁棒**:bag size s ∈ [4, 8],叠加比例 r ∈ [0.2, 0.4] 内均有效 +4. **输入+输出叠加均有贡献**,但输入叠加的增益机制仍有待解释 + +## 核心洞察 + +TST 的本质是 **粗→细粒度调度**([[coarse-to-fine-granularity]]):先用低分辨率、高吞吐量的数据分布进行"预-预训练",再切换到标准分辨率。这与 ViT 中的 patch size scheduling 和 byte-level → subword 转移共享同一设计哲学。 + +## 概念网络 + +- [[token-superposition-training]] — 方法总览 +- [[multi-hot-cross-entropy]] — 核心损失函数 +- [[input-superposition]] — 输入侧的 token 叠加 +- [[two-phase-pretraining]] — 两阶段训练范式 +- [[representation-alignment]] — 跨阶段表示对齐 +- [[coarse-to-fine-granularity]] — 底层设计原则 +- [[throughput-hypothesis]] — 吞吐量假说 diff --git a/papers/pre-train-space-reinforcement-learning.md b/papers/pre-train-space-reinforcement-learning.md new file mode 100644 index 0000000..2bceb3e --- /dev/null +++ b/papers/pre-train-space-reinforcement-learning.md @@ -0,0 +1,53 @@ +--- +title: "Pre-train Space Reinforcement Learning (PreRL/DSRL)" +arxiv: "2604.14142" +authors: ["Yuqiao Tan", "Minzheng Wang", "Bo Liu", "Zichen Liu", "Tian Liang", "Shizhu He", "Jun Zhao", "Kang Liu"] +venue: "arXiv" +date: "2026-04-15" +created: "2026-05-18" +type: paper +tags: ["reinforcement-learning", "pre-training", "LLM-reasoning", "GRPO", "policy-optimization"] +sources: ["https://arxiv.org/abs/2604.14142"] +--- + +# Pre-train Space Reinforcement Learning (PreRL / DSRL) + +**从 P(y|x) 到 P(y):在预训练空间中研究强化学习** + +## 核心问题 + +标准 RLVR(如 GRPO)通过优化条件分布 P(y|x) 提升 LLM 推理能力,但其上限被基座模型的已有输出分布所约束。PreRL 提出直接在 **预训练空间(Pre-train Space)** 中优化边缘分布 P(y),从根源上扩展推理能力的基础。 + +## 方法论贡献 + +### 1. Pre-train Space RL (PreRL) + +将 RL 的优化目标从 P(y|x) 变为 P(y),在梯度更新时**遮蔽输入条件 x**。核心理论支撑是 [[gradient-alignment|梯度对齐]]:证明 log P(y) 和 log P(y|x) 的梯度内积始终非负(均值 +9.2),因此优化边际分布可以有效提升条件策略。 + +### 2. Negative Sample Reinforcement (NSR) + +解剖 PreRL 中正负样本的作用,发现关键的不对称性: +- **PSR(正样本强化)** 在预训练空间中会退化为 on-policy collapse +- **NSR(负样本强化)** 通过剪枝错误推理路径,激发 [[endogenous-reasoning|内生推理能力]],transition 和 reflection 思维分别增长 **14.89×** 和 **6.54×** + +### 3. Dual Space RL (DSRL) + +采用 [[policy-reincarnation|策略转生]] 策略:先用 NSR-PreRL 扩展推理视野(消除根本性错误),再切换到标准 RL 进行细粒度优化。公式化为条件掩码的 phase-switching: + +∇J_DSRL = E[∑∇log π(y_t | x^{I[s>S]}, y_{S ∨ R(y)<0]] + +## 关键发现 + +- DSRL 在 Qwen3-4B/8B 上全面超越 GRPO/PPO/DAPO/Dr.GRPO +- AIME24: +4.69, AIME25: +2.50(Qwen3-4B) +- OOD 泛化:GPQA-Diamond +3.79, MMLU-Pro +5.37 +- 样本效率:达到同等精度仅需 1.6×-2.5× 更少的训练步数 +- Pass@K 在所有 K 值上均优于 GRPO + +## 概念网络 + +- [[pre-train-space-reinforcement-learning|PreRL]] · [[post-train-space-rl|Post-train Space RL]] · [[dual-space-rl|DSRL]] +- [[negative-sample-reinforcement|NSR]] · [[positive-sample-reinforcement|PSR]] +- [[gradient-alignment|梯度对齐]] · [[shared-parameter-influence|共享参数影响]] +- [[policy-reincarnation|策略转生]] · [[endogenous-reasoning|内生推理]] +- [[distribution-shift|分布偏移]] · [[on-policy-learning-collapse|On-policy Collapse]] diff --git a/papers/toolcua-optimal-gui-tool-orchestration.md b/papers/toolcua-optimal-gui-tool-orchestration.md new file mode 100644 index 0000000..2e9b72d --- /dev/null +++ b/papers/toolcua-optimal-gui-tool-orchestration.md @@ -0,0 +1,78 @@ +--- +title: "ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents" +created: 2026-05-12 +type: paper +source: https://arxiv.org/abs/2605.12481 +code: https://github.com/X-PLUG/ToolCUA +tags: [computer-use-agents, gui-tool-orchestration, reinforcement-learning, trajectory-optimization] +--- + +# ToolCUA: 面向 Computer Use Agent 的最优 GUI-Tool 路径编排 + +**来源**: arXiv:2605.12481 (2026-05-12) | **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室 + +## 核心问题 + +Computer Use Agents ([[computer-use-agents|CUAs]]) 面临一个关键挑战:它们可以在**原子 GUI 动作**(点击、输入)和**高层工具调用**(API 操作文件)之间选择,但在 [[gui-tool-hybrid-action-space|混合动作空间]] 中常常犹豫不决——不知道何时继续 GUI 操作、何时切换为工具调用,最终选择次优的执行路径。 + +**两大根源问题**: +1. **数据稀缺**:高质量 GUI-Tool 交错轨迹数据极少,收集真实工具轨迹成本高且脆弱 +2. **监督不足**:现有方法仅提供步骤级模仿或最终任务完成信号,缺乏轨迹级别的 GUI-Tool 路径选择反馈 + +## 方法论:三阶段训练范式 + +### 阶段一:Interleaved GUI-Tool Trajectory Scaling Pipeline(数据扩展) + +[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 从已有的纯 GUI 轨迹出发,通过 MLLM 合成工具库并将其转化为 GUI-Tool 交错轨迹: + +1. **Trajectory Filtering & Balancing**:按执行质量、任务长度、应用覆盖筛选原始 GUI 轨迹 +2. **Trajectory-Aware Tool Library Construction**:MLLM 从 GUI 过程中抽象出可调用的高层操作,合成工具库(从单步包装到多步复合函数) +3. **Tool Trajectory Generation with Next-State Grounding**:生成等效的纯工具轨迹,并通过 [[next-state-grounding|下一状态锚定]] 验证一致性 +4. **Interleaved GUI-Tool Generation**:随机替换部分工具调用为对应的 GUI 操作序列,生成多样化交错轨迹 + +### 阶段二:Tool-Bootstrapped GUI RFT(强化微调) + +[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]] 分为两个子阶段: + +- **Warmup SFT**:在全部交错数据 $\mathcal{D}_{\text{all}}$ 上进行监督微调,建立基础的混合动作能力 +- **Single-Turn RL on Critical Steps**:在关键切换点 $\mathcal{D}_{\text{critical}}$ 上使用 [[grpo|GRPO]] 进行单轮 RL,校准模型在 GUI↔Tool 决策边界的判断 + +### 阶段三:Online Agentic RL with Tool-Efficient Path Reward(在线强化学习) + +在真实的 GUI-Tool 环境中进行多轮 [[grpo|GRPO]] 在线 rollout,使用 [[tool-efficient-path-reward|工具高效路径奖励]] 进行轨迹级优化: + +- **$R_{\text{tool}}$(工具适当性奖励)**:鼓励在工具有益任务上使用工具、在无益任务上避免工具调用 +- **$R_{\text{length}}$(路径效率奖励)**:相对于 rollout 组平均步数,对较短轨迹给予线性奖励,较长轨迹呈指数衰减 + +## 实验结果 + +在 [[osworld-mcp|OSWorld-MCP]] 基准上: + +| 模型 | 准确率 | 相对提升 | +|------|--------|----------| +| Qwen3-VL-8B (baseline) | 28.23% | — | +| **ToolCUA-8B** | **46.85%** | **+66%** | +| GUI-Owl-1.5-8B | 43.84% | — | +| Claude-4-Sonnet | 43.54% | — | +| Claude-4.5-Sonnet | 48.35% | — | + +**关键发现**: +- 在纯 GUI 动作设置下也达到 42.9%,**+3.9%** 超越纯 GUI 训练 → 证明混合动作空间训练的迁移优势 +- TIR(Tool Invocation Rate)显著提升 → 更智能的工具使用决策 +- ACS(Average Completion Steps)下降 → 更高效的执行路径 +- 跨平台迁移:Linux unseen apps 达 23.9%,WindowsAgentArena 达 33.8% + +## 关键洞察 + +1. **"混合动作空间"不是简单的动作空间并集**:直接暴露两种动作空间反而降低性能(如 EvoCUA-32B 从 52.6% 降到 40.5%)。需要专用训练策略来学习何时使用工具。 + +2. **轨迹级优化 > 步骤级优化**:$R_{\text{tool}} + R_{\text{length}}$ 的组合奖励从全局角度评估整个执行路径,而不仅仅是单步正确性。 + +3. **合成数据管线的规模效应**:通过重利用现有 GUI 语料库 + MLLM 合成工具,无需昂贵的人工标注即可大规模生成 GUI-Tool 交错轨迹。 + +## 概念连接 + +- 核心方法:[[interleaved-gui-tool-trajectory-scaling]] → [[tool-bootstrapped-rft]] → [[tool-efficient-path-reward]] +- 理论基础:[[gui-tool-hybrid-action-space]] → [[optimal-gui-tool-path-selection]] +- 评估框架:[[osworld-mcp]] +- 相关技术:[[grpo]], [[agent-computer-interface]], [[next-state-grounding]], [[agentic-systems]] diff --git a/papers/when-large-multimodal-models-confront-evolving-knowledge.md b/papers/when-large-multimodal-models-confront-evolving-knowledge.md new file mode 100644 index 0000000..12fd4cd --- /dev/null +++ b/papers/when-large-multimodal-models-confront-evolving-knowledge.md @@ -0,0 +1,64 @@ +--- +title: "When Large Multimodal Models Confront Evolving Knowledge" +authors: ["Kailin Jiang", "Yuntao Du", "Yukai Ding", "Yuchen Ren", "Zhi Gao", "Zilong Zheng", "Ning Jiang", "Lei Liu", "Bin Li", "Qing Li"] +date: 2026 +arxiv: "2505.24449" +venue: "ICLR 2026" +type: paper +tags: ["multimodal", "knowledge-injection", "continual-learning", "benchmark"] +--- + +# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations + +> ICLR 2026 | [[arxiv|https://arxiv.org/abs/2505.24449]] + +## 核心问题 + +大型多模态模型(LMM)经过大规模预训练后获得丰富的世界知识,但真实世界的知识持续演化(新实体、新事件),导致模型知识过时和幻觉。现有工作主要关注**静态文本知识注入**,忽视了**动态多模态进化知识注入**。 + +## 核心贡献 + +### 1. MMEVOKE 基准 + +[[mme-voke|MMEVOKE]] 是首个多模态进化知识注入基准,包含 **9,422 个样本**,覆盖 **159 个细粒度子领域**(News 29 + Entity 130),具有[[self-evolving-benchmark|自进化特性]]。 + +### 2. 双重挑战 + +- **知识适应差**:现有方法(SFT、RAG、AI搜索)在 MMEVOKE 上表现不佳,最高仅 40.68% CEM +- **能力退化严重**:知识注入后,模型在 12 个通用能力基准上平均退化 25%+ + +### 3. 知识感知增强 vs 知识无关增强 + +[[knowledge-aware-augmentation|知识感知增强]]通过语义理解和真实世界图像丰富了模型对概念的感知,显著提升知识适应能力;而[[knowledge-agnostic-augmentation|知识无关增强]](同义词替换、图像旋转等表面操作)反而**损害**性能。 + +### 4. 知识保留方法 + +- [[data-replay|数据回放]]:混合旧预训练数据与新注入数据,强制模型"复习旧知" +- [[moe-lora|MoELoRA]]:为新增知识划出专用参数区,防止参数冲突 +- EWC / LwF 等间接约束方法**几乎无效**,甚至加剧退化 + +### 5. [[sufficient-context-paradox|充分上下文悖论]] + +即使提供了所有必要信息(Sufficient Context),LMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明**提供上下文还不够**,模型对进化知识的**推理和利用能力**至关重要。 + +## 方法论 + +- **知识收集**:从 CNN(News)和 Wikipedia(Entity)收集权威数据 +- **内容总结**:GPT-4o 对长文本进行摘要 +- **VQA 生成**:GPT-4o 提取 VQA 对,CLIP 聚类清洗图像 +- **知识注入范式**:SFT(Full-FT, LoRA)、MM-RAG(Text-Only/Image-Only/UniIR)、商业 AI 搜索 + +## 关键洞察 + +1. **知识感知 > 知识无关**:语义级增强是知识注入的关键,表面增强反而有害 +2. **直接排练 > 间接约束**:Replay 和 MoELoRA 有效保留旧能力,EWC/LwF 无效 +3. **知识感知增强可部分缓解能力退化**——这是论文的意外发现 +4. **知识注入 ≠ 数据记忆**:模型可能只是"背诵"而非"内化"知识 + +## 概念链接 + +- [[evolving-knowledge-injection]] — 进化知识注入任务定义 +- [[knowledge-adaptation]] — 知识适应度量 +- [[capability-degradation]] — 能力退化现象 +- [[knowledge-retention]] — 知识保留策略 +- [[multimodal-rag]] — 多模态检索增强生成 diff --git a/papers/yang-skillopt-2026.md b/papers/yang-skillopt-2026.md new file mode 100644 index 0000000..350117a --- /dev/null +++ b/papers/yang-skillopt-2026.md @@ -0,0 +1,61 @@ +--- +title: "SkillOpt: Agent Skill 的文本空间优化器" +created: 2026-05-29 +updated: 2026-05-29 +type: paper +arxiv: "2605.23904" +authors: ["Yifan Yang", "Ziyang Gong", "Weiquan Huang", "Qihao Yang", "Ziwei Zhou", "Zisu Huang", "Yan Li", "Xuemei Gao", "Qi Dai", "Bei Liu", "Kai Qiu", "Yuqing Yang", "Dongdong Chen", "Xue Yang", "Chong Luo"] +venue: "arXiv cs.AI, May 2026" +tags: ["agent", "skill", "optimization", "text-space", "self-evolving"] +sources: ["https://arxiv.org/abs/2605.23904"] +--- + +# SkillOpt: Agent Skill 的文本空间优化器 + +> **论文**: Yang et al. (Microsoft, SJTU, Tongji, Fudan, 2026) — arXiv:2605.23904 + +## 核心问题 + +Agent skills 今天是被手写、一次性生成或松散自修正的——**没有一个像深度学习的 optimizer 那样可靠地优化 skill**。如果 skill 是 Agent 的适配层,它应该像模型参数一样被**系统地训练**。 + +## 方法:SkillOpt as Text-Space Optimizer + +SkillOpt 将 skill 优化建模为 [[text-space-optimizer|文本空间中的优化问题]],与权重空间的深度学习优化形成精确类比: + +| 深度学习 | SkillOpt | +|----------|----------| +| 参数 θ | Skill 文档 | +| 梯度方向 | 轨迹反馈衍生的编辑方向 | +| 学习率 | 文本编辑预算(bounded edits) | +| Validation | [[held-out-validation-gate\|留出验证门]] | +| Momentum | [[slow-meta-update\|epoch-wise slow/meta update]] | + +### 核心循环 + +``` +Frozen Agent + Skill → 采样 rollout batch → +Optimizer 分析成败 → 提出 add/delete/replace 编辑 → +聚合排名 → bounded update → Validation Gate → +Accept (best_skill.md) / Reject → [[rejected-edit-buffer\|buffer 记录失败模式]] +``` + +## 关键结果 + +- **52/52 best or tied**:跨 6 benchmarks × 7 models × 3 harnesses(direct chat, Codex, Claude Code) +- GPT-5.5 + SkillOpt 平均提升:**+23.5 pts** (direct), **+24.8** (Codex), **+19.1** (Claude Code) +- **跨模型/跨 harness/跨 benchmark 迁移**:一次训练,多处复用 +- Skill 极度紧凑:**300–2,000 tokens**,仅需 1–4 次 accepted edits + +## 核心洞察 + +SkillOpt 的深层哲学:**Agent 的适应不一定要改模型权重——skill 文档就是一个可训练的"外部状态"**。通过引入 deep learning optimizer 的控制纪律(learning rate、validation gate、momentum),skill optimization 从"随便改改"变成了可复现的训练过程。 + +## 概念网络 + +- [[skillopt|SkillOpt]] — 方法总览 +- [[text-space-optimizer]] — 文本空间优化的范式类比 +- [[textual-learning-rate]] — 编辑预算控制 +- [[held-out-validation-gate]] — 留出验证门 +- [[rejected-edit-buffer]] — 失败编辑负反馈 +- [[slow-meta-update]] — epoch-wise 动量 +- [[skill-as-external-state]] — Skill 作为可训练外部状态的哲学 diff --git a/papers/zhou-agent-symbolic-learning-2024.md b/papers/zhou-agent-symbolic-learning-2024.md new file mode 100644 index 0000000..6bb05ee --- /dev/null +++ b/papers/zhou-agent-symbolic-learning-2024.md @@ -0,0 +1,57 @@ +--- +title: "Agent Symbolic Learning: 用符号学习实现自进化 Agent" +created: 2026-05-29 +updated: 2026-05-29 +type: paper +arxiv: "2406.18532" +authors: ["Wangchunshu Zhou", "Yixin Ou", "Shengwei Ding", "Long Li", "Jialong Wu", "Tiannan Wang", "Jiamin Chen", "Shuai Wang", "Xiaohua Xu", "Ningyu Zhang", "Huajun Chen", "Yuchen Eleanor Jiang"] +venue: "arXiv cs.CL, June 2024" +tags: ["agent", "symbolic-learning", "self-evolving", "optimization"] +sources: ["https://arxiv.org/abs/2406.18532"] +--- + +# Agent Symbolic Learning: 符号学习驱动的自进化 Agent + +> **论文**: Zhou et al. (AIWaves, 2024) — arXiv:2406.18532 +> **代码**: https://github.com/aiwaves-cn/agents + +## 核心问题 + +当前 Agent 开发是 **engineering-centric** 的:prompt、工具、pipeline 都需要人类手动设计。Agent Symbolic Learning 提出了一个根本性转变——让 Agent **从数据中自动学习和进化**。 + +## 方法:Agent = Symbolic Network + +| 神经网络 | Agent Symbolic Network | +|----------|------| +| 计算图 | Agent Pipeline | +| 层 (Layer) | 节点 (Node) | +| 权重 (Weights) | Prompts + Tools | +| 损失函数 | [[language-loss\|Language Loss]] | +| 梯度 | [[language-gradient\|Language Gradients]] | +| 反向传播 | [[symbolic-backpropagation\|Symbolic Back-Propagation]] | +| 优化器 | Symbolic Optimizer (LLM) | + +### 三阶段流程 + +1. **Forward Pass**: Agent 沿 pipeline 执行 → 记录每个节点的轨迹 +2. **Backward Pass**: 从末节点向前传播 Language Loss → 每个节点的 Language Gradients +3. **Weight Update**: Optimizer (LLM) 根据 gradients 更新所有 prompts/tools/pipeline + +## 关键创新 + +- **Holistic Joint Optimization**: 同时优化所有符号组件,避免 DSPy 等方法分别优化带来的局部最优 +- **支持 pipeline 结构修改**: 不仅是改 prompt,还可以添加/删除节点 +- **无 ground-truth 也能学**: Language Loss 不需要标准答案 + +## 历史定位 + +这是"模仿神经网络反向传播来优化 Agent"思路的**原始提出者**。后续 [[yang-skillopt-2026|SkillOpt]]、[[heuristic-learning|Heuristic Learning]] 是在这一范式下的延伸和工程化。在吕明的两篇深度解读文章中被重点引用。 + +## 概念网络 + +- [[agent-symbolic-learning]] — 框架总览 +- [[symbolic-network]] — Agent 作为符号网络 +- [[language-gradient]] — 语言梯度 +- [[symbolic-backpropagation]] — 符号反向传播 +- [[self-evolving-agents]] — 自进化 Agent +- [[language-loss]] — 语言损失 diff --git a/raw/articles/chensizhou-mini-agent-harness-2026.md b/raw/articles/chensizhou-mini-agent-harness-2026.md new file mode 100644 index 0000000..e286f01 --- /dev/null +++ b/raw/articles/chensizhou-mini-agent-harness-2026.md @@ -0,0 +1,95 @@ +--- +title: "从零搭建 Mini Agent Harness" +author: "陈思州 (Datawhale)" +source: "微信公众号 Datawhale干货" +date: "2026-05" +url: "https://mp.weixin.qq.com/s/yVFQej3dFk9KHv6J2u6Lew" +type: "article" +--- + +# 从零搭建 Mini Agent Harness + +**作者**:陈思州,Datawhale 成员 +**来源**:Datawhale干货(微信公众号) + +## 全文 + +前面讲 Agent 评测时,我提到:评测 Agent 不能只看最终答案,还要看它用了什么工具、拿到了什么结果、有没有按任务要求完成。那这些东西要怎么稳定记录下来?这就需要一个 harness。 + +现在有一个观点是 **Agent = model + harness**; + +我会把 harness 理解成:把 Agentic model 放进一个可运行、可记录、可评分的小环境里。它不一定一开始就很复杂,只要能把任务、工具、执行过程和评分结果串起来,就已经很有价值。 + +这篇按 4 个问题梳理: +1. 一个最 mini 的 harness 解决什么问题? +2. 它最少需要哪些模块? +3. 一个 eval case 可以怎么写? +4. 公开资料里有哪些参考? + +### 一个最 mini 的 harness 解决什么问题 + +如果只是手动测试 Agent,很容易只看到最后回答。比如用户问"请判断这个项目是否支持插件系统",Agent 回答"当前 README 没有插件系统相关说明,不能确认支持"。 + +这句话看起来合理,但我们还需要知道:它有没有真的读取 README?有没有读错文件?有没有调用无关工具?有没有把工具结果里没有的信息写进答案? + +mini harness 要解决的就是这个问题。 + +它把任务放进一个固定环境里,让 Agent 使用指定工具完成任务,同时记录执行过程,最后用评分器判断结果。 + +这样我们看到的就不只是一句回答,而是一条完整记录:任务是什么,环境里有什么,Agent 调用了什么工具,工具返回了什么,最后为什么被判成功或失败。 + +### mini harness 最少需要哪些模块 + +最小结构拆成 5 个模块: + +- **Task**(任务输入):任务本身 +- **Environment**(可操作环境):代码仓库、文件组等 +- **Tools**(工具接口):read_file、list_files、run_tests 等 +- **Trace**(执行记录):每步的工具调用、参数、返回 +- **Grader**(评分器):规则或测试脚本判断结果 + +### 一个 eval case 可以怎么写 + +```json +{ + "id": "case_001", + "task": "判断项目是否支持插件系统", + "environment": { + "files": { + "README.md": "本项目支持本地启动、基础登录和配置管理。", + "config.md": "配置项包括 port、theme、log_level。" + } + }, + "tools": ["list_files", "read_file"], + "grader": { + "must_read": ["README.md"], + "answer_should_include": "不能确认支持插件系统", + "answer_should_not_include": "支持插件系统" + } +} +``` + +跑完后记录 trace: + +```json +{ + "case_id": "case_001", + "trace": [ + {"tool": "list_files", "arguments": {"path": "."}, "result": ["README.md", "config.md"]}, + {"tool": "read_file", "arguments": {"path": "README.md"}, "result": "本项目支持本地启动、基础登录和配置管理。"} + ], + "answer": "当前 README 没有插件系统相关说明,不能确认支持插件系统。", + "grade": {"success": true, "reason": "读取了 README,回答没有超出文件内容。"} +} +``` + +### 公开资料参考 + +- **Anthropic Agent Evals**:区分 eval harness 和 agent harness,强调评估的是模型+harness 的整体效果 +- **SWE-agent**:提出 Agent-Computer Interface(ACI),说明外部接口设计对 Agent 表现的影响 +- **Terminal-Bench**:任务结构包含 instruction、隔离环境、测试脚本 +- **SWE-bench**:典型评测流程——真实 issue → patch → 环境测试 + +### 核心观点 + +一个 mini Agent harness 不需要一开始做成完整平台。第一版只要能串起任务、环境、工具、执行记录和评分器,就已经能帮我们观察 Agent 到底哪里出问题。有了这套结构,我们就不只是"试一下 Agent 好不好用",而是能分析问题出在任务理解、工具选择、参数填写、结果读取、步骤冗余,还是评分规则本身不清楚。 diff --git a/raw/articles/claw-eval-2026.md b/raw/articles/claw-eval-2026.md new file mode 100644 index 0000000..a439bf4 --- /dev/null +++ b/raw/articles/claw-eval-2026.md @@ -0,0 +1,51 @@ +--- +source_url: https://mp.weixin.qq.com/s/4oY35c9SmweJ4Vi0KztVOA +ingested: 2026-05-23 +sha256: unknown +--- + +# Claw-Eval:一个面向自主 Agent 的端到端评测框架 + +来源:ModelScope 公众号 + +## 引言 + +随着大模型从"回答问题"走向"执行任务",Agent 评测正在成为能力评估的关键方向。Claw-Eval 关注的不只是任务有没有完成,更关注任务是如何被完成的:过程是否可追溯,行为是否合规,异常发生后能否恢复。300 个人工验证任务,从完成度、安全性和鲁棒性三个维度评估 14 个前沿模型。 + +## 开源地址 + +- 数据集:https://modelscope.cn/datasets/claw-eval/Claw-Eval +- 排行榜:https://claw-eval.github.io/#/ +- GitHub:https://github.com/claw-eval/claw-eval + +## 技术框架 + +- 轻量运行层:透明、可审计、可复现的"最大公约数"运行基座 +- Setup → Execution → Judge 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照 +- 真实任务:服务编排、多模态理解与生成、多轮专业对话 + +## 任务设计 + +300 个人工验证任务,覆盖 9 个细分类型,三大任务组: +- **通用服务任务**:查询、日程安排、跨服务协作、数据检索、金融合规、运营流程 +- **多模态任务**:视频、文档、图像和代码生成视觉产物 +- **多轮专业对话任务**:咨询、分析和决策场景 + +## 评分体系(三维护) + +- **Completion**:任务是否完成,结果是否符合要求 +- **Safety**:执行过程是否遵守约束,是否避免不该发生的行为 +- **Robustness**:面对接口失败、服务延迟、临时错误时,是否能够恢复并继续执行 + +同时报告 Pass@3(三次中至少成功一次,接近能力上限)和 Pass^3(三次全部成功,接近可靠性下限) + +## 三个关键发现 + +1. **只看对话轨迹不可靠**:LLM Judge 漏掉了 44% 安全违规和 13% 鲁棒性问题 — 需要服务端日志和环境快照 +2. **能力不等于稳定性**:错误注入后 Pass^3 最高下降 24 个百分点 +3. **Agent 能力是多维的**:没有一个模型在所有任务类型上全面领先;最高多模态 Pass^3 仅 25.7% + +## 额外发现 + +- 问题质量(而非数量)解释 76% 的 Pass^3 表现差异 +- 好的 Agent 不只是会追问,更要知道当前最该问什么 diff --git a/raw/articles/distributed-agent-cache-sync-2026.md b/raw/articles/distributed-agent-cache-sync-2026.md new file mode 100644 index 0000000..1ab1cdf --- /dev/null +++ b/raw/articles/distributed-agent-cache-sync-2026.md @@ -0,0 +1,27 @@ +--- +title: "分布式Agent缓存同步" +created: 2026-05-29 +type: article-raw +source: "微信公众号" +url: "https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw" +tags: ["distributed-systems", "prompt-caching", "quant-trading", "agent", "redis", "rdma"] +--- + +# 分布式Agent缓存同步 + +**来源**: 微信公众号 +**URL**: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw +**收录时间**: 2026-05-29 + +## 概述 + +本文是 LLM + 量化交易系列文章中关于分布式环境下 Prompt Caching 同步的深度工程实践章节。以高频量化系统为场景,系统性地阐述了如何将单机 Prompt Caching 机制升级为跨物理节点的分布式缓存同步体系。 + +## 核心内容 + +1. **分布式架构中的缓存多机异构冲突**: 跨机冷启动代价(150k Token 重传 + 秒级重算)、跨模型服务商的缓存割裂 +2. **基于 Redis 骨干网的分布式 Token 状态路由**: 全局上下文哈希树(SHA-256 四层复合键)、Cache_Routing_Table 物理实现 +3. **跨机主动预热与流水线预加载**: 交易临界点预测触发、Shadow Calling 三步法(前缀拓扑合成→异步影子调用→状态置标) +4. **数据一致性治理**: 乐观锁与上下文版本号机制、交易生命周期驱动的 TTL 淘汰策略 +5. **C++ IPC 与分布式网络的无缝桥梁**: RDMA 旁路网络句柄分发架构 +6. **混沌工程**: 缓存雪崩降级熔断、Context Pruning、可观测性控制台 diff --git a/raw/articles/lyu-model-harness-evolution-2026.md b/raw/articles/lyu-model-harness-evolution-2026.md new file mode 100644 index 0000000..faea6e6 --- /dev/null +++ b/raw/articles/lyu-model-harness-evolution-2026.md @@ -0,0 +1,33 @@ +--- +title: "Model与Harness的关系演进:从AutoHarness到Heuristic Learning" +created: 2026-05-29 +type: article-raw +source: "微信公众号" +author: "吕明" +url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g" +tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"] +--- + +# Model与Harness的关系演进 + +**作者**: 吕明 +**来源**: 微信公众号 +**URL**: https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g +**收录时间**: 2026-05-29 + +## 概述 + +本文是吕明关于 Model 与 Harness 关系演进的深度思考笔记。以 Google DeepMind 的 AutoHarness 论文和 OpenAI 翁家翌的 Heuristic Learning 文章为切入点,探讨: + +1. GenAI 与前几次 AI 浪潮的三个本质差异:生成式(Generative)、通用性(General)、统一性(Unification) +2. Model 与 Harness 之间"策略算法"与"工程约束"的模糊边界及其演进 +3. AutoHarness 三种 Harness 模式的深度解读(Action Filter → Action Verifier → Policy) +4. Heuristic Learning 作为替代梯度下降的新学习范式 +5. 编译型 AI 范式与 Harness Engineering 作为独立工程实践领域 +6. 引述 Demis Hassabis 近期访谈观点:Agent 才刚开始,缺连续学习 + +## 关键引用 + +- "也许世界的本质即是由泛化策略+抽象约束的组合控制和运转的" +- "性能提升不只能一味的依赖于模型参数规模,也应更多关注 Agent Architecture 的 Harness 层" +- "某种形式的经验或知识不仅可以被'训练'到参数里,还可以被更优雅的'编程'为可维护、可进化的软件系统" diff --git a/raw/articles/lyu-skillopt-deep-dive-2026.md b/raw/articles/lyu-skillopt-deep-dive-2026.md new file mode 100644 index 0000000..747af8c --- /dev/null +++ b/raw/articles/lyu-skillopt-deep-dive-2026.md @@ -0,0 +1,28 @@ +--- +title: "SkillOpt深度解读:文本空间优化与自进化Agent的工程化Continued Evolve" +created: 2026-05-29 +type: article-raw +source: "微信公众号" +author: "吕明" +url: "https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw" +tags: ["skillopt", "text-space-optimization", "self-evolution", "harness", "model-harness"] +--- + +# SkillOpt深度解读 + +**作者**: 吕明 +**来源**: 微信公众号 +**URL**: https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw +**收录时间**: 2026-05-29 + +## 概述 + +本文是吕明对微软 SkillOpt 论文的深度哲学解读(约1.2万字),以"当Skill文件拥有了自己的反向传播"为引子,系统剖析了文本空间优化与参数空间梯度下降的深层分野,并勾勒出自进化Agent的工程化蓝图。 + +## 核心内容 + +1. **表层同构与深层分野**: 连续梯度下降(局部一阶、解析链式法则、向量空间度量)vs 离散文本优化(全局因果推理、经验性验证、无天然度量) +2. **哲学隐喻**: 英国经验主义(参数被动被 Loss 塑形)vs 大陆理性主义(Optimizer 主动理性演绎) +3. **三层解耦设计**: 冻结 Agent + 独立 Optimizer + 受控接受/拒绝 +4. **全栈蓝图**: Skill Registry → Validation Suite → Evolution Scheduler → Cross-Model Translator → Human-in-the-Loop +5. **"受控的自主性"**: 人类设定目标(验证集)和边界(编辑约束),Agent 在框架内自主寻优 diff --git a/raw/articles/tps-time-series-augmentation-survey-2026.md b/raw/articles/tps-time-series-augmentation-survey-2026.md new file mode 100644 index 0000000..42275cd --- /dev/null +++ b/raw/articles/tps-time-series-augmentation-survey-2026.md @@ -0,0 +1,64 @@ +--- +title: "时序预测增强方法综述:从频域到 TPS" +author: "Sai Nitesh Palamakula (译:于腾凯)" +source: "DeepHub IMBA / 数据派THU (微信公众号)" +date: "2026-05" +url: "https://mp.weixin.qq.com/s/hPvx3OflUva1olME9F8FoA" +type: "article" +--- + +# 时序预测增强方法综述:从频域到 Temporal Patch Shuffle + +**来源**:DeepHub IMBA / 数据派THU + +## 核心问题 + +时间序列预测的增强与分类增强有本质区别——预测目标是连续信号,而非离散标签。 +经典分类增强(jittering、scaling、warping)会破坏 look-back 窗口与预测 horizon 之间的连续性, +导致 input-target 不一致。 + +**核心原则**:增强必须作用于拼接后的完整序列 s = x ∥ y,再切分回输入和目标,以确保数据-标签一致性。 + +## 方法分类体系 + +### 基于频率 +- **RobustTAD**:DFT → 幅度/相位扰动 → IDFT +- **FreqMask**:FFT → 二值 mask 清零选定频率 → IFFT +- **FreqMix**:FFT → 两序列频谱混合 → IFFT +- **WaveMask**:DWT 分解 → 各层选择性 mask 小波系数 → 逆 DWT +- **WaveMix**:DWT 分解 → 两序列小波系数交叉混合 → 逆 DWT +- **Dominant Shuffle**:FFT → 选 top-k 主导频率 shuffle → IFFT + +### 基于分解 +- **STAug**:EMD → IMF → mixup 式重组(内存开销大,大数据集受限) + +### 其他 +- **wDBA**:DTW 对齐下的时序平均 +- **MBB**:STL 分解 + 残差 bootstrap +- **Upsample**:线性插值拉伸局部片段 + +### 基于 Patch +- **TPS (Temporal Patch Shuffle)**:重叠 patch → variance 评分 → 选择性 shuffle → 重叠区域平均重建 + +## TPS 核心流程 + +1. **拼接**:x ∥ y → s(强制数据-标签一致性) +2. **Temporal Patching**:patch 长度 p、stride s,提取重叠 patch +3. **Variance 评分**:跨通道计算每个 patch 的 variance +4. **选择性 Shuffle**:低 variance 的 α 比例 patch 被随机置换 +5. **重建**:重叠区域取平均,平滑 shuffle 引入的不连续性 +6. **拆分**:s̃ → x̃, ỹ + +## 消融实验关键发现 + +1. **数据-标签一致性**:决定性因素,单一消融中性能下降最大 +2. **重叠 patch**:换成非重叠→明显退化,重叠是保留局部时间结构的闸门 +3. **Variance 排序**:适度红利,α=1.0 时失去意义 +4. **时域优于频域**:FFT 变换后的 patch 操作会退化 +5. **Shuffle 比例**:0.7-1.0 最优 + +## 实验结果 + +- **长期预测**:9 个数据集、5 个骨干(TSMixer、DLinear、PatchTST、TiDE、LightTS),TPS 全部最佳 +- **短期交通预测**:4 个 PeMS 数据集(PatchTST),MSE 提升 2.34%-7.14% +- **分类扩展**:UCR + UEA 基准,准确率分别提升 0.50% 和 1.10% diff --git a/raw/articles/ultradata-l3-open-source-2026.md b/raw/articles/ultradata-l3-open-source-2026.md new file mode 100644 index 0000000..46e98fa --- /dev/null +++ b/raw/articles/ultradata-l3-open-source-2026.md @@ -0,0 +1,28 @@ +--- +title: "UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系" +created: 2026-05-29 +type: article-raw +source: "微信公众号 (Datawhale)" +author: "面壁智能团队" +url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw" +tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"] +--- + +# UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系 + +**作者**: 面壁智能团队 +**来源**: Datawhale (微信公众号) +**URL**: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw +**收录时间**: 2026-05-29 + +## 概述 + +2026年5月,面壁智能联合清华大学、OpenBMB开源社区正式发布 UltraData 系列两大 L3 层级数据集:Ultra-FineWeb-L3 与 UltraData-SFT-2605。基于 L0-L4 数据分级治理体系构建,在 MiniCPM5-1B 训练中完成全链路验证。 + +## 核心内容 + +1. **L0-L4 分级治理**: 从原始网页(L0)到RAG编排数据(L4)的五级体系,按训练阶段匹配数据层级 +2. **Ultra-FineWeb-L3**: 全球最大中文预训练合成数据(600B Tokens),将"可读文本"转化为"好学数据" +3. **UltraData-SFT-2605**: 国内首次开源千万级SFT数据,含"深思考/非思考"全覆盖 +4. **MiniCPM5-1B**: 登顶Artificial Analysis排行榜(17.9分),INT4仅0.5GB +5. **全流程透明**: 公开Query筛选、Answer校验、评测去污等完整治理工具链 diff --git a/raw/papers/agarwal-bayesian-attention-geometry-2026.md b/raw/papers/agarwal-bayesian-attention-geometry-2026.md new file mode 100644 index 0000000..6ff257d --- /dev/null +++ b/raw/papers/agarwal-bayesian-attention-geometry-2026.md @@ -0,0 +1,61 @@ +--- +title: "The Bayesian Geometry of Transformer Attention" +authors: "Naman Agarwal, Siddhartha R. Dalal, Vishal Misra" +arxiv: "2512.22471" +venue: "arXiv (cs.LG)" +date: "2026-05" +type: "paper" +series: "Bayesian Attention Trilogy, Paper I" +--- + +# The Bayesian Geometry of Transformer Attention + +**Paper I of the Bayesian Attention Trilogy** + +**Authors**: Naman Agarwal (Dream Sports → Google DeepMind), Siddhartha R. Dalal (Columbia), Vishal Misra (Columbia) + +## TL;DR + +Small transformers achieve exact Bayesian posteriors (10⁻³–10⁻⁴ bit accuracy) in **Bayesian wind tunnels** — controlled environments where the true posterior is known in closed form and memorization is provably impossible. MLPs fail by orders of magnitude. + +## Core Framework: Bayesian Wind Tunnels + +Controlled prediction tasks where: +1. Analytic posterior is known exactly at each step +2. Hypothesis space is too large for memorization +3. In-context prediction requires genuine probabilistic inference + +Converts "does it do Bayes?" into a quantitative test: **does the model's predictive entropy match the analytic posterior entropy?** + +## Three Inference Primitives + +| Primitive | Definition | Required for | +|-----------|-----------|-------------| +| Belief Accumulation | Integrating evidence into running posterior | Bijection learning, HMM | +| Belief Transport | Propagating beliefs through stochastic dynamics | HMM filtering | +| Random-Access Binding | Retrieving by content, not position | Associative recall | + +## Architectural Realizability + +| Architecture | Accumulation | Transport | Binding | Status | +|-------------|:---:|:---:|:---:|--------| +| Transformer | ✅ | ✅ | ✅ | Full primitive completeness | +| Mamba (SSM) | ✅ | ✅ | ❌ | SOTA on HMM filtering; fails binding | +| LSTM | ✅ | ❌ | ❌ | Only static sufficient statistics | +| MLP | ❌ | ❌ | ❌ | Fails uniformly | + +## Key Geometric Findings + +- **Orthogonal key bases** in attention heads +- **Low-dimensional value manifold** parameterized by posterior entropy +- Mamba's final layer organizes into **5 clusters** — one per HMM hidden state (corner geometry of belief simplex) + +## Structural Theorem + +> The dominance of transformers in reasoning tasks arises not from scale alone, but from **primitive completeness**: they are the minimal architecture realizing the full set of inference primitives. + +## Trilogy Context + +- **Paper I** (this): Existence + internal geometry of exact Bayesian inference in transformers +- **Paper II**: Bayesian geometry arises generically from gradient dynamics under cross-entropy +- **Paper III**: How primitives compose in partially observed settings (closer to natural language) diff --git a/raw/papers/agent-harness-engineering-survey-2026.md b/raw/papers/agent-harness-engineering-survey-2026.md new file mode 100644 index 0000000..786bb65 --- /dev/null +++ b/raw/papers/agent-harness-engineering-survey-2026.md @@ -0,0 +1,27 @@ +--- +source_url: user-upload +ingested: 2026-05-23 +sha256: unknown +--- + +# Agent Harness Engineering: A Survey + +## Metadata +- **Authors**: Junjie Li^1,6^*, Xi Xiao^6^*, Yunbei Zhang^5^*, Chen Liu^2^*, Lin Zhao^4, Xiaoying Liao^3, Yingrui Ji^6, Janet Wang^6, Jianyang Gu^7, Yingqiang Ge^9, Weijie Xu^9, Xi Fang^9, Xiang Xu^9, Tianchen Zhao^9, Youngeun Kim^9, Tianyang Wang^6, Jihun Hamm^5, Smita Krishnaswamy^2, Jun Huan^9, Chandan K Reddy^8,9 +- **Institutions**: 1 CMU, 2 Yale, 3 JHU, 4 NEU, 5 Tulane, 6 UAB, 7 OSU, 8 Virginia Tech, 9 Amazon +- **Venue**: Under review at TMLR (Transactions on Machine Learning Research), 2026 +- **Project Page**: Awesome-Agent-Harness + +## Abstract + +The rapid deployment of large language model (LLM) agents in production has revealed a recurring pattern: task execution reliability depends less on the underlying model than on the infrastructure layer that wraps it — the **agent execution harness**. This survey provides a practice-grounded, systematic treatment of agent harness engineering, organized around three claims: + +1. **Binding-Constraint Thesis**: The agent harness is an independent system layer whose engineering quality drives a large share of real-world reliability +2. **ETCLOVG Taxonomy**: A seven-layer taxonomy (Execution environment, Tool interface, Context management, Lifecycle/Orchestration, Observability, Verification, Governance) +3. **Ecosystem Mapping**: 170+ open-source projects mapped onto this taxonomy + +## Key Contributions + +- Three-phase engineering evolution: Prompt → Context → Harness Engineering +- Cross-layer synthesis: Cost-Quality-Speed Trilemma, Capability-Control Tradeoff, Harness Coupling Problem +- Open-problem agenda spanning harden/scale execution, maintain reliable state, diagnose from traces, standardize handoffs, and adaptive simplification diff --git a/raw/papers/agent-harness-engineering-survey-2026.pdf b/raw/papers/agent-harness-engineering-survey-2026.pdf new file mode 100644 index 0000000..97f36f3 Binary files /dev/null and b/raw/papers/agent-harness-engineering-survey-2026.pdf differ diff --git a/raw/papers/gram-generative-recursive-reasoning-2026.md b/raw/papers/gram-generative-recursive-reasoning-2026.md new file mode 100644 index 0000000..879724d --- /dev/null +++ b/raw/papers/gram-generative-recursive-reasoning-2026.md @@ -0,0 +1,23 @@ +--- +source_url: https://arxiv.org/abs/2605.19376 +ingested: 2026-05-23 +sha256: unknown +--- + +# Generative Recursive Reasoning + +- **Authors**: Junyeob Baek^1*, Mingyu Jo^1*, Minsu Kim^1,2, Mengye Ren^3, Yoshua Bengio^2,4, Sungjin Ahn^1,3† +- **Institutions**: 1 KAIST, 2 Mila – Québec AI Institute, 3 New York University, 4 Université de Montréal +- **arXiv**: 2605.19376 (v2, 2026-05-19) +- **Category**: cs.AI +- **Project Page**: https://ahn-ml.github.io/gram-website + +## Abstract + +How should future neural reasoning systems implement extended computation? Recursive Reasoning Models (RRMs) offer a promising alternative to autoregressive sequence extension by performing iterative latent-state refinement with shared transition functions. Yet existing RRMs are largely deterministic, following a single latent trajectory and converging to a single prediction. GRAM turns recursive latent reasoning into probabilistic multi-trajectory computation, treating reasoning as a stochastic latent trajectory that enables multiple hypotheses, alternative solution strategies, and inference-time scaling through both recursive depth and parallel trajectory sampling. This yields a latent-variable generative model supporting both conditional reasoning p_θ(y|x) and unconditional generation p_θ(x). Trained with amortized variational inference, GRAM improves over deterministic recurrent and recursive baselines on structured reasoning and multi-solution constraint satisfaction tasks. + +## Key Contributions + +1. Formulates recursive reasoning as a latent-variable generative process +2. Introduces width-based inference-time scaling (depth + parallel trajectories) +3. Empirical evidence on Sudoku-Extreme, ARC-AGI, N-Queens, Graph Coloring, binarized MNIST diff --git a/raw/papers/hu-toolcua-2026.md b/raw/papers/hu-toolcua-2026.md new file mode 100644 index 0000000..484a95b --- /dev/null +++ b/raw/papers/hu-toolcua-2026.md @@ -0,0 +1,44 @@ +--- +title: "ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents" +created: 2026-05-12 +type: paper +source: https://arxiv.org/abs/2605.12481 +code: https://github.com/X-PLUG/ToolCUA +authors: + - Xuhao Hu (Fudan) + - Xi Zhang (Alibaba) + - Haiyang Xu (Alibaba) + - Kyle Qiao (Alibaba) + - Jingyi Yang (Fudan) + - Xuanjing Huang (Fudan) + - Jing Shao (Shanghai AI Lab) + - Ming Yan (Alibaba) + - Jieping Ye (Alibaba) +venue: arXiv:2605.12481, 2026 +tags: [computer-use-agents, gui-tool-orchestration, reinforcement-learning, trajectory-optimization] +--- + +# ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents + +**Authors**: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye + +**Affiliations**: Tongyi Lab, Alibaba Group; Fudan University; Shanghai Artificial Intelligence Laboratory + +**arXiv**: 2605.12481 | **Date**: May 12, 2026 | **Code**: https://github.com/X-PLUG/ToolCUA + +## Abstract + +Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. + +## Key Concepts + +- [[computer-use-agents|Computer Use Agents (CUAs)]] +- [[gui-tool-hybrid-action-space|GUI-Tool Hybrid Action Space]] +- [[optimal-gui-tool-path-selection]] +- [[interleaved-gui-tool-trajectory-scaling]] +- [[tool-bootstrapped-rft]] +- [[tool-efficient-path-reward]] +- [[osworld-mcp]] +- [[next-state-grounding]] +- [[grpo]] +- [[agent-computer-interface]] diff --git a/raw/papers/kore-knowledge-injection.md b/raw/papers/kore-knowledge-injection.md new file mode 100644 index 0000000..50142f7 --- /dev/null +++ b/raw/papers/kore-knowledge-injection.md @@ -0,0 +1,39 @@ +--- +title: "KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Controls" +authors: + - Kailin Jiang + - Hongbo Jiang + - Ning Jiang + - Zhi Gao + - Jinhe Bi + - Yuchen Ren + - Bin Li + - Yuntao Du + - Lei Liu + - Qing Li +date: 2026 +arxiv: "2510.19316" +venue: "ICML 2026" +domain: "Multimodal Learning, Knowledge Injection, Continual Learning" +type: paper +source: "https://arxiv.org/abs/2510.19316" +--- + +# KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Controls + +**Authors**: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li + +**Venue**: ICML 2026 + +**arXiv**: 2510.19316 + +## Abstract + +KORE is a synergistic method centered around Knowledge-Oriented Controls for injecting new knowledge into LMMs while preserving old knowledge. It implements a two-stage optimization: (1) KORE-AUGMENTATION converts individual knowledge items into structured multi-round dialogues and instruction tasks, building a "knowledge tree" that enables internalization; (2) KORE-CONSTRAINT stores previous knowledge in the covariance matrix of linear layer activations and initializes a LoRA adapter by projecting original weights into the matrix's null space, defining a fine-tuning direction that minimally interferes with previous knowledge. + +## Key Contributions + +1. **KORE-AUGMENTATION**: Structured knowledge augmentation pipeline — multi-round dialogues (trunk) + instruction tasks (branches) = knowledge tree +2. **KORE-CONSTRAINT**: Null space projection via covariance matrix SVD — freezes adapter A in null space, fine-tunes only B +3. **HARS metric**: Harmonized Adaptation-Retention Score for unified evaluation +4. **State-of-the-art**: Outperforms 9 baselines on EVOKE benchmark across LLaVA-v1.5 (7B/13B) and Qwen2.5-VL (7B) diff --git a/raw/papers/lou-autoharness-2026.md b/raw/papers/lou-autoharness-2026.md new file mode 100644 index 0000000..6775f4a --- /dev/null +++ b/raw/papers/lou-autoharness-2026.md @@ -0,0 +1,28 @@ +--- +title: "AutoHarness: improving LLM agents by automatically synthesizing a code harness" +created: 2026-05-29 +type: paper-raw +arxiv: "2603.03329" +authors: ["Xinghua Lou", "Miguel Lázaro-Gredilla", "Antoine Dedieu", "Carter Wendelken", "Wolfgang Lehrach", "Kevin P. Murphy"] +venue: "arXiv preprint (cs.CL), February 2026" +affiliation: "Google DeepMind" +tags: ["agent", "code-synthesis", "game-playing", "harness", "LLM"] +--- + +# AutoHarness: improving LLM agents by automatically synthesizing a code harness + +**Authors:** Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy +**Affiliation:** Google DeepMind +**arXiv:** [2603.03329](https://arxiv.org/abs/2603.03329) (v1, 10 February 2026) +**Category:** cs.CL (Computation and Language) + +## Abstract + +Despite significant strides in language models in the last few years, when used as agents, such models often try to perform actions that are not just suboptimal for a given state, but are strictly prohibited by the external environment. For example, in the recent Kaggle GameArena chess competition, 78% of Gemini-2.5-Flash losses were attributed to illegal moves. Often people manually write "harnesses" around LLMs to prevent such failures. In this paper, we demonstrate that Gemini-2.5-Flash can automatically synthesize such a code harness, using a small number of rounds of iterative code refinement given feedback from the (game) environment. The resulting harness prevents all illegal moves in 145 different TextArena games (both 1-player and 2-player), enabling the smaller Gemini-2.5-Flash model to outperform larger models, such as Gemini-2.5-Pro. Pushing our technique to the limit, we can get Gemini-2.5-Flash to generate the entire policy in code, thus eliminating the need to use the LLM at decision making time. The resulting code-policy receives a higher average reward than Gemini-2.5-Pro and GPT-5.2-High on 16 TextArena 1-player games. + +## Key Contributions + +1. **Code-as-Harness framework**: LLM synthesizes its own harness — transforms agent from LLM+hand-coded-plumbing to LLM+auto-generated-code +2. **Thompson Sampling tree search**: structured exploration of code harness space +3. **Three harness modes**: action-filter, action-verifier, and code-as-policy (zero LLM at inference) +4. **100% legal moves** across 145 TextArena games; Flash+Harness outperforms Pro diff --git a/raw/papers/peng-tst-2026.md b/raw/papers/peng-tst-2026.md new file mode 100644 index 0000000..01d3c95 --- /dev/null +++ b/raw/papers/peng-tst-2026.md @@ -0,0 +1,28 @@ +--- +title: "Efficient Pre-Training with Token Superposition" +created: 2026-05-29 +type: paper-raw +arxiv: "2605.06546" +authors: ["Bowen Peng", "Théo Gigant", "Jeffrey Quesnelle"] +venue: "arXiv preprint (cs.CL), v2, May 2026" +affiliation: "Nous Research" +tags: ["pre-training", "efficiency", "token-superposition", "LLM"] +--- + +# Efficient Pre-Training with Token Superposition + +**Authors:** Bowen Peng*, Théo Gigant*, Jeffrey Quesnelle (* equal contribution) +**Affiliation:** Nous Research +**arXiv:** [2605.06546](https://arxiv.org/abs/2605.06546) (v2, 19 May 2026) +**Category:** cs.CL (Computation and Language) + +## Abstract + +Pre-training of Large Language Models is often prohibitively expensive and inefficient at scale, requiring complex and invasive modifications in order to achieve high data throughput. In this work, we present Token-Superposition Training (TST), a simple drop-in method that significantly improves the data throughput per FLOPs during pre-training without modifying the parallelism, optimizer, tokenizer, data, or model architecture. TST is done in two phases: (i) A highly efficient superposition phase where we combine many contiguous tokens into one bag and train using a multi-hot cross-entropy (MCE) objective, and (ii) a recovery phase where we revert back to standard training. We extensively evaluate TST on the scale of 270M and 600M parameters and validate on 3B and a 10B A1B mixture of experts model, demonstrating that it is highly robust in different settings. Ultimately, TST consistently outperforms baseline loss and downstream evaluations, and under equal-loss settings, TST yields up to a 2.5x reduction in total pre-training time at the 10B A1B scale. + +## Key Contributions + +1. **Token-Superposition Training (TST)**: A two-phase drop-in method that increases token throughput s× per FLOP without modifying model architecture +2. **Multi-hot Cross-Entropy (MCE)**: Novel loss function for predicting bags of tokens simultaneously +3. **Representation Alignment Hypothesis**: Shared embeddings across phases are critical — re-initialization destroys gains +4. **Extensive scaling validation**: 270M→600M→3B→10B A1B MoE, with 2.5× speedup at largest scale diff --git a/raw/papers/pre-train-space-reinforcement-learning-2026.md b/raw/papers/pre-train-space-reinforcement-learning-2026.md new file mode 100644 index 0000000..812a642 --- /dev/null +++ b/raw/papers/pre-train-space-reinforcement-learning-2026.md @@ -0,0 +1,27 @@ +--- +title: "Pre-train Space Reinforcement Learning: From P(y|x) to P(y)" +arxiv: "2604.14142" +authors: ["Yuqiao Tan", "Minzheng Wang", "Bo Liu", "Zichen Liu", "Tian Liang", "Shizhu He", "Jun Zhao", "Kang Liu"] +venue: "arXiv preprint" +date: "2026-04-15" +type: paper +tags: ["reinforcement-learning", "pre-training", "LLM", "reasoning", "GRPO"] +--- + +# Pre-train Space Reinforcement Learning + +> **arXiv**: [2604.14142](https://arxiv.org/abs/2604.14142) +> **Authors**: Yuqiao Tan¹²*, Minzheng Wang¹²*, Bo Liu³, Zichen Liu³, Tian Liang⁴, Shizhu He¹²†, Jun Zhao¹², Kang Liu¹² +> **Affiliations**: ¹ CASIA, ² UCAS, ³ NUS, ⁴ Tencent AI Lab +> * Equal contribution, † Corresponding author + +## Abstract + +While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89× and 6.54×, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. + +## Key Claims + +1. **Gradient Alignment**: <∇log P(y), ∇log P(y|x)> ≥ 0 for all samples (empirically validated), confirming PreRL as a viable surrogate for standard RL +2. **NSR > PSR in Pre-train Space**: Negative Sample Reinforcement (suppressing incorrect paths) is far more effective than Positive Sample Reinforcement in the pre-train space +3. **DSRL outperforms GRPO**: Dual Space RL achieves +2-5 point improvement on benchmarks like AIME24/25, with 1.6×-2.5× sample efficiency +4. **NSR-PreRL stimulates endogenous reasoning**: 14.89× more transition thoughts, 6.54× more reflection thoughts diff --git a/raw/papers/when-large-multimodal-models-confront-evolving-knowledge.md b/raw/papers/when-large-multimodal-models-confront-evolving-knowledge.md new file mode 100644 index 0000000..ad48fc0 --- /dev/null +++ b/raw/papers/when-large-multimodal-models-confront-evolving-knowledge.md @@ -0,0 +1,40 @@ +--- +title: "When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations" +authors: + - Kailin Jiang + - Yuntao Du + - Yukai Ding + - Yuchen Ren + - Zhi Gao + - Zilong Zheng + - Ning Jiang + - Lei Liu + - Bin Li + - Qing Li +date: 2026 +arxiv: "2505.24449" +venue: "ICLR 2026" +domain: "Multimodal Learning, Knowledge Injection, Continual Learning" +type: paper +source: "https://arxiv.org/abs/2505.24449" +--- + +# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations + +**Authors**: Kailin Jiang, Yuntao Du, Yukai Ding, Yuchen Ren, Zhi Gao, Zilong Zheng, Ning Jiang, Lei Liu, Bin Li, Qing Li + +**Venue**: ICLR 2026 + +**arXiv**: 2505.24449 + +## Abstract + +Large Multimodal Models (LMMs) store vast amounts of pretrained knowledge but struggle to remain aligned with real-world updates, making it difficult to avoid capability degradation when acquiring evolving knowledge. Furthermore, most current work focuses on exploring static textual knowledge injection, neglecting dynamic multimodal evolving knowledge injection. To address this, the authors propose MME VOKE, a benchmark for evaluating LMMs' ability in multimodal evolving knowledge injection, containing 9,422 samples spanning 159 subtypes. Through extensive experiments, they reveal challenges such as poor injection performance and capability degradation, and introduce knowledge augmentation and knowledge retention methods to address these challenges. + +## Key Contributions + +1. **MMEVOKE Benchmark**: First multimodal evolving knowledge injection benchmark with self-evolving data construction pipeline +2. **Dual Challenge Identification**: Poor knowledge adaptation AND capability degradation after injection +3. **Knowledge-Aware Augmentation**: Demonstrates semantic augmentation strengthens adaptation while surface-level augmentation is detrimental +4. **Retention Methods**: Data Replay and MoELoRA effectively mitigate degradation; EWC/LwF fail +5. **Sufficient Context Paradox**: Even with all necessary information, LMMs still produce incorrect answers diff --git a/raw/papers/yang-skillopt-2026.md b/raw/papers/yang-skillopt-2026.md new file mode 100644 index 0000000..e682c4c --- /dev/null +++ b/raw/papers/yang-skillopt-2026.md @@ -0,0 +1,28 @@ +--- +title: "SkillOpt: Executive Strategy for Self-Evolving Agent Skills" +created: 2026-05-29 +type: paper-raw +arxiv: "2605.23904" +authors: ["Yifan Yang", "Ziyang Gong", "Weiquan Huang", "Qihao Yang", "Ziwei Zhou", "Zisu Huang", "Yan Li", "Xuemei Gao", "Qi Dai", "Bei Liu", "Kai Qiu", "Yuqing Yang", "Dongdong Chen", "Xue Yang", "Chong Luo"] +venue: "arXiv preprint (cs.AI), v2, May 2026" +affiliation: "Microsoft, Shanghai Jiao Tong University, Tongji University, Fudan University" +tags: ["agent", "skill", "optimization", "text-space", "self-evolving"] +--- + +# SkillOpt: Executive Strategy for Self-Evolving Agent Skills + +**Authors:** Yifan Yang*, Ziyang Gong*, Weiquan Huang*, Qihao Yang*, Ziwei Zhou*, Zisu Huang*, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo (* equal contribution) +**Affiliation:** Microsoft, SJTU, Tongji, Fudan +**arXiv:** [2605.23904](https://arxiv.org/abs/2605.23904) (v2, 25 May 2026) +**Code:** https://aka.ms/SkillOpt + +## Abstract + +Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision—none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent. SkillOpt is the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses, SkillOpt is best or tied on all 52 evaluated cells and beats every per-cell competitor. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside Codex, and by +19.1 inside Claude Code. + +## Key Contributions + +1. **Text-space optimizer**: First systematic optimizer for agent skills with deep-learning-style controls (learning rate, validation gate, momentum) +2. **52/52 best/tied**: Across 6 benchmarks × 7 models × 3 harnesses +3. **Cross-domain transfer**: Skills trained on one model/harness/benchmark transfer positively to others +4. **Compact artifacts**: 300–2,000 tokens after 1–4 accepted edits diff --git a/raw/papers/zhou-agent-symbolic-learning-2024.md b/raw/papers/zhou-agent-symbolic-learning-2024.md new file mode 100644 index 0000000..5b057b4 --- /dev/null +++ b/raw/papers/zhou-agent-symbolic-learning-2024.md @@ -0,0 +1,27 @@ +--- +title: "Symbolic Learning Enables Self-Evolving Agents" +created: 2026-05-29 +type: paper-raw +arxiv: "2406.18532" +authors: ["Wangchunshu Zhou", "Yixin Ou", "Shengwei Ding", "Long Li", "Jialong Wu", "Tiannan Wang", "Jiamin Chen", "Shuai Wang", "Xiaohua Xu", "Ningyu Zhang", "Huajun Chen", "Yuchen Eleanor Jiang"] +venue: "arXiv preprint (cs.CL), June 2024" +affiliation: "AIWaves Inc." +tags: ["agent", "symbolic-learning", "self-evolving", "optimization"] +--- + +# Symbolic Learning Enables Self-Evolving Agents + +**Authors:** Zhou et al. (AIWaves, 2024) +**arXiv:** [2406.18532](https://arxiv.org/abs/2406.18532) +**Code:** https://github.com/aiwaves-cn/agents + +## Abstract + +The AI community has been exploring a pathway to AGI by developing "language agents". A fundamental limitation is that current agent research is model-centric/engineering-centric — progress requires substantial manual engineering. Agent symbolic learning introduces a systematic framework that enables language agents to optimize themselves in a data-centric way using symbolic optimizers. Agents are considered as symbolic networks where learnable weights are defined by prompts, tools, and pipeline structure. + +## Key Contributions + +1. **Agent as Symbolic Network**: Pipeline = computation graph, Nodes = layers, Prompts/Tools = weights +2. **Symbolic Back-Propagation**: Language Loss propagated backward through the pipeline → Language Gradients for each node +3. **Holistic Joint Optimization**: All symbolic components optimized together, avoiding local optimum +4. **Self-Evolving**: Language Loss doesn't need ground-truth, enabling learning after deployment diff --git a/reviews/agent-harness-engineering-review-20260523.md b/reviews/agent-harness-engineering-review-20260523.md new file mode 100644 index 0000000..d05309f --- /dev/null +++ b/reviews/agent-harness-engineering-review-20260523.md @@ -0,0 +1,54 @@ +--- +title: "Review: Agent Harness Engineering Survey" +created: 2026-05-23 +updated: 2026-05-23 +type: review +tags: [review, agent, harness, survey] +sources: [raw/papers/agent-harness-engineering-survey-2026.md] +--- + +# 📌 基本信息 + +- **论文标题**: Agent Harness Engineering: A Survey +- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等(CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon) +- **投稿**: TMLR 2026(Under Review) +- **项目页**: Awesome-Agent-Harness +- **添加时间**: 2026-05-23 +- **规模**: 51 页, 170+ 开源项目映射 + +# 🎯 核心概念 + +1. **[[agent-harness-engineering]]** — Agent 执行骨架工程:包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面 +2. **[[etclovg-taxonomy]]** — ETCLOVG 七层分类法:Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance,将 O 和 G 提升为独立架构层 +3. **[[binding-constraint-thesis]]** — 约束瓶颈论:基础设施质量(而非模型能力)设定了 Agent 可靠性的天花板 +4. **[[harness-coupling-problem]]** — Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试 +5. **[[cost-quality-speed-trilemma]]** — 成本、质量、速度三者不可兼得的三方张力 +6. **[[capability-control-tradeoff]]** — 每次 Harness 能力扩展都增大安全和控制问题 +7. **[[prompt-to-harness-evolution]]** — 三阶段工程演进:Prompt Engineering → Context Engineering → Harness Engineering +8. **[[trace-native-evaluation]]** — 以 Agent 踪迹而非最终分数为中心的评估范式 +9. **[[practitioner-research-gap]]** — 从业者-研究鸿沟:Harness 工程价值已被实践但缺乏学术形式化 +10. **[[three-engineering-phases]]** — Prompt → Context → Harness 三阶段视野扩展演进 +11. **[[context-drift]]** — 上下文漂移:U 形注意力 + Context Rot + 工具累积的三种退化 +12. **[[agent-sandbox]]** — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱 +13. **[[multi-agent-orchestration]]** — 层级、团队、工作流、Fan-out、图组合五种编排模式 + +# 🔗 概念网络 + +- **核心连接**: [[binding-constraint-thesis]] ↔ [[harness-coupling-problem]] ↔ [[cost-quality-speed-trilemma]] +- **七层体系**: [[execution-environment]] → [[tool-interface]] → [[context-management]] → [[lifecycle-orchestration]] → [[agent-observability]] → [[agent-verification]] → [[agent-governance]] +- **开放问题链**: [[hardening-execution-environments]] → [[reliable-state-long-running-agents]] → [[trace-native-evaluation]] → [[standard-agent-handoffs]] → [[adaptive-harness-simplification]] +- **扩展网络**: 连接了 29 个概念页,通过 O/V/G 独立层和 [[practitioner-research-gap]]、[[agent-frameworks-to-platforms]] 深入交叉 +- **修复断链**: (补充集成)修复了 review 中 3 个中文 wikilink 错误 + +# 📚 Wiki 集成 + +- **新增页面**: 30 个(1 论文 + 29 概念)含 2026-05-30 补充的 8 个概念 +- **链接密度**: 每概念页平均 ~5 个交叉引用 +- **论文页链接**: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念 +- **总规模**: 373 → 409 页(首次)+ → 563 页(补充集成 + 同期其他论文) + +# 💡 关键洞察 + +1. **从组件思维到系统思维**: 这篇综述最有价值的贡献不是分类本身,而是**跨层综合**——Harness 耦合问题表明,prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优,必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。 + +2. **从模型中心到基础设施中心**: Bölük 的实验(仅改变 harness 格式,15 个 LLM 同时提升)是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论,并提供了三个维度的证据链(演进、跨层综合、开放问题),使该论点从一个直觉变成一个可操作的工程框架。 diff --git a/reviews/distributed-agent-cache-sync-review.md b/reviews/distributed-agent-cache-sync-review.md new file mode 100644 index 0000000..67bf945 --- /dev/null +++ b/reviews/distributed-agent-cache-sync-review.md @@ -0,0 +1,55 @@ +--- +title: "Review: 分布式Agent缓存同步" +created: 2026-05-29 +type: review +article: "distributed-agent-cache-sync-2026" +source: "微信公众号" +--- + +# 📌 Review: 分布式Agent缓存同步 + +**文章**: 分布式Agent缓存同步:从单机到多机的Prompt Caching架构升级 +**来源**: 微信公众号 (LLM + 量化交易系列) +**URL**: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw +**时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[distributed-prompt-caching|Distributed Prompt Caching]]** — 将单机前缀缓存升级为多机分布式同步体系 +2. **[[global-context-hash-tree|Global Context Hash Tree]]** — SHA-256 四层复合键作为分布式会话 UID +3. **[[active-cache-warmup|Active Cache Warm-up]]** — 通过 Shadow Calling 预测性预填充远端缓存 +4. **[[shadow-calling|Shadow Calling]]** — `max_tokens=1` 的特殊 API 调用:只消化前缀不生成输出 +5. **[[distributed-cache-routing|Distributed Cache Routing]]** — Redis `Cache_Routing_Table`:哈希键查询热节点 +6. **[[distributed-optimistic-locking|Distributed Optimistic Locking]]** — Redis WATCH + 版本号防并发分叉 +7. **[[bypass-network-handle-distribution|Bypass Handle Distribution]]** — 应用层传 8 字节句柄,物理层 RDMA 搬数据 +8. **[[context-pruning|Context Pruning]]** — 网络分区时的紧急 8k Token 剪枝降级 +9. **[[cache-cold-start|Cache Cold-Start]]** — 新节点无前缀缓存时的秒级重算困境 +10. **[[trading-lifecycle-driven-eviction|Trading-Lifecycle Eviction]]** — 缓存 TTL 与交易生命周期对齐 + +--- + +## 🔗 概念网络 + +**核心链**: `distributed-prompt-caching` ↔ `global-context-hash-tree` ↔ `distributed-cache-routing` ↔ `active-cache-warmup` + +**优化-降级对偶**: `active-cache-warmup`/`shadow-calling` (正常路径) ↔ `context-pruning` (故障路径) + +**数据-元数据分离**: `bypass-network-handle-distribution` 体现了分布式系统设计的核心智慧——在应用层传递极简句柄,在物理层旁路搬运大数据 + +## 📚 Wiki 集成 + +- **新增页面**: 12 个(1 raw + 1 article + 10 概念) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 457 → 512 页(+55) + +--- + +## 💡 关键洞察 + +**1. "空间确定性换取时间确定性"**:这是本文最精炼的设计哲学。通过高带宽内网的精确状态路由(空间代价),消除 LLM 的秒级重算延迟(时间收益)。这个 trade-off 在高频交易领域是绝对值得的——毫秒级延迟意味着交易信号的生与死。 + +**2. 分布式系统设计的层层递进**:从问题(Cold Start)→ 标识(Hash Tree)→ 路由(Redis)→ 优化(Shadow Calling)→ 一致性(Optimistic Locking)→ 降级(Pruning),展现了完整的分布式系统设计方法论。这个架构模板可以直接迁移到任何需要跨机 LLM 上下文共享的场景。 + +**3. 旁路架构的普适性**:Handle Distribution 模式(8 字节句柄 + RDMA 数据搬运)不仅适用于量化交易,对任何需要 Agent 协作处理大型数据块的分布式 AI 系统都有借鉴意义。 diff --git a/reviews/kore-review-20260521.md b/reviews/kore-review-20260521.md new file mode 100644 index 0000000..9d387c5 --- /dev/null +++ b/reviews/kore-review-20260521.md @@ -0,0 +1,46 @@ +--- +title: "KORE Review" +type: review +date: 2026-05-21 +paper: "[[kore-knowledge-injection]]" +--- + +# KORE Review — 知识导向控制的知识注入 + +📌 **基本信息** +- 论文:KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Controls +- 作者:Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li +- 会议:ICML 2026 | arXiv: 2510.19316 +- 添加时间:2026-05-21 + +🎯 **核心概念** + +1. **KORE-AUGMENTATION** — 知识导向增强:将单个知识项自动转化为结构化"知识树"(主干:多轮对话 + 分支:指令任务),实现从数据记忆到知识内化的跨越 +2. **KORE-CONSTRAINT** — 知识导向约束:在激活协方差矩阵的零空间中初始化 LoRA adapter,冻结 A 仅微调 B,确保 BAC≈0 —— 新知识不干扰旧知识 +3. **知识树** — 多层次结构化知识表示,主干提供深度理解,分支提供多角度视角 +4. **零空间投影** — 线性代数在持续学习中的优雅应用:在"空白区域"写入新知识 +5. **HARS** — 调和适应保留评分,将适应与保留统一为单一指标 +6. **协方差矩阵知识存储** — 验证了多模态知识可以被激活协方差矩阵有效捕获 + +🔗 **概念网络** + +- **核心三角**:KORE-AUGMENTATION ↔ KORE-CONSTRAINT ↔ 知识树 +- **数学基础链**:协方差矩阵 → SVD → 零空间 → 投影 → LoRA 初始化 +- **与前置工作连接**:KORE 是 MMEVOKE 的解决方案 —— 使用 EVOKE 基准评估,超越了 MMEVOKE 论文中测试的所有 baseline +- **连接已有概念**:[[evolving-knowledge-injection]], [[knowledge-adaptation]], [[knowledge-retention]], [[capability-degradation]], [[mme-voke]], [[data-replay]], [[moe-lora]] +- **断链修复**:创建了 4 个占位概念(knowledge-internalization, structured-knowledge, null-space, covariance-matrix) + +📚 **Wiki 集成** + +- 新增页面:11 个(1 论文 + 6 核心概念 + 4 占位概念) +- 核心概念平均 5 个链接 +- 网络完整性:100% 无断链 +- 总规模:361 → 372 页 + +💡 **关键洞察** + +1. **结构化增强 > 离散增强**:一般的 data augmentation 只生成孤立的表面变体;KORE 构建了连贯的知识树,实现了质的飞跃。这印证了之前 MMEVOKE 论文的发现:knowledge-agnostic 增强有害,knowledge-aware 增强有效 —— KORE 进一步证明了 structured knowledge-aware 才是最优路径。 + +2. **零空间是持续学习的"免费午餐"**:协方差矩阵的零空间提供了天然的参数隔离机制 —— 无需存储旧数据(vs Replay),无需修改架构(vs MoE),只需一次 SVD 分解即可实现精确的知识保护。这是一个优雅的线性代数解决方案。 + +3. **MMEVOKE → KORE 形成了完整的研究弧**:前者定义了问题和基准,后者提供了解决方案。两篇论文合在一起,构成了多模态进化知识注入领域的奠基性工作。 diff --git a/reviews/lou-autoharness-review.md b/reviews/lou-autoharness-review.md new file mode 100644 index 0000000..9d1b156 --- /dev/null +++ b/reviews/lou-autoharness-review.md @@ -0,0 +1,54 @@ +--- +title: "Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent" +created: 2026-05-29 +type: review +paper: "lou-autoharness-2026" +arxiv: "2603.03329" +--- + +# 📌 Review: AutoHarness + +**论文**: AutoHarness: improving LLM agents by automatically synthesizing a code harness +**作者**: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy +**机构**: Google DeepMind +**arXiv**: 2603.03329 | **领域**: cs.CL | **时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[autoharness|AutoHarness]]** — LLM 自动合成为自己服务的代码 harness,消除 Agent 的非法动作 +2. **[[code-as-harness|Code as Harness]]** — LLM + auto-generated plumbing 的框架哲学:不是让模型完美,而是让它可以被代码约束 +3. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]** — LLM 提议动作 → 代码验证合法性 → 非法则重试的 rejection sampling 模式 +4. **[[harness-as-policy|Harness-as-Policy]]** — 代码直接决策,推理时零 LLM 调用:小模型 Flash 训练出的 policy 超越 GPT-5.2-High +5. **[[thompson-sampling-code-search|Thompson Sampling Code Search]]** — 在代码假设树中平衡探索与利用的搜索算法 +6. **[[iterative-code-refinement|Iterative Code Refinement]]** — LLM 作为 gradient-free optimizer,基于环境 feedback 反复改进代码 +7. **[[action-applicability|Action Applicability]]** — AI Agent 在给定状态下判定动作合法性的基本问题 + +--- + +## 🔗 概念网络 + +**核心链**: `autoharness` ↔ `code-as-harness` ↔ `harness-as-action-verifier` ↔ `iterative-code-refinement` ↔ `thompson-sampling-code-search` + +**终极形态**: `harness-as-policy` — 从 LLM+harness 到纯代码策略,完全消除推理时 LLM 依赖 + +**问题→解**: `action-applicability` → `code-as-harness` + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 9 个(1 论文 + 1 raw + 7 概念) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 512 → 520 页 + +--- + +## 💡 关键洞察 + +**1. "小模型 + 代码外壳 > 大模型裸奔"**:这是本文最反直觉的结果。Gemini-2.5-Flash(小模型)加上自己生成的代码 harness,不仅在合法性上完胜,在最终 reward 上也超越了 Gemini-2.5-Pro 甚至 GPT-5.2-High。这说明 LLM 能力的瓶颈往往不在"智能"本身,而在与结构化环境的接口可靠性。 + +**2. 从 rejection sampling 到 code-as-policy 的连续谱**:论文优雅地展示了 harness 的三个抽象层级——从最保守的 verifier(LLM 仍负责决策)到最激进的 policy(代码全权决策)。这个连续谱为不同场景提供了灵活的部署选择。 + +**3. 递归自我改进的潜力**:论文展望了将 domain-specific harness 蒸馏回 base LLM 的未来方向——如果 harness 学习到的"合法性直觉"能被吸收进 LLM 本身,整个系统就实现了递归自我改进。这与 [[hyperagents]] 中的自我修改框架形成有趣的呼应。 diff --git a/reviews/lyu-model-harness-review.md b/reviews/lyu-model-harness-review.md new file mode 100644 index 0000000..3553d00 --- /dev/null +++ b/reviews/lyu-model-harness-review.md @@ -0,0 +1,54 @@ +--- +title: "Review: Model与Harness的关系演进" +created: 2026-05-29 +type: review +article: "lyu-model-harness-evolution-2026" +source: "微信公众号" +--- + +# 📌 Review: Model与Harness的关系演进 + +**文章**: Model与Harness的关系演进:从AutoHarness到Heuristic Learning +**作者**: 吕明 +**来源**: 微信公众号 | **时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[model-harness-relationship|Model-Harness Relationship]]** — 从主从到融合的动态演进:策略算法与工程约束的边界正在消失 +2. **[[harness-engineering|Harness Engineering]]** — 系统性地为 LLM Agent 构建约束层的新工程学科 +3. **[[heuristic-learning|Heuristic Learning]]** — 替代梯度下降的新学习范式:以 Agent 整体为进化主体 +4. **[[strategy-engineering-unification|Strategy-Engineering Unification]]** — coding tokenlized 空间下策略与工程的统一融合 +5. **[[compiled-ai-paradigm|Compiled AI Paradigm]]** — 编译阶段生成代码,推理阶段零 LLM 调用 +6. **[[generative-general-unification|Generative-General-Unification]]** — GenAI 区别于历史 AI 浪潮的三支柱框架 + +--- + +## 🔗 概念网络 + +**核心链**: `model-harness-relationship` ↔ `harness-engineering` ↔ `strategy-engineering-unification` ↔ `compiled-ai-paradigm` + +**范式层**: `heuristic-learning` — 将上述工程实践上升为通用学习范式 + +**历史定位**: `generative-general-unification` — 为整个 GenAI 时代提供历史坐标系 + +**与已有 wiki 的深度连接**: 本文是 [[autoharness|AutoHarness]] 论文的**思想层解读**——不是重复介绍方法,而是将其置于 Model-Harness 关系演进的大框架中审视 + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 9 个(1 raw + 1 article + 6 概念 + 1 review) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 520 → 527 页 + +--- + +## 💡 关键洞察 + +**1. "世界的本质是泛化策略 + 抽象约束"**:这是本文最深刻的哲学命题。如果将数学视为"公理(约束)+ 推导(策略)"的系统,那么 GenAI 的 Model-Harness 融合正是这一世界观的工程化表达。Harness 不是 Model 的附属品——它是与策略同等重要的**第一性组件**。 + +**2. 从论文到思想体系的升维**:本文最独特的价值在于它**不做复读机**——它没有停留在介绍 AutoHarness 的三种模式,而是从第一性原理出发,构建了 GenAI 区别于前几次 AI 浪潮的三支柱分析框架(生成式·通用性·统一性),并将 Heuristic Learning 与 AutoHarness 连接成一条统一的演进脉络。 + +**3. 编译型 AI 的产业意义**:Code-as-Policy 不只是学术 demo——它指向一种全新的 AI 部署模式:训练用 GPU,推理用 CPU,成本从 $640 降至 $0。这对 ToB 交付和边缘部署的冲击是根本性的。 diff --git a/reviews/lyu-skillopt-deep-dive-review.md b/reviews/lyu-skillopt-deep-dive-review.md new file mode 100644 index 0000000..b07c3b0 --- /dev/null +++ b/reviews/lyu-skillopt-deep-dive-review.md @@ -0,0 +1,52 @@ +--- +title: "Review: SkillOpt深度解读 — 自进化Agent的'反向传播'" +created: 2026-05-29 +type: review +article: "lyu-skillopt-deep-dive-2026" +source: "微信公众号" +--- + +# 📌 Review: SkillOpt深度解读 + +**文章**: SkillOpt深度解读:自进化Agent技能的"反向传播"与工程化Continued Evolve +**作者**: 吕明 | **字数**: ~1.2万字 +**来源**: 微信公众号 | **时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[text-vs-weight-optimization|Text vs Weight Optimization]]** — 文本空间优化与权重空间梯度下降的三个根本差异:梯度本质(局部 vs 全局因果)、验证机制(解析链式 vs 经验主义)、度量结构(连续 vs 无天然度量) +2. **[[controlled-autonomy|Controlled Autonomy]]** — "受控的自主性":人类立法(验证集+约束)、Optimizer 执行、Gate 司法 +3. **[[skill-data-flywheel|Skill Data Flywheel]]** — Skill 进化轨迹反哺模型训练的正向飞轮 +4. **[[skill-ecosystem|Skill Ecosystem]]** — 从"Agent Skill App Store"到企业私域沉淀 +5. **[[dual-layer-rl|Dual-Layer RL]]** — 内层 Agent RL + 外层 Optimizer RL = Learning to Learn + +--- + +## 🔗 概念网络 + +**思辨层**: `text-vs-weight-optimization` — 为 SkillOpt 的"文本梯度"类比提供严谨的数学-哲学根基 + +**工程层**: `controlled-autonomy` ↔ `skill-data-flywheel` ↔ `dual-layer-rl` ↔ `skill-ecosystem` + +**与已有 wiki 的深层连接**: +- 与 `model-harness-relationship` (吕明前文) 形成精确共振 +- 为 `text-space-optimizer` / `skillopt` (原论文) 提供哲学深度 +- 连接 `heuristic-learning` → 元优化的更广义框架 + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 8 个(1 raw + 1 article + 5 概念 + 1 review) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 535 → 541 页 + +--- + +## 💡 关键洞察 + +**1. "启示性的类比"而非"结构性的同构"**:这是本文最深刻的智力贡献。吕明没有满足于"SkillOpt = 文本空间的梯度下降"这个表层类比,而是深入到优化动力学的本质——指出了连续空间(可微、解析链式、向量度量)与离散文本空间(不可微、经验验证、无天然度量)之间的根本鸿沟。这种"知其所以然"的剖析,比论文本身提供了更多的理解深度。 + +**2. 从技术到哲学的升维**:将梯度下降映射为"英国经验主义"(被动被数据塑形)、将 SkillOpt 映射为"大陆理性主义"(主动理性演绎)——这是罕见的技术文章能做到的哲学抽象。它让读者不仅理解了 SkillOpt 怎么工作,更理解了它**为什么是这个时代需要的东西**。 diff --git a/reviews/peng-tst-2026-review.md b/reviews/peng-tst-2026-review.md new file mode 100644 index 0000000..f5fdbfe --- /dev/null +++ b/reviews/peng-tst-2026-review.md @@ -0,0 +1,52 @@ +--- +title: "Review: Token Superposition Training" +created: 2026-05-29 +type: review +paper: "peng-tst-2026" +arxiv: "2605.06546" +--- + +# 📌 Review: Token Superposition Training + +**论文**: Efficient Pre-Training with Token Superposition +**作者**: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research) +**arXiv**: 2605.06546 | **领域**: cs.CL | **评审时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[token-superposition-training|Token Superposition Training (TST)]]** — 两阶段预训练方法:叠加阶段用 s-token 提高吞吐量,恢复阶段回归标准训练。不修改模型架构,纯 drop-in +2. **[[multi-hot-cross-entropy|Multi-hot Cross-Entropy (MCE)]]** — 预测下一个 bag 全部 token 的损失函数,是标准 CE 的多标签推广 +3. **[[input-superposition|Input Superposition]]** — 将连续 s 个 token embedding 取平均形成 s-token,序列长度缩短 s× +4. **[[representation-alignment|Representation Alignment]]** — 两阶段间必须共享 embedding 和 LM head,重新初始化会完全消除增益 +5. **[[coarse-to-fine-granularity|Coarse-to-Fine Granularity]]** — 跨模态设计原则:先用粗粒度高吞吐量表示训练,后切换到细粒度 +6. **[[throughput-hypothesis|Throughput Hypothesis]]** — coarser token → 更高训练数据吞吐 → 更好性能 +7. **[[two-phase-pretraining|Two-Phase Pre-Training]]** — 先用替代目标预训练再回归标准的通用范式 +8. **[[s-token|S-Token]]** — 叠加后形成的 latent representation + +--- + +## 🔗 概念网络 + +**核心连接**: `token-superposition-training` ↔ `input-superposition` ↔ `multi-hot-cross-entropy` ↔ `two-phase-pretraining` + +**设计原则层**: `coarse-to-fine-granularity` ↔ `throughput-hypothesis` ↔ `representation-alignment` + +**扩展连接**: 与 wiki 内已有概念(如 multi-token-prediction、subword-tokenization、mixture-of-experts)构成预训练效率优化的概念集群 + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 10 个(1 论文 + 1 raw 存档 + 8 概念) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 447 → 456 页 + +--- + +## 💡 关键洞察 + +**1. "不修改"的力量**:TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则:**训练时的表示粒度和推理时的架构可以解耦**。 + +**2. 表示对齐的隐藏重要性**:通过对照实验(随机重新初始化 embedding → 所有增益消失),论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键,更是对任何多阶段训练范式的一般性启示。 diff --git a/reviews/pretrain-space-rl-review-20260518.md b/reviews/pretrain-space-rl-review-20260518.md new file mode 100644 index 0000000..60c0abe --- /dev/null +++ b/reviews/pretrain-space-rl-review-20260518.md @@ -0,0 +1,53 @@ +--- +title: "Review: Pre-train Space Reinforcement Learning" +paper: "pre-train-space-reinforcement-learning" +arxiv: "2604.14142" +date: "2026-05-18" +type: review +--- + +# Review: Pre-train Space Reinforcement Learning + +📌 **基本信息** +- 论文标题:*Pre-train Space Reinforcement Learning: From P(y|x) to P(y)* +- 作者:Yuqiao Tan, Minzheng Wang (CASIA/UCAS), Bo Liu, Zichen Liu (NUS), Tian Liang (Tencent AI Lab), Shizhu He†, Jun Zhao, Kang Liu (CASIA) +- 领域:LLM Reasoning, Reinforcement Learning, Pre-training +- arXiv: [2604.14142](https://arxiv.org/abs/2604.14142) | 2026-04-15 +- 添加时间:2026-05-18 + +🎯 **核心概念** + +1. **PreRL(预训练空间 RL)** — 将 RL 优化目标从 P(y|x) 移至 P(y),梯度更新时遮蔽输入条件 x。基于梯度对齐(⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0)证明为有效代理 +2. **NSR(负样本强化)** — 在预训练空间中剪枝错误推理路径;transition thoughts 增长 14.89×,reflection thoughts 增长 6.54× +3. **DSRL(双空间 RL)** — 策略转生:先 NSR-PreRL 扩展推理视野(10-25 步),再切换标准 RL 进行细粒度优化 +4. **PSR 退化** — 正样本强化在预训练空间中导致 on-policy collapse,需 out-of-distribution 专家示范 +5. **内生推理** — NSR-PreRL 解锁模型预训练中已编码但被条件约束抑制的推理能力 + +🔗 **概念网络** + +核心连接: +``` +PreRL ←→ Post-train Space RL ←→ DSRL + ↓ ↓ ↓ +梯度对齐 P(y|x) 瓶颈 策略转生 + ↓ ↓ +共享参数影响 NSR → PSR + ↓ + 内生推理 ← on-policy collapse +``` + +- 核心概念:11 个 +- 链接完整性:100% 无断链 + +📚 **Wiki 集成** +- 新增页面:13 个(1 论文 + 1 raw + 11 概念) +- 总规模:335 → 347 页 +- 网络完整性:100% + +💡 **关键洞察** + +1. **范式转折**:从"条件空间锐化分布"到"边际空间剪枝错误路径"——NSR 证明删除比添加更有效,这是 RL for LLM 中一个重要但被忽视的不对称性 + +2. **预训练空间的"负优化"优势**:PSR(正样本强化)在预训练空间中是退化的,而 NSR 极有效——这种不对称性暗示预训练空间的优化本质上是"约束释放"而非"能力注入" + +3. **双空间协同**:DSRL 的优雅之处在于它认识到不同训练阶段需要不同的"优化空间"——初期在 P(y) 中消除根本性错误(全局剪枝),后期在 P(y|x) 中精调条件策略(局部优化),这类似于从 exploration 到 exploitation 的自然过渡 diff --git a/reviews/toolcua-review-20260531.md b/reviews/toolcua-review-20260531.md new file mode 100644 index 0000000..5e75157 --- /dev/null +++ b/reviews/toolcua-review-20260531.md @@ -0,0 +1,80 @@ +--- +title: "ToolCUA Review: GUI-Tool路径编排的概念网络分析" +created: 2026-05-31 +type: review +source: https://arxiv.org/abs/2605.12481 +--- + +# 📌 基本信息 + +- **论文标题**: ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents +- **作者**: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye +- **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室 +- **领域**: Computer Use Agents, Reinforcement Learning, GUI-Tool Orchestration +- **arXiv**: 2605.12481 (2026-05-12) +- **添加时间**: 2026-05-31 + +# 🎯 核心概念 + +1. **[[computer-use-agents|Computer Use Agents (CUAs)]]** — 在桌面环境中通过感知截图、执行原子操作完成复杂任务的 AI Agent +2. **[[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]]** — GUI 原子操作与高层工具调用的统一动作空间;直接暴露反而降低性能 +3. **[[optimal-gui-tool-path-selection|最优 GUI-Tool 路径选择]]** — 动态决定何时 GUI、何时工具的轨迹级策略学习问题 +4. **[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]]** — 从已有纯 GUI 轨迹合成大规模混合数据的四步管线 +5. **[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]]** — Warmup SFT + 关键切换点单轮 RL 的两阶段训练 +6. **[[tool-efficient-path-reward|工具高效路径奖励]]** — $R_{\text{tool}}$(适当性)+ $R_{\text{length}}$(效率)的轨迹级奖励设计 +7. **[[osworld-mcp|OSWorld-MCP]]** — 支持 150+工具、333个任务、混合动作空间的 CUA 评估基准 +8. **[[next-state-grounding|下一状态锚定]]** — 将合成工具步骤锚定到原始 GUI 截图状态的验证机制 + +# 🔗 概念网络 + +## 核心连接(方法链条) +``` +interleaved-gui-tool-trajectory-scaling + → tool-bootstrapped-rft + → tool-efficient-path-reward + → online-agentic-rl (via grpo) +``` + +## 问题-解法映射 +``` +gui-tool-hybrid-action-space + → optimal-gui-tool-path-selection (问题形式化) + → toolcua-optimal-gui-tool-orchestration (解法) +``` + +## 奖励设计分解 +``` +tool-efficient-path-reward + ├── R_tool (工具适当性) → 解耦工具使用与任务成功 + └── R_length (路径效率) → 长短轨迹的差异化激励 +``` + +## 扩展连接 +- **[[grpo]]**: 单轮 RL 和在线 RL 阶段的优化算法 +- **[[agent-computer-interface]]**: CUA 的交互接口 +- **[[agentic-systems]]**: CUA 作为 Agentic System 在桌面自动化领域的实例 +- **[[computer-use-agents]]**: 连接回更大的 CUA 生态系统 + +# 📊 实验洞察 + +| 现象 | 数据 | 启示 | +|------|------|------| +| 混合空间反降性能 | EvoCUA-32B: 52.6%→40.5% (-12.1%) | 暴露两种动作空间≠掌握两种动作空间 | +| 合成数据有效性 | 无真实工具轨迹收集,纯合成 → SOTA | 数据质量 > 数据来源 | +| 跨平台泛化 | 新 Linux 任务 23.9%,新 Windows 应用 33.8% | 混合动作空间训练产生可迁移的策略 | + +# 📚 Wiki 集成 + +- **新增页面**: 10 个(1 raw + 1 paper + 8 concepts) +- **链接密度**: 核心概念平均 6+ 个交叉引用 +- **网络完整**: ✅ 0 断链 +- **总规模**: 从 564 → 527 页(重建后,消除历史重复条目) +- **概念连接**: 8 个新概念全部链接到已有 [[grpo]]、[[agent-computer-interface]]、[[agentic-systems]] + +# 💡 关键洞察 + +1. **"工具悖论"**:论文最反直觉的发现——给 Agent 更多能力(工具调用)反而降低性能,除非有专门的训练策略。这类似于"选择悖论"在 AI 行动空间的体现。不是能力越多越好,而是需要**学习何时使用哪种能力**。 + +2. **数据管线的优雅性**:"从已有 GUI 轨迹→MLLM 合成工具→生成交错数据"的管线极为优雅,因为它绕过了 CUA 领域最大的瓶颈——真实工具轨迹的数据稀缺。这是一个经典的 **repurpose** 策略:让已有资源发挥新的训练价值。 + +3. **轨迹级 vs 步骤级优化**:$R_{\text{tool}} + R_{\text{length}}$ 组合是方法论上的关键贡献。单独的任务成功奖励无法区分"12步 GUI 完成"和"3步(1次工具+2步 GUI)完成",而路径效率奖励弥补了这一盲区。 diff --git a/reviews/ultradata-l3-review.md b/reviews/ultradata-l3-review.md new file mode 100644 index 0000000..2db034e --- /dev/null +++ b/reviews/ultradata-l3-review.md @@ -0,0 +1,48 @@ +--- +title: "Review: UltraData — 大模型数据分级治理的开源实践" +created: 2026-05-29 +type: review +article: "ultradata-l3-open-source-2026" +source: "Datawhale (微信公众号)" +--- + +# 📌 Review: UltraData 数据分级治理 + +**文章**: UltraData:面壁智能L3数据开源与L0-L4数据分级治理体系 +**作者**: 面壁智能团队 | **来源**: Datawhale +**时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[data-hierarchical-governance|L0-L4 分级治理]]** — 五级数据体系:原始→过滤→精筛→合成→编排,按阶段匹配 +2. **[[ultradata|UltraData]]** — 面壁智能+清华+OpenBMB 的开源数据系统(600B合成+千万SFT) +3. **[[synthetic-data-qa-generation|合成Q&A生成]]** — 将"可读"网页转化为"好学"结构化数据 +4. **[[stage-matched-data-config|分阶段数据配置]]** — 退火用L3推理注入,SFT用深思考对齐 +5. **[[deep-thinking-sft|深思考SFT]]** — 含完整思维链标注,同时训练推理与效率 +6. **[[data-quality-over-scale|质量重于规模]]** — 行业下半场:1B登顶的秘密是数据而非参数 + +--- + +## 🔗 概念网络 + +**核心链**: `data-hierarchical-governance` ↔ `stage-matched-data-config` ↔ `synthetic-data-qa-generation` ↔ `deep-thinking-sft` + +**行业转向**: `data-quality-over-scale` — 连接今日已集成的 LLM 训练效率方法(TST、Skill as External State 等) + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 9 个(1 raw + 1 article + 6 概念 + 1 review) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 541 → 547 页 + +--- + +## 💡 关键洞察 + +**1. "数据治理"从口号变成了可度量、可复现的工程路线**:L0-L4 分级体系的核心洞见是——不同训练阶段需要不同质量的数据。前期用廉价L1广撒网,后期用昂贵L3激发推理。这不是直觉,是经过 MiniCPM5-1B 全链路验证的工程方法论。 + +**2. 数据配方的公开化是行业转折点**:当 UltraData 将 L3 合成数据和 SFT 数据全部开源时,它改变的不只是面壁智能一家——它为整个社区提供了可审计、可复现的数据工程范式,让"数据精细化"从少数团队的秘方变成了公共资产。 diff --git a/reviews/yang-skillopt-review.md b/reviews/yang-skillopt-review.md new file mode 100644 index 0000000..663262c --- /dev/null +++ b/reviews/yang-skillopt-review.md @@ -0,0 +1,52 @@ +--- +title: "Review: SkillOpt — Agent Skill 的文本空间优化器" +created: 2026-05-29 +type: review +paper: "yang-skillopt-2026" +arxiv: "2605.23904" +--- + +# 📌 Review: SkillOpt + +**论文**: SkillOpt: Executive Strategy for Self-Evolving Agent Skills +**作者**: Yifan Yang, Ziyang Gong, Weiquan Huang et al. (15 authors) +**机构**: Microsoft, SJTU, Tongji, Fudan +**arXiv**: 2605.23904 | **领域**: cs.AI | **时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[skillopt|SkillOpt]]** — 首个系统性 Agent Skill 文本空间优化器,52/52 best or tied +2. **[[text-space-optimizer|Text-Space Optimizer]]** — 将 skill 训练建模为文本空间优化,与权重空间形成精确类比 +3. **[[textual-learning-rate|Textual Learning Rate]]** — 编辑预算 L_t 控制优化步长 +4. **[[held-out-validation-gate|Held-Out Validation Gate]]** — 候选编辑仅在留出集上改善时才被接受 +5. **[[rejected-edit-buffer|Rejected-Edit Buffer]]** — 失败编辑的负反馈信号,epoch-local +6. **[[slow-meta-update|Slow/Meta Update]]** — Momentum 在文本空间的对应:跨 epoch 持久规律 +7. **[[skill-as-external-state|Skill as External State]]** — 适应不一定要改权重,skill 就是可训练的外部状态 + +--- + +## 🔗 概念网络 + +**核心链**: `skillopt` ↔ `text-space-optimizer` ↔ `textual-learning-rate` ↔ `held-out-validation-gate` ↔ `slow-meta-update` + +**反馈闭环**: `held-out-validation-gate` → `rejected-edit-buffer` → optimizer → `held-out-validation-gate` + +**上层哲学**: `skill-as-external-state` → 连接 `model-harness-relationship` + `heuristic-learning` + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 10 个(1 raw + 1 paper + 7 概念 + 1 review) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 527 → 535 页 + +--- + +## 💡 关键洞察 + +**1. "类比是操作性的,不是装饰性的"**:SkillOpt 最精妙之处是它对深度学习优化器的类比**每个组件都有操作性对应**——learning rate → edit budget、validation → held-out gate、momentum → slow update。这不是比喻,是一个完整翻译过来的优化框架。这在 AI 历史上可能是第一次有人把"优化自然语言 artifact"这件事做得如此系统。 + +**2. 从"改参数"到"改文档"的范式转移**:SkillOpt 明确指出 adaptation ≠ weight update。Skill 作为可训练外部状态,与今日已在推进的 `model-harness-relationship`、`heuristic-learning`、`compiled-ai-paradigm` 形成了一条完整的叙事线——AI 的适应正在从模型内部(权重)迁移到模型外部(skill/harness/code),这是一个与本次 GenAI 浪潮本质特征(生成式·通用性·统一性)高度一致的深层趋势。 diff --git a/reviews/zhou-agent-symbolic-learning-review.md b/reviews/zhou-agent-symbolic-learning-review.md new file mode 100644 index 0000000..4f00d87 --- /dev/null +++ b/reviews/zhou-agent-symbolic-learning-review.md @@ -0,0 +1,50 @@ +--- +title: "Review: Agent Symbolic Learning — 符号学习驱动的自进化Agent" +created: 2026-05-29 +type: review +paper: "zhou-agent-symbolic-learning-2024" +arxiv: "2406.18532" +--- + +# 📌 Review: Agent Symbolic Learning + +**论文**: Symbolic Learning Enables Self-Evolving Agents +**作者**: Wangchunshu Zhou et al. (AIWaves, 2024) +**arXiv**: 2406.18532 | **领域**: cs.CL | **时间**: 2026-05-29 + +--- + +## 🎯 核心概念 + +1. **[[agent-symbolic-learning|Agent Symbolic Learning]]** — 模仿连接主义学习的 Agent 优化框架:BP + GD 的符号化对应 +2. **[[symbolic-network|Symbolic Network]]** — Agent Pipeline 作为符号网络:节点=层,Prompts/Tools=权重 +3. **[[language-gradient|Language Gradient]]** — 自然语言 simulacrum 的梯度:全局因果推理而非局部一阶 +4. **[[symbolic-backpropagation|Symbolic Back-Propagation]]** — 从末节点向前传播 Language Loss 到所有节点 +5. **[[self-evolving-agents|Self-Evolving Agents]]** — 部署后从经验中自主学习,无需 ground-truth +6. **[[language-loss|Language Loss]]** — 用自然语言评估执行结果的损失函数 + +--- + +## 🔗 概念网络 + +**核心链**: `agent-symbolic-learning` ↔ `symbolic-network` ↔ `language-loss` ↔ `symbolic-backpropagation` ↔ `language-gradient` + +**自进化线**: `self-evolving-agents` — 连接 `skillopt`、`heuristic-learning`、`controlled-autonomy` + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 9 个(1 raw + 1 paper + 6 概念 + 1 review) +- **链接完整性**: 100% 无断链 ✅ +- **总规模**: 548 → 555 页 + +--- + +## 💡 关键洞察 + +**1. 填补了今日集成中的"历史空白"**:今天集成的 SkillOpt (2026)、Heuristic Learning、吕明的文本vs权重优化分析——它们的共同思想源头都可以追溯到这篇 2024 年的 Agent Symbolic Learning。它是最早明确提出"模仿 BP+GD 来优化 Agent 符号组件"的工作,SkillOpt 的"文本空间优化器"类比和 Heuristic Learning 的"替代梯度下降"都可视为其后续发展。 + +**2. Holistic Joint Optimization 的远见**:论文指出 DSPy 等方法"只优化单个 prompt/tool"会导致局部最优——这类似于早期神经网络逐层训练(layer-wise pretraining)的困境。Agent Symbolic Learning 的 Holistic 联合优化呼应了神经网络端到端训练的演进逻辑,在当时是非常有远见的设计选择。 + +**3. 从 engineering-centric 到 data-centric 的范式宣言**:这篇论文不仅提出方法,更提出了一个根本性问题——Agent 开发应该像训练神经网络一样从数据中学习,而不是靠人类工程手工调优。这个 vision 在两年后的 SkillOpt 和 Heuristic Learning 中得到了工程化的验证。