This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

59
articles/claw-eval.md Normal file
View File

@@ -0,0 +1,59 @@
---
title: "Claw-Eval面向自主Agent的端到端评测框架"
created: 2026-05-23
updated: 2026-05-23
type: article
tags: [agent, evaluation, benchmark, safety, robustness]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Claw-Eval面向自主 Agent 的端到端评测框架
> Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。
## 核心设计理念
- **轻量运行层 + 真实任务**:不追求复杂工程增强,用统一、可审计的基座承载真实复杂工作流
- **Setup → Execution → Judge** 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照
- 300 个人工验证任务14 个前沿模型
## 三大任务组
| 任务组 | 重点考察 |
|-------|---------|
| 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 |
| 多模态任务 | 视频/文档/图像理解 + 主动生成 |
| 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 |
## 三维护评分
- **[[agent-completion-evaluation|Completion]]**:任务是否完成,结果是否符合要求
- **[[agent-safety-evaluation|Safety]]**:执行过程是否遵守约束
- **[[agent-robustness-evaluation|Robustness]]**:面对故障时能否恢复
## Pass@k vs Pass^k能力 ≠ 稳定性
- **[[pass-at-k-vs-pass-k|Pass@3]]**:三次中至少成功一次 → 接近能力上限
- **[[pass-at-k-vs-pass-k|Pass^3]]**:三次全部成功 → 接近可靠性下限
- 错误注入实验中 Pass^3 最高下降 24 个百分点
## 三个关键发现
1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题
2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不能代表稳定可用
3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**:最高多模态 Pass^3 仅 25.7%
## 关键洞察:问题质量 > 问题数量
[[question-quality-vs-quantity]]:在多轮专业对话中,问题质量解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问,更要知道当前最该问什么。
## 与 Agent Harness Engineering 的联系
Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层([[verification-evaluation]])和 O 层([[observability]])直接对应:它的混合评测管线(对话记录 + 服务端日志 + 环境快照)正是 [[trace-native-evaluation]] 的实践——不只看最终对错,还要从踪迹中诊断失败。
## 开源资源
- 数据集ModelScope `claw-eval/Claw-Eval`
- 排行榜https://claw-eval.github.io/
- GitHubhttps://github.com/claw-eval/claw-eval

View File

@@ -0,0 +1,69 @@
---
title: "分布式Agent缓存同步从单机到多机的Prompt Caching架构升级"
created: 2026-05-29
updated: 2026-05-29
type: article
source: "微信公众号"
url: "https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"
tags: ["distributed-systems", "prompt-caching", "quant-trading", "agent", "redis", "rdma"]
---
# 分布式Agent缓存同步
> **来源**: 微信公众号技术文章 (LLM + 量化交易系列) | 收录时间: 2026-05-29
## 核心问题
在高频量化系统的分布式多机架构中,[[prompt-caching]] 面临一个根本性挑战:单机的前缀匹配缓存机制被物理网络彻底割裂。当一个节点上的 Agent 已经积累了 150k Token 的"热"上下文时,另一个节点发起的协作请求将遭遇**全额冷启动**——秒级延迟在高频交易中不可接受。
## 解决方案架构
### 1. 全局上下文哈希树
每个 Agent 不直接构建 Prompt 字符串,而是在本地构建逻辑 ContextNode 树:
```
Global Layer SHA → Project Layer SHA → Session Layer SHA → Current Turn SHA
```
四个 SHA-256 哈希组合成 128 字节的复合键,作为会话在分布式网络中的唯一标识符。
参见 [[global-context-hash-tree]]
### 2. Redis 分布式状态路由
基于 Redis 集群维护 `Cache_Routing_Table`异步记录每个前缀的物理分布node_ip, service_provider, status, expire_time使任何节点可通过哈希检索获知某前缀在哪些节点处于 "HOT" 状态。
参见 [[distributed-cache-routing]]
### 3. 主动预热流水线
核心创新是 **Shadow Calling**——在交易临界点到来前,预测性地向目标节点发送 `max_tokens=1` 的影子请求,填充其缓存前缀后丢弃输出。三步法:前缀拓扑合成 → 异步影子调用 → 状态置标。
参见 [[active-cache-warmup]], [[shadow-calling]]
### 4. 一致性治理
采用 Redis 分布式乐观锁 + 上下文版本号机制,防止并发写入导致缓存"分叉"。落后实例触发 Context-Realign 操作。
参见 [[distributed-optimistic-locking]]
### 5. 旁路网络句柄分发
C++ 内核与 Agent 之间的数据传输通过 8 字节句柄传递(而非完整数据),大宗数据通过 RDMA 在物理机间静默同步。应用层传递精简句柄,物理层旁路搬运大数据。
参见 [[bypass-network-handle-distribution]]
### 6. 混沌工程与降级
网络分区时触发本地降级:切断跨机预热 → Context Pruning裁剪至 8k Token→ 单机孤岛模式运行。
参见 [[context-pruning]]
## 核心洞察
> 分布式环境下的 Prompt Caching 同步,本质上是用**空间的确定性**(高带宽内网 + 精确 Redis 路由)来换取**时间的确定性**(消除 LLM 秒级重算延迟)。
## 概念网络
- [[distributed-prompt-caching]] — 分布式 Prompt 缓存体系
- [[global-context-hash-tree]] — SHA-256 四层复合键
- [[distributed-cache-routing]] — Redis 路由表
- [[active-cache-warmup]] — 预测性跨机预热
- [[shadow-calling]] — 影子调用机制
- [[distributed-optimistic-locking]] — 分布式乐观锁
- [[bypass-network-handle-distribution]] — 旁路句柄分发
- [[context-pruning]] — 上下文剪枝降级
- [[trading-lifecycle-driven-eviction]] — 交易生命周期 TTL

View File

@@ -0,0 +1,73 @@
---
title: "Model与Harness的关系演进从AutoHarness到Heuristic Learning"
created: 2026-05-29
updated: 2026-05-29
type: article
author: "吕明"
source: "微信公众号"
url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"
tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"]
---
# Model与Harness的关系演进
> **作者**: 吕明 | **来源**: 微信公众号 | **收录**: 2026-05-29
## 核心命题
随着 [[autoharness|AutoHarness]] 等工作的出现,**Model 与 Harness 之间的边界正在发生根本性演进**——"策略算法"与"工程约束"不再是两个独立世界,而是正在融合为一个紧密依赖、难以割裂的共同体。
## 三大支柱GenAI 区别于前几次 AI 浪潮的本质
作者从第一性原理出发,提炼出 GenAI 的三个关键判别要素:
| 支柱 | 含义 | 体现 |
|------|------|------|
| **生成式 Generative** | 推理模式分布的巨大灵活性 | CoT、Prompt Engineering、Harness 工程化落地 |
| **通用性 General** | Scaling law 驱动的泛化能力 | 跨任务迁移、零样本推理 |
| **统一性 Unification** | 策略算法与工程约束的统一 | 形式化规则编译 + 策略空间 tokenlized 融合 |
参见 [[generative-general-unification]]
## AutoHarness 深度解读
文章详细剖析了 [[autoharness|AutoHarness]] 的三种 Harness 模式:
1. **Harness-as-Action-Filter**:代码枚举合法动作集合 → LLM 排序选择
2. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]**核心模式LLM 自由提议 → 代码验证 → 非法重试
3. **[[harness-as-policy|Harness-as-Policy]]**(极限模式):纯代码决策,零 LLM 推理
核心机制:**多代码假设树 + Thompson 采样 + Refiner-Critic 环**
关键数据145 个游戏 100% 合法率Flash+Harness 对 Pro 胜率 56.3% vs 38.2%
## Heuristic Learning超越梯度下降
文章引入 OpenAI 翁家翌提出的 [[heuristic-learning|Heuristic Learning]](启发式学习),定位为**替代传统梯度下降的新学习范式**
- 优化主体从 Model 参数 → Agent 整体Model + Harness 代码)
- 循环:智能体运行 → 反馈 → 分析并修改代码 → 再次运行
- 三大优势:缓解灾难性遗忘(回归测试)、可解释性(可读代码)、样本效率
## 关键洞察
> **"性能提升不只能依赖于模型参数规模,也应关注 Agent Architecture 的 Harness 层"**
> **"经验或知识不仅可以被'训练'到参数里,还可以被'编程'为可维护、可进化的软件系统"**
> **"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"**
## 引述Demis Hassabis 观点
- "当前范式不会突然变成死路,但上面还要补一到两个大想法:连续学习、长期推理、记忆、系统稳定性"
- "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率,而不是只做演示"
- "未来的通用系统会调用 AlphaFold 这类专用系统,而不是把所有蛋白质知识塞进一个巨型大脑"
## 概念网络
- [[model-harness-relationship]] — Model-Harness 关系演进
- [[harness-engineering]] — Harness Engineering 作为独立工程学科
- [[heuristic-learning]] — 启发式学习新范式
- [[strategy-engineering-unification]] — 策略与工程的统一
- [[compiled-ai-paradigm]] — 编译型 AI
- [[generative-general-unification]] — GenAI 三支柱

View File

@@ -0,0 +1,94 @@
---
title: "SkillOpt深度解读自进化Agent技能的'反向传播'与工程化Continued Evolve"
created: 2026-05-29
updated: 2026-05-29
type: article
author: "吕明"
source: "微信公众号"
url: "https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"
tags: ["skillopt", "text-space-optimization", "self-evolution", "harness", "model-harness"]
---
# SkillOpt深度解读自进化Agent的"反向传播"
> **作者**: 吕明 | **来源**: 微信公众号 | **字数**: ~1.2万字 | **收录**: 2026-05-29
## 引子
> "看到摘要里那句'We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible'时,有一种'这层窗户纸就要被捅破了'的感觉。"
本文是对 [[yang-skillopt-2026|SkillOpt]] 论文的深度哲学解读,从表层类比深入到优化动力学的本质差异,再上升到自进化 Agent 的工程化蓝图。
## 一、表层同构与深层分野:文本 vs 权重优化
作者指出了 SkillOpt 的"文本梯度下降"类比与真实梯度下降之间的**三个根本差异**
### 1. 梯度本质:局部一阶 vs 全局语义推理
| 维度 | 权重空间 GD | SkillOpt 文本优化 |
|------|:---:|:---:|
| 信号 | 偏微分向量(一阶局部方向) | 全局因果推理(语义理解) |
| 前提 | 连续性 + 可微性 | 离散 Token 序列 |
| 范围 | 局部微扰 | 完整行为模式分析 |
参见 [[text-vs-weight-optimization]]
### 2. 验证机制:解析链式法则 vs 经验性 hold-out
- BP 算法提供**数学上严密**的链式法则
- SkillOpt 采用**"提议-验证-接受/拒绝"的经验主义闭环**
### 3. 语义空间结构:向量度量 vs 无天然度量
参数空间有欧氏距离;文本空间中"两个 Skill 版本的距离"是什么SkillOpt 通过 **Textual Learning Rate** 规避了此难题。
## 二、哲学隐喻:经验主义 vs 理性主义
> 梯度下降是被动的、局部的、由经验数据驱动的(**英国经验主义**
> SkillOpt 的 Optimizer 是主动的、全局演绎的、因果导向的(**大陆理性主义**
## 三、SkillOpt 作为 Model-Harness 协同演进的信标
SkillOpt 的核心范式贡献:**Skill 从"外部插件"升维为"可训练的外部状态"**Harness 从"运行时支撑层"升维为"外参数空间训练场"。
这与 [[lyu-model-harness-evolution-2026|前文]] 中"策略算法与工程约束间模糊边界"形成精确共振。
## 四、未来工程化全栈蓝图
### 通用领域Skill 生态的"集市化"
- Skill 人机协作社区优化(类似 PR + CI
- **"Agent Skill App Store"**:跨模型、跨环境的可迁移 Skill 市场
参见 [[skill-ecosystem]]
### 企业专有领域:私域壁垒型 Skill
- 从"人脑经验"到"可训练外状态"的知识外化
- 私有验证集构建领域专属评估体系
### 五个关键使能组件
1. **Skill Registry & Version Control**
2. **Validation Suite Manager**
3. **Evolution Scheduler**
4. **Cross-Model Skill Translator**
5. **Human-in-the-Loop Review Interface**
## 五、[[dual-layer-rl|双层强化学习]]与[[skill-data-flywheel|数据飞轮]]
SkillOpt 的验证集分数天然适合作为 RL 奖励信号,可构建:
- **内层 RL**Agent 学习如何利用 Skill 更好执行任务
- **外层 RL**Optimizer 学习如何更好为 Agent 优化 Skill
→ 真正意义上的 **"Learning to Learn"**
同时Skill 自进化产生的高质量轨迹可反哺模型训练:**更好的 Skill → 更好的轨迹 → 更强的模型**。
## 结语:从"教会 Agent"到"让 Agent 学会"
> 这不是 AGI但它是通往"更具自主性的 AI 系统"的一步扎实的脚印。
## 概念网络
- [[text-vs-weight-optimization]] — 文本空间 vs 权重空间优化动力学
- [[controlled-autonomy]] — 受控的自主性
- [[skill-data-flywheel]] — 数据飞轮
- [[skill-ecosystem]] — Skill 生态与标准化
- [[dual-layer-rl]] — 双层强化学习

View File

@@ -0,0 +1,53 @@
---
title: "从零搭建 Mini Agent Harness"
author: "陈思州"
source: "Datawhale (微信公众号)"
date: "2026-05"
type: "article"
tags: ["agent-evaluation", "harness", "engineering", "tutorial"]
---
# 从零搭建 Mini Agent Harness
> **Agent = model + harness** — 把 Agentic model 放进一个可运行、可记录、可评分的小环境里。
## 核心问题
手动测试 Agent 只能看到最终回答,看不到它是否真的读了文件、调了什么工具、有没有凭空编造结论。[[agent-harness-mini|mini harness]] 解决的就是这个——让 Agent 的每一步都留下可分析的执行记录。
## 五大模块
| 模块 | 职责 |
|------|------|
| Task | 任务输入 |
| Environment | 可操作环境(代码仓库/文件组) |
| Tools | 工具接口 |
| Trace | 每一步的工具调用、参数、返回 |
| Grader | 基于规则/脚本的结果判断 |
详见 [[agent-harness-mini]]、[[agent-eval-trace]]、[[agent-eval-grader]]。
## Eval Case 设计
[[agent-eval-case-design|eval case]] 需要明确四个要素:任务目标、环境内容、工具范围、评分规则。案例见 [[agent-eval-case-design]]。
## 公开资料参考
- [[anthropic-agent-evals]]:区分 eval harness 与 agent harness
- [[agent-computer-interface|SWE-agent / ACI]]Agent-Computer Interface 对表现的影响
- [[terminal-bench]]:终端环境的隔离任务评测
- [[swe-bench]]:真实 issue → patch → 测试
## 核心洞察
1. **Harness 让评测从"主观感觉"变成"可分析记录"**
2. **不需要一开始就做完整平台**——先串起 Task → Env → Tools → Trace → Grader 五要素
3. **定位问题的精度提升**:能区分是任务理解错误、工具选择错误、参数填写错误还是结果解读错误
## 相关页面
- [[agent-harness-engineering|Agent Harness 工程]]
- [[harness-coupling-problem|Harness 耦合问题]]
- [[adaptive-harness-simplification|自适应 Harness 简化]]
- [[prompt-to-harness-evolution|Prompt 到 Harness 的演化]]
- [[agent-evaluation-paradigm-shift|Agent 评测范式转变]]

View File

@@ -0,0 +1,60 @@
---
title: "时序预测增强方法综述:从频域到 TPS"
author: "Sai Nitesh Palamakula"
source: "DeepHub IMBA / 数据派THU"
date: "2026-05"
type: "article"
tags: ["time-series", "data-augmentation", "forecasting", "TPS", "deep-learning"]
---
# TPS时序预测增强方法综述
> 预测增强的核心矛盾:必须引入足够多样性,同时保持时间一致性,让增强后的信号仍然是一个合法的连续序列。
## 为什么分类增强在预测中失效
分类增强jittering、scaling、warping假设标签不变——但在预测中"标签"就是序列后续部分。只扰动输入会破坏 **[[data-label-consistency|数据-标签一致性]]**,这是预测增强中单一消融性能下降最大的因素。
## 方法全景
详见 [[forecasting-augmentation-taxonomy|预测增强分类体系]]
| 路线 | 代表方法 | 核心思想 |
|------|---------|---------|
| 频域 | [[freqmask-freqmix\|FreqMask/FreqMix]] | FFT 域 mask/mix |
| 时频域 | [[wavemask-wavemix\|WaveMask/WaveMix]] | Wavelet 多分辨率操作 |
| 频域(保守) | [[dominant-shuffle]] | 仅 shuffle top-k 主导频率 |
| 分解 | [[staug\|STAug]] | EMD → IMF → mixup |
| Patch | **[[temporal-patch-shuffle\|TPS]]** ⭐ | 重叠 patch + variance 选择 + 平均重建 |
## TPS当前 SOTA
[[temporal-patch-shuffle]] 的六步流程:
```
x ∥ y → Overlapping Patches → Variance Score → Selective Shuffle → Average Reconstruct → x̃, ỹ
```
超参数patch 长度 p、stride s、shuffle 比例 α(约 20 种配置的验证集搜索)。
## 消融关键发现
1. **[[data-label-consistency]] > 重叠 > variance 排序 > 时域 vs 频域**
2. Shuffle 比例 0.7-1.0 最优
3. 时域直接操作优于 FFT 后 patch 操作
## 实验覆盖
- **长期预测**9 数据集 × 5 骨干TSMixer/DLinear/PatchTST/TiDE/LightTS— TPS 全胜
- **短期交通预测**4 PeMS 数据集PatchTST— MSE 提升 2.34%-7.14%
- **时间序列分类**UCR + UEA — 准确率 +0.50%/+1.10%
## 核心洞察
TPS 的成功来自几个叠加因素:不破坏 input-target 关系、重叠+平均守住局部时间结构、variance 引导的选择性扰动。它不是"加随机性",而是"加受控随机性"。
## 相关页面
- [[time-series-forecasting-augmentation]] — 预测增强的通用框架
- [[non-stationary-time-series]] — 非平稳时间序列
- [[fourier-filter-dynamics]] — Fourier 滤波动力学

View File

@@ -0,0 +1,75 @@
---
title: "UltraData面壁智能L3数据开源与数据分级治理体系"
created: 2026-05-29
updated: 2026-05-29
type: article
author: "面壁智能团队"
source: "Datawhale (微信公众号)"
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
---
# UltraData大模型数据分级治理的开源实践
> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29
## 核心命题
> "大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?"
2026年5月面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 **L0-L4 数据分级治理体系**
## 一、L0-L4 数据分级治理
告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级:
| 层级 | 名称 | 加工方式 | 适用阶段 |
|:---:|------|------|------|
| **L0** | 原始数据 | 采集解析,未实质性处理 | 不直接训练 |
| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |
参见 [[data-hierarchical-governance]]
核心逻辑:**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2)退火和微调阶段用高密度L3数据激发推理。
## 二、Ultra-FineWeb-L3600B 中文合成数据
基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工:
- 将"可读网页文本" → "好学Q&A数据"
- 600B Tokens中文>200B英文>400B
- 全球最大中文预训练合成数据集
参见 [[synthetic-data-qa-generation]]
## 三、UltraData-SFT-2605千万级推理秘方
- 国内首次开源千万级 SFT 数据
- 含"深思考"(完整思维链)与"非思考"样本
- 全流程质量治理透明化Query筛选→Answer校验→评测去污
参见 [[deep-thinking-sft]]
## 四、MiniCPM5-1B1B参数登顶
- Artificial Analysis 排行榜 **17.9分**,超越 Qwen3.5-0.8B
- INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机
- L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益
## 五、行业意义
> "当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。"
UltraData 证明:通过 [[stage-matched-data-config|分阶段数据配置]],小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。
## 概念网络
- [[data-hierarchical-governance]] — L0-L4 分级治理体系
- [[ultradata]] — UltraData 数据系统总览
- [[synthetic-data-qa-generation]] — 网页→Q&A合成
- [[stage-matched-data-config]] — 分阶段数据配置
- [[deep-thinking-sft]] — 深思考SFT数据
- [[data-quality-over-scale]] — 质量重于规模