20260601
This commit is contained in:
59
articles/claw-eval.md
Normal file
59
articles/claw-eval.md
Normal file
@@ -0,0 +1,59 @@
|
||||
---
|
||||
title: "Claw-Eval:面向自主Agent的端到端评测框架"
|
||||
created: 2026-05-23
|
||||
updated: 2026-05-23
|
||||
type: article
|
||||
tags: [agent, evaluation, benchmark, safety, robustness]
|
||||
sources: [raw/articles/claw-eval-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# Claw-Eval:面向自主 Agent 的端到端评测框架
|
||||
|
||||
> Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。
|
||||
|
||||
## 核心设计理念
|
||||
|
||||
- **轻量运行层 + 真实任务**:不追求复杂工程增强,用统一、可审计的基座承载真实复杂工作流
|
||||
- **Setup → Execution → Judge** 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照
|
||||
- 300 个人工验证任务,14 个前沿模型
|
||||
|
||||
## 三大任务组
|
||||
|
||||
| 任务组 | 重点考察 |
|
||||
|-------|---------|
|
||||
| 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 |
|
||||
| 多模态任务 | 视频/文档/图像理解 + 主动生成 |
|
||||
| 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 |
|
||||
|
||||
## 三维护评分
|
||||
|
||||
- **[[agent-completion-evaluation|Completion]]**:任务是否完成,结果是否符合要求
|
||||
- **[[agent-safety-evaluation|Safety]]**:执行过程是否遵守约束
|
||||
- **[[agent-robustness-evaluation|Robustness]]**:面对故障时能否恢复
|
||||
|
||||
## Pass@k vs Pass^k:能力 ≠ 稳定性
|
||||
|
||||
- **[[pass-at-k-vs-pass-k|Pass@3]]**:三次中至少成功一次 → 接近能力上限
|
||||
- **[[pass-at-k-vs-pass-k|Pass^3]]**:三次全部成功 → 接近可靠性下限
|
||||
- 错误注入实验中 Pass^3 最高下降 24 个百分点
|
||||
|
||||
## 三个关键发现
|
||||
|
||||
1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**:LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题
|
||||
2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不能代表稳定可用
|
||||
3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**:最高多模态 Pass^3 仅 25.7%
|
||||
|
||||
## 关键洞察:问题质量 > 问题数量
|
||||
|
||||
[[question-quality-vs-quantity]]:在多轮专业对话中,问题质量解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问,更要知道当前最该问什么。
|
||||
|
||||
## 与 Agent Harness Engineering 的联系
|
||||
|
||||
Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层([[verification-evaluation]])和 O 层([[observability]])直接对应:它的混合评测管线(对话记录 + 服务端日志 + 环境快照)正是 [[trace-native-evaluation]] 的实践——不只看最终对错,还要从踪迹中诊断失败。
|
||||
|
||||
## 开源资源
|
||||
|
||||
- 数据集:ModelScope `claw-eval/Claw-Eval`
|
||||
- 排行榜:https://claw-eval.github.io/
|
||||
- GitHub:https://github.com/claw-eval/claw-eval
|
||||
69
articles/distributed-agent-cache-sync-2026.md
Normal file
69
articles/distributed-agent-cache-sync-2026.md
Normal file
@@ -0,0 +1,69 @@
|
||||
---
|
||||
title: "分布式Agent缓存同步:从单机到多机的Prompt Caching架构升级"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: article
|
||||
source: "微信公众号"
|
||||
url: "https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"
|
||||
tags: ["distributed-systems", "prompt-caching", "quant-trading", "agent", "redis", "rdma"]
|
||||
---
|
||||
|
||||
# 分布式Agent缓存同步
|
||||
|
||||
> **来源**: 微信公众号技术文章 (LLM + 量化交易系列) | 收录时间: 2026-05-29
|
||||
|
||||
## 核心问题
|
||||
|
||||
在高频量化系统的分布式多机架构中,[[prompt-caching]] 面临一个根本性挑战:单机的前缀匹配缓存机制被物理网络彻底割裂。当一个节点上的 Agent 已经积累了 150k Token 的"热"上下文时,另一个节点发起的协作请求将遭遇**全额冷启动**——秒级延迟在高频交易中不可接受。
|
||||
|
||||
## 解决方案架构
|
||||
|
||||
### 1. 全局上下文哈希树
|
||||
每个 Agent 不直接构建 Prompt 字符串,而是在本地构建逻辑 ContextNode 树:
|
||||
```
|
||||
Global Layer SHA → Project Layer SHA → Session Layer SHA → Current Turn SHA
|
||||
```
|
||||
四个 SHA-256 哈希组合成 128 字节的复合键,作为会话在分布式网络中的唯一标识符。
|
||||
|
||||
参见 [[global-context-hash-tree]]
|
||||
|
||||
### 2. Redis 分布式状态路由
|
||||
基于 Redis 集群维护 `Cache_Routing_Table`,异步记录每个前缀的物理分布(node_ip, service_provider, status, expire_time),使任何节点可通过哈希检索获知某前缀在哪些节点处于 "HOT" 状态。
|
||||
|
||||
参见 [[distributed-cache-routing]]
|
||||
|
||||
### 3. 主动预热流水线
|
||||
核心创新是 **Shadow Calling**——在交易临界点到来前,预测性地向目标节点发送 `max_tokens=1` 的影子请求,填充其缓存前缀后丢弃输出。三步法:前缀拓扑合成 → 异步影子调用 → 状态置标。
|
||||
|
||||
参见 [[active-cache-warmup]], [[shadow-calling]]
|
||||
|
||||
### 4. 一致性治理
|
||||
采用 Redis 分布式乐观锁 + 上下文版本号机制,防止并发写入导致缓存"分叉"。落后实例触发 Context-Realign 操作。
|
||||
|
||||
参见 [[distributed-optimistic-locking]]
|
||||
|
||||
### 5. 旁路网络句柄分发
|
||||
C++ 内核与 Agent 之间的数据传输通过 8 字节句柄传递(而非完整数据),大宗数据通过 RDMA 在物理机间静默同步。应用层传递精简句柄,物理层旁路搬运大数据。
|
||||
|
||||
参见 [[bypass-network-handle-distribution]]
|
||||
|
||||
### 6. 混沌工程与降级
|
||||
网络分区时触发本地降级:切断跨机预热 → Context Pruning(裁剪至 8k Token)→ 单机孤岛模式运行。
|
||||
|
||||
参见 [[context-pruning]]
|
||||
|
||||
## 核心洞察
|
||||
|
||||
> 分布式环境下的 Prompt Caching 同步,本质上是用**空间的确定性**(高带宽内网 + 精确 Redis 路由)来换取**时间的确定性**(消除 LLM 秒级重算延迟)。
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[distributed-prompt-caching]] — 分布式 Prompt 缓存体系
|
||||
- [[global-context-hash-tree]] — SHA-256 四层复合键
|
||||
- [[distributed-cache-routing]] — Redis 路由表
|
||||
- [[active-cache-warmup]] — 预测性跨机预热
|
||||
- [[shadow-calling]] — 影子调用机制
|
||||
- [[distributed-optimistic-locking]] — 分布式乐观锁
|
||||
- [[bypass-network-handle-distribution]] — 旁路句柄分发
|
||||
- [[context-pruning]] — 上下文剪枝降级
|
||||
- [[trading-lifecycle-driven-eviction]] — 交易生命周期 TTL
|
||||
73
articles/lyu-model-harness-evolution-2026.md
Normal file
73
articles/lyu-model-harness-evolution-2026.md
Normal file
@@ -0,0 +1,73 @@
|
||||
---
|
||||
title: "Model与Harness的关系演进:从AutoHarness到Heuristic Learning"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: article
|
||||
author: "吕明"
|
||||
source: "微信公众号"
|
||||
url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"
|
||||
tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"]
|
||||
---
|
||||
|
||||
# Model与Harness的关系演进
|
||||
|
||||
> **作者**: 吕明 | **来源**: 微信公众号 | **收录**: 2026-05-29
|
||||
|
||||
## 核心命题
|
||||
|
||||
随着 [[autoharness|AutoHarness]] 等工作的出现,**Model 与 Harness 之间的边界正在发生根本性演进**——"策略算法"与"工程约束"不再是两个独立世界,而是正在融合为一个紧密依赖、难以割裂的共同体。
|
||||
|
||||
## 三大支柱:GenAI 区别于前几次 AI 浪潮的本质
|
||||
|
||||
作者从第一性原理出发,提炼出 GenAI 的三个关键判别要素:
|
||||
|
||||
| 支柱 | 含义 | 体现 |
|
||||
|------|------|------|
|
||||
| **生成式 Generative** | 推理模式分布的巨大灵活性 | CoT、Prompt Engineering、Harness 工程化落地 |
|
||||
| **通用性 General** | Scaling law 驱动的泛化能力 | 跨任务迁移、零样本推理 |
|
||||
| **统一性 Unification** | 策略算法与工程约束的统一 | 形式化规则编译 + 策略空间 tokenlized 融合 |
|
||||
|
||||
参见 [[generative-general-unification]]
|
||||
|
||||
## AutoHarness 深度解读
|
||||
|
||||
文章详细剖析了 [[autoharness|AutoHarness]] 的三种 Harness 模式:
|
||||
|
||||
1. **Harness-as-Action-Filter**:代码枚举合法动作集合 → LLM 排序选择
|
||||
2. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]**(核心模式):LLM 自由提议 → 代码验证 → 非法重试
|
||||
3. **[[harness-as-policy|Harness-as-Policy]]**(极限模式):纯代码决策,零 LLM 推理
|
||||
|
||||
核心机制:**多代码假设树 + Thompson 采样 + Refiner-Critic 环**
|
||||
|
||||
关键数据:145 个游戏 100% 合法率,Flash+Harness 对 Pro 胜率 56.3% vs 38.2%
|
||||
|
||||
## Heuristic Learning:超越梯度下降
|
||||
|
||||
文章引入 OpenAI 翁家翌提出的 [[heuristic-learning|Heuristic Learning]](启发式学习),定位为**替代传统梯度下降的新学习范式**:
|
||||
|
||||
- 优化主体从 Model 参数 → Agent 整体(Model + Harness 代码)
|
||||
- 循环:智能体运行 → 反馈 → 分析并修改代码 → 再次运行
|
||||
- 三大优势:缓解灾难性遗忘(回归测试)、可解释性(可读代码)、样本效率
|
||||
|
||||
## 关键洞察
|
||||
|
||||
> **"性能提升不只能依赖于模型参数规模,也应关注 Agent Architecture 的 Harness 层"**
|
||||
|
||||
> **"经验或知识不仅可以被'训练'到参数里,还可以被'编程'为可维护、可进化的软件系统"**
|
||||
|
||||
> **"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"**
|
||||
|
||||
## 引述:Demis Hassabis 观点
|
||||
|
||||
- "当前范式不会突然变成死路,但上面还要补一到两个大想法:连续学习、长期推理、记忆、系统稳定性"
|
||||
- "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率,而不是只做演示"
|
||||
- "未来的通用系统会调用 AlphaFold 这类专用系统,而不是把所有蛋白质知识塞进一个巨型大脑"
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[model-harness-relationship]] — Model-Harness 关系演进
|
||||
- [[harness-engineering]] — Harness Engineering 作为独立工程学科
|
||||
- [[heuristic-learning]] — 启发式学习新范式
|
||||
- [[strategy-engineering-unification]] — 策略与工程的统一
|
||||
- [[compiled-ai-paradigm]] — 编译型 AI
|
||||
- [[generative-general-unification]] — GenAI 三支柱
|
||||
94
articles/lyu-skillopt-deep-dive-2026.md
Normal file
94
articles/lyu-skillopt-deep-dive-2026.md
Normal file
@@ -0,0 +1,94 @@
|
||||
---
|
||||
title: "SkillOpt深度解读:自进化Agent技能的'反向传播'与工程化Continued Evolve"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: article
|
||||
author: "吕明"
|
||||
source: "微信公众号"
|
||||
url: "https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"
|
||||
tags: ["skillopt", "text-space-optimization", "self-evolution", "harness", "model-harness"]
|
||||
---
|
||||
|
||||
# SkillOpt深度解读:自进化Agent的"反向传播"
|
||||
|
||||
> **作者**: 吕明 | **来源**: 微信公众号 | **字数**: ~1.2万字 | **收录**: 2026-05-29
|
||||
|
||||
## 引子
|
||||
|
||||
> "看到摘要里那句'We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible'时,有一种'这层窗户纸就要被捅破了'的感觉。"
|
||||
|
||||
本文是对 [[yang-skillopt-2026|SkillOpt]] 论文的深度哲学解读,从表层类比深入到优化动力学的本质差异,再上升到自进化 Agent 的工程化蓝图。
|
||||
|
||||
## 一、表层同构与深层分野:文本 vs 权重优化
|
||||
|
||||
作者指出了 SkillOpt 的"文本梯度下降"类比与真实梯度下降之间的**三个根本差异**:
|
||||
|
||||
### 1. 梯度本质:局部一阶 vs 全局语义推理
|
||||
|
||||
| 维度 | 权重空间 GD | SkillOpt 文本优化 |
|
||||
|------|:---:|:---:|
|
||||
| 信号 | 偏微分向量(一阶局部方向) | 全局因果推理(语义理解) |
|
||||
| 前提 | 连续性 + 可微性 | 离散 Token 序列 |
|
||||
| 范围 | 局部微扰 | 完整行为模式分析 |
|
||||
|
||||
参见 [[text-vs-weight-optimization]]
|
||||
|
||||
### 2. 验证机制:解析链式法则 vs 经验性 hold-out
|
||||
|
||||
- BP 算法提供**数学上严密**的链式法则
|
||||
- SkillOpt 采用**"提议-验证-接受/拒绝"的经验主义闭环**
|
||||
|
||||
### 3. 语义空间结构:向量度量 vs 无天然度量
|
||||
|
||||
参数空间有欧氏距离;文本空间中"两个 Skill 版本的距离"是什么?SkillOpt 通过 **Textual Learning Rate** 规避了此难题。
|
||||
|
||||
## 二、哲学隐喻:经验主义 vs 理性主义
|
||||
|
||||
> 梯度下降是被动的、局部的、由经验数据驱动的(**英国经验主义**)
|
||||
> SkillOpt 的 Optimizer 是主动的、全局演绎的、因果导向的(**大陆理性主义**)
|
||||
|
||||
## 三、SkillOpt 作为 Model-Harness 协同演进的信标
|
||||
|
||||
SkillOpt 的核心范式贡献:**Skill 从"外部插件"升维为"可训练的外部状态"**,Harness 从"运行时支撑层"升维为"外参数空间训练场"。
|
||||
|
||||
这与 [[lyu-model-harness-evolution-2026|前文]] 中"策略算法与工程约束间模糊边界"形成精确共振。
|
||||
|
||||
## 四、未来工程化全栈蓝图
|
||||
|
||||
### 通用领域:Skill 生态的"集市化"
|
||||
- Skill 人机协作社区优化(类似 PR + CI)
|
||||
- **"Agent Skill App Store"**:跨模型、跨环境的可迁移 Skill 市场
|
||||
|
||||
参见 [[skill-ecosystem]]
|
||||
|
||||
### 企业专有领域:私域壁垒型 Skill
|
||||
- 从"人脑经验"到"可训练外状态"的知识外化
|
||||
- 私有验证集构建领域专属评估体系
|
||||
|
||||
### 五个关键使能组件
|
||||
1. **Skill Registry & Version Control**
|
||||
2. **Validation Suite Manager**
|
||||
3. **Evolution Scheduler**
|
||||
4. **Cross-Model Skill Translator**
|
||||
5. **Human-in-the-Loop Review Interface**
|
||||
|
||||
## 五、[[dual-layer-rl|双层强化学习]]与[[skill-data-flywheel|数据飞轮]]
|
||||
|
||||
SkillOpt 的验证集分数天然适合作为 RL 奖励信号,可构建:
|
||||
- **内层 RL**:Agent 学习如何利用 Skill 更好执行任务
|
||||
- **外层 RL**:Optimizer 学习如何更好为 Agent 优化 Skill
|
||||
→ 真正意义上的 **"Learning to Learn"**
|
||||
|
||||
同时,Skill 自进化产生的高质量轨迹可反哺模型训练:**更好的 Skill → 更好的轨迹 → 更强的模型**。
|
||||
|
||||
## 结语:从"教会 Agent"到"让 Agent 学会"
|
||||
|
||||
> 这不是 AGI,但它是通往"更具自主性的 AI 系统"的一步扎实的脚印。
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[text-vs-weight-optimization]] — 文本空间 vs 权重空间优化动力学
|
||||
- [[controlled-autonomy]] — 受控的自主性
|
||||
- [[skill-data-flywheel]] — 数据飞轮
|
||||
- [[skill-ecosystem]] — Skill 生态与标准化
|
||||
- [[dual-layer-rl]] — 双层强化学习
|
||||
53
articles/mini-agent-harness.md
Normal file
53
articles/mini-agent-harness.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "从零搭建 Mini Agent Harness"
|
||||
author: "陈思州"
|
||||
source: "Datawhale (微信公众号)"
|
||||
date: "2026-05"
|
||||
type: "article"
|
||||
tags: ["agent-evaluation", "harness", "engineering", "tutorial"]
|
||||
---
|
||||
|
||||
# 从零搭建 Mini Agent Harness
|
||||
|
||||
> **Agent = model + harness** — 把 Agentic model 放进一个可运行、可记录、可评分的小环境里。
|
||||
|
||||
## 核心问题
|
||||
|
||||
手动测试 Agent 只能看到最终回答,看不到它是否真的读了文件、调了什么工具、有没有凭空编造结论。[[agent-harness-mini|mini harness]] 解决的就是这个——让 Agent 的每一步都留下可分析的执行记录。
|
||||
|
||||
## 五大模块
|
||||
|
||||
| 模块 | 职责 |
|
||||
|------|------|
|
||||
| Task | 任务输入 |
|
||||
| Environment | 可操作环境(代码仓库/文件组) |
|
||||
| Tools | 工具接口 |
|
||||
| Trace | 每一步的工具调用、参数、返回 |
|
||||
| Grader | 基于规则/脚本的结果判断 |
|
||||
|
||||
详见 [[agent-harness-mini]]、[[agent-eval-trace]]、[[agent-eval-grader]]。
|
||||
|
||||
## Eval Case 设计
|
||||
|
||||
[[agent-eval-case-design|eval case]] 需要明确四个要素:任务目标、环境内容、工具范围、评分规则。案例见 [[agent-eval-case-design]]。
|
||||
|
||||
## 公开资料参考
|
||||
|
||||
- [[anthropic-agent-evals]]:区分 eval harness 与 agent harness
|
||||
- [[agent-computer-interface|SWE-agent / ACI]]:Agent-Computer Interface 对表现的影响
|
||||
- [[terminal-bench]]:终端环境的隔离任务评测
|
||||
- [[swe-bench]]:真实 issue → patch → 测试
|
||||
|
||||
## 核心洞察
|
||||
|
||||
1. **Harness 让评测从"主观感觉"变成"可分析记录"**
|
||||
2. **不需要一开始就做完整平台**——先串起 Task → Env → Tools → Trace → Grader 五要素
|
||||
3. **定位问题的精度提升**:能区分是任务理解错误、工具选择错误、参数填写错误还是结果解读错误
|
||||
|
||||
## 相关页面
|
||||
|
||||
- [[agent-harness-engineering|Agent Harness 工程]]
|
||||
- [[harness-coupling-problem|Harness 耦合问题]]
|
||||
- [[adaptive-harness-simplification|自适应 Harness 简化]]
|
||||
- [[prompt-to-harness-evolution|Prompt 到 Harness 的演化]]
|
||||
- [[agent-evaluation-paradigm-shift|Agent 评测范式转变]]
|
||||
60
articles/temporal-patch-shuffle-tps.md
Normal file
60
articles/temporal-patch-shuffle-tps.md
Normal file
@@ -0,0 +1,60 @@
|
||||
---
|
||||
title: "时序预测增强方法综述:从频域到 TPS"
|
||||
author: "Sai Nitesh Palamakula"
|
||||
source: "DeepHub IMBA / 数据派THU"
|
||||
date: "2026-05"
|
||||
type: "article"
|
||||
tags: ["time-series", "data-augmentation", "forecasting", "TPS", "deep-learning"]
|
||||
---
|
||||
|
||||
# TPS:时序预测增强方法综述
|
||||
|
||||
> 预测增强的核心矛盾:必须引入足够多样性,同时保持时间一致性,让增强后的信号仍然是一个合法的连续序列。
|
||||
|
||||
## 为什么分类增强在预测中失效
|
||||
|
||||
分类增强(jittering、scaling、warping)假设标签不变——但在预测中,"标签"就是序列后续部分。只扰动输入会破坏 **[[data-label-consistency|数据-标签一致性]]**,这是预测增强中单一消融性能下降最大的因素。
|
||||
|
||||
## 方法全景
|
||||
|
||||
详见 [[forecasting-augmentation-taxonomy|预测增强分类体系]]:
|
||||
|
||||
| 路线 | 代表方法 | 核心思想 |
|
||||
|------|---------|---------|
|
||||
| 频域 | [[freqmask-freqmix\|FreqMask/FreqMix]] | FFT 域 mask/mix |
|
||||
| 时频域 | [[wavemask-wavemix\|WaveMask/WaveMix]] | Wavelet 多分辨率操作 |
|
||||
| 频域(保守) | [[dominant-shuffle]] | 仅 shuffle top-k 主导频率 |
|
||||
| 分解 | [[staug\|STAug]] | EMD → IMF → mixup |
|
||||
| Patch | **[[temporal-patch-shuffle\|TPS]]** ⭐ | 重叠 patch + variance 选择 + 平均重建 |
|
||||
|
||||
## TPS:当前 SOTA
|
||||
|
||||
[[temporal-patch-shuffle]] 的六步流程:
|
||||
|
||||
```
|
||||
x ∥ y → Overlapping Patches → Variance Score → Selective Shuffle → Average Reconstruct → x̃, ỹ
|
||||
```
|
||||
|
||||
超参数:patch 长度 p、stride s、shuffle 比例 α(约 20 种配置的验证集搜索)。
|
||||
|
||||
## 消融关键发现
|
||||
|
||||
1. **[[data-label-consistency]] > 重叠 > variance 排序 > 时域 vs 频域**
|
||||
2. Shuffle 比例 0.7-1.0 最优
|
||||
3. 时域直接操作优于 FFT 后 patch 操作
|
||||
|
||||
## 实验覆盖
|
||||
|
||||
- **长期预测**:9 数据集 × 5 骨干(TSMixer/DLinear/PatchTST/TiDE/LightTS)— TPS 全胜
|
||||
- **短期交通预测**:4 PeMS 数据集(PatchTST)— MSE 提升 2.34%-7.14%
|
||||
- **时间序列分类**:UCR + UEA — 准确率 +0.50%/+1.10%
|
||||
|
||||
## 核心洞察
|
||||
|
||||
TPS 的成功来自几个叠加因素:不破坏 input-target 关系、重叠+平均守住局部时间结构、variance 引导的选择性扰动。它不是"加随机性",而是"加受控随机性"。
|
||||
|
||||
## 相关页面
|
||||
|
||||
- [[time-series-forecasting-augmentation]] — 预测增强的通用框架
|
||||
- [[non-stationary-time-series]] — 非平稳时间序列
|
||||
- [[fourier-filter-dynamics]] — Fourier 滤波动力学
|
||||
75
articles/ultradata-l3-open-source-2026.md
Normal file
75
articles/ultradata-l3-open-source-2026.md
Normal file
@@ -0,0 +1,75 @@
|
||||
---
|
||||
title: "UltraData:面壁智能L3数据开源与数据分级治理体系"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: article
|
||||
author: "面壁智能团队"
|
||||
source: "Datawhale (微信公众号)"
|
||||
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
|
||||
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
|
||||
---
|
||||
|
||||
# UltraData:大模型数据分级治理的开源实践
|
||||
|
||||
> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29
|
||||
|
||||
## 核心命题
|
||||
|
||||
> "大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?"
|
||||
|
||||
2026年5月,面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 **L0-L4 数据分级治理体系**。
|
||||
|
||||
## 一、L0-L4 数据分级治理
|
||||
|
||||
告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级:
|
||||
|
||||
| 层级 | 名称 | 加工方式 | 适用阶段 |
|
||||
|:---:|------|------|------|
|
||||
| **L0** | 原始数据 | 采集解析,未实质性处理 | 不直接训练 |
|
||||
| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
|
||||
| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
|
||||
| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
|
||||
| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |
|
||||
|
||||
参见 [[data-hierarchical-governance]]
|
||||
|
||||
核心逻辑:**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2),退火和微调阶段用高密度L3数据激发推理。
|
||||
|
||||
## 二、Ultra-FineWeb-L3:600B 中文合成数据
|
||||
|
||||
基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工:
|
||||
|
||||
- 将"可读网页文本" → "好学Q&A数据"
|
||||
- 600B Tokens(中文>200B,英文>400B)
|
||||
- 全球最大中文预训练合成数据集
|
||||
|
||||
参见 [[synthetic-data-qa-generation]]
|
||||
|
||||
## 三、UltraData-SFT-2605:千万级推理秘方
|
||||
|
||||
- 国内首次开源千万级 SFT 数据
|
||||
- 含"深思考"(完整思维链)与"非思考"样本
|
||||
- 全流程质量治理透明化:Query筛选→Answer校验→评测去污
|
||||
|
||||
参见 [[deep-thinking-sft]]
|
||||
|
||||
## 四、MiniCPM5-1B:1B参数登顶
|
||||
|
||||
- Artificial Analysis 排行榜 **17.9分**,超越 Qwen3.5-0.8B
|
||||
- INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机
|
||||
- L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益
|
||||
|
||||
## 五、行业意义
|
||||
|
||||
> "当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。"
|
||||
|
||||
UltraData 证明:通过 [[stage-matched-data-config|分阶段数据配置]],小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[data-hierarchical-governance]] — L0-L4 分级治理体系
|
||||
- [[ultradata]] — UltraData 数据系统总览
|
||||
- [[synthetic-data-qa-generation]] — 网页→Q&A合成
|
||||
- [[stage-matched-data-config]] — 分阶段数据配置
|
||||
- [[deep-thinking-sft]] — 深思考SFT数据
|
||||
- [[data-quality-over-scale]] — 质量重于规模
|
||||
Reference in New Issue
Block a user