20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/articles/claw-eval.md
+++ b/articles/claw-eval.md
@@ -0,0 +1,59 @@
+---
+title: "Claw-Eval：面向自主Agent的端到端评测框架"
+created: 2026-05-23
+updated: 2026-05-23
+type: article
+tags: [agent, evaluation, benchmark, safety, robustness]
+sources: [raw/articles/claw-eval-2026.md]
+confidence: high
+---
+
+# Claw-Eval：面向自主 Agent 的端到端评测框架
+
+> Agent 评测范式的转变：从看最终答案到看完整过程，从展示能力到验证可靠性，从单次成功到稳定、可审计、可复核的任务完成。
+
+## 核心设计理念
+
+- **轻量运行层 + 真实任务**：不追求复杂工程增强，用统一、可审计的基座承载真实复杂工作流
+- **Setup → Execution → Judge** 生命周期：完整记录模型行为、工具调用、服务端日志和环境快照
+- 300 个人工验证任务，14 个前沿模型
+
+## 三大任务组
+
+| 任务组 | 重点考察 |
+|-------|---------|
+| 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 |
+| 多模态任务 | 视频/文档/图像理解 + 主动生成 |
+| 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 |
+
+## 三维护评分
+
+- **[[agent-completion-evaluation|Completion]]**：任务是否完成，结果是否符合要求
+- **[[agent-safety-evaluation|Safety]]**：执行过程是否遵守约束
+- **[[agent-robustness-evaluation|Robustness]]**：面对故障时能否恢复
+
+## Pass@k vs Pass^k：能力 ≠ 稳定性
+
+- **[[pass-at-k-vs-pass-k|Pass@3]]**：三次中至少成功一次 → 接近能力上限
+- **[[pass-at-k-vs-pass-k|Pass^3]]**：三次全部成功 → 接近可靠性下限
+- 错误注入实验中 Pass^3 最高下降 24 个百分点
+
+## 三个关键发现
+
+1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**：LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题
+2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**：一次成功不能代表稳定可用
+3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**：最高多模态 Pass^3 仅 25.7%
+
+## 关键洞察：问题质量 > 问题数量
+
+[[question-quality-vs-quantity]]：在多轮专业对话中，问题质量解释 76% 的 Pass^3 表现差异，而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问，更要知道当前最该问什么。
+
+## 与 Agent Harness Engineering 的联系
+
+Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层（[[verification-evaluation]]）和 O 层（[[observability]]）直接对应：它的混合评测管线（对话记录 + 服务端日志 + 环境快照）正是 [[trace-native-evaluation]] 的实践——不只看最终对错，还要从踪迹中诊断失败。
+
+## 开源资源
+
+- 数据集：ModelScope `claw-eval/Claw-Eval`
+- 排行榜：https://claw-eval.github.io/
+- GitHub：https://github.com/claw-eval/claw-eval
--- a/articles/distributed-agent-cache-sync-2026.md
+++ b/articles/distributed-agent-cache-sync-2026.md
@@ -0,0 +1,69 @@
+---
+title: "分布式Agent缓存同步：从单机到多机的Prompt Caching架构升级"
+created: 2026-05-29
+updated: 2026-05-29
+type: article
+source: "微信公众号"
+url: "https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw"
+tags: ["distributed-systems", "prompt-caching", "quant-trading", "agent", "redis", "rdma"]
+---
+
+# 分布式Agent缓存同步
+
+> **来源**: 微信公众号技术文章 (LLM + 量化交易系列) | 收录时间: 2026-05-29
+
+## 核心问题
+
+在高频量化系统的分布式多机架构中，[[prompt-caching]] 面临一个根本性挑战：单机的前缀匹配缓存机制被物理网络彻底割裂。当一个节点上的 Agent 已经积累了 150k Token 的"热"上下文时，另一个节点发起的协作请求将遭遇**全额冷启动**——秒级延迟在高频交易中不可接受。
+
+## 解决方案架构
+
+### 1. 全局上下文哈希树
+每个 Agent 不直接构建 Prompt 字符串，而是在本地构建逻辑 ContextNode 树：
+```
+Global Layer SHA → Project Layer SHA → Session Layer SHA → Current Turn SHA
+```
+四个 SHA-256 哈希组合成 128 字节的复合键，作为会话在分布式网络中的唯一标识符。
+
+参见 [[global-context-hash-tree]]
+
+### 2. Redis 分布式状态路由
+基于 Redis 集群维护 `Cache_Routing_Table`，异步记录每个前缀的物理分布（node_ip, service_provider, status, expire_time），使任何节点可通过哈希检索获知某前缀在哪些节点处于 "HOT" 状态。
+
+参见 [[distributed-cache-routing]]
+
+### 3. 主动预热流水线
+核心创新是 **Shadow Calling**——在交易临界点到来前，预测性地向目标节点发送 `max_tokens=1` 的影子请求，填充其缓存前缀后丢弃输出。三步法：前缀拓扑合成 → 异步影子调用 → 状态置标。
+
+参见 [[active-cache-warmup]], [[shadow-calling]]
+
+### 4. 一致性治理
+采用 Redis 分布式乐观锁 + 上下文版本号机制，防止并发写入导致缓存"分叉"。落后实例触发 Context-Realign 操作。
+
+参见 [[distributed-optimistic-locking]]
+
+### 5. 旁路网络句柄分发
+C++ 内核与 Agent 之间的数据传输通过 8 字节句柄传递（而非完整数据），大宗数据通过 RDMA 在物理机间静默同步。应用层传递精简句柄，物理层旁路搬运大数据。
+
+参见 [[bypass-network-handle-distribution]]
+
+### 6. 混沌工程与降级
+网络分区时触发本地降级：切断跨机预热 → Context Pruning（裁剪至 8k Token）→ 单机孤岛模式运行。
+
+参见 [[context-pruning]]
+
+## 核心洞察
+
+> 分布式环境下的 Prompt Caching 同步，本质上是用**空间的确定性**（高带宽内网 + 精确 Redis 路由）来换取**时间的确定性**（消除 LLM 秒级重算延迟）。
+
+## 概念网络
+
+- [[distributed-prompt-caching]] — 分布式 Prompt 缓存体系
+- [[global-context-hash-tree]] — SHA-256 四层复合键
+- [[distributed-cache-routing]] — Redis 路由表
+- [[active-cache-warmup]] — 预测性跨机预热
+- [[shadow-calling]] — 影子调用机制
+- [[distributed-optimistic-locking]] — 分布式乐观锁
+- [[bypass-network-handle-distribution]] — 旁路句柄分发
+- [[context-pruning]] — 上下文剪枝降级
+- [[trading-lifecycle-driven-eviction]] — 交易生命周期 TTL
--- a/articles/lyu-model-harness-evolution-2026.md
+++ b/articles/lyu-model-harness-evolution-2026.md
@@ -0,0 +1,73 @@
+---
+title: "Model与Harness的关系演进：从AutoHarness到Heuristic Learning"
+created: 2026-05-29
+updated: 2026-05-29
+type: article
+author: "吕明"
+source: "微信公众号"
+url: "https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g"
+tags: ["model", "harness", "agent", "genai", "heuristic-learning", "autoharness"]
+---
+
+# Model与Harness的关系演进
+
+> **作者**: 吕明 | **来源**: 微信公众号 | **收录**: 2026-05-29
+
+## 核心命题
+
+随着 [[autoharness|AutoHarness]] 等工作的出现，**Model 与 Harness 之间的边界正在发生根本性演进**——"策略算法"与"工程约束"不再是两个独立世界，而是正在融合为一个紧密依赖、难以割裂的共同体。
+
+## 三大支柱：GenAI 区别于前几次 AI 浪潮的本质
+
+作者从第一性原理出发，提炼出 GenAI 的三个关键判别要素：
+
+| 支柱 | 含义 | 体现 |
+|------|------|------|
+| **生成式 Generative** | 推理模式分布的巨大灵活性 | CoT、Prompt Engineering、Harness 工程化落地 |
+| **通用性 General** | Scaling law 驱动的泛化能力 | 跨任务迁移、零样本推理 |
+| **统一性 Unification** | 策略算法与工程约束的统一 | 形式化规则编译 + 策略空间 tokenlized 融合 |
+
+参见 [[generative-general-unification]]
+
+## AutoHarness 深度解读
+
+文章详细剖析了 [[autoharness|AutoHarness]] 的三种 Harness 模式：
+
+1. **Harness-as-Action-Filter**：代码枚举合法动作集合 → LLM 排序选择
+2. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]**（核心模式）：LLM 自由提议 → 代码验证 → 非法重试
+3. **[[harness-as-policy|Harness-as-Policy]]**（极限模式）：纯代码决策，零 LLM 推理
+
+核心机制：**多代码假设树 + Thompson 采样 + Refiner-Critic 环**
+
+关键数据：145 个游戏 100% 合法率，Flash+Harness 对 Pro 胜率 56.3% vs 38.2%
+
+## Heuristic Learning：超越梯度下降
+
+文章引入 OpenAI 翁家翌提出的 [[heuristic-learning|Heuristic Learning]]（启发式学习），定位为**替代传统梯度下降的新学习范式**：
+
+- 优化主体从 Model 参数 → Agent 整体（Model + Harness 代码）
+- 循环：智能体运行 → 反馈 → 分析并修改代码 → 再次运行
+- 三大优势：缓解灾难性遗忘（回归测试）、可解释性（可读代码）、样本效率
+
+## 关键洞察
+
+> **"性能提升不只能依赖于模型参数规模，也应关注 Agent Architecture 的 Harness 层"**
+
+> **"经验或知识不仅可以被'训练'到参数里，还可以被'编程'为可维护、可进化的软件系统"**
+
+> **"也许世界的本质即是由泛化策略 + 抽象约束的组合控制和运转的"**
+
+## 引述：Demis Hassabis 观点
+
+- "当前范式不会突然变成死路，但上面还要补一到两个大想法：连续学习、长期推理、记忆、系统稳定性"
+- "Agent 才刚开始……现在大多数团队还在试哪里能产生真实效率，而不是只做演示"
+- "未来的通用系统会调用 AlphaFold 这类专用系统，而不是把所有蛋白质知识塞进一个巨型大脑"
+
+## 概念网络
+
+- [[model-harness-relationship]] — Model-Harness 关系演进
+- [[harness-engineering]] — Harness Engineering 作为独立工程学科
+- [[heuristic-learning]] — 启发式学习新范式
+- [[strategy-engineering-unification]] — 策略与工程的统一
+- [[compiled-ai-paradigm]] — 编译型 AI
+- [[generative-general-unification]] — GenAI 三支柱
--- a/articles/lyu-skillopt-deep-dive-2026.md
+++ b/articles/lyu-skillopt-deep-dive-2026.md
@@ -0,0 +1,94 @@
+---
+title: "SkillOpt深度解读：自进化Agent技能的'反向传播'与工程化Continued Evolve"
+created: 2026-05-29
+updated: 2026-05-29
+type: article
+author: "吕明"
+source: "微信公众号"
+url: "https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"
+tags: ["skillopt", "text-space-optimization", "self-evolution", "harness", "model-harness"]
+---
+
+# SkillOpt深度解读：自进化Agent的"反向传播"
+
+> **作者**: 吕明 | **来源**: 微信公众号 | **字数**: ~1.2万字 | **收录**: 2026-05-29
+
+## 引子
+
+> "看到摘要里那句'We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible'时，有一种'这层窗户纸就要被捅破了'的感觉。"
+
+本文是对 [[yang-skillopt-2026|SkillOpt]] 论文的深度哲学解读，从表层类比深入到优化动力学的本质差异，再上升到自进化 Agent 的工程化蓝图。
+
+## 一、表层同构与深层分野：文本 vs 权重优化
+
+作者指出了 SkillOpt 的"文本梯度下降"类比与真实梯度下降之间的**三个根本差异**：
+
+### 1. 梯度本质：局部一阶 vs 全局语义推理
+
+| 维度 | 权重空间 GD | SkillOpt 文本优化 |
+|------|:---:|:---:|
+| 信号 | 偏微分向量（一阶局部方向） | 全局因果推理（语义理解） |
+| 前提 | 连续性 + 可微性 | 离散 Token 序列 |
+| 范围 | 局部微扰 | 完整行为模式分析 |
+
+参见 [[text-vs-weight-optimization]]
+
+### 2. 验证机制：解析链式法则 vs 经验性 hold-out
+
+- BP 算法提供**数学上严密**的链式法则
+- SkillOpt 采用**"提议-验证-接受/拒绝"的经验主义闭环**
+
+### 3. 语义空间结构：向量度量 vs 无天然度量
+
+参数空间有欧氏距离；文本空间中"两个 Skill 版本的距离"是什么？SkillOpt 通过 **Textual Learning Rate** 规避了此难题。
+
+## 二、哲学隐喻：经验主义 vs 理性主义
+
+> 梯度下降是被动的、局部的、由经验数据驱动的（**英国经验主义**）
+> SkillOpt 的 Optimizer 是主动的、全局演绎的、因果导向的（**大陆理性主义**）
+
+## 三、SkillOpt 作为 Model-Harness 协同演进的信标
+
+SkillOpt 的核心范式贡献：**Skill 从"外部插件"升维为"可训练的外部状态"**，Harness 从"运行时支撑层"升维为"外参数空间训练场"。
+
+这与 [[lyu-model-harness-evolution-2026|前文]] 中"策略算法与工程约束间模糊边界"形成精确共振。
+
+## 四、未来工程化全栈蓝图
+
+### 通用领域：Skill 生态的"集市化"
+- Skill 人机协作社区优化（类似 PR + CI）
+- **"Agent Skill App Store"**：跨模型、跨环境的可迁移 Skill 市场
+
+参见 [[skill-ecosystem]]
+
+### 企业专有领域：私域壁垒型 Skill
+- 从"人脑经验"到"可训练外状态"的知识外化
+- 私有验证集构建领域专属评估体系
+
+### 五个关键使能组件
+1. **Skill Registry & Version Control**
+2. **Validation Suite Manager**
+3. **Evolution Scheduler**
+4. **Cross-Model Skill Translator**
+5. **Human-in-the-Loop Review Interface**
+
+## 五、[[dual-layer-rl|双层强化学习]]与[[skill-data-flywheel|数据飞轮]]
+
+SkillOpt 的验证集分数天然适合作为 RL 奖励信号，可构建：
+- **内层 RL**：Agent 学习如何利用 Skill 更好执行任务
+- **外层 RL**：Optimizer 学习如何更好为 Agent 优化 Skill
+→ 真正意义上的 **"Learning to Learn"**
+
+同时，Skill 自进化产生的高质量轨迹可反哺模型训练：**更好的 Skill → 更好的轨迹 → 更强的模型**。
+
+## 结语：从"教会 Agent"到"让 Agent 学会"
+
+> 这不是 AGI，但它是通往"更具自主性的 AI 系统"的一步扎实的脚印。
+
+## 概念网络
+
+- [[text-vs-weight-optimization]] — 文本空间 vs 权重空间优化动力学
+- [[controlled-autonomy]] — 受控的自主性
+- [[skill-data-flywheel]] — 数据飞轮
+- [[skill-ecosystem]] — Skill 生态与标准化
+- [[dual-layer-rl]] — 双层强化学习
--- a/articles/mini-agent-harness.md
+++ b/articles/mini-agent-harness.md
@@ -0,0 +1,53 @@
+---
+title: "从零搭建 Mini Agent Harness"
+author: "陈思州"
+source: "Datawhale (微信公众号)"
+date: "2026-05"
+type: "article"
+tags: ["agent-evaluation", "harness", "engineering", "tutorial"]
+---
+
+# 从零搭建 Mini Agent Harness
+
+> **Agent = model + harness** — 把 Agentic model 放进一个可运行、可记录、可评分的小环境里。
+
+## 核心问题
+
+手动测试 Agent 只能看到最终回答，看不到它是否真的读了文件、调了什么工具、有没有凭空编造结论。[[agent-harness-mini|mini harness]] 解决的就是这个——让 Agent 的每一步都留下可分析的执行记录。
+
+## 五大模块
+
+| 模块 | 职责 |
+|------|------|
+| Task | 任务输入 |
+| Environment | 可操作环境（代码仓库/文件组） |
+| Tools | 工具接口 |
+| Trace | 每一步的工具调用、参数、返回 |
+| Grader | 基于规则/脚本的结果判断 |
+
+详见 [[agent-harness-mini]]、[[agent-eval-trace]]、[[agent-eval-grader]]。
+
+## Eval Case 设计
+
+[[agent-eval-case-design|eval case]] 需要明确四个要素：任务目标、环境内容、工具范围、评分规则。案例见 [[agent-eval-case-design]]。
+
+## 公开资料参考
+
+- [[anthropic-agent-evals]]：区分 eval harness 与 agent harness
+- [[agent-computer-interface|SWE-agent / ACI]]：Agent-Computer Interface 对表现的影响
+- [[terminal-bench]]：终端环境的隔离任务评测
+- [[swe-bench]]：真实 issue → patch → 测试
+
+## 核心洞察
+
+1. **Harness 让评测从"主观感觉"变成"可分析记录"**
+2. **不需要一开始就做完整平台**——先串起 Task → Env → Tools → Trace → Grader 五要素
+3. **定位问题的精度提升**：能区分是任务理解错误、工具选择错误、参数填写错误还是结果解读错误
+
+## 相关页面
+
+- [[agent-harness-engineering|Agent Harness 工程]]
+- [[harness-coupling-problem|Harness 耦合问题]]
+- [[adaptive-harness-simplification|自适应 Harness 简化]]
+- [[prompt-to-harness-evolution|Prompt 到 Harness 的演化]]
+- [[agent-evaluation-paradigm-shift|Agent 评测范式转变]]
--- a/articles/temporal-patch-shuffle-tps.md
+++ b/articles/temporal-patch-shuffle-tps.md
@@ -0,0 +1,60 @@
+---
+title: "时序预测增强方法综述：从频域到 TPS"
+author: "Sai Nitesh Palamakula"
+source: "DeepHub IMBA / 数据派THU"
+date: "2026-05"
+type: "article"
+tags: ["time-series", "data-augmentation", "forecasting", "TPS", "deep-learning"]
+---
+
+# TPS：时序预测增强方法综述
+
+> 预测增强的核心矛盾：必须引入足够多样性，同时保持时间一致性，让增强后的信号仍然是一个合法的连续序列。
+
+## 为什么分类增强在预测中失效
+
+分类增强（jittering、scaling、warping）假设标签不变——但在预测中，"标签"就是序列后续部分。只扰动输入会破坏 **[[data-label-consistency|数据-标签一致性]]**，这是预测增强中单一消融性能下降最大的因素。
+
+## 方法全景
+
+详见 [[forecasting-augmentation-taxonomy|预测增强分类体系]]：
+
+| 路线 | 代表方法 | 核心思想 |
+|------|---------|---------|
+| 频域 | [[freqmask-freqmix\|FreqMask/FreqMix]] | FFT 域 mask/mix |
+| 时频域 | [[wavemask-wavemix\|WaveMask/WaveMix]] | Wavelet 多分辨率操作 |
+| 频域（保守） | [[dominant-shuffle]] | 仅 shuffle top-k 主导频率 |
+| 分解 | [[staug\|STAug]] | EMD → IMF → mixup |
+| Patch | **[[temporal-patch-shuffle\|TPS]]** ⭐ | 重叠 patch + variance 选择 + 平均重建 |
+
+## TPS：当前 SOTA
+
+[[temporal-patch-shuffle]] 的六步流程：
+
+```
+x ∥ y → Overlapping Patches → Variance Score → Selective Shuffle → Average Reconstruct → x̃, ỹ
+```
+
+超参数：patch 长度 p、stride s、shuffle 比例 α（约 20 种配置的验证集搜索）。
+
+## 消融关键发现
+
+1. **[[data-label-consistency]] > 重叠 > variance 排序 > 时域 vs 频域**
+2. Shuffle 比例 0.7-1.0 最优
+3. 时域直接操作优于 FFT 后 patch 操作
+
+## 实验覆盖
+
+- **长期预测**：9 数据集 × 5 骨干（TSMixer/DLinear/PatchTST/TiDE/LightTS）— TPS 全胜
+- **短期交通预测**：4 PeMS 数据集（PatchTST）— MSE 提升 2.34%-7.14%
+- **时间序列分类**：UCR + UEA — 准确率 +0.50%/+1.10%
+
+## 核心洞察
+
+TPS 的成功来自几个叠加因素：不破坏 input-target 关系、重叠+平均守住局部时间结构、variance 引导的选择性扰动。它不是"加随机性"，而是"加受控随机性"。
+
+## 相关页面
+
+- [[time-series-forecasting-augmentation]] — 预测增强的通用框架
+- [[non-stationary-time-series]] — 非平稳时间序列
+- [[fourier-filter-dynamics]] — Fourier 滤波动力学
--- a/articles/ultradata-l3-open-source-2026.md
+++ b/articles/ultradata-l3-open-source-2026.md
@@ -0,0 +1,75 @@
+---
+title: "UltraData：面壁智能L3数据开源与数据分级治理体系"
+created: 2026-05-29
+updated: 2026-05-29
+type: article
+author: "面壁智能团队"
+source: "Datawhale (微信公众号)"
+url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
+tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
+---
+
+# UltraData：大模型数据分级治理的开源实践
+
+> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29
+
+## 核心命题
+
+> "大模型竞争的下半场，焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽，如何从存量数据中榨取出更高密度的知识？"
+
+2026年5月，面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集，并首次系统性公开 **L0-L4 数据分级治理体系**。
+
+## 一、L0-L4 数据分级治理
+
+告别"爬取→去重→过滤→训练"的一刀切流水线，将数据按加工深度分五级：
+
+| 层级 | 名称 | 加工方式 | 适用阶段 |
+|:---:|------|------|------|
+| **L0** | 原始数据 | 采集解析，未实质性处理 | 不直接训练 |
+| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
+| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
+| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
+| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |
+
+参见 [[data-hierarchical-governance]]
+
+核心逻辑：**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2)，退火和微调阶段用高密度L3数据激发推理。
+
+## 二、Ultra-FineWeb-L3：600B 中文合成数据
+
+基于 L2 精筛网页，通过 Qwen3 + MiniCPM4 深度加工：
+
+- 将"可读网页文本" → "好学Q&A数据"
+- 600B Tokens（中文>200B，英文>400B）
+- 全球最大中文预训练合成数据集
+
+参见 [[synthetic-data-qa-generation]]
+
+## 三、UltraData-SFT-2605：千万级推理秘方
+
+- 国内首次开源千万级 SFT 数据
+- 含"深思考"(完整思维链)与"非思考"样本
+- 全流程质量治理透明化：Query筛选→Answer校验→评测去污
+
+参见 [[deep-thinking-sft]]
+
+## 四、MiniCPM5-1B：1B参数登顶
+
+- Artificial Analysis 排行榜 **17.9分**，超越 Qwen3.5-0.8B
+- INT4 仅 ~0.5GB，可运行在手机/浏览器/单片机
+- L1/L2→L3→SFT 分阶段配置，最大化单位 Token 边际效益
+
+## 五、行业意义
+
+> "当模型架构趋于收敛，算力成本高企不下，数据成为差异化的主战场。"
+
+UltraData 证明：通过 [[stage-matched-data-config|分阶段数据配置]]，小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。
+
+## 概念网络
+
+- [[data-hierarchical-governance]] — L0-L4 分级治理体系
+- [[ultradata]] — UltraData 数据系统总览
+- [[synthetic-data-qa-generation]] — 网页→Q&A合成
+- [[stage-matched-data-config]] — 分阶段数据配置
+- [[deep-thinking-sft]] — 深思考SFT数据
+- [[data-quality-over-scale]] — 质量重于规模