20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/additive-combinatorics.md
+++ b/concepts/additive-combinatorics.md
@@ -0,0 +1,39 @@
+---
+title: "Additive Combinatorics（加法组合学）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [number-theory, combinatorics, additive-theory]
+sources: [[ramsey-numbers-survey]]
+---
+
+# Additive Combinatorics（加法组合学）
+
+## 定义
+
+加法组合学是研究整数集（或更一般地，Abel 群）的加法结构的分支，核心问题是：一个集合在何种条件下必然包含特定的加法子结构（如等差数列）。
+
+## 核心结果
+
+| 定理 | 内容 | 年份 |
+|------|------|------|
+| [[van-der-waerden-theorem|van der Waerden]] | 有限着色下必存在任意长单色等差数列 | 1927 |
+| Szemerédi 定理 | 正上密度集包含任意长等差数列 | 1975 |
+| [[green-tao-theorem|Green-Tao]] | 素数集包含任意长等差数列 | 2004 |
+| 多项式 Freiman-Ruzsa | 小倍增集的代数结构刻画 | 2023 |
+
+## 与 Ramsey 理论的关系
+
+加法组合学可视为算术 Ramsey 理论的密度版本：从"着色"推广到"密度"，从"必然存在"深化为"以什么频率出现"。
+
+## 核心工具
+
+- **Gowers 一致性范数**：度量集合的"伪随机程度"
+- **密度增量方法**：迭代提取有序子结构的 Ramsey 论证
+- **Furstenberg 对应原理**：转化为动力系统问题
+
+## 相关概念
+
+- [[ramsey-theory|拉姆齐理论]]
+- [[green-tao-theorem|Green-Tao 定理]]
+- [[furstenberg-correspondence|Furstenberg 对应原理]]
--- a/concepts/agent-communication-stack.md
+++ b/concepts/agent-communication-stack.md
@@ -0,0 +1,52 @@
+---
+title: Agent通信协议栈
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# Agent通信协议栈 (Agent Communication Stack)
+
+> 大规模 LLM Agent 网络的**三层通信架构**：传输层 → 结构层（Function Calling）→ 语义层。由 Song et al. (2026) 在 [[song-agent-network-taxonomy]] 论文中系统化。
+
+## 三层结构
+
+| 层 | 作用 | 通信形式 | 主要难点 |
+|----|------|---------|---------|
+| **传输层** (Transport) | 网络数据传输 | 二进制/文本消息 | 延迟、排序、可靠性 |
+| **结构层** (Structural) | 跨 agent 结构化操作执行 | Schema-based 消息 | 兼容性、版本漂移、schema 演化 |
+| **语义层** (Semantic) | 推理对齐、上下文传播、共享状态 | 自然语言 + 结构化证据 | 跨 agent 一致性和上下文一致性 |
+
+## 各层详解
+
+### 传输层
+负责消息的实际传递。大规模系统中需处理：
+- 可预测延迟
+- 消息排序与可靠性
+- 并发消息冲突
+
+### 结构层 (Function Calling + Tool Calling)
+Agent 通过 schema 定义发出结构化操作。核心机制：
+```json
+{"name": "get_weather", "arguments": {"city": "Atlanta"}}
+```
+大规模网络中，每次调用都参与全局通信图，影响信息流动和长期稳定性。
+
+### 语义层
+最高层——确保 agent 的推理状态在分布式执行下保持一致。**语义不一致是大规模系统的首要失败点**——GenSim 实验表明即使传输和结构层正确，语义漂移在数千 agent 规模下仍导致任务级分歧。
+
+## 大规模扩展难题
+
+1. 通信负载随 N 增长饱和消息队列
+2. 上下文漂移：不同 agent 维护不一致的事件摘要
+3. 排序与并发：异步消息重排序导致时序视图分歧
+4. 解释不匹配：异构模型间 schema 相同但语义不兼容
+5. 更新不稳定：并发更新放大微小不一致
+6. 安全与信任：通信通道倍增 → 攻击面扩大
+
+## 相关概念
+- [[agent-network-taxonomy]] — 完整分类法
+- [[decentralized-agent-architecture]] — 去中心化架构
+- [[song-agent-network-taxonomy]] — 父论文
--- a/concepts/agent-mediated-deception.md
+++ b/concepts/agent-mediated-deception.md
@@ -44,4 +44,4 @@ Agent-Mediated Deception (AMD) 是一种新型攻击面，指被攻破或恶意

 - [[li-amd-human-perception]] — 原始论文
 - [[human-agent-trust]] — 人机信任研究
- [[alignment]] — AI 对齐与安全
+- [[ai-alignment]] — AI 对齐与安全
--- a/concepts/agent-network-memory-scope.md
+++ b/concepts/agent-network-memory-scope.md
@@ -0,0 +1,56 @@
+---
+title: Agent网络记忆范围
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# Agent网络记忆范围 (Agent Network Memory Scope)
+
+> **全局 vs 局部**记忆——决定信息在 Agent 网络中是共享还是隔离的。[[agent-network-taxonomy]] 的第二层分类维度。
+
+## 全局记忆 (Global Memory)
+
+所有 agent 读写共享状态 M_global：
+```
+a_i : (x_i, M_global, c_i) → (o_i, M_global)
+```
+
+**特性**：
+- 统一信息板，所有 agent 可访问最新状态
+- 适合需要强一致性的场景（软件工程流水线、多角色协作）
+- 缺点：单点瓶颈、并发写入冲突
+
+**代表系统**：MetaGPT (共享消息池)、AutoGen (全局对话历史)、BlackBoard 模式
+
+## 局部记忆 (Local Memory)
+
+每个 agent 仅维护私有状态 M_i：
+```
+M = {M_1, ..., M_N}
+a_i : (x_i, M_i, c_i) → (o_i, M'_i)
+```
+
+**特性**：
+- 无跨 agent 同步，agent 自主管理记忆
+- 适合社会模拟、自治 agent、异质任务
+- 缺点：信息孤岛、需要显式通信共享知识
+
+**代表系统**：Generative Agents (个体记忆流)、AgentNet (局部知识图谱)、Voyager (技能库)
+
+## 选择权衡
+
+| 维度 | 全局记忆 | 局部记忆 |
+|------|---------|---------|
+| 一致性 | 强（共享真相源） | 弱（可能分歧） |
+| 可扩展性 | 受共享状态大小限制 | 水平扩展 |
+| 隐私 | 无（所有 agent 可见） | 有（隔离状态） |
+| 通信需求 | 低（读即可） | 高（需显式交换） |
+| 适合场景 | 协作式流水线 | 社会模拟、自主探索 |
+
+## 相关概念
+- [[agent-network-taxonomy]] — 完整分类法
+- [[agent-network-update-behavior]] — 更新行为维度
+- [[song-agent-network-taxonomy]] — 父论文
--- a/concepts/agent-network-taxonomy.md
+++ b/concepts/agent-network-taxonomy.md
@@ -0,0 +1,56 @@
+---
+title: Agent网络三层分类法
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture, survey]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# Agent网络三层分类法 (Agent Network Taxonomy)
+
+> 由 Song et al. (2026) 提出的大规模 LLM Agent 系统的**嵌套式三层分类框架**：拓扑 → 记忆 → 更新，诱导出 8 种系统类别并揭示架构权衡。
+
+## 三层维度
+
+### 第一层：拓扑 (Topology)
+- **集中式** (Centralized)：存在一个协调者 agent a_c，通信图形成星形拓扑
+- **去中心化** (Decentralized)：无区分协调者，协调通过 peer 级交互涌现
+- 详见 [[agent-network-topology]]
+
+### 第二层：记忆范围 (Memory Scope)
+- **全局记忆** (Global)：所有 agent 读写共享状态 M_global
+- **局部记忆** (Local)：每个 agent 仅维护私有状态 M_i，无跨 agent 同步
+- 详见 [[agent-network-memory-scope]]
+
+### 第三层：更新行为 (Update Behavior)
+- **静态** (Static)：通信图、策略、记忆配置在初始化后保持不变
+- **动态** (Dynamic)：结构组件基于交互历史/执行结果自适应演化
+- 详见 [[agent-network-update-behavior]]
+
+## 8 种系统类别
+
+| 拓扑 | 记忆 | 更新 | 关键特征 |
+|------|------|------|---------|
+| 集中式 | 全局 | 静态 | 固定全局工作流 (MetaGPT, ChatDev) |
+| 集中式 | 全局 | 动态 | 自适应全局协调 (SWE-agent, Voyager) |
+| 集中式 | 局部 | 静态 | 固定本地状态 (MetaAgent, SOTOPIA-S4) |
+| 集中式 | 局部 | 动态 | 自适应本地协调 (OPTIMA, Magentic-One) |
+| 去中心化 | 全局 | 静态 | 共享黑板 (BlackBoard, LLMBlackBoard) |
+| 去中心化 | 全局 | 动态 | 动态共享市场 (GPTSwarm, OpenAgents) |
+| 去中心化 | 局部 | 静态 | 固定局部交互 (MMAgent, WebArena) |
+| 去中心化 | 局部 | 动态 | 涌现式社交 (GenAgents, AgentNet) |
+
+## 形式化基础
+
+Agent 系统定义为 A = (V, E, M, Π)，其中每个 agent a_i 是状态转移函数：
+```
+a_i : (x_i, m_i, c_i) → (o_i, m'_i)
+```
+
+## 相关概念
+- [[agent-network-topology]] — 拓扑维度详解
+- [[agent-network-memory-scope]] — 记忆维度详解
+- [[agent-network-update-behavior]] — 更新行为详解
+- [[song-agent-network-taxonomy]] — 父论文
+- [[cognitive-architecture]] — 广义认知架构
--- a/concepts/agent-network-topology.md
+++ b/concepts/agent-network-topology.md
@@ -0,0 +1,53 @@
+---
+title: Agent网络拓扑
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# Agent网络拓扑 (Agent Network Topology)
+
+> Agent 网络的通信结构——**集中式 vs 去中心化**——是 [[agent-network-taxonomy]] 的第一层分类维度。
+
+## 集中式 (Centralized)
+
+存在一个区分协调者 a_c，通信图形成以 a_c 为中心的星形：
+```
+E = {(a_c, a_i), (a_i, a_c) | ∀a_i ≠ a_c}
+```
+
+路由和角色分配由控制器独占更新：
+```
+E^(t+1) = Φ_c(E^(t), o^(t))
+Π^(t+1) = Γ_c(Π^(t), o^(t))
+```
+
+**代表系统**：MetaGPT (Φ_c = 全连接星形)、OPTIMA (状态交换图)
+
+## 去中心化 (Decentralized)
+
+不存在区分协调者，协调通过局部交互涌现：
+```
+E^(t+1) = Φ(E^(t), o^(t))  // 分布式更新
+Π^(t+1) = Γ(Π^(t), o^(t))  // 无中心节点
+```
+
+**代表系统**：AgentNet (进化协调)、Generative Agents (社交涌现)、GPTSwarm (图优化)
+
+## 拓扑选择的影响
+
+| 维度 | 集中式 | 去中心化 |
+|------|--------|---------|
+| 协调效率 | 高（控制器全局视角） | 低（需协商共识） |
+| 可扩展性 | 受控制器瓶颈限制 | 高（水平扩展） |
+| 鲁棒性 | 控制器单点故障 | 高（冗余容错） |
+| 通信开销 | O(N)（星形） | O(N²)（全连接最坏） |
+| 规划深度 | 强（全局优化） | 有限（局部决策） |
+
+## 相关概念
+- [[agent-network-taxonomy]] — 完整分类法
+- [[centralized-agent-architecture]] — 集中式详解
+- [[decentralized-agent-architecture]] — 去中心化详解
+- [[song-agent-network-taxonomy]] — 父论文
--- a/concepts/agent-network-update-behavior.md
+++ b/concepts/agent-network-update-behavior.md
@@ -0,0 +1,60 @@
+---
+title: Agent网络更新行为
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# Agent网络更新行为 (Agent Network Update Behavior)
+
+> **静态 vs 动态**更新——决定 Agent 网络的结构在运行时是固定不变还是会自适应演化。[[agent-network-taxonomy]] 的第三层分类维度。
+
+## 静态更新 (Static)
+
+通信图、策略和记忆配置在初始化后保持不变：
+```
+E^(t+1) = E^(t)
+Π^(t+1) = Π^(t)
+M^(t+1) = M^(t)
+```
+
+**特性**：行为完全由初始设计决定，运行时无自适应
+
+**代表系统**：MetaGPT (固定角色流水线)、ChatDev (预设多角色)、HuggingGPT (固定调度器)
+
+## 动态更新 (Dynamic)
+
+结构组件基于交互历史或执行结果自适应演化：
+```
+E^(t+1) = Φ(E^(t), {o_i^(t)})
+Π^(t+1) = Ψ(Π^(t), {o_i^(t)})
+```
+
+**特性**：路由、角色分配、记忆检索策略在运行时调整
+
+**代表系统**：
+- SWE-agent：根据调试失败动态修改搜索和修复工作流
+- OPTIMA：控制器根据部分进展自适应路由
+- Generative Agents：根据社交上下文动态修改角色分配和记忆策略
+- AgentNet：去中心化进化协调，拓扑和策略在每代更新
+
+## 静态 vs 动态权衡
+
+| 维度 | 静态 | 动态 |
+|------|------|------|
+| 可预测性 | 高 | 低 |
+| 适应性 | 无（预设固定） | 强（环境响应） |
+| 复杂度 | 低 | 高（需更新逻辑） |
+| 稳定性 | 稳定 | 可能振荡/发散 |
+| 适合场景 | 定义明确的重复任务 | 开放域探索、长周期任务 |
+
+## 关键挑战
+动态系统面临的核心问题：**更新不稳定**——并发更新可能放大微小不一致，agent 反复覆盖彼此状态（在 AWI、OASIS 等系统中观察到）。
+
+## 相关概念
+- [[agent-network-taxonomy]] — 完整分类法
+- [[agent-network-memory-scope]] — 记忆维度
+- [[agent-network-topology]] — 拓扑维度
+- [[song-agent-network-taxonomy]] — 父论文
--- a/concepts/agentic-systems.md
+++ b/concepts/agentic-systems.md
@@ -0,0 +1,21 @@
+---
+title: "Agentic Systems（智能体系统）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [agent-architecture, placeholder]
+sources: [[prompt-caching-architecture]]
+---
+
+# Agentic Systems（智能体系统）
+
+## 定义
+
+Agentic Systems 指具备自主决策和执行能力的 AI 系统，通常包含工具调用、状态管理、上下文维护等核心能力。
+
+> 此页面为占位符，由 [[prompt-caching-architecture|Prompt Caching 架构工程手册]] 集成时创建。
+
+## 相关概念
+
+- [[prompt-caching|Prompt Caching]]
+- [[prompt-caching-architecture|Prompt Caching 架构工程手册]]
--- a/concepts/ai-agent-security.md
+++ b/concepts/ai-agent-security.md
@@ -1,3 +1,12 @@
+---
+title: AI代理安全
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # AI代理安全

 **类型**: 安全领域  
@@ -61,7 +70,7 @@ AI代理安全是指保护自主AI代理及其运行环境免受恶意攻击、
 - **原理**: 使用数学方法定义和验证安全策略
 - **优点**: 提供根本性安全保证
 - **缺点**: 实施复杂，需要专业知识
- **示例**: [[ClawLess]]，形式化验证框架
+- **示例**: [[clawless]]，形式化验证框架

 ### 4. 运行时监控
 - **原理**: 实时监控代理行为并执行安全策略
@@ -79,7 +88,7 @@ AI代理安全是指保护自主AI代理及其运行环境免受恶意攻击、
 ### 2. 用户空间内核
 - **目的**: 提供可信执行环境
 - **优点**: 减少对主机内核的依赖
- **应用**: [[ClawLess]]，安全容器
+- **应用**: [[clawless]]，安全容器

 ### 3. BPF系统调用拦截
 - **目的**: 实时监控和控制系统调用
@@ -110,12 +119,12 @@ AI代理安全是指保护自主AI代理及其运行环境免受恶意攻击、

 ## 相关概念

- [[ClawLess]] - AI代理安全框架实例
- [[形式化安全模型]] - AI代理安全的方法论基础
- [[用户空间内核]] - 提供安全执行环境的技术
- [[BPF系统调用拦截]] - 运行时监控技术
- [[安全容器]] - 隔离技术
- [[最坏情况威胁模型]] - 安全设计假设
+- [[clawless]] - AI代理安全框架实例
+- [[formal-security-model]] - AI代理安全的方法论基础
+- [[userspace-kernel]] - 提供安全执行环境的技术
+- [[bpf-syscall-interception]] - 运行时监控技术
+- [[secure-containers]] - 隔离技术
+- [[worst-case-threat-model]] - 安全设计假设

 ## 研究趋势

--- a/concepts/ai-alignment.md
+++ b/concepts/ai-alignment.md
@@ -1,3 +1,12 @@
+---
+title: AI Alignment (AI对齐)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # AI Alignment (AI对齐)

 > **类型**: 概念  
--- a/concepts/ai-mathematics.md
+++ b/concepts/ai-mathematics.md
@@ -21,7 +21,7 @@ AI 与数学的交叉是当代最活跃的研究领域之一。数学被视为
 - 协助数学家解决深奥的数学猜想

 ### 典型弱点
-[[Terence Tao]] 指出当前 AI 工具展示出**显著且常常荒谬的弱点**：
+[[terence-tao]] 指出当前 AI 工具展示出**显著且常常荒谬的弱点**：
 - 在某些任务上超越人类专家
 - 同时在基础概念上犯**令人据脸的基本错误**

@@ -29,7 +29,7 @@ AI 与数学的交叉是当代最活跃的研究领域之一。数学被视为

 ## 数学作为 "沙盒"

-[[Terence Tao]] 认为数学是探索 AI 影响的理想领域：
+[[terence-tao]] 认为数学是探索 AI 影响的理想领域：

 1. **成熟的基础** - 数学有着深厚的历史和严谨的基础
 2. **假设性场景** - 适合探索与现实相反的抽象情境
@@ -58,9 +58,9 @@ AI 与数学的交叉是当代最活跃的研究领域之一。数学被视为

 ## 关联页面

- [[Mathematical methods and human thought in the age of AI]] - 详细阐述
- [[Terence Tao]] - 该领域的主要思想家
+- [[tao-klowden-ai-mathematical-methods]] - 详细阐述
+- [[terence-tao]] - 该领域的主要思想家
 - [[human-centered-ai]] - 以人类为中心的 AI
 - [[formal-verification]] - 形式化验证
- [[alpha-proof]] - DeepMind 的数学证明 AI
- [[lean-mathlib]] - 大型形式化数学库
+- [[automated-theorem-proving]] - DeepMind 的数学证明 AI
+- [[automated-theorem-proving]] - 大型形式化数学库
--- a/concepts/ai-safety.md
+++ b/concepts/ai-safety.md
@@ -1,3 +1,12 @@
+---
+title: AI Safety (AI安全)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # AI Safety (AI安全)

 > **类型**: 概念  
--- a/concepts/api-key-authentication.md
+++ b/concepts/api-key-authentication.md
@@ -0,0 +1,53 @@
+---
+title: API Key 认证 (API Key Authentication)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# API Key 认证 (API Key Authentication)
+
+**通过预共享密钥验证客户端身份的简单认证机制**，常见于 API 网关和微服务间通信。
+
+## 常见形式
+
+| 形式 | HTTP 头格式 | 示例 |
+|------|------------|------|
+| API Key | `X-API-Key: <key>` | `X-API-Key: sk-abc123` |
+| Bearer Token | `Authorization: Bearer <token>` | `Authorization: Bearer eyJ...` |
+| Basic Auth | `Authorization: Basic <base64>` | `Authorization: Basic dXNlcjpwYXNz` |
+
+## 在反向代理层实现
+
+API Key 认证最适合在 [[reverse-proxy-authentication|反向代理层]] 实现——网关检查请求头，未携带有效 Key 的请求在到达后端前即被拒绝。
+
+### 单 Key 校验
+```
+@unauthorized { not header X-API-Key "the-key" }
+respond @unauthorized "Unauthorized" 401
+```
+
+### 多 Key 白名单
+```
+@authorized {
+    header X-API-Key "key-001"
+    header X-API-Key "key-002"
+}
+@unauthorized { not @authorized }
+respond @unauthorized "Unauthorized" 401
+```
+
+## 适用场景
+
+- ✅ 服务间 API 调用（内部微服务）
+- ✅ 简单 Webhook 接收端点
+- ✅ 开发/测试环境快速保护
+- ❌ 需要用户身份/权限细分的场景 → 使用 JWT 或 [[forward-authentication|外部认证]]
+
+## 相关概念
+
+- [[reverse-proxy-authentication]] — 反向代理层认证
+- [[forward-authentication]] — 复杂认证委托
+- [[caddy-reverse-proxy-auth]] — Caddy 配置方案
--- a/concepts/asynchronous-rl-llm.md
+++ b/concepts/asynchronous-rl-llm.md
@@ -0,0 +1,67 @@
+---
+title: "异步强化学习与大语言模型后训练"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["reinforcement-learning", "llm-post-training", "distributed-systems"]
+sources: ["arxiv:2503.18929"]
+---
+
+# 异步强化学习与大语言模型后训练
+
+**异步 RL** 将数据生成（探索）与策略更新（学习）解耦，使两者可以**独立并行**进行，大幅提升计算资源利用率。
+
+## 串行瓶颈 (On-Policy)
+
+标准 on-policy RL 流程：
+```
+生成 rollouts → 计算奖励 → 更新策略 → 生成 rollouts → ...
+              ↑____________________________________↓
+                   每次更新后重新生成（串行等待）
+```
+
+瓶颈在于：
+- **Generation-bound**：训练等待推理完成
+- **Training-bound**：推理等待训练完成
+
+## 异步架构
+
+```
+Searcher 1 ────┐          ┌── Trainer
+Searcher 2 ────┤ Replay   │   ↓
+Searcher 3 ────┤ Buffer ──┤ TB Loss
+    ...         │          │ Policy Update
+Searcher N ────┘          └── ......
+    ↑ 每k步同步权重           ↓
+    └─────────────────────────┘
+```
+
+Searcher 和 Trainer **从不互相等待**，仅在同步点交换权重和数据。
+
+## 关键挑战
+
+On-policy 算法（PPO、GRPO、RLOO）对 **off-policyness** 敏感：
+- Async DPO 在策略偏离增大时性能显著下降
+- Proximal RLOO 用 IS ratio clipping 缓解但仍然受限
+
+## TBA 的解决方案
+
+[[tba|TBA]] 用 [[trajectory-balance-objective|TB 目标]] 替代 on-policy 目标——TB 天然 off-policy 兼容，使得 stale 数据（即使偏离当前策略很多步）仍然高效可用。
+
+**实验验证**：TBA 即使在 15 步 off-policy 设置下，性能仍超越 on-policy Online DPO。
+
+## 与分布式 RL 经典方法的关系
+
+| 方法 | 年份 | 通信方式 | LLM 适用性 |
+|------|------|---------|-----------|
+| A3C | 2016 | 梯度 | ❌ 需要 value function |
+| IMPALA | 2018 | 轨迹 (s,a,r) | ⚠️ V-trace 需要 V(s) |
+| TBA | 2025 | 轨迹 (x,y,r) | ✅ TB 无需 critic |
+
+## 相关概念
+
+- [[tba|TBA]] — 框架实现
+- [[searcher-trainer-decoupling]] — 架构模式
+- [[replay-buffer-rl-llm]] — Buffer 设计
+- [[off-policy-llm-post-training]] — Off-policy 范式
+- [[bartoldson-tba-2025|论文页面]]
--- a/concepts/attention-entropy-collapse.md
+++ b/concepts/attention-entropy-collapse.md
@@ -1,3 +1,12 @@
+---
+title: 注意力熵崩溃 (Attention Entropy Collapse)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 注意力熵崩溃 (Attention Entropy Collapse)

 **注意力退化现象**，随着 Transformer 层数加深，注意力分布逐渐退化为接近均匀或过度集中的退化模式。
--- a/concepts/attention-sinks.md
+++ b/concepts/attention-sinks.md
@@ -1,17 +1,58 @@
+---
+title: "注意力汇 (Attention Sinks)"
+created: 2025-04-15
+updated: 2026-05-14
+type: concept
+tags: [attention, llm, streaming, softmax, kv-cache]
+sources: ["https://arxiv.org/abs/2309.17453"]
+---
+
 # 注意力汇 (Attention Sinks)

-占位符 — 待补充完整内容。
+## 定义

-**核心概念**: 某些初始 Token（如 BOS）天然吸引大量注意力权重，可作为"注意力汇"稳定长序列推理。基于此可以设计高效的 KV 缓存淘汰策略（如 StreamingLLM、H2O）。
+**注意力汇**是 Xiao et al. (2024) 在 ICLR 论文 [[streaming-llm|StreamingLLM]] 中发现的现象：自回归 LLM 中，**初始 Token 在所有层和注意力头上吸引不成比例的高注意力分数**，即使它们与当前预测任务语义无关。

-## 关键应用
+## 数学解释

- **StreamingLLM**: 保留初始 Attention Sinks + 最近 Token 实现无限长流式推理
- **H2O**: 基于注意力权重选择性地保留"重击者"Token 的 KV
- **SinkRouter**: 汇感知的路由优化
+SoftMax 函数的性质导致注意力汇的出现：
+
+$$\text{SoftMax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^N e^{x_j}}$$
+
+关键约束：所有 token 的注意力分数之和必须为 1（$\sum_i \text{SoftMax}(x)_i = 1$）。
+
+当当前 query 与大多数上下文 token 没有强语义匹配时，模型仍然需要把这些"多余"的注意力值分配到某处。**初始 Token 因自回归建模中对所有后续 token 都可见，被自然训练为注意力的"汇" (sink)**。
+
+Xiao et al. 的公式表述：
+
+$$\text{SoftMax}(x)_i = \frac{e^{x_i}}{e^{x_1} + \sum_{j=2}^N e^{x_j}}, \quad x_1 \gg x_j, \, j \in 2, \ldots, N$$
+
+其中 $x_1$（初始 token 的注意力 logit）远大于其他 token。
+
+## 实验证据
+
+1. **注意力可视化**：Llama-2-7B 除底部两层外，几乎所有层和注意力头都严重关注初始 token
+2. **替换实验**：将前 4 个 Token 替换为换行符 `\n`，模型仍大量关注它们，恢复它们后 PPL 恢复——证明是**绝对位置**而非语义在起作用
+3. **数量研究**：4 个初始 Token 即可完全恢复性能，1-2 个不够，更多边际递减
+
+## 根因分析
+
+为什么是**初始 Token** 而不是其他 Token？
+
+→ 自回归语言建模中，初始 Token 对**所有后续 Token 都可见**，而后面的 Token 只对有限集合可见。这使得初始 Token 更容易被训练为注意力的通用"倾倒目标"。
+
+## 应用
+
+- **[[streaming-llm|StreamingLLM]]**：保留 4 个初始 Token 的 KV + 最近 Token 的滑动窗口 → 无限长流式推理
+- **H2O**：基于累积注意力分数选择性地保留 "Heavy Hitter" Token
+- **SinkRouter**：汇感知的路由优化策略
+- **预训练改进**：在训练样本前添加专用 [[sink-token|可学习汇 Token]]，消除对多个初始 Token 的依赖

 ## 相关概念

- [[lost-in-the-middle]] — 问题背景
- [[kv-cache-bottleneck]] — 缓存优化
- [[llm-attention-survey-2026]] — 综述参考
+- [[streaming-llm|StreamingLLM]] — 基于注意力汇的流式推理框架
+- [[window-attention|窗口注意力]] — 驱逐初始 Token 导致崩溃的基线
+- [[sink-token|汇 Token]] — 预训练中的专用注意力汇
+- [[softmax-off-by-one|SoftMax-off-by-One]] — 替代方案
+- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关优化问题
+- [[length-extrapolation|长度外推]] — 问题域
--- a/concepts/automated-theorem-proving.md
+++ b/concepts/automated-theorem-proving.md
@@ -1,3 +1,12 @@
+---
+title: 自动定理证明 (Automated Theorem Proving, ATP)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 自动定理证明 (Automated Theorem Proving, ATP)

 - **领域**: AI × 数理逻辑
--- a/concepts/backtranslation-round-trip-relay.md
+++ b/concepts/backtranslation-round-trip-relay.md
@@ -0,0 +1,46 @@
+---
+title: "Backtranslation Round-Trip Relay"
+created: 2026-05-14
+type: concept
+tags: ["evaluation-methodology", "backtranslation", "round-trip", "relay", "semantic-equivalence"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Backtranslation Round-Trip Relay
+
+回译接力（Backtranslation Round-Trip Relay）是 [[delegate-52]] 基准的核心评估方法论，通过可逆编辑任务的链式组合来衡量 LLM 的文档编辑保真度。
+
+## 回译原语（Round-Trip Primitive）
+
+给定种子文档 s 和一对编辑指令 (x→, x←)：
+
+1. **正向编辑**：t = σ(s) = LLM(s; x→)
+2. **反向编辑**：ŝ = σ⁻¹(t) = LLM(t; x←)
+3. **重建分数**：sim(s, ŝ) ∈ [0, 1]
+
+完美模型应使 sim(s, ŝ) = 1，评估退化为衡量语义等价程度，无需人工标注参考答案。
+
+## Relay 组合
+
+将 N 对正向/反向指令连续应用：
+
+ŝₖ = σ₁ ∘ σ₁⁻¹ ∘ ... ∘ σₙ ∘ σₙ⁻¹(s)
+
+每轮回译后计算 RS@k = sim(s, ŝ_{k/2})，跟踪退化曲线。
+
+## 方法论前提
+
+- 每个编辑任务必须是可逆的
+- 模型**真正尝试执行编辑**而非走捷径（附录 A 验证）
+- 每次交互是独立的单轮会话
+
+## 思想渊源
+
+源于机器翻译中的回译（backtranslation）技术（Sennrich et al., 2015; Somers, 2005），近期被用于评估 LLM 一致性（Hong et al., 2025; Allamanis et al., 2024）。
+
+## 相关概念
+
+- [[delegate-52]] — 使用此方法论的基准
+- [[round-trip-reconstruction-score]] — RS@k 指标
+- [[semantic-equivalence]] — 评分的理论基础
+- [[document-degradation]] — 此方法揭示的核心现象
--- a/concepts/bidirectional-trajectory-evaluation.md
+++ b/concepts/bidirectional-trajectory-evaluation.md
@@ -0,0 +1,49 @@
+---
+title: "双向轨迹评估 (Bidirectional Trajectory Evaluation)"
+domain: "Reinforcement Learning / Reward Design"
+tags: [trajectory, evaluation, path-tracing, reward]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 双向轨迹评估 (Bidirectional Trajectory Evaluation)
+
+> 路径追踪任务的核心评估方法：同时从预测→真实（前向）和真实→预测（反向）两个方向计算轨迹对齐度。
+
+## 为什么需要双向
+
+单向评估的缺陷：
+- **仅前向**：模型只输出起点附近的几个安全点 → 高分但路径不完整
+- **仅反向**：不惩罚模型幻想出的偏离路径（detour）
+
+**双向结合** → 激励模型输出**完整且准确**的坐标轨迹。
+
+## 双向计算
+
+### 前向（Forward）
+对每个**预测点**，计算到**真实曲线**任意线段的最小距离 → 取平均
+$$\text{Forward} = \frac{1}{N_{\text{pred}}} \sum_{p \in \text{pred}} \min_{s \in \text{GT}} \text{dist}(p, s)$$
+
+→ 惩罚偏离真实路径的点
+
+### 反向（Reverse）
+对每个**真实点**，计算到**预测折线**任意线段的最小距离 → 取平均
+$$\text{Reverse} = \frac{1}{N_{\text{GT}}} \sum_{g \in \text{GT}} \min_{s \in \text{pred}} \text{dist}(g, s)$$
+
+→ 惩罚遗漏的曲线段
+
+### 最终得分
+$$\text{Trajectory Score} = \frac{\text{Forward} + \text{Reverse}}{2}$$
+
+## 完整奖励组成
+
+路径追踪 Accuracy RM = 加权组合：
+1. 双向轨迹精度
+2. 端点精度（起终点坐标匹配）
+3. 轨迹连续性惩罚（最后预测点→预测终点的距离超过阈值则处罚）
+4. 答案正确性
+
+## 相关概念
+
+- [[path-tracing|路径追踪]] — 应用任务
+- [[exponential-decay-reward|指数衰减奖励]] — 计数任务对应方案
+- [[reward-model|奖励模型]] — 整体 RM 设计
--- a/concepts/bpf-syscall-interception.md
+++ b/concepts/bpf-syscall-interception.md
@@ -1,3 +1,12 @@
+---
+title: BPF系统调用拦截
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # BPF系统调用拦截

 **类型**: 系统安全技术，运行时监控  
@@ -140,11 +149,11 @@ BPF虚拟机 (在内核中)

 ## 相关概念

- [[ClawLess]] - 使用BPF系统调用拦截的安全框架
- [[用户空间内核]] - 与BPF协同工作的技术
- [[形式化安全模型]] - BPF程序实现的安全策略基础
- [[AI代理安全]] - BPF技术的主要应用领域
- [[安全容器]] - BPF技术的部署环境
+- [[clawless]] - 使用BPF系统调用拦截的安全框架
+- [[userspace-kernel]] - 与BPF协同工作的技术
+- [[formal-security-model]] - BPF程序实现的安全策略基础
+- [[ai-agent-security]] - BPF技术的主要应用领域
+- [[secure-containers]] - BPF技术的部署环境

 ## 发展趋势

--- a/concepts/cache-health-observability.md
+++ b/concepts/cache-health-observability.md
@@ -0,0 +1,35 @@
+---
+title: "Cache Health Observability（缓存健康度可观测性）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [observability, monitoring, cache, system-design]
+sources: [[prompt-caching-architecture]]
+---
+
+# Cache Health Observability（缓存健康度可观测性）
+
+## 定义
+
+Cache Health Observability 是对 [[prompt-caching|Prompt Caching]] 系统运行状态的全方位监控体系，包括三大核心指标和相应的告警机制。
+
+## 指标体系
+
+| 指标 | 定义 | 告警阈值 |
+|------|------|----------|
+| [[cache-hit-ratio|CHR]] | 缓存命中请求占比 | < 95% 触发告警 |
+| Invalidation Point ID | 失效首现场的字节偏移 | 每次失效记录 |
+| Cost Efficiency Score | Cache-Off vs On 的 Token 差 | 按实验量化 |
+
+## 工程实现
+
+- 在 API 调用封装层 (wrapper) 添加埋点
+- 记录每次请求的 `cache_hit` 字段
+- 实时同步到监控仪表盘
+- CHR 骤降时联动告警（SSH、Slack 等）
+
+## 相关概念
+
+- [[cache-hit-ratio|缓存命中率]]
+- [[prompt-caching|Prompt Caching]]
+- [[cache-invalidation|缓存失效]]
--- a/concepts/cache-hit-ratio.md
+++ b/concepts/cache-hit-ratio.md
@@ -0,0 +1,33 @@
+---
+title: "Cache Hit Ratio (CHR)"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [cache, metrics, observability, system-design]
+sources: [[prompt-caching-architecture]]
+---
+
+# Cache Hit Ratio (CHR，缓存命中率)
+
+## 定义
+
+Cache Hit Ratio 是衡量 [[prompt-caching|Prompt Caching]] 效率的核心指标：
+
+CHR = (缓存命中的请求数) / (总请求数)
+
+## 工程标准
+
+- **CHR ≥ 95%**：健康状态，[[prompt-layering|提示分层]] 设计有效
+- **CHR < 95%**：触发告警，需立即排查 [[cache-invalidation|失效原因]]
+- 在 [[meta-jctrader|Meta-JCTrader]] 等高频系统中，低 CHR 直接意味着高额账单损失和不可接受的延迟
+
+## 辅助指标
+
+- **Invalidation Point Identification**：失效点的字节偏移追踪
+- **Cost Efficiency Score**：Cache-Off vs Cache-On 的 Token 消耗对比
+
+## 相关概念
+
+- [[prompt-caching|Prompt Caching]]
+- [[cache-invalidation|缓存失效]]
+- [[cache-health-observability|缓存健康度可观测性]]
--- a/concepts/cache-invalidation.md
+++ b/concepts/cache-invalidation.md
@@ -0,0 +1,32 @@
+---
+title: "Cache Invalidation（缓存失效）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [cache, system-design, debugging]
+sources: [[prompt-caching-architecture]]
+---
+
+# Cache Invalidation（缓存失效）
+
+## 定义
+
+Cache Invalidation 指 [[prompt-caching|Prompt Caching]] 中缓存前缀因字节级不匹配而导致整个缓存树失效的现象。由于 [[prefix-matching|前缀匹配]] 的高严格性，任何对前缀的微小更改都会触发"雪崩式"失效。
+
+## 常见触发源
+
+1. **System Prompt 动态变量**：日期、状态摘要、不确定的路径名
+2. **工具定义动态调整**：按需加载/移除工具（→ 使用 [[stub-pattern|Stub 模式]] 规避）
+3. **System Message 滥用**：频繁更新 System Message 切换状态（→ 使用消息化状态管理）
+4. **压缩操作不当**：独立 API 调用使用不同的 System Prompt
+
+## 失效点识别
+
+系统应记录导致失效的"第一现场"——通过日志追踪失效点的字节偏移，快速定位代码逻辑缺陷。
+
+## 相关概念
+
+- [[prefix-matching|前缀匹配]]
+- [[prompt-caching|Prompt Caching]]
+- [[cache-hit-ratio|缓存命中率]]
+- [[system-message-abuse|System Message 滥用]]
--- a/concepts/cache-safe-forking.md
+++ b/concepts/cache-safe-forking.md
@@ -0,0 +1,36 @@
+---
+title: "Cache-Safe Forking（缓存安全分叉）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [agent-architecture, context-management, caching-optimization]
+sources: [[prompt-caching-architecture]]
+---
+
+# Cache-Safe Forking（缓存安全分叉）
+
+## 定义
+
+Cache-Safe Forking 是一种在 [[context-compression|上下文压缩]] 过程中保持 [[prompt-caching|缓存]] 命中的技术，通过复用父会话的完整前缀避免压缩操作触发缓存失效。
+
+## 算法
+
+1. **复用父会话属性**：新请求对象包含与父会话完全相同的 System Prompt、Tools 定义、Session 配置
+2. **强制拼接历史**：将父会话的完整 Message 历史直接拷贝到新请求
+3. **追加总结指令**：在历史末尾追加 User Message：「基于上述历史，执行压缩总结」
+
+## 效果
+
+由于新请求的前缀（历史 + 系统指令）与父会话最后状态几乎完全重叠，API 层自动命中缓存，总结过程仅需计算最后追加的几百个 Token——将压缩成本降低一个数量级。
+
+## 应用场景
+
+- 长对话的自动总结
+- [[meta-jctrader|Meta-JCTrader]] 中 AI Judge 的长期运行评估
+- [[agentic-systems|Agent 系统]] 中无视上下文长度限制的持续推理
+
+## 相关概念
+
+- [[context-compression|上下文压缩]]
+- [[prompt-caching|Prompt Caching]]
+- [[agentic-systems|Agentic Systems]]
--- a/concepts/caddy-web-server.md
+++ b/concepts/caddy-web-server.md
@@ -0,0 +1,42 @@
+---
+title: Caddy Web Server
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# Caddy Web Server
+
+**现代化的 Go 语言 Web 服务器/反向代理**，以自动 HTTPS 和简洁 Caddyfile 配置著称。
+
+## 核心特性
+
+- **自动 HTTPS**: 无需额外配置即可自动获取和续期 Let's Encrypt 证书
+- **Caddyfile**: 简洁直观的配置语法，远优于 Nginx 的复杂配置
+- **命名匹配器 (Named Matcher)**: `@name { conditions... }` 定义可复用的请求匹配规则
+- **原生反向代理**: `reverse_proxy` 指令内置健康检查、负载均衡
+- **API 控制**: 支持运行时通过 REST API 动态修改配置
+
+## 关键指令
+
+| 指令 | 功能 |
+|------|------|
+| `reverse_proxy` | 反向代理到后端 |
+| `header` | 请求头匹配器 |
+| `respond` | 直接返回 HTTP 响应 |
+| `route` / `handle` | 路径级别的路由控制 |
+| `basicauth` | HTTP Basic 认证 |
+| `forward_auth` | 委托外部认证 |
+
+## 常见使用场景
+
+- [[reverse-proxy-authentication|反向代理层认证]] — 在 Caddy 层拦截未认证请求
+- [[forward-authentication|外部认证委托]] — 复杂认证逻辑交给外部服务
+- [[api-key-authentication|API Key 网关]] — 统一 API Key 校验入口
+
+## 相关概念
+
+- [[caddy-reverse-proxy-auth]] — 反向代理认证完整方案
+- [[reverse-proxy-authentication]] — 认证模式
--- a/concepts/cel-shading-style.md
+++ b/concepts/cel-shading-style.md
@@ -0,0 +1,29 @@
+---
+title: 赛璐璐风格 (Cel-Shading)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 赛璐璐风格 (Cel-Shading)
+
+**源自传统手绘动画的非真实感渲染技术**，以扁平色块和硬边阴影为特征。
+
+## 视觉特征
+
+- **硬边阴影 (Hard Edge Shadow)**: 光影分界线锐利，无渐变过渡
+- **扁平色彩**: 色块平整无颗粒，类似动画赛璐璐片
+- **强对比**: 亮面清透微曝，阴影区深邃
+- **特殊配色**: 常搭配 [[klein-blue|克莱因蓝]] 形成强烈视觉冲击
+
+## 在 AI 生成中的应用
+
+"赛璐璐"是 [[gpt-image2]] 中生成动漫/二次元风格的核心关键词，配合仰拍透视和几何切割可产生"动画分镜感"。
+
+## 相关概念
+
+- [[klein-blue]] — 常与赛璐璐搭配的高饱和蓝
+- [[glitch-art-style]] — 对立的数字破坏美学
+- [[gpt-image2-prompt-collection]] — 风格合集
--- a/concepts/centralized-agent-architecture.md
+++ b/concepts/centralized-agent-architecture.md
@@ -0,0 +1,48 @@
+---
+title: 集中式Agent架构
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# 集中式Agent架构 (Centralized Agent Architecture)
+
+> 由一个区分控制器 agent 管理协调过程的多 Agent 架构模式。通信图形成星形拓扑，是 [[agent-network-topology]] 的一个分支。
+
+## 形式定义
+
+存在 orchestrator a_c 使得：
+```
+E = {(a_c, a_i), (a_i, a_c) | ∀a_i ≠ a_c}
+```
+
+更新由控制器独占执行：
+```
+E^(t+1) = Φ_c(E^(t), o^(t))
+Π^(t+1) = Γ_c(Π^(t), o^(t))
+```
+
+## 子类别
+
+根据 [[agent-network-memory-scope]] 和 [[agent-network-update-behavior]] 可进一步分为 4 种：
+
+1. **全局+静态**：固定全局工作流 (MetaGPT, ChatDev, AutoGen)
+2. **全局+动态**：自适应全局协调 (SWE-agent, OpenHands, Voyager)
+3. **局部+静态**：固定本地状态 (MetaAgent, SOTOPIA-S4)
+4. **局部+动态**：自适应本地协调 (OPTIMA, Magentic-One)
+
+## 优势与劣势
+
+| 优势 | 劣势 |
+|------|------|
+| 全局视角优化任务分解 | 控制器成为瓶颈 |
+| 协调一致性强 | 单点故障 |
+| 实现简单、可预测 | 随 agent 数扩展困难 |
+| 适合结构化流水线任务 | 不适合开放域探索 |
+
+## 相关概念
+- [[agent-network-topology]] — 拓扑维度
+- [[decentralized-agent-architecture]] — 对偶架构
+- [[song-agent-network-taxonomy]] — 父论文
--- a/concepts/certainty-based-rewards.md
+++ b/concepts/certainty-based-rewards.md
@@ -0,0 +1,42 @@
+---
+title: 确定性奖励 (Certainty-Based Rewards)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 确定性奖励 (Certainty-Based Rewards)
+
+**URLVR 的内在奖励范式之一**，从策略的置信度（logits/概率分布）推导奖励，假设更高置信度 = 更正确。
+
+## 代表方法
+
+| 方法 | 奖励函数 | 核心思想 |
+|------|---------|---------|
+| EM-RL | 轨迹级平均对数概率 | 鼓励低熵（高置信）轨迹 |
+| RENT | 序列级熵最小化 | 同上，不同归一化 |
+| RLIF | 自确定性 (KL 散度) | 鼓励输出分布偏离均匀 |
+| RLSC | 概率自我一致性 | 高概率采样点的自我一致性 |
+| RLSF | 概率差异 | 交叉样本概率对比 |
+
+## 理论局限
+
+[[intrinsic-rewards-sharpening|Sharpening 理论]] 揭示了确定性奖励的根本问题：置信度是模型内部状态——它只反映"模型认为什么是对的"，而非"什么客观上是对的"。当模型自信但错误时，确定性奖励在积极强化错误。
+
+## 对比 Ensemble-Based
+
+| 确定性奖励 | [[ensemble-based-rewards|集成奖励]] |
+|-----------|------|
+| 单次前向传播 | 需多次采样 |
+| 计算成本低 | 计算成本高 |
+| 完全依赖模型内部状态 | 通过多样本交叉验证 |
+| 同样受 Sharpening 限制 | 同样受 Sharpening 限制 |
+
+## 相关概念
+
+- [[ensemble-based-rewards]] — 另一内在范式
+- [[intrinsic-rewards-sharpening]] — 统一理论
+- [[unsupervised-rlvr]] — URLVR 全景
+- [[he-urlvr-sharpening-2026]] — 综述参考
--- a/concepts/chain-of-thought.md
+++ b/concepts/chain-of-thought.md
@@ -0,0 +1,38 @@
+---
+title: "思维链 (Chain-of-Thought, CoT)"
+domain: "AI / Reasoning"
+tags: [chain-of-thought, reasoning, prompt-engineering]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 思维链 (Chain-of-Thought, CoT)
+
+> 一种通过显式生成中间推理步骤来增强大语言模型复杂推理能力的技术。
+
+## 定义
+
+Chain-of-Thought (CoT) 是让模型在给出最终答案前，先生成一系列中间推理步骤的方法。这些步骤模拟人类的「出声思考」过程，显著提升算术、逻辑、常识推理等任务的准确率。
+
+## 多模态 CoT 的局限
+
+在 [[multimodal-large-language-model|多模态大语言模型]] 中，传统 CoT 的推理链**完全局限在语言空间**：
+- 语言描述空间关系天然模糊（「在 A 左边的右边那个…」）
+- 无法精确指代密集场景中的特定实例
+- 推理链可能脱离视觉证据，产生级联幻觉
+
+## 视觉原语增强的 CoT
+
+[[visual-primitives|视觉原语]] 框架将 CoT 从纯语言空间扩展到语言+视觉混合空间：
+
+```
+传统 CoT:  "左边有 3 个球，右边有 2 个球，一共 5 个"
+视觉 CoT:  "<|box|>[[x1,y1,x2,y2],...]<|/box|> 左边 3 个，右边 2 个，一共 5 个"
+```
+
+通过直接输出归一化坐标，视觉原语使 CoT 的每一步推理都有对应的、可验证的空间锚点。
+
+## 相关概念
+
+- [[visual-primitives|视觉原语]] — CoT 的视觉扩展
+- [[reference-gap|引用鸿沟]] — 纯语言 CoT 的根本局限
+- [[system-2-thinking|System-2 思维]] — CoT 的理论基础
--- a/concepts/chaitin-algorithmic-information-theory.md
+++ b/concepts/chaitin-algorithmic-information-theory.md
@@ -1,3 +1,12 @@
+---
+title: 算法信息论 (Algorithmic Information Theory, AIT)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 算法信息论 (Algorithmic Information Theory, AIT)

 - **领域**: 信息论、可计算性理论
--- a/concepts/chaitin-constant.md
+++ b/concepts/chaitin-constant.md
@@ -1,3 +1,12 @@
+---
+title: 蔡廷常数 Ω (Chaitin's Constant)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 蔡廷常数 Ω (Chaitin's Constant)

 - **领域**: 算法信息论
--- a/concepts/cl-bench-life.md
+++ b/concepts/cl-bench-life.md
@@ -0,0 +1,84 @@
+---
+title: CL-Bench Life
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [benchmark, llm, alignment]
+sources: [papers/hunyuan-team-cl-bench-life.md]
+---
+
+# CL-Bench Life
+
+> 首个**全人工策展**的真实生活上下文学习基准，评估 LM 从混乱、碎片化日常上下文中学习并推理的能力。
+
+## 定义
+
+CL-bench Life 是由腾讯混元团队与复旦大学联合构建的 [[real-life-context-learning]] 评估基准，包含 405 个上下文-任务对和 5,348 个验证细则。每个任务以身临其境的真实生活上下文为输入，要求模型不依赖外部检索，仅从给定上下文中推理求解。
+
+## 设计原则
+
+### 上下文自包含性
+所有任务所需信息已整合在提供的上下文中，模型无需调用外部检索工具。这一设计**干净地隔离了"上下文学习"这一单一能力**，排除了搜索、工具调用、记忆检索等前期阶段的干扰。
+
+### 全人工策展
+每个实例（context + task + rubrics）均由人工编写，确保了任务的真实性和评估的一致性，避免自动生成的偏差。
+
+### 均衡分布
+三大类别各占 33.3%，每类下三个子类各占 11.1%，避免对单一上下文类型的评估偏差。
+
+## 三大上下文类别
+
+```mermaid
+graph TD
+    CL[CL-Bench Life: 405 pairs]
+    CL --> A[沟通与社交互动 135]
+    CL --> B[碎片化信息与修订 135]
+    CL --> C[行为记录与活动轨迹 135]
+    A --> A1[私密对话]
+    A --> A2[群聊与会议]
+    A --> A3[社区互动]
+    B --> B1[个人信息碎片]
+    B --> B2[公共信息碎片]
+    B --> B3[创作与修订历史]
+    C --> C1[游戏日志]
+    C --> C2[数字足迹]
+    C --> C3[自我追踪轨迹]
+```
+
+## 评估方法
+
+### Judge Model
+使用 LLM-as-judge 进行自动评估。每个任务配备一组 rubrics（细则）：
+
+- ✅ **必须覆盖项**：回复必须包含的信息或推理步骤
+- ❌ **禁止出现项**：回复不得包含的错误内容（附理据说明）
+
+每个 rubric 独立判定 pass/fail，任务整体评分取决于所有 rubrics 的满足情况。
+
+### 四种错误类型
+评估框架识别四种非互斥的失败模式：
+
+| 错误类型 | 含义 | 占比 |
+|---------|------|------|
+| **Context-Misused** | 读了上下文但推理错误 | **76-84%** |
+| Context-Ignored | 完全未使用关键上下文信息 | 36-45% |
+| Format-Error | 输出格式不符合要求 | 10-16% |
+| Refusal | 明确拒答或虚假声称信息不足 | <3% |
+
+## 核心指标
+
+- 405 上下文-任务对，5,348 个 rubrics
+- 59.8% 为多轮交互
+- 上下文长度：5.4K – 170.8K tokens，平均 19.4K
+- 最佳模型 (GPT-5.4)：19.3% 解决率
+- 十模型平均：13.8%
+
+## 相关概念
+- [[real-life-context-learning]] — 真实生活上下文学习
+- [[context-misuse]] — 上下文误用：核心失败模式
+- [[messy-context-reasoning]] — 混乱上下文推理
+- [[hunyuan-team-cl-bench-life]] — 论文详情
+
+---
+
+*Last Updated: 2026-05-01*
--- a/concepts/classifier-free-guidance-language.md
+++ b/concepts/classifier-free-guidance-language.md
@@ -0,0 +1,53 @@
+---
+title: "Classifier-Free Guidance for Language"
+created: 2026-05-13
+updated: 2026-05-13
+type: concept
+tags: [guidance, diffusion-language-model, controllable-generation]
+sources:
+  - https://arxiv.org/abs/2605.10938
+---
+
+# CFG for Language (Classifier-Free Guidance)
+
+Classifier-Free Guidance (CFG) 最早在图像扩散模型中提出，通过外推条件和无条件预测来引导生成方向。[[embedded-language-flows|ELF]] 将其首次有效应用于语言扩散模型。
+
+## 核心公式
+
+在 Flow Matching 框架中：
+
+```
+v_cfg(z_t | c) = ω · v(z_t | c) + (1-ω) · v(z_t | ∅)
+```
+
+其中 ω 是引导强度（guidance scale），c 是条件信号，∅ 是空条件。
+
+## ELF 中的实现
+
+### 条件信号构造
+
+由于语言生成没有显式 class label，ELF 使用 [[self-conditioning]] 构造条件信号 c：将上一时间步的预测 x̂' 作为当前步的条件。
+
+### 训练时 CFG
+
+为避免推理时双倍前向开销，ELF 采用**训练时 CFG**：
+- 训练时随机丢弃条件信号（以概率 p_uncond），让网络同时学习条件和无条件预测
+- 单个前向 pass 输出 x_cfg（而非 x），通过条件信号的线性组合隐式建模 CFG
+- 推理时无需双倍计算
+
+## 为什么在连续 DLM 中特别有效
+
+CFG 原本为连续量设计（score function, velocity field）。在连续空间中 CFG 直接作用于速度/嵌入预测；在离散空间中需要处理离散概率分布的外推，效果通常更差。ELF 的连续嵌入设计使其能**自然受益于图像域积累的 CFG 经验**。
+
+## 效果
+
+ELF 中 CFG 显著降低 Gen. PPL：
+- CFG=1.0 → 效果中等
+- CFG=2.0-3.0 → 最优区间
+- CFG>3.0 → 收益递减，质量可能下降
+
+## 相关概念
+
+- [[self-conditioning]] — ELF 的条件信号源
+- [[embedded-language-flows]] — 使用此技术的模型
+- [[continuous-diffusion-language-models]] — CFG 天然适用的模型类别
--- a/concepts/clawless.md
+++ b/concepts/clawless.md
@@ -1,3 +1,12 @@
+---
+title: ClawLess
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # ClawLess

 **类型**: 安全框架  
@@ -89,12 +98,12 @@ ClawLess 是一个针对自主AI代理的安全框架，在最坏情况威胁模

 ## 相关概念

- [[AI代理安全]] - ClawLess解决的安全问题领域
- [[形式化安全模型]] - ClawLess使用的方法论基础
- [[用户空间内核]] - ClawLess的执行环境
- [[BPF系统调用拦截]] - ClawLess的核心执行机制
- [[安全容器]] - ClawLess的部署环境
- [[最坏情况威胁模型]] - ClawLess的设计假设
+- [[ai-agent-security]] - ClawLess解决的安全问题领域
+- [[formal-security-model]] - ClawLess使用的方法论基础
+- [[userspace-kernel]] - ClawLess的执行环境
+- [[bpf-syscall-interception]] - ClawLess的核心执行机制
+- [[secure-containers]] - ClawLess的部署环境
+- [[worst-case-threat-model]] - ClawLess的设计假设

 ## 未来发展

--- a/concepts/coarse-grained-counting.md
+++ b/concepts/coarse-grained-counting.md
@@ -0,0 +1,41 @@
+---
+title: "粗粒度计数 (Coarse-grained Counting)"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [counting, visual-primitives, grounding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 粗粒度计数 (Coarse-grained Counting)
+
+> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。
+
+## 任务定义
+
+对图像中特定**类别**的实例进行计数，不考虑细粒度属性区分。
+
+## 三步推理协议
+
+在 [[visual-primitives|视觉原语]] 框架下的标准思考流程：
+
+1. **意图分析** → 识别目标类别
+2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象
+3. **统计汇总** → 基于视觉原语计数
+
+## 批量 vs 顺序锚定
+
+粗粒度计数采用**批量锚定**（batch grounding）而非逐个枚举，原因：
+- 利用模型固有的定位优势
+- 避免重复枚举的低效
+- 更接近人类的「扫一眼→分组→数数」策略
+
+## 数据来源
+
+- 密集检测数据集：Open Images, Objects365, CrowdHuman, NUCLS 等
+- 过滤标准：避免过度密集、确保框足够大、高召回率
+- 冷启动样本：约 **10,000** 个（粗+细粒度合计）
+
+## 相关概念
+
+- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务
+- [[visual-primitives|视觉原语]] — 使用的框原语
+- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数
--- a/concepts/cognitive-architecture.md
+++ b/concepts/cognitive-architecture.md
@@ -1,8 +1,18 @@
+---
+title: Cognitive Architecture (认知架构)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Cognitive Architecture (认知架构)

 > **类型**: 概念  
 > **领域**: 认知科学，人工智能，心理学  
-> **相关概念**: [[metacognitive-self-modification]], [[hyperagents]], [[self-improving-ai]], [[human-centered-ai]]
+> **相关概念
+- [[agent-network-taxonomy]] — Agent网络分类法**: [[metacognitive-self-modification]], [[hyperagents]], [[self-improving-ai]], [[human-centered-ai]]

 ## 定义

@@ -204,6 +214,7 @@
 4. **跨学科整合**：整合心理学、神经科学、计算机科学

 ## 相关概念
+- [[agent-network-taxonomy]] — Agent网络分类法
 - [[metacognitive-self-modification]]：元认知自我修改，认知架构的自我改进
 - [[hyperagents]]：超智能体，可能具有可编辑的认知架构
 - [[self-improving-ai]]：自我改进 AI，可能通过修改认知架构实现
--- a/concepts/completeness-logic.md
+++ b/concepts/completeness-logic.md
@@ -1,3 +1,12 @@
+---
+title: 完备性 (Completeness, 逻辑学)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 完备性 (Completeness, 逻辑学)

 - **领域**: 数理逻辑
--- a/concepts/computability-theory.md
+++ b/concepts/computability-theory.md
@@ -1,3 +1,12 @@
+---
+title: 可计算性理论 (Computability Theory)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 可计算性理论 (Computability Theory)

 - **领域**: 理论计算机科学
--- a/concepts/confidence-correctness-alignment.md
+++ b/concepts/confidence-correctness-alignment.md
@@ -0,0 +1,25 @@
+---
+title: 置信度-正确性对齐 (Confidence-Correctness Alignment)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 置信度-正确性对齐 (Confidence-Correctness Alignment)
+
+**模型初始置信度与实际正确性的一致程度**，是决定 [[intrinsic-rewards-sharpening|内在 URLVR]] 成败的关键变量。
+
+## 二分命运
+
+- **对齐**: 锐化 → 放大正确推理路径 → 性能提升
+- **错位**: 锐化 → 系统性放大错误 → 模型崩溃
+
+对齐强度可通过 [[model-collapse-step|MCS]] 量化。
+
+## 相关概念
+
+- [[intrinsic-rewards-sharpening]] — Sharpening 机制
+- [[model-collapse-step]] — 对齐强度的度量
+- [[he-urlvr-sharpening-2026]] — 综述参考
--- a/concepts/consistency-logic.md
+++ b/concepts/consistency-logic.md
@@ -1,3 +1,12 @@
+---
+title: 一致性 (Consistency, 逻辑学)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 一致性 (Consistency, 逻辑学)

 - **领域**: 数理逻辑
--- a/concepts/context-blue-clique.md
+++ b/concepts/context-blue-clique.md
@@ -0,0 +1,34 @@
+---
+title: "Context Blue Clique（上下文蓝色团）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [context-design, graph-theory, ramsey-theory]
+sources: [[ramsey-context-construction]]
+---
+
+# Context Blue Clique（上下文蓝色团）
+
+## 定义
+
+上下文蓝色团是 [[ramsey-context-graph|拉姆齐上下文图]] 中的一个**全蓝色完全子图**——其内部任意两个节点之间都是蓝边（完全兼容），可以直接作为 Agent 的无冲突上下文骨架。
+
+## 拉姆齐保证
+
+根据 [[ramsey-theory|拉姆齐理论]]，当总节点数 N ≥ R(t, m) 时，下面两者必居其一：
+1. **存在大小为 t 的蓝色团** — 可直接使用的优质上下文
+2. **存在大小为 m 的红色独立集** — 冲突严重，需清理
+
+工程实践中让系统永远处于状态 1。
+
+## 工程角色
+
+- **作为常驻上下文骨架**：如 `[tool_A, skill_B, prompt_C]` 构成最小可用三元组
+- **作为模板缓存**：蓝色团天然是稳定前缀 → 复用提高 [[cache-hit-ratio|KV cache 命中率]]
+- **团大小动态调整**：长对话时下调 t 值，牺牲部分功能换取记忆清晰度
+
+## 相关概念
+
+- [[ramsey-context-graph|拉姆齐上下文图]]
+- [[greedy-context-screening|贪心上下文筛选]]
+- [[ramsey-context-template|拉姆齐上下文模板]]
--- a/concepts/context-compression.md
+++ b/concepts/context-compression.md
@@ -0,0 +1,31 @@
+---
+title: "Context Compression（上下文压缩）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [context-management, summarization, agent-architecture]
+sources: [[prompt-caching-architecture]]
+---
+
+# Context Compression（上下文压缩）
+
+## 定义
+
+Context Compression 是当 Agent 对话长度触及 Context Window 限制时，对历史对话进行摘要压缩的技术。其核心挑战是在压缩过程中避免触发 [[cache-invalidation|缓存失效]]。
+
+## 两种压缩方式
+
+| 方式 | 做法 | 缓存影响 |
+|------|------|----------|
+| 传统（错误） | 独立 API 调用，使用默认 System Prompt | 前缀不一致 → 缓存全失效 |
+| [[cache-safe-forking|Cache-Safe Forking]] | 复用父会话完整前缀 | 仅最后几百 Token 需计算 |
+
+## 工程陷阱
+
+最常见的错误：发起新的独立 API 调用请求总结，该调用使用与原始会话不同的 System Prompt → 完全前缀不一致 → 成本剧增。
+
+## 相关概念
+
+- [[cache-safe-forking|缓存安全分叉]]
+- [[prompt-caching|Prompt Caching]]
+- [[agentic-systems|Agentic Systems]]
--- a/concepts/context-learning.md
+++ b/concepts/context-learning.md
@@ -0,0 +1,67 @@
+---
+title: 上下文学习 (Context Learning)
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, benchmark]
+sources: [papers/dou-cl-bench.md, papers/hunyuan-team-cl-bench-life.md]
+---
+
+# 上下文学习 (Context Learning)
+
+> 由 Dou et al. (2026) 在 [[dou-cl-bench|CL-bench]] 中首次定义的核心能力：语言模型**从任务特定上下文中学习新知识并进行推理**，而非仅依赖预训练知识。与 ICL（上下文少样本学习）和长上下文理解有本质区别。
+
+## 定义
+
+上下文学习（Context Learning）是 LLM 在给定富含新信息的上下文中：
+1. **搜索和组织**相关信息
+2. **学习**上下文中的新知识（领域规则、操作流程、经验规律）
+3. **应用**这些新知识推理和解决任务
+
+核心特征：**所需知识不在预训练语料中**，必须在推理时从上下文习得。
+
+## 与其他能力的区别
+
+| 能力 | 上下文内容 | 核心操作 | 评估基准 |
+|------|-----------|---------|---------|
+| **Context Learning** | 新领域知识、规则系统、操作流程 | 学习 + 推理 + 应用 | CL-bench, CL-bench Life |
+| ICL (In-Context Learning) | 少量示例（few-shot） | 模式匹配、类比 | 标准 NLP 基准 |
+| 长上下文理解 | 长文本中的已知概念 | 检索、阅读 | Needle-in-Haystack, RULER |
+| RAG | 检索到的文档片段 | 证据融合 | KILT, RGB |
+
+## CL-bench 系列的两种范式
+
+### 专业领域上下文学习 (CL-bench)
+由 Dou et al. (2026) 提出，聚焦**结构化的专业领域上下文**：
+- 虚构法律体系、新编程语言、操作手册
+- 4 类 → 18 子类：领域知识推理、规则系统应用、程序性执行、经验发现
+- 最佳成绩：23.7% (GPT-5.1)
+
+### 真实生活上下文学习 (CL-bench Life)
+由 Hunyuan Team (2026) 提出，聚焦**混乱的日常上下文**：
+- 群聊历史、碎片笔记、行为日志
+- 3 类 → 9 子类：通信社交、碎片化信息、行为记录
+- 最佳成绩：19.3% (GPT-5.4)
+- 详见 [[real-life-context-learning]]
+
+## 核心挑战
+
+### 1. 上下文误用（首要失败模式）
+CL-bench Life 发现 76-84% 的错误是模型"读了但没推理对"——信息提取成功但逻辑整合失败。详见 [[context-misuse]]
+
+### 2. 归纳 vs 演绎推理
+- 前三个类别（领域知识、规则、程序）主要是**演绎**：从给定规则推导
+- 经验发现类别需要**归纳**：从数据中发现规律——这对当前模型是最难的
+
+### 3. 上下文的结构化程度
+从高度结构化（操作手册）到非结构化（群聊），推理难度不随上下文长度线性增长，而是取决于**信息碎片化程度**
+
+## 相关概念
+- [[dou-cl-bench]] — CL-bench 基准论文
+- [[cl-bench-life]] — CL-bench Life 基准
+- [[real-life-context-learning]] — 真实生活上下文学习
+- [[context-misuse]] — 上下文误用
+- [[domain-knowledge-reasoning]] — 领域知识推理
+- [[rule-system-application]] — 规则系统应用
+- [[empirical-discovery-simulation]] — 经验发现与模拟
+- [[long-context-understanding]] — 长上下文理解（相关但不等价）
--- a/concepts/context-misuse.md
+++ b/concepts/context-misuse.md
@@ -0,0 +1,82 @@
+---
+title: 上下文误用 (Context Misuse)
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, benchmark, alignment]
+sources: [papers/hunyuan-team-cl-bench-life.md]
+---
+
+# 上下文误用 (Context Misuse)
+
+> 语言模型**已经读取并关注了上下文信息，但未能正确推理或整合这些信息**的失败模式。区别于"上下文忽略"(Context Ignored)，是当前 LLM 上下文学习的**首要瓶颈**。
+
+## 定义
+
+上下文误用（Context Misuse）是 [[cl-bench-life]] 评估框架中识别的最主要失败类型，指模型：
+
+- ✅ 在回复中引用了上下文中的信息片段
+- ❌ 但对其进行了**错误解读、错误整合或错误加权**
+- 导致最终答案在逻辑上存在系统性缺陷
+
+这区别于 **上下文忽略**（Context Ignored）——模型完全未使用某条关键信息。
+
+## 典型表现
+
+### 1. 错误整合
+模型正确提取了多条信息，但在合并时出现了逻辑矛盾。例如：
+- 同时记录了"A 只能周二"和"最终定在周三"，但结论中未体现约束冲突
+
+### 2. 错误加权
+模型对上下文中的不同证据赋予错误的重要性权重，将次要信息视为核心依据。
+
+### 3. 时序混淆
+在处理跨时间窗口的信息时，将早期版本的约束误认为当前版本的约束。
+
+### 4. 身份归因错误
+群聊场景中，将一个参与者的观点或行为错误归属给另一个参与者。
+
+### 5. 事实幻觉化
+基于上下文中的部分线索"脑补"出实际上不存在的约束或事件。
+
+## 数据
+
+在 CL-bench Life 的十模型评估中：
+
+| 错误类型 | 占比范围 | 说明 |
+|---------|---------|------|
+| Context-Misused | **76% – 84%** | 绝对主导的失败模式 |
+| Context-Ignored | 36% – 45% | 次要失败模式 |
+| Format-Error | 10% – 16% | 格式违规 |
+| Refusal | <3% | 拒答/虚假信息不足 |
+
+**关键洞察**：上下文误用的占比**远超**上下文忽略。这意味着即使模型"看到了"所有相关信息，也**无法可靠地推理**这些信息。
+
+## 与注意力机制的关系
+
+上下文误用可能反映了当前 Transformer 架构在以下方面的局限：
+
+- [[attention-entropy-collapse]]：深层注意力分布的退化
+- [[lost-in-the-middle]]：中间位置信息被系统性低估
+- 长程依赖衰减：跨长距离的因果链和信息整合能力不足
+
+但 CL-bench Life 的数据表明，上下文误用并不仅是位置偏差的问题——即使在较短的上下文中，模型仍然频繁出现推理错误。
+
+## 缓解方向
+
+1. **显式推理**：启用 CoT/推理模式可部分缓解，但边际收益递减
+2. **验证机制**：对提取的事实进行自检（rubric-level self-evaluation）
+3. **结构化中间表示**：在推理前先将混乱上下文转化为结构化知识图谱
+4. **多轮交互**：59.8% 的 CL-bench Life 任务为多轮，多轮本身即可帮助逐步推进理解
+
+## 相关概念
+- [[cl-bench-life]] — 基准设计
+- [[real-life-context-learning]] — 真实生活上下文学习
+- [[messy-context-reasoning]] — 混乱上下文推理
+- [[attention-entropy-collapse]] — 注意力熵崩溃
+- [[lost-in-the-middle]] — U 形注意力分布
+- [[context-learning]] — 通用上下文学习
+
+---
+
+*Last Updated: 2026-05-01*
--- a/concepts/continuous-diffusion-language-models.md
+++ b/concepts/continuous-diffusion-language-models.md
@@ -0,0 +1,48 @@
+---
+title: "Continuous Diffusion Language Models"
+created: 2026-05-13
+updated: 2026-05-13
+type: concept
+tags: [diffusion-language-model, continuous-embeddings, language-generation]
+sources:
+  - https://arxiv.org/abs/2605.10938
+---
+
+# Continuous Diffusion Language Models
+
+连续扩散语言模型（Continuous DLM）将离散 token 映射到连续表示空间进行去噪生成，与在 token 空间直接操作的[[discrete-diffusion-language-models|离散 DLM]] 形成对比。
+
+## 两类连续 DLM
+
+### 嵌入空间方法（Embedding-space）
+
+直接在 token 嵌入上添加高斯噪声并去噪：
+- **Diffusion-LM**：在嵌入空间加噪，通过 rounding 步骤恢复 token
+- **CDCD**、**DiffuSeq**：类似思路，用于文本扩散和序列生成
+- 共同特征：中间步骤通常通过 CE loss 施加 token 级监督
+
+### 潜在扩散方法（Latent Diffusion）
+
+在冻结编码器的潜在表示上操作：
+- **LD4LG**：冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token
+- 需要额外的 decoder 模块
+
+## ELF 的独特性
+
+[[embedded-language-flows|ELF]] 属于嵌入空间方法，但有两个关键区别：
+
+1. **无中间 CE 监督**：除最后一步外，全程使用 MSE loss，不施加 token 级约束
+2. **无单独 decoder**：利用 Flow Matching 的最后一步自然完成离散化（[[shared-weight-discretization]]）
+
+这种极简设计使其能**无缝迁移图像域扩散模型的成熟技术**（CFG、蒸馏、高效采样）。
+
+## 关键争议
+
+连续 DLM 长期被认为不如离散 DLM，但 ELF 表明这**不是语言建模固有特性，而是算法设计问题**。通过正确的设计选择（[[flow-matching]] + [[x-prediction-parameterization]] + [[shared-weight-discretization]]），连续 DLM 可以全面超越离散方法。
+
+## 相关概念
+
+- [[flow-matching]] — 连续时间生成框架
+- [[embedded-language-flows]] — 当前最优连续 DLM
+- [[discrete-diffusion-language-models]] — 离散空间的对比方法
+- [[shared-weight-discretization]] — ELF 的核心离散化机制
--- a/concepts/continuum-hypothesis.md
+++ b/concepts/continuum-hypothesis.md
@@ -1,3 +1,12 @@
+---
+title: 连续统假设 (Continuum Hypothesis, CH)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 连续统假设 (Continuum Hypothesis, CH)

 - **领域**: 集合论
--- a/concepts/cramer-rao-lower-bound.md
+++ b/concepts/cramer-rao-lower-bound.md
@@ -74,4 +74,4 @@ $$\text{Cov}(\hat{\boldsymbol{\theta}}) \succeq \mathbf{I}(\boldsymbol{\theta})^

 ## 相关概念
 - [[computerized-adaptive-testing]] — CAT 的核心目标是最小化能力估计方差，CRLB 提供了理论下界，选题策略本质上是在最大化 Fisher 信息以快速逼近该下界。
- [[eml-universal-operator]] — EML 树的梯度优化依赖于对参数空间的曲率估计，与 CRLB 中 Fisher 信息作为对数似然曲率的数学本质相通。
+- [[eml-operator]] — EML 树的梯度优化依赖于对参数空间的曲率估计，与 CRLB 中 Fisher 信息作为对数似然曲率的数学本质相通。
--- a/concepts/crawl4ai.md
+++ b/concepts/crawl4ai.md
@@ -1,3 +1,12 @@
+---
+title: Crawl4AI
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Crawl4AI

 **类型**: 开源工具，数据提取，网页爬虫  
@@ -146,8 +155,8 @@ result = await crawler.arun(
 - [[knowledge-bank]] — AI 辅助开发时代的知识管理系统
 - [[rag-systems]] — 检索增强生成系统
 - [[llm-applications]] — 大型语言模型应用
- [[web-scraping]] — 网页抓取技术
- [[data-extraction]] — 数据提取技术
+- [[crawl4ai]] — 网页抓取技术
+- [[crawl4ai]] — 数据提取技术

 ## 参考资源

--- a/concepts/critical-failures.md
+++ b/concepts/critical-failures.md
@@ -0,0 +1,41 @@
+---
+title: "Critical Failures / 关键失败"
+created: 2026-05-14
+type: concept
+tags: ["error-analysis", "sparse-errors", "document-corruption", "degradation-decomposition"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Critical Failures
+
+在 [[delegate-52]] 基准中，关键失败（Critical Failure）定义为单次回译导致重建分数下降 ≥10% 的事件。分析发现，模型退化的**主要驱动力不是均匀的小错误累积，而是稀疏的严重失败**。
+
+## 关键数据
+
+- 关键失败解释了约 **80%** 的总 [[document-degradation|文档退化]]
+- 更强的模型并非更好地避免小错误，而是**延迟关键失败**并减少其发生频率
+- Gemini 3.1 Pro: 20 次交互后 38.1% 的 relay 至少经历一次关键失败
+- GPT 5 Nano: 20 次交互后 97.2% 的 relay 至少经历一次关键失败
+
+## 错误结构
+
+按模型退化分解（10 轮 relay 后）：
+
+| 退化来源 | 弱模型 | 前沿模型 |
+|----------|--------|----------|
+| 删除（元素消失） | ~70% | ~22-35% |
+| 损坏（元素内容错误） | ~30% | ~65-78% |
+
+前沿模型的退化主要是**内容被改错**，而非内容丢失。
+
+## 实践含义
+
+- 用户无法通过"抽查几处"来信任委托结果——错误是稀疏但毁灭性的
+- 短交互评估会严重低估风险——关键失败概率随交互长度非线性增长
+- [[long-horizon-evaluation|长视界评估]]对捕捉此类失败模式至关重要
+
+## 相关概念
+
+- [[document-degradation]] — 关键失败是其主要来源
+- [[delegate-52]] — 分析的数据来源
+- [[backtranslation-round-trip-relay]] — 检测方法
--- a/concepts/darwin-godel-machine.md
+++ b/concepts/darwin-godel-machine.md
@@ -1,3 +1,12 @@
+---
+title: Darwin Gödel Machine (达尔文·哥德尔机)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Darwin Gödel Machine (达尔文·哥德尔机)

 > **类型**: 概念  
--- a/concepts/decentralized-agent-architecture.md
+++ b/concepts/decentralized-agent-architecture.md
@@ -0,0 +1,49 @@
+---
+title: 去中心化Agent架构
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [llm, architecture]
+sources: [papers/song-agent-network-taxonomy.md]
+---
+
+# 去中心化Agent架构 (Decentralized Agent Architecture)
+
+> 不存在区分协调者，协调通过 peer 级交互或共享媒体涌现的多 Agent 架构模式。是 [[agent-network-topology]] 的一个分支。
+
+## 形式定义
+
+无区分控制器：
+```
+∄ a_c ∈ V
+E^(t+1) = Φ(E^(t), o^(t))  // 分布式更新
+Π^(t+1) = Γ(Π^(t), o^(t))  // 无中心节点
+```
+
+## 子类别
+
+1. **全局+静态**：共享黑板模式 (LLMBlackBoard, MemorySharing)
+2. **全局+动态**：动态共享市场 (GPTSwarm, AgentSociety, OpenAgents)
+3. **局部+静态**：固定局部交互 (MMAgent, WebArena, TalkHier)
+4. **局部+动态**：涌现式社交 (Generative Agents, AgentNet, SOTOPIA-S)
+
+## 优势与劣势
+
+| 优势 | 劣势 |
+|------|------|
+| 水平扩展能力强 | 协调效率低 |
+| 无单点故障 | 一致性难以保证 |
+| 适合大规模社会模拟 | 上下文漂移风险 |
+| 鲁棒性高 | 通信开销 O(N²) 最坏 |
+
+## 新兴趋势
+
+- **Peer-to-Peer (P2P) 通信层**：rust-libp2p、DHT 发现、gossipsub 发布-订阅
+- **MCP 标准化**：Model Context Protocol 作为去中心化网络的统一基板
+- **图神经网络路由**：G-Designer 使用 GNN 自动设计通信拓扑
+
+## 相关概念
+- [[agent-network-topology]] — 拓扑维度
+- [[centralized-agent-architecture]] — 对偶架构
+- [[agent-communication-stack]] — 通信协议栈
+- [[song-agent-network-taxonomy]] — 父论文
--- a/concepts/deepseek-v4-flash.md
+++ b/concepts/deepseek-v4-flash.md
@@ -0,0 +1,27 @@
+---
+title: "DeepSeek-V4-Flash"
+domain: "Deep Learning / LLM"
+tags: [deepseek, llm, moe, backbone]
+sources: [[thinking-with-visual-primitives]], [[deepseek-v4-million-token-context]]
+---
+
+# DeepSeek-V4-Flash
+
+> 「Thinking with Visual Primitives」的语言骨干模型：284B 总参数 / 13B 激活参数的 MoE 架构。
+
+## 角色
+
+在视觉原语框架中，DeepSeek-V4-Flash 作为 LLM backbone，接收来自 [[deepseek-vit|DeepSeek-ViT]] 的视觉 token 和语言指令，生成交织视觉原语的思维链和最终响应。
+
+## 关键特性
+
+- [[mixture-of-experts|混合专家模型]] (MoE) 架构
+- 内置 [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 机制——这是实现极致 token 效率的关键
+- 支持百万 token 级长上下文
+- 在 pretraining 阶段使用 64K 序列长度 (FP8)，post-training 扩展到 256K
+
+## 相关概念
+
+- [[deepseek-vit|DeepSeek-ViT]] — 视觉编码器
+- [[compressed-sparse-attention|压缩稀疏注意力]] — KV cache 压缩
+- [[mixture-of-experts|混合专家模型]] — 参数效率架构
--- a/concepts/deepseek-vit.md
+++ b/concepts/deepseek-vit.md
@@ -0,0 +1,40 @@
+---
+title: "DeepSeek-ViT"
+domain: "Deep Learning / Vision"
+tags: [vit, vision-transformer, deepseek, visual-encoding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# DeepSeek-ViT
+
+> DeepSeek 自研的视觉 Transformer，支持任意分辨率输入，配合 3×3 空间压缩实现极致 token 效率。
+
+## 架构
+
+- 从头训练的 Vision Transformer
+- 支持**任意分辨率**输入
+- 14×14 patch size → 生成 patch tokens
+- ViT 输出端施加 **3×3 空间 token 压缩**：每 9 个相邻 patch token 沿通道维度压缩为 1 个 token
+
+## Token 压缩管道
+
+以 756×756 图像为例：
+
+```
+原始像素 (571,536) 
+  → Patch Embedding → 2,916 patch tokens
+    → 3×3 空间压缩 → 324 visual tokens (进入 LLM prefilling)
+      → CSA 压缩 → 81 KV entries
+```
+
+**总压缩比：7056×**
+
+## 视觉 token 数量限制
+
+为平衡性能和计算成本，视觉 token 输出限制在 **81 到 384** 之间。超出范围的图像在保留宽高比的前提下缩放。
+
+## 相关概念
+
+- [[compressed-sparse-attention|压缩稀疏注意力]] — ViT 之后的 KV cache 压缩
+- [[visual-primitives|视觉原语]] — ViT 输出的使用方式
+- [[token-efficiency|token-效率]] — 整体效率指标
--- a/concepts/delegate-52.md
+++ b/concepts/delegate-52.md
@@ -0,0 +1,46 @@
+---
+title: "DELEGATE-52"
+created: 2026-05-14
+type: concept
+tags: ["benchmark", "document-editing", "evaluation", "delegated-work", "52-domains"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# DELEGATE-52
+
+DELEGATE-52 是 Microsoft Research 提出的基准测试，用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境，覆盖 52 个专业领域。
+
+## 设计原则
+
+- **真实文档**：所有种子文档来自真实在线来源（非合成数据），范围 3-5k tokens
+- **可逆编辑**：每个编辑任务有正向和反向指令，形成 [[backtranslation-round-trip-relay|回译]]
+- **领域特定评估**：每个领域有自定义的解析器和语义等价评分函数
+- **干扰上下文**：每个环境包含 8-12k tokens 的话题相关但无需编辑的文档
+
+## 五个领域类别
+
+| 类别 | 领域数 | 示例 |
+|------|--------|------|
+| Code & Configuration | 11 | Python, DBSchema, Docker, JSON, Graphviz |
+| Science & Engineering | 11 | Crystal, Molecule, MathLean, Quantum, Robotics |
+| Creative & Media | 11 | Music, LaTeX, Slides, Fiction, Weaving |
+| Structured Records | 11 | Accounting, Genealogy, Spreadsheet, EDIFACT |
+| Everyday | 8 | Recipe, Chess, Job Board, Playlist, Transit |
+
+## 核心指标
+
+[[round-trip-reconstruction-score|RS@k]]：经过 k 次交互后的文档重建分数，衡量与原始文档的 [[semantic-equivalence|语义等价]]程度。RS@20 ≥ 98% 视为该领域"准备就绪"。
+
+## 主要结果
+
+- 19 个 LLM 测试，最终平均退化 50%
+- 前沿模型退化约 25%
+- Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域
+- 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready"
+
+## 相关概念
+
+- [[backtranslation-round-trip-relay]] — 评估方法论
+- [[round-trip-reconstruction-score]] — RS@k 指标
+- [[domain-specific-evaluation]] — 领域特定解析器设计
+- [[laban-llms-corrupt-documents-delegate]] — 论文主页面
--- a/concepts/delegated-work.md
+++ b/concepts/delegated-work.md
@@ -0,0 +1,39 @@
+---
+title: "Delegated Work / 委托工作"
+created: 2026-05-14
+type: concept
+tags: ["interaction-paradigm", "human-AI-collaboration", "trust", "knowledge-work"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Delegated Work
+
+委托工作（Delegated Work）是一种新兴的 LLM 交互范式：知识工作者监督 LLM 代其完成任务（如 "vibe coding"）。用户可能缺乏审查每个改动的专业知识或时间，因此必须**信任** LLM 不会引入未检测到的错误。
+
+## 与对话式交互的区别
+
+| 维度 | 对话式 | 委托式 |
+|------|--------|--------|
+| 审查力度 | 用户逐轮审核 | 用户可能跳过审查 |
+| 信任需求 | 低（即时反馈） | 高（延迟验证） |
+| 错误传播 | 单轮可纠正 | 跨轮次累积 |
+| 典型场景 | 问答、头脑风暴 | 文档编辑、代码重构 |
+
+## 委托可行性的前提
+
+1. LLM 能可靠执行领域任务
+2. LLM 不引入静默错误
+3. 错误不随时间复合增长
+
+[[delegate-52]] 的实验表明，当前模型在绝大多数领域中**不满足**这些前提。
+
+## 领域不对称性
+
+模型在 Python 编程中足够可靠（17/19 达到 "ready"），但在其他 51 个领域中远未准备好。这反映了 [[jagged-frontier|锯齿前沿]]——模型能力在领域间极不均衡。
+
+## 相关概念
+
+- [[delegate-52]] — 测试委托就绪性的基准
+- [[document-degradation]] — 委托中的核心风险
+- [[jagged-frontier]] — 委托能力的领域不对称
+- [[long-horizon-evaluation]] — 委托评估的时间维度
--- a/concepts/depth-scaling-signal-degradation.md
+++ b/concepts/depth-scaling-signal-degradation.md
@@ -34,4 +34,4 @@ $$x_{l+1} = x_l + f_l(x_l)$$

 - [[mixture-of-depths-attention]] — MoDA 机制
 - [[zhu-moda-mixture-of-depths]] — MoDA 论文
- [[transformer-architecture]] — Transformer 基础架构
+- [[multi-head-attention]] — Transformer 基础架构
--- a/concepts/dgae.md
+++ b/concepts/dgae.md
@@ -0,0 +1,48 @@
+---
+title: "Difficulty-Balanced Group Advantage Estimation (DGAE)"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["grpo", "advantage-estimation", "reinforcement-learning"]
+sources: ["arxiv:2601.20614"]
+---
+
+# Difficulty-Balanced Group Advantage Estimation (DGAE)
+
+**DGAE** 是 [[dgpo|DGPO]] 的核心技术之一，通过将 GRPO 优势估计中的 std 分母替换为 MAD（平均绝对偏差），实现**难度平衡**的更新幅度。
+
+## 公式对比
+
+**GRPO (GRAE)**：
+$$\hat{A}_{GR,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{std}(\{r_i\})}$$
+
+**DGAE**：
+$$\hat{A}_{DG,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{MAD}(\{r_i\})}, \quad \text{MAD}(\{r_i\}) = \frac{1}{G}\sum_{j=1}^{G}|r_j - \text{mean}(\{r_i\})|$$
+
+## 关键定理
+
+**Theorem 2**：使用 DGAE 时，单个问题的总更新幅度（无裁剪）恒为：
+
+$$\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G$$
+
+与奖励分布无关——无论准确率 p 是多少，更新幅度恒定。
+
+**对比 Theorem 1**（GRPO）：总更新幅度 $\propto 2G\sqrt{p(1-p)}$，在 p=0.5 时最大。
+
+## 为什么 MAD 优于 std？
+
+- **std** 引入 $\sqrt{p(1-p)}$ 因子 → 更新幅度依赖准确率 → [[update-magnitude-imbalance|难度不平衡]]
+- **MAD = 2p(1-p)** 对于二元奖励 → 恰好消除 $p(1-p)$ 因子 → 难度平衡
+- MAD 的线性性质（vs std 的平方根）使得归一化后的总更新幅度恒定
+
+## 泛化性
+
+Theorem 2 **不要求奖励为二元值**（ri ∈ {0,1}），适用于任意奖励函数。这意味着 DGAE 可以用于更广泛的 RLVR 场景（如带 length penalty 的复合奖励）。
+
+## 相关概念
+
+- [[dqw|DQW]] — 第二步：难度加权
+- [[dgpo|DGPO]] — 算法整体
+- [[update-magnitude-imbalance]] — 被解决的问题
+- [[grpo]] — 基线方法
+- [[dai-mathforge-2026|论文页面]]
--- a/concepts/dgpo.md
+++ b/concepts/dgpo.md
@@ -0,0 +1,55 @@
+---
+title: "Difficulty-Aware Group Policy Optimization (DGPO)"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["grpo", "difficulty-aware", "reinforcement-learning", "policy-optimization"]
+sources: ["arxiv:2601.20614"]
+---
+
+# Difficulty-Aware Group Policy Optimization (DGPO)
+
+**DGPO** 是 [[mathforge|MathForge]] 框架的算法组件，通过两步策略解决 [[grpo|GRPO]] 的 [[update-magnitude-imbalance|难度不平衡问题]]。
+
+## 优化目标
+
+$$J_{DGPO}(\theta) = \mathbb{E} \frac{1}{\sum_{s=1}^{B_v} \sum_{i=1}^{G} |o_{si}|} \sum_{s=1}^{B_v} \lambda_s \sum_{i=1}^{G} \sum_{t=1}^{|o_{si}|} \min(I_{sit}A_{DG,si}, \text{clip}(...))$$
+
+## 两步策略：Balance-then-Reweight
+
+### 第一步：[[dgae|DGAE]]（平衡）
+
+用 **MAD（平均绝对偏差）** 替代 std 作为优势归一化分母：
+
+$$\hat{A}_{DG,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{MAD}(\{r_i\})}$$
+
+**效果**：总更新幅度恒为 G，与准确率 p 无关（Theorem 2）。
+
+### 第二步：[[dqw|DQW]]（加权）
+
+用 softmax 温度加权显式优先更难的问题：
+
+$$\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum \exp(D_s/T)}, \quad D_s = -\text{mean}(\{r_{si}\})$$
+
+**关键**：Balance-then-reweight 提供比直接优势重加权（如 GRPO-AD）更好的可解释性和可控性。
+
+## 与 GRPO 的关键区别
+
+| 组件 | GRPO | DGPO |
+|------|------|------|
+| 优势估计 | std 归一化 | **MAD 归一化** |
+| 难度处理 | 隐式不平衡（p=0.5 峰值） | **显式优先困难问题** |
+| 问题权重 | 均等 | **softmax 难度加权** |
+| Valid query | 全部 | **仅有效问题（非全对/全错）** |
+
+## DGPO 与其他方法的组合
+
+DGPO 可以与 GP6、DAPO、GSPO 等方法组合，详见论文 Appendix G。组合时 DQW 的难度分数 D_s 仅基于 accuracy reward 计算（排除 length penalty 等辅助信号）。
+
+## 相关概念
+
+- [[dgae|DGAE]] — 难度平衡优势估计
+- [[dqw|DQW]] — 难度感知问题级加权
+- [[grpo]] — 基线方法
+- [[mathforge]] — 完整框架
+- [[dai-mathforge-2026|论文页面]]
--- a/concepts/diagonal-ramsey-number.md
+++ b/concepts/diagonal-ramsey-number.md
@@ -0,0 +1,39 @@
+---
+title: "Diagonal Ramsey Number（对角拉姆齐数）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [combinatorics, graph-theory]
+sources: [[ramsey-numbers-survey]]
+---
+
+# Diagonal Ramsey Number（对角拉姆齐数）
+
+## 定义
+
+对角拉姆齐数 R(k) = R(k,k)，即保证任意二色边着色下必存在单色 k-团的最小顶点数。它是 [[ramsey-numbers|拉姆齐数]] 中最核心的研究对象。
+
+## 对称性与困难
+
+对角情形的对称性使其在数学上最为优美，但也最难处理。对称性消除了非对角情形中可利用的结构差异，使得传统的递归估计方法效果有限。
+
+## 关键结果
+
+| k | R(k) | 关键突破 |
+|---|------|----------|
+| 3 | 6 | 鸽巢原理直接证明 |
+| 4 | 18 | Paley 图 P₁₇ 提供下界 |
+| 5 | 43–48 | McKay-Radziszowski 计算机辅助上界 |
+| 6 | 102–165 | 差距近 50% |
+
+## 核心猜想
+
+1. **渐近阶**：R(k) 的真实增长指数 c ∈ [√2, 4]，多数研究者认为更接近下界
+2. **R(5) = 43?**：McKay & Radziszowski 的猜想，尚无决定性证据
+3. **指数改进**：Conlon(2023) 首次将上界底数从 4 略微降低
+
+## 相关概念
+
+- [[ramsey-numbers|拉姆齐数]]
+- [[probabilistic-method|概率方法]]
+- [[paley-graph|Paley 图]]
--- a/concepts/diagonalization-method.md
+++ b/concepts/diagonalization-method.md
@@ -1,3 +1,12 @@
+---
+title: 对角线方法 (Diagonalization Method)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 对角线方法 (Diagonalization Method)

 - **领域**: 数学基础、逻辑学
--- a/concepts/discrete-diffusion-language-models.md
+++ b/concepts/discrete-diffusion-language-models.md
@@ -0,0 +1 @@
+discrete-diffusion-language-models
--- a/concepts/distractor-context.md
+++ b/concepts/distractor-context.md
@@ -0,0 +1,36 @@
+---
+title: "Distractor Context / 干扰上下文"
+created: 2026-05-14
+type: concept
+tags: ["experiment-design", "retrieval", "context-management", "realism"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Distractor Context
+
+干扰上下文（Distractor Context）是 [[delegate-52]] 实验设计中的一个关键要素：每个工作环境包含 8-12k tokens 的**话题相关但不需编辑**的文档，模拟真实场景中检索精度不完美的情况。
+
+## 设计动机
+
+在真实工作环境中，用户提供给 LLM 的文档并非全都与当前任务相关（检索精度不完美）。干扰上下文迫使模型在编辑前判断哪些文档与任务相关。
+
+## 实验发现
+
+| 度量 | 含干扰 | 去干扰 | 差异 |
+|------|--------|--------|------|
+| 第 2 次交互 | 94.3 (GPT 5.4) | 94.7 | +0.4% |
+| 第 20 次交互 | 71.5 (GPT 5.4) | 77.8 | +6.3% |
+
+### 关键洞察
+
+干扰的危害随交互长度**放大**——短交互评估会**严重低估**干扰的长期影响。这个发现与 Shi et al. (2023) 的无关上下文干扰研究一致，并扩展到长视界设置。
+
+## 对检索系统的意义
+
+长期基准能捕捉改进检索（减少干扰）的**持续效果**——这对检索系统的评估有直接意义：仅测量短期精度可能低估检索质量对下游任务的影响。
+
+## 相关概念
+
+- [[delegate-52]] — 使用干扰上下文的基准
+- [[long-horizon-evaluation]] — 揭示干扰放大效应的框架
+- [[document-degradation]] — 干扰加剧的退化
--- a/concepts/document-degradation.md
+++ b/concepts/document-degradation.md
@@ -0,0 +1,39 @@
+---
+title: "Document Degradation / 文档退化"
+created: 2026-05-14
+type: concept
+tags: ["document-corruption", "error-accumulation", "silent-failure", "delegated-work"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Document Degradation
+
+文档退化（Document Degradation）是 [[delegate-52]] 基准揭示的核心现象：当 LLM 在长时间委托工作流中持续编辑文档时，文档内容会**静默地、逐步地**被损坏。
+
+## 退化特征
+
+### 稀疏但严重（Sparse but Severe）
+不是"千刀万剐"式的小错误累积——约 80% 的总退化来自少数几次 [[critical-failures|关键失败]]（单次交互损失 10-30+ 分）。模型在某些回合中保持近乎完美的重建，然后在少数回合中发生灾难性错误。
+
+### 删除 vs 损坏（Deletion vs Corruption）
+- **弱模型**（GPT 5 Nano, GPT 4o）的退化主要来自**内容删除**（结构化元素计数减少）
+- **前沿模型**（Claude 4.6 Opus, Gemini 3.1 Pro）的退化主要来自**内容损坏**（元素存在但内容错误）
+
+### 渐进而非线性
+退化曲线呈单调下降，约 3 次交互后就开始出现明显退化。即使扩展到 100 次交互仍持续退化，无平台迹象。
+
+## 影响因素
+
+| 因素 | 效应 |
+|------|------|
+| 文档大小 | 每增加 1000 tokens，退化加剧约 3.6%（20 次交互后） |
+| 交互长度 | 与文档大小**乘性叠加**（5 倍放大效应） |
+| [[distractor-context\|干扰文档]] | 危害随交互长度放大（短交互低估其影响） |
+| Agentic 工具使用 | 反而加剧退化（+6%），因工具开销 |
+
+## 相关概念
+
+- [[delegate-52]] — 发现此现象的基准
+- [[critical-failures]] — 退化的主要来源
+- [[backtranslation-round-trip-relay]] — 测量方法
+- [[long-horizon-evaluation]] — 为什么短评估不够
--- a/concepts/domain-knowledge-reasoning.md
+++ b/concepts/domain-knowledge-reasoning.md
@@ -0,0 +1,36 @@
+---
+title: 领域知识推理 (Domain Knowledge Reasoning)
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [benchmark, llm]
+sources: [papers/dou-cl-bench.md]
+---
+
+# 领域知识推理 (Domain Knowledge Reasoning)
+
+> CL-bench 的第一类上下文：模型需从上下文中**学习新领域知识并应用**来解决任务。是四种类型中最易的一类，最佳成绩 25.3%。
+
+## 七个子类
+
+| 子类 | 典型场景 | GPT-5.1 成绩 |
+|------|---------|-------------|
+| Finance | 新金融产品分析 | 25.2% |
+| Healthcare | 窄领域医学建议 | 21.7% |
+| Humanities | 虚构历史分析 | 23.7% |
+| Legal Advisory | 虚构法律体系断案 | 22.8% |
+| Lifestyle | 专业咨询建议 | 19.9% |
+| Management | 管理场景决策 | **34.8%** |
+| Science | 科学领域推理 | 25.8% |
+
+## 核心特征
+
+- 上下文提供**新的领域知识体系**（如一个虚构国家的完整法律）
+- 任务本质是**演绎推理**：将给定知识应用于具体案例
+- 相对最容易，因为知识是**显式陈述**的（不像经验发现需要归纳）
+
+## 相关概念
+- [[context-learning]] — 上下文学习能力
+- [[dou-cl-bench]] — CL-bench 论文
+- [[rule-system-application]] — 规则系统应用
+- [[empirical-discovery-simulation]] — 经验发现（最难类别）
--- a/concepts/domain-specific-evaluation.md
+++ b/concepts/domain-specific-evaluation.md
@@ -0,0 +1,41 @@
+---
+title: "Domain-Specific Evaluation / 领域特定评估"
+created: 2026-05-14
+type: concept
+tags: ["evaluation", "parsing", "domain-adaptation", "semantic-equivalence"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Domain-Specific Evaluation
+
+领域特定评估是 [[delegate-52]] 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。
+
+## 通用流水线
+
+```
+原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1]
+```
+
+## 设计原则
+
+### 语义敏感性
+表面变化不影响分数（如 `200g` vs `0.2kg`、材料列表顺序），但语义变化严重影响分数（如 `200g` vs `800g`）。
+
+### 组件化加权
+每个领域的评分由多个组件加权组合，权重通过消融实验校准。例如 Recipe：
+- 材料列表 40%（匈牙利匹配名字）
+- 步骤 40%（序列文本相似度）
+- 提示 20%（二分图匹配）
+
+### 免参考答案
+通过 [[backtranslation-round-trip-relay]] 与种子文档比较，无需人工标注。
+
+## 实现挑战
+
+为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法（Levenshtein 距离、语义嵌入、LLM-as-a-judge）**最多捕获 25% 的方差**，远不足以替代自定义解析器。
+
+## 相关概念
+
+- [[delegate-52]] — 52 个领域特定评估的集合
+- [[semantic-equivalence]] — 评估目标
+- [[backtranslation-round-trip-relay]] — 评估循环
--- a/concepts/dqw.md
+++ b/concepts/dqw.md
@@ -0,0 +1,55 @@
+---
+title: "Difficulty-Aware Question-Level Weighting (DQW)"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["grpo", "difficulty-aware", "importance-weighting"]
+sources: ["arxiv:2601.20614"]
+---
+
+# Difficulty-Aware Question-Level Weighting (DQW)
+
+**DQW** 是 [[dgpo|DGPO]] 的第二步组件，在 [[dgae|DGAE]] 平衡更新幅度的基础上，通过 softmax 温度加权**显式优先学习更难的问题**。
+
+## 公式
+
+$$\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum_{s'=1}^{B_v} \exp(D_{s'}/T)}, \quad D_s = -\text{mean}(\{r_{si}\}_{i=1}^G)$$
+
+其中：
+- $D_s$：问题难度分数 = 负平均正确率（越高越难）
+- $T$：温度参数（控制分布锐度，默认 2.0）
+- $B_v$：batch 中有效问题数量
+
+## 设计原则
+
+### Balance-then-Reweight
+
+DQW 遵循**先平衡再加权**的原则：
+1. [[dgae|DGAE]]：消除 GRPO 固有的更新幅度不平衡
+2. DQW：在平衡基础上显式加权
+
+相比直接对优势进行难度重加权（如 GRPO-AD），这种两步法具有更好的**可解释性**和**可控性**。
+
+### 仅对有效问题加权
+
+只有**有效问题**（非全对/全错）才参与 DQW 加权：
+- 全对问题：$D_s = -1$，梯度为零（已完全掌握）
+- 全错问题：$D_s = 0$，无正样本可供学习
+
+### DQW 与组合方法
+
+DGPO 与 DAPO 组合时，DQW 的难度分数 $D_s$ **仅基于 accuracy reward** 计算，排除 length penalty 等辅助奖励。这确保问题加权反映的是**逻辑难度**而非回答长度偏好。
+
+## 与相关方法的对比
+
+| 方法 | 机制 | 复杂度 |
+|------|------|--------|
+| **DQW** | Softmax 温度加权 | 低（1 个超参数 T） |
+| GRPO-AD | 优势重加权 | 高（多超参数） |
+
+## 相关概念
+
+- [[dgae|DGAE]] — 第一步：难度平衡
+- [[dgpo|DGPO]] — 算法整体
+- [[mathforge]] — 完整框架
+- [[dai-mathforge-2026|论文页面]]
--- a/concepts/duo-attention.md
+++ b/concepts/duo-attention.md
@@ -1,3 +1,12 @@
+---
+title: DuoAttention
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # DuoAttention

 **双模式注意力**，区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。
--- a/concepts/dynamic-mode-decomposition.md
+++ b/concepts/dynamic-mode-decomposition.md
@@ -0,0 +1,32 @@
+---
+title: "Dynamic Mode Decomposition (DMD)"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [dynamical-systems, numerical-methods, linear-algebra]
+sources: [[liu-koopa-2023]]
+---
+
+# Dynamic Mode Decomposition (DMD)
+
+## 定义
+
+动态模式分解 (DMD) 是 [[koopman-theory|Koopman 理论]] 的标准数值方法，通过收集观测到的系统状态（快照）来寻找最佳拟合的有限维矩阵 K 以近似无限维 Koopman 算子。
+
+## 与 Koopman 理论的关系
+
+- Koopman 理论提供**理论保证**：存在无限维线性算子
+- DMD 提供**数值方法**：用有限维矩阵逼近该算子
+- 局限：DMD 仅在线性空间假设下工作，需要先验知识选择测量函数
+
+## 深度学习扩展
+
+[[koopman-autoencoder|Koopman 自编码器 (KAE)]] 用自编码器学习测量函数 g，避免了手工设计：
+- **编码器**：x_t → g(x_t)（Koopman 嵌入）
+- **线性层**：g(x_t) → K·g(x_t) = g(x_{t+1})
+- **解码器**：g(x_{t+1}) → x_{t+1}
+
+## 相关概念
+
+- [[koopman-theory|Koopman 理论]]
+- [[koopman-autoencoder|Koopman 自编码器]]
--- a/concepts/embedded-language-flows.md
+++ b/concepts/embedded-language-flows.md
@@ -0,0 +1,50 @@
+---
+title: "Embedded Language Flows (ELF)"
+created: 2026-05-13
+updated: 2026-05-13
+type: concept
+tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
+sources:
+  - https://arxiv.org/abs/2605.10938
+---
+
+# Embedded Language Flows (ELF)
+
+ELF 是一类基于 [[flow-matching|Flow Matching]] 的[[continuous-diffusion-language-models|连续扩散语言模型]]，核心思想是**在连续嵌入空间中完成几乎所有去噪过程，仅在最后一步将嵌入映射回离散 token**。
+
+## 核心设计
+
+### 两阶段操作
+
+| 阶段 | 时间步 | 模式 | 损失 | 输出 |
+|------|--------|------|------|------|
+| 去噪 | t ∈ [0,1) | denoise | MSE (v_pred vs v) | 干净嵌入 x̂ |
+| 解码 | t = 1 | decode | Cross-Entropy | 离散 token |
+
+两种模式通过二进制 mode token 切换，但**共享同一网络权重**——这是 ELF 区别于其他连续 DLM 的关键。详细机制见 [[shared-weight-discretization]]。
+
+### 与其他方法的对比
+
+- **vs 离散 DLM**（MDLM, Duo）：ELF 在连续空间操作，可自然使用 CFG 等连续域成熟技术
+- **vs 其他连续 DLM**（Diffusion-LM, CDCD）：ELF 不在中间步骤施加 token 级 CE 监督，保持去噪轨迹的连续性
+- **vs 潜在扩散方法**（LD4LG）：ELF 无需单独 decoder，利用 Flow Matching 的最后一步自然完成解码
+
+## 为什么连续空间有帮助
+
+1. **Flow Matching 稳定性**：在高维嵌入空间（768-d per token）中，x-prediction 配合 [[rectified-flows]] 比 v-prediction 更稳定
+2. **CFG 自然兼容**：CFG 原本为连续量设计（score/velocity），在连续空间中可直接应用；离散空间中的 CFG 效果存疑
+3. **成熟技术的迁移**：训练时 CFG、蒸馏、高效采样器可直接从图像域迁移
+
+## 关键结果
+
+- 105M ELF 超越 170M 离散/连续基线（MDLM, Duo, FLM, LangFlow）
+- 32 步采样即可达到基线 1024 步的质量
+- 10× 更少的训练 token
+
+## 相关页面
+
+- 论文：[[elf-embedded-language-flows]]
+- 框架：[[flow-matching]] · [[continuous-diffusion-language-models]]
+- 关键技术：[[shared-weight-discretization]] · [[x-prediction-parameterization]]
+- 增强技术：[[classifier-free-guidance-language]] · [[self-conditioning]] · [[sde-sampler-language]]
+- 基础：[[rectified-flows]]
--- a/concepts/empirical-discovery-simulation.md
+++ b/concepts/empirical-discovery-simulation.md
@@ -0,0 +1,49 @@
+---
+title: 经验发现与模拟 (Empirical Discovery & Simulation)
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [benchmark, llm]
+sources: [papers/dou-cl-bench.md]
+---
+
+# 经验发现与模拟 (Empirical Discovery & Simulation)
+
+> CL-bench 第四类上下文——**最难类别**（最佳仅 18.1%）。与前三个类别的根本区别在于需要**归纳推理**：从数据中发现模式，而非从给定规则推导。
+
+## 三个子类
+
+| 子类 | 核心操作 |
+|------|---------|
+| Experimental Data | 从实验数据中发现物理规律 |
+| Observational Data | 从观测记录中提取模式 |
+| Simulation Environment | 在虚拟沙盒环境中推理分析 |
+
+## 为什么最难？
+
+### 演绎 vs 归纳
+- 前三个类别：给定规则 → 应用规则（**演绎**）
+- 经验发现：给定数据 → 发现规则 → 应用规则（**归纳 + 演绎**）
+
+归纳是人类智能的核心优势之一，也是当前 LLM 的最薄弱环节。
+
+### 信息密度低
+- 规则系统应用中信息是显式的、符号化的
+- 经验数据中模式是**隐式的**、需要从噪声中分离
+
+### 需要科学思维
+- 假设形成 → 数据验证 → 规律抽象
+- 这是完整的科学发现循环，远超出简单的信息检索
+
+## 成绩数据
+
+- 十模型平均：~11%
+- GPT-5.1：18.1%（最佳）
+- GPT-5.2：22.6%（在该类别上领先）
+- DeepSeek V3.2：8.0%（最低）
+
+## 相关概念
+- [[context-learning]] — 上下文学习
+- [[dou-cl-bench]] — CL-bench 论文
+- [[domain-knowledge-reasoning]] — 领域知识（演绎式）
+- [[spurious-predictability]] — 数据中的虚假模式（金融 ML）
--- a/concepts/ensemble-based-rewards.md
+++ b/concepts/ensemble-based-rewards.md
@@ -0,0 +1,42 @@
+---
+title: 集成奖励 (Ensemble-Based Rewards)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 集成奖励 (Ensemble-Based Rewards)
+
+**URLVR 的内在奖励范式之一**，从多次采样的一致性（多数投票）推导奖励，假设一致性 = 正确性。
+
+## 代表方法
+
+| 方法 | 奖励构造 | 核心思想 |
+|------|---------|---------|
+| TTRL | 多数投票匹配 | 与多数答案一致 → +1 |
+| SRT | 自奖励训练 | 多数答案作为伪标签 |
+| SeRL | 自进化 RL | 多样本交叉验证 |
+| R-Zero | 零监督推理 | 集成一致性驱动 |
+| Co-Reward | 协同奖励 | 多模型交叉验证 |
+| EMPO | 聚类奖励 | 聚类中心作为伪答案 |
+
+## 理论局限
+
+虽然集成奖励比 [[certainty-based-rewards|确定性奖励]] 多了"多样本交叉验证"的维度，但 [[intrinsic-rewards-sharpening|Sharpening 理论]] 证明它同样收敛于锐化初始分布：多数投票的统计特性依赖模型初始偏好的分布，而锐化机制恰好放大了这些偏好。
+
+## 对比 Certainty-Based
+
+| 集成奖励 | [[certainty-based-rewards|确定性奖励]] |
+|---------|------|
+| 多次采样（计算昂贵） | 单次前向（计算便宜）|
+| 样本间一致性驱动 | 样本内置信度驱动 |
+| 采样多样性 → 更好信号 | 速度快但可能更偏置 |
+
+## 相关概念
+
+- [[certainty-based-rewards]] — 另一内在范式
+- [[intrinsic-rewards-sharpening]] — 统一理论
+- [[unsupervised-rlvr]] — URLVR 全景
+- [[he-urlvr-sharpening-2026]] — 综述参考
--- a/concepts/evolutionary-algorithms.md
+++ b/concepts/evolutionary-algorithms.md
@@ -1,3 +1,12 @@
+---
+title: Evolutionary Algorithms (进化算法)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Evolutionary Algorithms (进化算法)

 > **类型**: 概念  
--- a/concepts/exponential-decay-reward.md
+++ b/concepts/exponential-decay-reward.md
@@ -0,0 +1,47 @@
+---
+title: "指数衰减奖励 (Exponential Decay Reward)"
+domain: "Reinforcement Learning / Reward Design"
+tags: [reward, counting, grpo, exponential-decay]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 指数衰减奖励 (Exponential Decay Reward)
+
+> 计数任务的平滑奖励函数：不使用二元对错，而是基于相对误差的指数衰减——越接近正确答案奖励越高。
+
+## 公式
+
+$$R(\hat{y}, y) = \alpha \cdot \exp\left(-\beta \cdot \frac{|\hat{y} - y|}{|y| + 1}\right)$$
+
+其中：
+- $\hat{y}$：预测计数
+- $y$：真实计数
+- $|y| + 1$：归一化项，使奖励依赖于**相对误差**
+- $\alpha = 0.7$：奖励缩放系数
+- $\beta = 3$：衰减速率
+
+## 设计动机
+
+传统二元奖励（对/错）的问题：
+- 预测 99 vs 真实 100 → 零奖励（与预测 1 vs 100 相同）
+- 无法提供梯度信号帮助模型「靠近」正确答案
+
+指数衰减奖励的优势：
+- **平滑梯度**：预测 99 时仍有高奖励
+- **相对误差**：大基数场景对小偏差更宽容
+- **稳定训练**：避免 RL 奖励空间的稀疏问题
+
+## 示例
+
+| 预测 | 真实 | 相对误差 | 奖励 |
+|------|------|----------|------|
+| 10 | 10 | 0 | 0.7 |
+| 9 | 10 | 0.091 | 0.53 |
+| 5 | 10 | 0.455 | 0.18 |
+| 0 | 10 | 0.909 | 0.046 |
+
+## 相关概念
+
+- [[group-relative-policy-optimization|群体相对策略优化]] — 使用此奖励的 RL 算法
+- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 应用场景
+- [[reward-model|奖励模型]] — 奖励设计体系
--- a/concepts/few-shot-learning.md
+++ b/concepts/few-shot-learning.md
@@ -1,3 +1,12 @@
+---
+title: Few-Shot Learning (少样本学习)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Few-Shot Learning (少样本学习)

 > **类型**: 概念  
--- a/concepts/fine-grained-counting.md
+++ b/concepts/fine-grained-counting.md
@@ -0,0 +1,43 @@
+---
+title: "细粒度计数 (Fine-grained Counting)"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [counting, visual-primitives, fine-grained, grounding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 细粒度计数 (Fine-grained Counting)
+
+> 属性/空间约束下的目标计数——如「白色的狗有多少只」或「左边那只狗的旁边有多少个球」——需要结合视觉原语的顺序扫描和逐项验证。
+
+## 与粗粒度计数的区别
+
+| 维度 | [[coarse-grained-counting|粗粒度计数]] | 细粒度计数 |
+|------|---------------|-----------|
+| 查询类型 | 类别级 | 属性/空间约束 |
+| 锚定方式 | 批量锚定 | **顺序扫描 + 逐项验证** |
+| 认知负荷 | 较低 | 高（需要区分性判断） |
+
+## 数据构造
+
+由于公开数据集稀缺，采用专门的数据构建管道：
+
+1. **问题生成**：使用 GQA 场景图 + MLLM 生成细粒度计数问题
+2. **思维内容合成**：顺序扫描场景中每个候选对象，对照细粒度约束验证
+3. **负样本构造**：ground-truth 计数为 0 的样本（增强抗幻觉鲁棒性）
+
+## 推理模式
+
+```
+1. 意图分析：识别目标类别 + 属性约束
+2. 顺序扫描：
+   <|box|>[[x1,y1,x2,y2]]<|/box|> → 符合约束？是/否
+   <|box|>[[x3,y3,x4,y4]]<|/box|> → 符合约束？是/否
+   ...
+3. 统计汇总：总计数
+```
+
+## 相关概念
+
+- [[coarse-grained-counting|粗粒度计数]] — 互补任务
+- [[visual-primitives|视觉原语]] — 核心机制
+- [[perception-gap|感知鸿沟]] — 细粒度场景更容易触发
--- a/concepts/flash-attention-3.md
+++ b/concepts/flash-attention-3.md
@@ -1,3 +1,12 @@
+---
+title: FlashAttention-3
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # FlashAttention-3

 **FlashAttention 的最新版本** (2024)，引入异步计算和低精度支持。
--- a/concepts/flash-attention.md
+++ b/concepts/flash-attention.md
@@ -1,3 +1,12 @@
+---
+title: FlashAttention
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # FlashAttention

 **IO感知的精确注意力优化**，由 Dao 等 2022 年提出，是注意力计算效率的最大单次突破。
--- a/concepts/flow-matching.md
+++ b/concepts/flow-matching.md
@@ -0,0 +1,63 @@
+---
+title: "Flow Matching"
+created: 2026-05-13
+updated: 2026-05-13
+type: concept
+tags: [generative-modeling, diffusion, continuous-time, ODE]
+sources:
+  - https://arxiv.org/abs/2210.02747
+---
+
+# Flow Matching
+
+Flow Matching 是一种连续时间生成建模框架，通过学习速度场（velocity field）来定义从噪声到数据的连续变换路径。
+
+## 核心公式
+
+给定数据分布 p_data(x) 和噪声分布 p_noise(ε)（通常 ε ~ N(0,I)），定义**线性插值路径**（[[rectified-flows]]）：
+
+```
+z_t = t·x + (1-t)·ε,  t ∈ [0,1]
+```
+
+速度场定义为 z_t 对时间的导数：
+
+```
+v = dz/dt = x - ε
+```
+
+训练目标是最小化预测速度与真实速度的 MSE：
+
+```
+L_MSE = E_{t,x,ε} ||v_θ(z_t, t) - v||²
+```
+
+## x-prediction vs v-prediction
+
+由于 v = (x - z_t)/(1-t)，网络可以直接预测 x（[[x-prediction-parameterization]]）而非 v：
+
+```
+x_θ = net_θ(z_t, t)
+v_θ = (x_θ - z_t) / (1-t)
+```
+
+x-prediction 在 [[embedded-language-flows|ELF]] 中至关重要：它与解码任务（预测干净离散 token）的语义一致，使得共享权重设计可行。
+
+## 推理
+
+通过求解 ODE `dz_t/dt = v_θ(z_t, t)` 从 z_0 ~ N(0,I) 逐步推进到 z_1 ≈ x。可使用欧拉求解器或更高级的数值方法。
+
+## 与其他框架的关系
+
+- **DDPM**：离散时间步，高斯前向过程 + 去噪后向过程
+- **Score-based models**：通过 score function ∇log p_t(z) 参数化；Flow Matching 可统一在此框架下
+- **Rectified Flows**：Flow Matching 的特例，使用直线插值路径
+
+## 在语言建模中的应用
+
+[[embedded-language-flows|ELF]] 将 Flow Matching 应用于语言生成：离散 token → T5 编码 → 连续嵌入空间 → Flow Matching 去噪 → 最后一步解码回 token。
+
+## 参考
+
+- Lipman et al., "Flow Matching for Generative Modeling", ICLR 2023
+- Albergo & Vanden-Eijnden, "Stochastic Interpolants", JMLR 2025
--- a/concepts/formal-security-model.md
+++ b/concepts/formal-security-model.md
@@ -1,3 +1,12 @@
+---
+title: 形式化安全模型
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 形式化安全模型

 **类型**: 方法论，安全工程  
@@ -120,11 +129,11 @@

 ## 相关概念

- [[ClawLess]] - 应用形式化安全模型的框架
- [[AI代理安全]] - 形式化安全模型的应用领域
- [[用户空间内核]] - 形式化策略的执行环境
- [[BPF系统调用拦截]] - 形式化策略的运行时执行机制
- [[安全容器]] - 形式化安全模型的部署环境
+- [[clawless]] - 应用形式化安全模型的框架
+- [[ai-agent-security]] - 形式化安全模型的应用领域
+- [[userspace-kernel]] - 形式化策略的执行环境
+- [[bpf-syscall-interception]] - 形式化策略的运行时执行机制
+- [[secure-containers]] - 形式化安全模型的部署环境

 ## 发展趋势

--- a/concepts/formal-systems.md
+++ b/concepts/formal-systems.md
@@ -1,3 +1,12 @@
+---
+title: 形式系统 (Formal System)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 形式系统 (Formal System)

 - **领域**: 数理逻辑
--- a/concepts/formal-verification.md
+++ b/concepts/formal-verification.md
@@ -22,7 +22,7 @@ sources: [raw/papers/tao-ai-mathematical-methods-2026.md]

 ## 形式化验证的局限

-[[Terence Tao]] 在其论文中指出了形式化验证的两个关键局限：
+[[terence-tao]] 在其论文中指出了形式化验证的两个关键局限：

 ### 1. 翻译问题
 Formal verification only certifies that a formalized argument establishes a formal mathematical statement, but does not rule out errors in translation between the formal statement and the original intended statement.
@@ -41,14 +41,14 @@ Formal verification only certifies that a formalized argument establishes a form

 ## AI 时代的意义

-[[Terence Tao]] 认为：
+[[terence-tao]] 认为：
 - AI 可以自动化形式化证明的生成
 - 但这可能产生 "odorless proofs"（无味证明）：技术上正确，但缺乏启发性
 - 人类数学家需要专注于那些不容易自动验证的方面

 ## 关联页面

- [[Mathematical methods and human thought in the age of AI]] - 详细讨论
- [[Terence Tao]] - 该概念的主要阐述者
- [[lean-mathlib]] - 论文提及的大型形式化数学库
- [[smell-test]] - "气味测试"概念
+- [[tao-klowden-ai-mathematical-methods]] - 详细讨论
+- [[terence-tao]] - 该概念的主要阐述者
+- [[automated-theorem-proving]] - 论文提及的大型形式化数学库
+- [[spurious-predictability]] - "气味测试"概念
--- a/concepts/forward-authentication.md
+++ b/concepts/forward-authentication.md
@@ -0,0 +1,60 @@
+---
+title: 外部认证委托 (Forward Authentication)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 外部认证委托 (Forward Authentication)
+
+**将认证决策委托给外部服务的架构模式**，反向代理作为认证网关，实际鉴权逻辑由独立服务处理。
+
+## 工作原理
+
+```
+Client → Caddy (forward_auth) → Auth Service (返回 200/401)
+                │                       │
+                │   200 OK: 放行       │
+                │   401/403: 拒绝      │
+                ▼                       │
+           Backend Service ←────────────┘
+```
+
+[[caddy-web-server|Caddy]] 的 `forward_auth` 指令将请求的特定头（如 `Authorization`、`X-API-Key`）转发给外部认证服务，根据返回状态码决定是否放行。
+
+## Caddy 配置示例
+
+```caddy
+api.example.com {
+    forward_auth localhost:9000 {
+        uri /auth
+        copy_headers Authorization X-API-Key
+    }
+    reverse_proxy localhost:8080
+}
+```
+
+## 适用场景
+
+- 认证逻辑涉及数据库查询、多因素验证
+- 需要对接已有的用户认证系统（LDAP、OAuth）
+- 认证策略频繁变更，不希望修改网关配置
+- 多网关共享同一认证服务
+
+## 与 API Key 认证的区别
+
+| 特性 | [[api-key-authentication|API Key]] | Forward Auth |
+|------|---------|-------------|
+| 复杂度 | 极低 | 中等 |
+| 依赖 | 无外部服务 | 需认证服务 |
+| 灵活性 | 固定 Key 比对 | 任意复杂逻辑 |
+| 延迟 | 亚毫秒 | 取决于外部服务 |
+
+## 相关概念
+
+- [[api-key-authentication]] — 简单 Key 认证（对比方案）
+- [[reverse-proxy-authentication]] — 反向代理认证全景
+- [[caddy-web-server]] — Caddy 实现
+- [[caddy-reverse-proxy-auth]] — 完整配置指南
--- a/concepts/fourier-filter-dynamics.md
+++ b/concepts/fourier-filter-dynamics.md
@@ -0,0 +1,33 @@
+---
+title: "Fourier Filter for Dynamics（Fourier Filter 动力学分解）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [signal-processing, time-series, dynamics-decomposition]
+sources: [[liu-koopa-2023]]
+---
+
+# Fourier Filter for Dynamics（Fourier Filter 动力学分解）
+
+## 定义
+
+Fourier Filter 是 Koopa 模型中用于解耦[[non-stationary-time-series|非平稳时间序列]]中时变与时不变分量的模块。通过在频域进行选择性滤波，将序列分解为两个动力学特性不同的子信号。
+
+## 分解策略
+
+| 分量 | 频域特性 | 动力学特性 | 处理方式 |
+|------|----------|------------|----------|
+| **时不变** | 低频 | 全局稳定、可长期预测 | 全局 Koopman 算子 |
+| **时变** | 高频 | 局部变化、强非平稳 | 上下文感知 Koopman 算子 |
+
+## 工程意义
+
+- 显式分离使[[koopman-predictor|Koopman 预测器]]可以**分别建模**两种动力学
+- 低频分量对应趋势/季节性，高频分量对应局部波动/突发事件
+- 频域操作用 FFT 实现，计算极高效
+
+## 相关概念
+
+- [[non-stationary-time-series|非平稳时间序列]]
+- [[time-variant-dynamics|时变动力学]]
+- [[koopman-predictor|Koopman 预测器]]
--- a/concepts/furstenberg-correspondence.md
+++ b/concepts/furstenberg-correspondence.md
@@ -0,0 +1,25 @@
+---
+title: "Furstenberg Correspondence Principle"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [ergodic-theory, dynamical-systems, combinatorics, placeholder]
+sources: [[ramsey-numbers-survey]]
+---
+
+# Furstenberg Correspondence Principle
+
+## 定义
+
+Furstenberg 对应原理（Hillel Furstenberg, 1977）将组合问题转化为动力系统中的多重递推问题：整数集被替换为概率保测系统，等差数列对应于系统的同步回归性质。
+
+> 此页面为占位符。
+
+## 历史意义
+
+该原理给出了 Szemerédi 定理的全新遍历论证明，开辟了组合数论与遍历理论之间的全新联系（"遍历 Ramsey 理论"）。
+
+## 相关概念
+
+- [[additive-combinatorics|加法组合学]]
+- [[ramsey-theory|拉姆齐理论]]
--- a/concepts/generation-verification-asymmetry.md
+++ b/concepts/generation-verification-asymmetry.md
@@ -0,0 +1,42 @@
+---
+title: 生成-验证不对称性 (Generation-Verification Asymmetry)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 生成-验证不对称性 (Generation-Verification Asymmetry)
+
+**生成任务困难但验证结果容易的计算不对称性**，是 [[self-verification-rewards|自我验证奖励]] 和可扩展 URLVR 的理论基础。
+
+## 核心洞见
+
+许多结构化任务中存在天然的不对称性：
+
+| 任务 | 生成难度 | 验证难度 |
+|------|---------|---------|
+| 数学推理 | 需要多步推导 | 计算最终表达式即可 |
+| 代码生成 | 需要逻辑设计 | 运行测试用例即可 |
+| 约束满足 | 需要回溯搜索 | 检查约束即可 |
+
+## 对 URLVR 的关键意义
+
+这一不对称性在标准 RLVR 中已是关键（代码执行验证、数学答案比对），但在 URLVR 中更加重要：
+- **内在奖励**: 模型从自身推导信号 → 受模型先验限制
+- **外部奖励 + GVA**: 模型生成 + 模型验证，但验证步骤利用的是"计算"而非"置信度" → 可能突破天花板
+
+## He et al. 的实验洞见
+
+在 Countdown 任务中，self-verification 利用 GVA 展示了持续改进而无崩溃的证据。生成-验证之间的差距越大，外部奖励信号的可靠性越高。
+
+## 推广
+
+GVA 不限于数学/代码 —— 任何"生成成本高于验证成本"的领域（逻辑推理、规划、排序）都可能利用这一不对称性构建可扩展的无监督奖励。
+
+## 相关概念
+
+- [[self-verification-rewards]] — 利用 GVA 的具体方法
+- [[unsupervised-rlvr]] — URLVR 全景
+- [[he-urlvr-sharpening-2026]] — 综述参考
--- a/concepts/generative-perplexity.md
+++ b/concepts/generative-perplexity.md
@@ -0,0 +1 @@
+generative-perplexity
--- a/concepts/genetic-programming.md
+++ b/concepts/genetic-programming.md
@@ -1,3 +1,12 @@
+---
+title: Genetic Programming (遗传编程)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Genetic Programming (遗传编程)

 > **类型**: 概念  
--- a/concepts/geometric-ramsey-theory.md
+++ b/concepts/geometric-ramsey-theory.md
@@ -0,0 +1,36 @@
+---
+title: "Geometric Ramsey Theory（几何拉姆齐理论）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [geometry, combinatorics, discrete-geometry]
+sources: [[ramsey-numbers-survey]]
+---
+
+# Geometric Ramsey Theory（几何拉姆齐理论）
+
+## 定义
+
+几何拉姆齐理论研究欧几里得空间中点集的着色与必然出现的几何子结构。经典的"幸福结局问题"（Happy Ending Problem）是该领域的起点。
+
+## 幸福结局问题（Erdős-Szekeres 1935）
+
+对任意整数 m ≥ 3，存在最小的 N(m)，使得平面上任意 N 个一般位置的点中必有 m 个点构成凸 m 边形。
+
+**上界**：N(m) ≤ C(2m-5, m-2) + 1
+
+## 相关定理
+
+- **van der Waerden 定理**：任意整数着色下存在任意长单色等差数列
+- **Szemerédi 定理**（密度版本）：正上密度集包含任意长等差数列
+- **Green-Tao 定理**：素数集包含任意长等差数列
+
+## 方法特色
+
+几何 Ramsey 问题通常通过组合论证与几何约束的结合来解决，与经典图 Ramsey 的方法既有重叠又有本质差异。
+
+## 相关概念
+
+- [[ramsey-theory|拉姆齐理论]]
+- [[van-der-waerden-theorem|van der Waerden 定理]]
+- [[green-tao-theorem|Green-Tao 定理]]
--- a/concepts/gflownet-fine-tuning.md
+++ b/concepts/gflownet-fine-tuning.md
@@ -0,0 +1,54 @@
+---
+title: "GFlowNet 微调"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["gflownet", "reinforcement-learning", "llm-fine-tuning"]
+sources: ["arxiv:2311.09278", "arxiv:2503.18929", "arxiv:2402.15211"]
+---
+
+# GFlowNet 微调
+
+**GFlowNet 微调** 是使用 Generative Flow Networks (GFlowNets) 的目标函数对 LLM 进行后训练的方法，核心优势是 **off-policy 兼容** 和 **多样性采样**。
+
+## GFlowNets 基础
+
+GFlowNets 训练层次化生成模型，使其从给定未归一化密度（奖励函数）按比例采样：$\pi_\theta(x) \propto R(x)$。
+
+关键区别：GFlowNets 学习的是**分布匹配**而非奖励最大化——自然产生多样化输出。
+
+### 三种主要目标
+
+| 目标 | 公式 | 特点 |
+|------|------|------|
+| Flow Matching (FM) | $\sum_{s' \to s} F(s') = \sum_{s \to s''} F(s)$ | 最基础 |
+| Detailed Balance (DB) | $F(s)P_F(s'|s) = F(s')P_B(s|s')$ | 前后向一致 |
+| **Trajectory Balance (TB)** | $(\log \frac{Z\prod P_F}{R})^2$ | **用于 LLM 微调** |
+
+## LLM 应用
+
+### Hu et al. (ICLR 2024) — GFlowNet Fine-Tuning
+
+首次将 GFlowNets 用于 LLM 微调，利用 off-policy 性质进行 KL 正则化 RL 推理。
+
+### Lee et al. (ICLR 2025) — Red-Teaming
+
+使用 TB + MLE smoothing 生成多样化、可迁移的对抗攻击提示。
+
+### Bartoldson et al. (NeurIPS 2025) — TBA
+
+将 TB 目标扩展到分布式异步 RL，实现 4×–50× 加速。参见 [[tba|TBA]] 和 [[trajectory-balance-objective|TB 目标]]。
+
+## 为什么 GFlowNets 适合 LLM？
+
+1. **Off-Policy**：不需要当前策略数据 → 支持 replay buffer / 异步训练
+2. **多样性**：学习分布而非最大值 → 避免 mode collapse
+3. **无 Critic**：不需要价值网络 → 绕开 LLM 中价值估计的困难
+4. **与 REINFORCE 等价**：TB\_VarGrad 梯度 = mean-baseline REINFORCE + KL reward
+
+## 相关概念
+
+- [[trajectory-balance-objective]] — TB 目标详解
+- [[tba|TBA]] — 异步分布式实现
+- [[off-policy-llm-post-training]] — Off-policy 范式
+- [[bartoldson-tba-2025|论文页面]]
--- a/concepts/glitch-art-style.md
+++ b/concepts/glitch-art-style.md
@@ -0,0 +1,28 @@
+---
+title: 故障艺术 (Glitch Art)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 故障艺术 (Glitch Art)
+
+**以数字错误和数据损坏为美学手段的艺术风格**，赛博朋克亚文化的核心视觉语言。
+
+## 核心技法
+
+- **像素排序 (Pixel Sorting)**: 按亮度/色彩重排像素行
+- **RGB 色彩偏移 (Chromatic Aberration)**: 红绿蓝通道分离错位
+- **数字噪点**: 横向拉伸的噪点带、扫描线
+- **窗口重叠**: 错位的矩形切片叠加
+
+## 文化语境
+
+故障艺术将"技术失败"转化为"美学表达"，反映了数字时代的脆弱性与不可控性。在 [[gpt-image2]] 中可通过精确描述数据损坏效果来生成。
+
+## 相关概念
+
+- [[cel-shading-style]] — 与之对立的整洁动漫风格
+- [[gpt-image2-prompt-collection]] — 风格合集
--- a/concepts/godel-incompleteness-theorems.md
+++ b/concepts/godel-incompleteness-theorems.md
@@ -1,3 +1,12 @@
+---
+title: 哥德尔不完备定理 (Gödel's Incompleteness Theorems)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 哥德尔不完备定理 (Gödel's Incompleteness Theorems)

 - **领域**: 数理逻辑、数学基础
--- a/concepts/godel-numbering.md
+++ b/concepts/godel-numbering.md
@@ -1,3 +1,12 @@
+---
+title: 哥德尔编码 (Gödel Numbering)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 哥德尔编码 (Gödel Numbering)

 - **领域**: 数理逻辑
--- a/concepts/goodsteins-theorem.md
+++ b/concepts/goodsteins-theorem.md
@@ -1,3 +1,12 @@
+---
+title: 古德斯坦定理 (Goodstein's Theorem)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # 古德斯坦定理 (Goodstein's Theorem)

 - **领域**: 数论、证明论
--- a/concepts/gpt-image2.md
+++ b/concepts/gpt-image2.md
@@ -0,0 +1,30 @@
+---
+title: GPT-Image-2
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# GPT-Image-2
+
+**OpenAI 的图像生成模型**，基于 GPT 架构的多模态图像生成工具。
+
+## 核心特性
+
+- **自然语言驱动**: 通过文本 Prompt 直接生成图像，无需额外参数调校
+- **风格理解**: 能理解和复现多种艺术风格（构成主义、故障艺术、赛璐璐等）
+- **上下文连贯**: 作为 GPT 系列模型，擅长理解复杂的多句 Prompt 描述
+
+## 使用场景
+
+- 概念艺术快速原型
+- 风格化海报/插图生成
+- Prompt 工程实验平台
+
+## 相关概念
+
+- [[image-generation-prompt-design]] — Prompt 设计方法论
+- [[prompt-reverse-engineering]] — 从图像反推 Prompt
+- [[gpt-image2-prompt-collection]] — 风格 Prompt 合集
--- a/concepts/greedy-context-screening.md
+++ b/concepts/greedy-context-screening.md
@@ -0,0 +1,38 @@
+---
+title: "Greedy Context Screening（贪心上下文筛选）"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [algorithm, context-design, screening]
+sources: [[ramsey-context-construction]]
+---
+
+# Greedy Context Screening（贪心上下文筛选）
+
+## 定义
+
+贪心上下文筛选是基于 [[ramsey-context-graph|拉姆齐上下文图]] 的快速上下文组装算法。利用蓝色边的**稠密性保证**（由拉姆齐维护策略提供），用 O(可接受) 的贪心搜索替代 NP-hard 的最大团搜索。
+
+## 三步流程
+
+### 1. 相关性投射
+对用户 prompt 解析后，每个节点计算相关度分数 s_i ∈ [0,1]（向量检索 + 规则打分）。
+
+### 2. 高相关子图
+仅保留相关度高于阈值的节点，形成**诱导子图**。由于原始图蓝色边稠密，子图中大概率仍含蓝色团。
+
+### 3. 贪心团扩展
+- **种子**：相关度最高的节点
+- **扩展**：依次加入与当前团全蓝边的节点，按"边际收益/成本"排序
+- **终止**：达到目标 t 值或 token 预算耗尽
+- **反遗忘约束**：低频长节点受惩罚
+
+## 性能
+
+蓝色边稠密条件下，贪心解与最优解的差距通常在 **5% 以内**，耗时毫秒级。
+
+## 相关概念
+
+- [[context-blue-clique|上下文蓝色团]]
+- [[ramsey-context-graph|拉姆齐上下文图]]
+- [[ramsey-context-template|拉姆齐上下文模板]]
--- a/concepts/green-tao-theorem.md
+++ b/concepts/green-tao-theorem.md
@@ -0,0 +1,32 @@
+---
+title: "Green-Tao Theorem"
+created: 2026-05-11
+updated: 2026-05-11
+type: concept
+tags: [number-theory, additive-combinatorics, prime-numbers]
+sources: [[ramsey-numbers-survey]]
+---
+
+# Green-Tao Theorem
+
+## 定义
+
+Green-Tao 定理（Ben Green & Terence Tao, 2004）证明：素数集合包含任意长的等差数列。
+
+## 证明策略
+
+1. 构造伪随机测度，使素数在该测度下具有正密度
+2. 将 Szemerédi 定理推广到"伪随机"情形（相对 Szemerédi 定理）
+3. 利用 Goldston-Yıldırım 筛法构造合适的伪随机测度
+
+## 意义
+
+- **算术 Ramsey 理论的顶峰**：将 van der Waerden → Szemerédi 的路线推向极致（着色 → 密度 → 素数）
+- **解析数论与组合学的融合**：展示了筛法、调和分析与 Ramsey 型论证的深度协同
+- Tao 因此获得 **2006 年菲尔兹奖**
+
+## 相关概念
+
+- [[additive-combinatorics|加法组合学]]
+- [[van-der-waerden-theorem|van der Waerden 定理]]
+- [[ramsey-theory|拉姆齐理论]]
--- a/concepts/group-relative-policy-optimization.md
+++ b/concepts/group-relative-policy-optimization.md
@@ -0,0 +1,39 @@
+---
+title: "群体相对策略优化 (GRPO)"
+domain: "Reinforcement Learning / LLM Training"
+tags: [grpo, reinforcement-learning, rlhf, policy-optimization]
+sources: [[thinking-with-visual-primitives]], [[deepseek-v4-million-token-context]]
+---
+
+# 群体相对策略优化 (GRPO)
+
+> Group Relative Policy Optimization — DeepSeek 采用的强化学习算法，通过组内相对比较来优化策略，无需显式的价值函数。
+
+## 核心思想
+
+GRPO 是 DeepSeek 系列模型（V4、V4-Flash、视觉原语模型）统一使用的 RL 算法。相比传统 PPO 需要训练一个与策略模型等大的 critic 网络，GRPO 通过**组内采样 + 相对比较**消除了 critic 的需求，显著降低了 RLHF 阶段的计算和内存开销。
+
+## 在视觉原语训练中的应用
+
+在 [[specialized-rl|专项强化学习]] 阶段：
+1. 对每个样本生成 N 个 rollout
+2. 使用多个 [[reward-model|奖励模型]]（Format RM、Quality RM、Accuracy RM）评分
+3. 组内相对比较 → 策略梯度更新
+
+数据难度分级：
+- **Easy**：N 个 rollout 全部正确
+- **Normal**：1 ≤ k < N 个正确（**选用于训练**）
+- **Hard**：0 个正确
+
+## 优势
+
+- 无需 critic 网络，节省显存和计算
+- 组内比较提供自然的 baseline，减少方差
+- 与多种奖励模型组合灵活
+
+## 相关概念
+
+- [[specialized-rl|专项强化学习]] — GRPO 在视觉原语中的应用
+- [[on-policy-distillation|在线策略蒸馏]] — 后续蒸馏阶段
+- [[reward-model|奖励模型]] — GRPO 的 reward 来源
+- [[exponential-decay-reward|指数衰减奖励]] — 计数任务的 GRPO reward 设计
--- a/concepts/grouped-query-attention.md
+++ b/concepts/grouped-query-attention.md
@@ -1,3 +1,12 @@
+---
+title: Grouped-Query Attention (GQA)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
 # Grouped-Query Attention (GQA)

 **分组查询注意力**，在 MHA 和 MQA 之间的折中方案，由 Ainslie 等 2023 年提出。
--- a/concepts/grpo.md
+++ b/concepts/grpo.md
@@ -0,0 +1,39 @@
+---
+title: "Group Relative Policy Optimization (GRPO)"
+created: 2025-04-15
+updated: 2026-05-12
+type: concept
+tags: ["reinforcement-learning", "llm-training", "policy-optimization"]
+sources: ["arxiv:2402.03300"]
+---
+
+# Group Relative Policy Optimization (GRPO)
+
+**GRPO** 是 PPO 的一种变体，由 DeepSeekMath 提出，被 DeepSeek-R1 广泛采用。其核心创新是**消除 critic 模型**，通过在同一个问题的多组响应内部进行相对优势估计。
+
+## 核心公式
+
+对于问题 q 的 G 个响应，GRPO 优化目标为：
+
+$$\max_{\pi_\theta} \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min(I_{it}(\theta)\hat{A}_{GR,i}, \text{clip}(I_{it}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_{GR,i})$$
+
+其中组相对优势估计（GRAE）：
+
+$$\hat{A}_{GR,i} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^G)}{\text{std}(\{r_i\}_{i=1}^G)}$$
+
+## 关键特性
+
+- **无需 Critic**：通过对同问题响应的组内比较，避免了训练额外的价值函数模型
+- **二元奖励兼容**：与基于规则的验证器（如数学正确/错误）天然兼容
+- **GRPO 变体**：GP6、DAPO 等移除了 KL 散度并采用 token-level loss
+
+## 已知局限
+
+GRPO 存在 [[update-magnitude-imbalance|隐含的难度不平衡]]：更新幅度在 p=0.5 时最大，对困难和简单问题都被抑制。[[dgpo|DGPO]] 通过 DGAE 解决了这一问题。
+
+## 相关概念
+
+- [[dgpo|DGPO]] — 难度感知 GRPO 改进
+- [[dgae|DGAE]] — 难度平衡优势估计
+- [[rlvr-unified-framework]] — RLVR 训练范式
+- [[dai-mathforge-2026|MathForge]] — 难度感知数学推理框架
--- a/concepts/halftone-print-style.md
+++ b/concepts/halftone-print-style.md
@@ -0,0 +1,28 @@
+---
+title: 半调印刷风格 (Halftone Print Style)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 半调印刷风格 (Halftone Print Style)
+
+**通过网点或线条的密度变化模拟连续色调的印刷技术**，是 Riso 印刷、丝网印刷和波普艺术的共同技法基础。
+
+## 技法分类
+
+- **网点半调**: 圆形/菱形网点的疏密变化 → 经典报纸/漫画印刷感
+- **线刻半调**: 平行线或同心圆的粗细变化 → 雕刻版画质感
+- **色版叠加**: 多色半调网的叠印偏移 → 波普艺术效果
+
+## 在 AI 生成中的应用
+
+"半调网点 (Halftone Patterns)"是 [[gpt-image2]] 中快速注入复古印刷质感的强力关键词。结合双色限定可产生强烈的现代平面设计感。
+
+## 相关概念
+
+- [[risograph-print-style]] — Riso 半调风格的具体实现
+- [[russian-constructivism]] — 共享印刷美学传统
+- [[gpt-image2-prompt-collection]] — 风格合集
--- a/Show More
+++ b/Show More