20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/bartoldson-tba-2025.md
+++ b/papers/bartoldson-tba-2025.md
@@ -0,0 +1,100 @@
+---
+title: "TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练"
+authors: ["Brian Bartoldson", "Siddarth Venkatraman", "James Diffenderfer", "Moksh Jain", "Tal Ben-Nun", "Seanie Lee", "Minsu Kim", "Johan Obando-Ceron", "Yoshua Bengio", "Bhavya Kailkhura"]
+year: 2025
+arxiv: "2503.18929"
+venue: "NeurIPS 2025"
+type: "paper"
+created: 2026-05-12
+tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl"]
+sources: ["https://arxiv.org/abs/2503.18929", "https://github.com/bbartoldson/TBA"]
+---
+
+# TBA: 异步轨迹平衡 — 解耦探索与学习
+
+> **"Decoupling Exploration and Learning"** — 用 GFlowNet 的 off-policy 目标实现 4×–50× 训练加速。
+
+## 核心问题
+
+标准 on-policy RL 方法（PPO、[[grpo|GRPO]]、RLOO）存在**串行瓶颈**：数据生成和政策更新必须顺序进行，GPU 利用率低。
+
+异步 RL 可解耦两者，但 off-policy 数据会导致性能下降——现有方法（Async DPO、Proximal RLOO）在策略偏离增大时性能显著衰退。
+
+## TBA 框架
+
+[[tba|TBA]] 将 [[gflownet-fine-tuning|GFlowNet]] 的 [[trajectory-balance-objective|Trajectory Balance (TB)]] 目标集成到 [[asynchronous-rl-llm|异步分布式 RL]] 框架中：
+
+```
+┌──────────────────────────────────────────┐
+│  S EARCHER 节点 (N个)    T RAINER 节点   │
+│  ┌─────────────┐        ┌─────────────┐  │
+│  │ vLLM 推理   │──◇──▶ │ Replay      │  │
+│  │ 本地策略πθ' │  轨迹  │ Buffer      │  │
+│  │ 奖励评估    │        │ (D_global)  │  │
+│  └─────────────┘        │    ↓        │  │
+│       ↑ 每k步同步        │ TB Loss更新  │  │
+│       └─────────────────┤ 策略权重    │  │
+│                         └─────────────┘  │
+└──────────────────────────────────────────┘
+```
+
+### 关键设计
+
+**1. Searcher-Trainer 解耦**：Searcher 持续生成响应（不等待训练），Trainer 持续训练（不等待生成），仅在每 k 步同步一次。
+
+**2. [[replay-buffer-rl-llm|Global Replay Buffer]]**：存储所有历史轨迹（x, y, r），Trainer 从中采样进行 off-policy 训练。
+
+**3. [[reward-recency-sampling|双重采样策略]]**：概率 m 采样最近（recency）数据 → 近似 on-policy；概率 1−m 采用奖励优先（reward-prioritized）采样 → 探索高奖励区域。
+
+### TB 目标公式
+
+$$L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2$$
+
+其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$，$Z(x)$ 用 K-sample batch estimate（VarGrad）替代学习。
+
+**关键性质**：TB 是 **off-policy 兼容** 的——训练时 $y$ 可从任意分布采样。
+
+## 实验结果
+
+### 数学推理 (GSM8K, RhoMath-1B)
+| 方法 | 加速比 | 准确率 |
+|------|--------|--------|
+| VinePPO | — | ~53% |
+| TBA | **50×** | **55%** |
+
+### 偏好微调 (TL;DR, Pythia 410M)
+- TBA 在 16 步 off-policy 设置下 **超越 on-policy Online DPO**
+- 定义新的 KL vs. Win-Rate **Pareto 前沿**
+
+### 自动红队测试 (GPT-2, Llama 3.2 1B)
+- TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA
+- 增加 Searcher 数量持续提升攻击成功率和多样性
+
+### 大规模模型 (MATH, Qwen 2.5 7B)
+- TBA′ 在高度 off-policy 设置下（10 步 stale）**显著优于 Dr. GRPO**
+
+## 概念网络
+
+```
+TBA 框架
+├── 算法基础
+│   ├── [[trajectory-balance-objective]]: Off-policy TB 目标
+│   │   └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]]
+│   └── KL 正则化 RL: π* ∝ π_ref · exp(r/β)
+├── 系统架构
+│   ├── [[asynchronous-rl-llm]]: 解耦探索与学习
+│   ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer
+│   └── [[replay-buffer-rl-llm]]: Global replay buffer
+├── 采样策略
+│   └── [[reward-recency-sampling]]: 奖励 vs 最近度
+└── 对比基线
+    ├── [[grpo]]: On-policy 基线
+    └── [[off-policy-llm-post-training]]: Off-policy RL 范式
+```
+
+## 论文信息
+
+- **arXiv**: [2503.18929](https://arxiv.org/abs/2503.18929)
+- **代码**: [bbartoldson/TBA](https://github.com/bbartoldson/TBA)
+- **机构**: LLNL × Mila × Université de Montréal × KAIST × CIFAR
+- **发表**: NeurIPS 2025
--- a/papers/behrouz-memory-caching-rnn.md
+++ b/papers/behrouz-memory-caching-rnn.md
@@ -10,7 +10,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
 # Memory Caching: RNNs with Growing Memory

 **arXiv:** 2602.24281 [cs.LG] · 2026-02-27
-**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
+**作者:** [[behrouz-memory-caching-rnn]], Zeman Li, Yuan Deng, Peilin Zhong, [[behrouz-memory-caching-rnn]], [[behrouz-memory-caching-rnn]]

 ## 核心贡献

@@ -35,7 +35,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]

 ## 相关概念

- [[rnn-memory-caching]] — Memory Caching 技术详解
+- [[memory-caching-rnn]] — Memory Caching 技术详解
 - [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案

 ## 来源
--- a/papers/clawless-ai-agent-security.md
+++ b/papers/clawless-ai-agent-security.md
@@ -1,3 +1,12 @@
+---
+title: ClawLess: AI 代理安全模型
+created: 2025-04-15
+updated: 2026-05-01
+type: paper
+tags: []
+sources: []
+---
+
 # ClawLess: AI 代理安全模型

 **作者**: Hongyi Lu, Nian Liu, Shuai Wang, Fengwei Zhang  
@@ -49,13 +58,13 @@ ClawLess建立了一个细粒度的安全模型，捕获系统多个领域中的

 本文涉及以下关键概念：

- [[ClawLess]] - AI代理安全框架
- [[AI代理安全]] - 自主AI系统的安全挑战
- [[形式化安全模型]] - 使用数学方法定义的安全规范
- [[用户空间内核]] - 在用户空间实现的内核功能
- [[BPF系统调用拦截]] - 使用BPF技术拦截和控制系统调用
- [[安全容器]] - 提供隔离和保护的容器技术
- [[最坏情况威胁模型]] - 假设系统可能面临的最坏攻击场景
+- [[clawless]] - AI代理安全框架
+- [[ai-agent-security]] - 自主AI系统的安全挑战
+- [[formal-security-model]] - 使用数学方法定义的安全规范
+- [[userspace-kernel]] - 在用户空间实现的内核功能
+- [[bpf-syscall-interception]] - 使用BPF技术拦截和控制系统调用
+- [[secure-containers]] - 提供隔离和保护的容器技术
+- [[worst-case-threat-model]] - 假设系统可能面临的最坏攻击场景

 ## 技术实现

@@ -82,9 +91,9 @@ ClawLess为保护系统免受潜在恶意自主AI代理的攻击提供了原则

 ## 相关论文

- [[ACE-LLM集成应用系统安全架构]]
- [[IsolateGPT-LLM代理系统执行隔离架构]]
- [[NeuroFilter-对话LLM代理隐私护栏]]
+- [[ai-agent-security]]
+- [[userspace-kernel]]
+- [[secure-containers]]

 ## 参考文献

--- a/papers/dai-mathforge-2026.md
+++ b/papers/dai-mathforge-2026.md
@@ -0,0 +1,83 @@
+---
+title: "MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写"
+authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"]
+year: 2026
+arxiv: "2601.20614"
+venue: "ICLR 2026"
+type: "paper"
+created: 2026-05-12
+tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"]
+sources: ["https://arxiv.org/abs/2601.20614", "https://github.com/AMAP-ML/MathForge"]
+---
+
+# MathForge: Harder Is Better
+
+> **"Harder is Better"** — 从算法和数据双重视角，通过聚焦更困难的问题来提升数学推理能力。
+
+## 核心问题
+
+RLVR（可验证奖励强化学习）中，现有方法系统性**忽视了更困难的问题**：
+
+- **算法层面**：GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大，对更难（p 接近 0）和更简单（p 接近 1）的问题都被抑制
+- **数据层面**：数据增强主要关注多样性，没有系统性地**提高内在难度**
+
+**核心洞察**：难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握，同时提供至少一个正确答案用于定向学习。
+
+## MathForge 框架
+
+MathForge 是一个**双轨协同框架**：
+
+### 算法轨：[[dgpo|DGPO]]
+
+1. **[[dgae|DGAE]]**：用 MAD（平均绝对偏差）替代 std 作为归一化分母，使得每个问题的总更新幅度恒为 G（与准确率无关）
+2. **[[dqw|DQW]]**：用 softmax 温度加权显式优先学习更难的问题
+
+### 数据轨：[[mqr|MQR]]
+
+三种策略改写问题，同时**保持原始答案不变**：
+| 策略 | 描述 | 挑战的能力 |
+|------|------|-----------|
+| Background | 添加叙事背景（噪声） | 从噪声中识别关键数学信息 |
+| Term | 发明抽象数学术语 | 理解抽象数学概念 |
+| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 |
+
+## 关键理论发现
+
+Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$，在 p=0.5 时达到最大值 → **难度不平衡**，详见 [[update-magnitude-imbalance]]
+
+Theorem 2: DGAE 的总更新幅度恒为 G → **难度平衡**
+
+## 实验结果
+
+在 Qwen2.5-Math-7B 上的 6 个基准测试结果：
+
+| 方法 | 平均分 | ΔGRPO |
+|------|--------|-------|
+| GRPO | 37.61 | — |
+| DGPO | 39.79 | +2.18 |
+| MQR | 41.04 | +3.43 |
+| **MathForge** | **42.17** | **+4.56** |
+
+跨模型验证：在 4 个不同模型族（Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B）上均取得一致增益，DGPO+MQR 提升范围 2.86–4.45%。
+
+## 关键概念网络
+
+```
+MathForge
+├── 算法轨道
+│   ├── [[dgpo]]: 难度感知 GRPO
+│   │   ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
+│   │   └── [[dqw]]: Softmax 难度加权 → 优先困难问题
+│   └── [[grpo]]: 基线方法（存在 [[update-magnitude-imbalance|隐含不平衡]]）
+├── 数据轨道
+│   └── [[mqr]]: 多维度问题改写
+│       └── [[math-question-reformulation]]: Background / Term / Sub-Problem
+└── 理论基础
+    └── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式
+```
+
+## 论文信息
+
+- **arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614)
+- **代码**: [AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
+- **机构**: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学
--- a/papers/deepseek-v4-million-token-context.md
+++ b/papers/deepseek-v4-million-token-context.md
@@ -65,4 +65,4 @@ tags: [large-language-models, mixture-of-experts, long-context, architecture, tr
 ---

 *Added: 2026-04-27 | Source: DeepSeek-AI Technical Report*
-*See raw archive: [[../raw/papers/deepseek-ai-deepseek-v4-2026]]*
+*See raw archive: [[deepseek-v4-million-token-context]]*
--- a/papers/dou-cl-bench.md
+++ b/papers/dou-cl-bench.md
@@ -0,0 +1,95 @@
+---
+title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: [benchmark, llm, alignment]
+sources: [raw/papers/dou-cl-bench-2026.md]
+---
+
+# CL-bench: A Benchmark for Context Learning
+
+> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
+
+## 核心问题
+
+当前 LLM 擅长利用预训练知识回答 prompt，但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**（上下文学习），并构建了 CL-bench 基准来评估它。
+
+## 方法论
+
+### 基准规模
+- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
+- 全部由经验丰富的领域专家人工策展
+- 每个上下文平均耗时约 20 小时专家工作量
+- 每个任务平均 16.6 个 rubrics
+
+### 污染防护
+三种策略确保任务**不能仅靠预训练知识**解决：
+1. **虚构创造**：发明完整的虚构法律体系、编程语言等
+2. **修改现有内容**：改变历史事件、科学定义、技术文档
+3. **纳入小众/新兴内容**：前沿研究、新发布产品手册、窄领域专业知识
+
+上下文无关消融实验：无上下文时模型解决率 **< 1%**
+
+### 四类上下文（→18 子类）
+
+| 类别 | 占比 | 子类数 | 核心挑战 |
+|------|------|--------|---------|
+| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用（法律、金融、科学） |
+| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行（博弈、数学、编程） |
+| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行（产品手册、工作流） |
+| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |
+
+### 评估方式
+使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求：**只有通过所有 rubrics 才算解决任务**。评估可靠性：inter-verifier 一致性 > 90%。
+
+## 十模型评估结果
+
+| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
+|------|------|---------|---------|---------|---------|
+| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
+| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
+| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
+| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
+| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
+| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
+| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
+| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
+| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
+| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
+| **平均** | **17.2%** | — | — | — | — |
+
+## 核心发现
+
+### 1. Context Learning 是当前 LLM 的根本瓶颈
+十模型平均仅 17.2%，最佳仅 23.7%——**无模型超过 30%**
+
+### 2. 类别间性能差异巨大
+- 领域知识推理最易（25.3%），经验发现与模拟最难（~11%）
+- 甚至子类间也存在巨大差异：法律/监管 >40%，数学形式主义 <15%
+
+### 3. 不是长上下文问题
+任务难度与上下文长度**无强相关性**——推理质量才决定成败（与 CL-bench Life 一致）
+
+### 4. 专业领域上下文 vs 真实生活上下文
+本文是 CL-bench 系列的**首篇**，关注专业领域上下文。后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文，两者互补。
+
+## 与 CL-bench Life 的关系
+
+| 维度 | CL-bench | CL-bench Life |
+|------|---------|---------------|
+| 上下文类型 | 专业领域（虚构法律、编程、金融） | 真实生活（群聊、笔记、行为日志） |
+| 上下文数 | 500 | 405 |
+| 任务数 | 1,899 | 405 |
+| 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 |
+| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
+| 核心挑战 | 归纳式推理（经验发现） | 混乱上下文推理（通信社交） |
+
+## 相关概念
+- [[context-learning]] — 上下文学习能力定义
+- [[cl-bench-life]] — CL-bench Life（后续工作）
+- [[real-life-context-learning]] — 真实生活上下文学习
+- [[domain-knowledge-reasoning]] — 领域知识推理
+- [[rule-system-application]] — 规则系统应用
+- [[procedural-task-execution]] — 程序性任务执行
+- [[empirical-discovery-simulation]] — 经验发现与模拟
--- a/papers/elf-embedded-language-flows.md
+++ b/papers/elf-embedded-language-flows.md
@@ -0,0 +1,70 @@
+---
+title: "ELF: Embedded Language Flows"
+created: 2026-05-13
+updated: 2026-05-13
+type: paper
+arxiv: "2605.10938"
+authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
+venue: "Tech Report (2026)"
+tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
+sources:
+  - https://arxiv.org/abs/2605.10938
+  - https://github.com/lillian039/ELF
+---
+
+# ELF: Embedded Language Flows
+
+**MIT | 2026 | arXiv:2605.10938**
+
+Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**
+
+## 核心问题
+
+连续扩散语言模型（DLM）能否达到与离散 DLM 相当甚至更优的性能？当前领先的 DLM 主要在离散 token 空间操作，但这是语言建模的固有特性还是算法设计选择的问题？
+
+## 方法
+
+ELF 提出了一种**极简连续 DLM 设计**：在整个去噪过程中保持在连续嵌入空间，仅在最后一步通过**共享权重网络**映射回离散 token。
+
+### 核心设计
+
+1. **Flow Matching 框架**：采用连续时间 [[rectified-flows]]（线性插值路径：z_t = t·x + (1-t)·ε），在连续嵌入空间中定义速度场。
+
+2. **x-prediction 参数化**：网络直接预测干净的嵌入 x̂（而非速度 v），使去噪（MSE）和解码（CE）两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。
+
+3. **共享权重离散化（Shared-Weight Discretization）**：单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作：
+   - **Denoise mode (t<1)**：MSE loss，预测干净嵌入
+   - **Decode mode (t=1)**：CE loss，经 unembedding 层输出离散 token
+   
+   无需额外 decoder。参考 [[shared-weight-discretization]]。
+
+4. **Classifier-Free Guidance**：由于 ELF 全程在连续空间操作，CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号，使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。
+
+5. **ODE/SDE 采样器**：支持 ODE（欧拉求解器）和 SDE 启发式采样（每步注入小噪声）。参考 [[sde-sampler-language]]。
+
+### 训练流程
+
+- 编码：冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间，经 bottleneck 压缩到 128-d
+- 去噪分支（80% 批次）：随机采样 t，线性插值构造 z_t，MSE 训练
+- 解码分支（20% 批次）：t=1，对 z 加 token 级 corruption，CE 训练
+
+## 关键发现
+
+1. **105M ELF-B 超越 170M 基线**（MDLM, Duo, FLM, LangFlow），训练 token 仅 10%
+2. **32 步采样**即可达到基线 1024 步的质量，Gen. PPL 大幅降低
+3. 无需蒸馏即可与蒸馏版基线竞争
+4. 在机器翻译（WMT14 De-En）和摘要（XSum）任务上也达到最优
+5. CFG 配合自条件化显著提升无条件生成质量
+6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
+
+## 概念网络
+
+核心概念：[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]]
+
+支撑技术：[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]
+
+评估指标：[[generative-perplexity]]
+
+## 意义
+
+ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计（无额外 decoder、无逐步 CE 监督）就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术（CFG、蒸馏、高效采样）的直通道。
--- a/papers/godel-incompleteness-tutorial.md
+++ b/papers/godel-incompleteness-tutorial.md
@@ -1,9 +1,18 @@
+---
+title: "哥德尔不完备定理教程"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: []
+sources: []
+---
+
 # 哥德尔不完备定理教程

 - **类型**: 综合教程
 - **年份**: 2026年4月
 - **目标读者**: 数学系本科生
- **原始文件**: [[raw/papers/godel-tutorial-2026|原始存档]]
+- **原始文件**: [[godel-incompleteness-tutorial|原始存档]]

 ## 中文摘要

--- a/papers/he-urlvr-sharpening-2026.md
+++ b/papers/he-urlvr-sharpening-2026.md
@@ -0,0 +1,53 @@
+---
+title: "How Far Can Unsupervised RLVR Scale LLM Training?"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: []
+sources: []
+---
+
+# How Far Can Unsupervised RLVR Scale LLM Training?
+
+- **arXiv**: 2603.08660
+- **作者**: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab)
+- **会议**: ICLR 2026
+- **标签**: #RLVR #unsupervised-learning #reward-hacking
+
+## 中文摘要
+
+URLVR（无监督可验证奖励强化学习）被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现：**所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布**。这个机制在模型自信且正确时奏效，但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式，崩溃时间由模型先验决定而非工程选择。作者提出 [[model-collapse-step|Model Collapse Step]] 作为衡量模型先验的实用指标，并探索 [[self-verification-rewards|self-verification]] 作为外部奖励路径的突破。
+
+## 核心问题
+
+监督 RLVR（DeepSeek-R1、Gemini 2.5、Qwen3）很强大，但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平，获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。**本文提出根本问题：内在 URLVR 真的能规模化 LLM 训练吗？**
+
+## 方法论贡献
+
+1. **URLVR 分类法**: [[certainty-based-rewards|确定性奖励]] vs [[ensemble-based-rewards|集成奖励]]，前者从策略置信度（logits/熵）推导，后者从多样本一致性（多数投票）推导
+2. **[[intrinsic-rewards-sharpening|Sharpening 统一理论]]**: 从 KL 正则化 RL 目标出发，推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好，不发现新知识
+3. **Rise-then-Fall 定律**: 无论内在方法具体设计如何，始终先升后降，崩溃不可避免
+4. **[[model-collapse-step|Model Collapse Step (MCS)]]**: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数，比 pass@k 更准确，无需 ground truth
+
+## 关键发现
+
+| 发现 | 含义 |
+|------|------|
+| 内在奖励统一锐化初始分布 | 无法超越模型已有知识 |
+| Rise-then-Fall 是必然模式 | 崩溃时间反映模型先验 |
+| MCS 预测 RL 可训练性 | 低成本基模型选择替代方案 |
+| [[self-verification-rewards|Self-verification]] 无崩溃 | 外部奖励可能突破天花板 |
+
+## 相关概念
+- [[test-time-training-rl]]
+- [[rlvr-unified-framework]]
+- [[confidence-correctness-alignment]]
+
+- [[unsupervised-rlvr]] — URLVR 范式定义
+- [[intrinsic-rewards-sharpening]] — Sharpening 机制（理论核心）
+- [[model-collapse-step]] — MCS 指标
+- [[self-verification-rewards]] — 外部奖励突破
+- [[reward-hacking-llm]] — 奖励黑客与模型崩溃
+- [[certainty-based-rewards]] — 确定性奖励
+- [[ensemble-based-rewards]] — 集成奖励/多数投票
+- [[generation-verification-asymmetry]] — 生成-验证不对称性
--- a/papers/hunyuan-team-cl-bench-life.md
+++ b/papers/hunyuan-team-cl-bench-life.md
@@ -0,0 +1,88 @@
+---
+title: "CL-Bench Life: 真实生活上下文学习基准"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: [benchmark, llm, alignment, architecture]
+sources: [raw/papers/hunyuan-team-cl-bench-life-2026.md]
+---
+
+# CL-Bench Life: Can Language Models Learn From Real-Life Context?
+
+> Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29
+
+## 核心问题
+
+当 AI 助手从专业场景进入日常生活，它们面对的上下文不再是结构化文档，而是**混乱、碎片化、深植于个人与社会经验**的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务？
+
+## 方法论
+
+CL-bench Life 是一个**全人工策展**的基准，包含：
+- **405 个上下文-任务对** + **5,348 个验证细则** (rubrics)
+- 每个任务要求模型仅根据提供的上下文推理求解，无需外部检索
+- 59.8% 的任务为多轮交互，更真实反映日常使用场景
+
+### 三类上下文
+
+| 类别 | 占比 | 典型场景 |
+|------|------|---------|
+| **沟通与社交互动** | 33.3% | 私聊、群聊、会议纪要、论坛讨论 |
+| **碎片化信息与修订** | 33.3% | 个人笔记、RSS流、文档编辑历史 |
+| **行为记录与活动轨迹** | 33.3% | 游戏日志、数字足迹、日常健身记录 |
+
+每类下含 3 个子类，共 9 个子类，均衡分布避免评估偏差。
+
+### 评估方式
+使用 judge model（LLM-as-judge）基于任务级 rubrics 自动评估。rubrics 以 ✅（必须覆盖）和 ❌（不得出现）格式列出。
+
+## 核心发现
+
+### 1. 真实生活上下文学习极度困难
+- 最佳模型 **GPT-5.4**：仅 **19.3%** 解决率
+- 十模型平均：**13.8%**
+- 这意味着**即使最强模型，每 5 个日常上下文任务只能解决不到 1 个**
+
+### 2. 不是"长上下文"问题
+- 任务解决率与上下文长度**无强相关性**
+- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分（23.1%）
+- 根本困难在于**对混乱、弱结构上下文的推理**，而非上下文长度
+
+### 3. 推理有帮助，但收益递减
+- 启用推理模式普遍提升性能，尤其在行为记录类任务上
+- 但边际增益随推理 token 增加而递减
+- **token 效率差异巨大**：Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%，Seed-2.0-Pro 需 ~6.7K 达到 15%
+
+### 4. 上下文误用是首要失败模式
+- **76-84%** 的错误是"上下文误用"（读了但没读懂/没推对）
+- 仅 36-45% 的错误涉及"上下文忽略"
+- 格式错误和直接拒答很少（<3%）
+- **核心挑战**：模型"看到了"上下文但**无法正确推理其中的信息**
+
+### 5. 群聊场景的"身份混乱"
+在群聊场景中，模型频繁**混淆发言者身份、别名指代、角色关系**，导致对整个对话背景的理解出现根本性错误。
+
+### 6. 最难子类：自我追踪轨迹
+"行为记录 → 自我追踪轨迹"（如健身日志）是所有子类中最难的——最佳模型仅 **10.4%**
+
+## 十模型评估结果
+
+| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 |
+|------|---------|---------|---------|---------|
+| GPT-5.4 (High) | **19.3%** | 30.4% | 17.8% | 34.1% |
+| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% |
+| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% |
+| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% |
+| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% |
+| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% |
+| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% |
+| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% |
+| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% |
+| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% |
+
+## 相关概念
+- [[cl-bench-life]] — CL-bench Life 基准设计
+- [[real-life-context-learning]] — 真实生活上下文学习能力
+- [[context-misuse]] — 上下文误用：读了但无法正确推理
+- [[messy-context-reasoning]] — 混乱上下文推理
+- [[llm-evaluation-benchmarks]] — LLM 评测基准体系
+- [[long-context-understanding]] — 长上下文理解能力
--- a/papers/laban-llms-corrupt-documents-delegate.md
+++ b/papers/laban-llms-corrupt-documents-delegate.md
@@ -0,0 +1,62 @@
+---
+title: "LLMs Corrupt Your Documents When You Delegate"
+created: 2026-05-14
+type: paper
+tags: ["delegated-work", "document-editing", "evaluation", "benchmark", "long-horizon", "backtranslation"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# LLMs Corrupt Your Documents When You Delegate
+
+**Philippe Laban, Tobias Schnabel, Jennifer Neville** — Microsoft Research
+arXiv 2604.15597 (cs.CL, cs.HC), April 2026
+
+## 核心问题
+
+当我们把文档编辑工作委托给 LLM 时，模型会**静默地破坏文档内容**。即使是前沿模型（Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4），在 20 次交互后平均损坏约 25% 的文档内容。更关键的是，这些错误是**稀疏但严重**的：不是"千刀万剐"式的小错误累积，而是少数几次关键失败导致了约 80% 的总损坏。
+
+## 方法论：[[backtranslation-round-trip-relay]]
+
+论文提出 [[delegate-52]] 基准，包含 310 个工作环境、覆盖 52 个专业领域。评估使用 [[backtranslation-round-trip-relay]] 方法——每次编辑任务都是可逆的（正向编辑 + 反向编辑 = 回译），完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay，衡量 [[round-trip-reconstruction-score|RS@k]]。
+
+## 关键发现
+
+### 1. [[document-degradation]] 普遍存在
+- 所有 19 个模型都出现文档退化，无一例外
+- 前沿模型 25% 退化，平均 50% 退化
+- Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域
+
+### 2. [[critical-failures|关键失败]] 而非渐进退化
+- 约 80% 的退化来自少数几次关键错误（单次回译丢失 10-30+ 分）
+- 弱模型的退化主要来自**删除内容**，前沿模型的退化主要来自**内容损坏**
+
+### 3. Agentic 工具使用**未改善**表现
+- 4 个测试模型在工具模式下平均额外退化 6%
+- 工具使用带来 2-5x 输入 token 开销
+- 更好的模型倾向于使用 code execution 而非文件重写（GPT 5.4: 45% vs GPT 4.1: 10%）
+
+### 4. 复合效应
+- [[distractor-context|干扰文档]] 的危害随着交互长度增加而放大
+- 文档大小和交互长度的负效应**乘性叠加**（5 倍放大）
+- 扩展到 100 次交互后所有模型仍持续退化，无平台迹象
+
+## 领域差异
+
+模型在编程领域（Python, DBSchema）表现更好，在自然语言和小众领域（Earnings Statements, Music Notation）表现更差。高重复性和结构化密度的领域（Molecule, Chess）表现更好。
+
+## 意义
+
+- **对开发者**：52 个领域可视为 "mini-gym"，用于通过 cycle consistency 训练模型
+- **对研究者**：需要更多 [[long-horizon-evaluation|长视界评估]] 基准，短交互表现不能预测长视界表现
+- **对用户**：模型能力遵循 [[jagged-frontier|锯齿前沿]]，在 Python 中可靠不等于在其他领域中可靠
+
+## 相关概念
+
+- [[delegate-52]] — 基准本身
+- [[backtranslation-round-trip-relay]] — 评估方法论
+- [[document-degradation]] — 核心发现
+- [[critical-failures]] — 错误结构分析
+- [[delegated-work]] — 交互范式
+- [[long-horizon-evaluation]] — 评估哲学
+- [[domain-specific-evaluation]] — 评估实现
+- [[distractor-context]] — 实验设计要素
--- a/papers/liu-koopa-2023.md
+++ b/papers/liu-koopa-2023.md
@@ -0,0 +1,48 @@
+---
+title: "Koopa: Koopman 预测器驱动的非平稳时间序列学习"
+created: 2026-05-11
+updated: 2026-05-11
+type: paper
+arxiv: "2305.18803"
+tags: [time-series, koopman-theory, deep-learning, forecasting]
+sources: ["https://arxiv.org/abs/2305.18803"]
+---
+
+# Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors
+
+## 概述
+
+Koopa 是清华龙明盛组发表于 NeurIPS 2023 的时序预测模型，利用 [[koopman-theory|Koopman 理论]] 从根本上处理[[non-stationary-time-series|非平稳时间序列]]的时变动力学。核心创新：用 [[fourier-filter-dynamics|Fourier Filter]] 解耦时变/时不变分量，再用 [[koopman-predictor|Koopman 预测器]] 在测量空间中线性推进各自动力学。
+
+## 核心问题
+
+真实世界时间序列的 [[non-stationary-time-series|非平稳性]] 导致时变统计特性和时间依赖在不同时段间漂移，训练-推理分布鸿沟巨大。先前方法只从架构层面缓解症状，未从理论基础处理时变模式。
+
+## 方法论贡献
+
+### Koopman 理论 + Fourier Filter
+
+[[koopman-theory|Koopman 理论]] 将非线性动力学映射到无限维线性空间：K ∘ g(x_t) = g(x_{t+1})。[[fourier-filter-dynamics|Fourier Filter]] 将序列分解为时变（高频）和时不变（低频）分量，各自送入独立的 [[koopman-predictor|Koopman 预测器]]。
+
+### Koopman Predictor
+
+[[koopman-predictor|Koopman 预测器]] 的核心：
+- **测量函数学习**：用深度网络找到理想 Koopman 嵌入 g(x_t)
+- **线性算子刻画**：Koopman 算子作为隐式转移的线性肖像
+- **上下文感知**：在局部时间邻域计算算子，捕捉 [[time-variant-dynamics|时变动力学]] 的强局部性
+
+### 层级架构
+
+可堆叠的 Koopa Block：Fourier Filter → Koopman Predictor，逐层解耦和利用层级动力学。深度残差结构实现端到端优化，无需先前方法的[[koopman-autoencoder|重构损失绑定]]。
+
+## 关键结果
+
+- SOTA 竞争性能
+- **77.3% 训练时间节省 + 76.0% 内存节省**
+- 可利用真实观测滚动预测，扩展预测范围
+
+## 与现有 Wiki 的关联
+
+- [[koopman-theory|Koopman 理论]] 与 [[probabilistic-method|概率方法]] 类似——提供将复杂问题映射到更易处理空间的数学框架
+- [[dynamic-mode-decomposition|DMD]] 作为 Koopman 理论的标准数值方法
+- 时序预测与 [[reinforcement-learning-trading|强化学习交易]] 中的市场预测有天然联系
--- a/papers/llm-attention-survey-2026.md
+++ b/papers/llm-attention-survey-2026.md
@@ -1,3 +1,12 @@
+---
+title: "大语言模型注意力机制全面分析"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: []
+sources: []
+---
+
 # 大语言模型注意力机制全面分析

 - **类型**: 综述论文
--- a/papers/ramsey-numbers-survey.md
+++ b/papers/ramsey-numbers-survey.md
@@ -0,0 +1,54 @@
+---
+title: "拉姆齐数的数学综述"
+created: 2026-05-11
+updated: 2026-05-11
+type: survey
+tags: [ramsey-theory, combinatorics, graph-theory, additive-combinatorics, mathematical-logic]
+sources: ["用户上传 Markdown (2025-06)"]
+---
+
+# 拉姆齐数的数学综述
+
+## 概述
+
+本文是 [[ramsey-theory|拉姆齐理论]] 的全面综述，覆盖 [[ramsey-numbers|拉姆齐数]] 的数学理论、已知结果、证明技术、推广变体及跨学科应用。核心理念：「完全的无序是不可能的」。
+
+## 核心问题
+
+[[ramsey-numbers|拉姆齐数]] R(r,s) 精确刻画了"足够大"的数学内涵：在任何足够大的结构中，必然出现规则性子结构。然而，仅有少数小的 [[diagonal-ramsey-number|对角拉姆齐数]] 被精确确定，更一般的 R(k) 上下界之间存在巨大指数鸿沟（底数 √2 到 4）。
+
+## 方法论贡献
+
+### 概率方法
+
+[[probabilistic-method|概率方法]]（Erdős 1947）是组合数学最重要的创新之一：通过随机图以正概率满足性质来证明存在性，避免了显式构造。[[lovasz-local-lemma|Lovász 局部引理]]是其强力推广。
+
+### 构造性与代数方法
+
+[[paley-graph|Paley 图]] 等有限域代数构造提供可验证的下界；[[szemerédi-regularity-lemma|Szemerédi 正则性引理]]（1975）将大图分解为拟随机子结构，是极值组合学的核心工具。
+
+### 动力系统与遍历方法
+
+[[furstenberg-correspondence|Furstenberg 对应原理]] 将组合问题转化为动力系统的多重递推问题，开辟了组合数论与遍历理论的联系。
+
+## 关键推广
+
+- [[hypergraph-ramsey-number|超图拉姆齐数]]：k-一致超图情形，增长涉及迭代指数塔
+- [[geometric-ramsey-theory|几何拉姆齐理论]]：幸福结局问题、凸多边形存在性
+- [[van-der-waerden-theorem|van der Waerden 定理]]：任意着色下存在单色等差数列
+- [[paris-harrington-theorem|巴黎-哈灵顿定理]]：PA 中不可证明的"自然"命题
+
+## 数论影响
+
+[[green-tao-theorem|Green-Tao 定理]]（2004）证明素数集包含任意长等差数列，是 [[additive-combinatorics|加法组合学]] 的顶峰。[[random-graph-theory|随机图理论]]（Erdős-Rényi）亦源于概率方法的 Ramsey 应用。
+
+## 跨学科应用
+
+- [[ramsey-theory-applications|计算机科学与密码学]]：分布式容错、随机性提取器、隐私放大
+- **物理学**：相变材料 GST 的 Ramsey 分析
+- **生物学**：基因调控网络的功能模块必然性
+- **社会科学**：群体形成中不可避免的子结构
+
+## 核心未解问题
+
+R(k) 的精确渐近行为——上下界底数从 √2 到 4 的鸿沟——是当代组合数学最重要挑战之一。R(5) 的精确值（43–48）也悬而未决。
--- a/papers/song-agent-network-taxonomy.md
+++ b/papers/song-agent-network-taxonomy.md
@@ -0,0 +1,88 @@
+---
+title: "Complex networks of AI agentic systems: 拓扑-记忆-更新三层分类法"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: [llm, architecture, benchmark, survey]
+sources: [raw/papers/song-agent-network-taxonomy-2026.md]
+---
+
+# Complex networks of AI agentic systems: topology, memory, and update dynamics
+
+> Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) | TechRxiv 2026
+
+## 核心问题
+
+大规模 AI Agent 网络广泛用于软件工程、科学分析、Web 自动化和社交模拟，但现有架构缺乏**统一框架**来解释为什么某些设计能扩展到长周期多步任务而另一些会失败。系统行为由三个根本维度塑造：**agent 如何连接、信息如何存储、状态如何更新**。
+
+## 方法论：三层级分类法
+
+本文提出一个**嵌套式**（非并行式）三属性分类法：
+
+```
+Topology（拓扑）
+  ├── Centralized（集中式）
+  └── Decentralized（去中心化）
+       ├── Global Memory（全局记忆）
+       └── Local Memory（局部记忆）
+            ├── Static Update（静态更新）
+            └── Dynamic Update（动态更新）
+```
+
+### 形式化定义
+
+Agent 系统定义为四元组：**A = (V, E, M, Π)**
+
+- V = {a₁, ..., aₙ}：agent 集合
+- E ⊆ V × V：通信图，有向边表示消息传递
+- M：记忆配置（全局 M_global 或局部 {M₁, ..., Mₙ}）
+- Π：agent 级策略
+
+每个 agent aᵢ 是状态函数：**aᵢ : (xᵢ, mᵢ, cᵢ) → (oᵢ, m'ᵢ)** — 局部观察 + 记忆 + 入站消息 → 行动 + 更新记忆
+
+### 8 种系统类别
+
+| # | 拓扑 | 记忆 | 更新 | 代表系统 |
+|---|------|------|------|---------|
+| 1 | 集中式 | 全局 | 静态 | MetaGPT, ChatDev, AutoGen, HuggingGPT |
+| 2 | 集中式 | 全局 | 动态 | SWE-agent, OpenHands, Voyager, Multi-Agent Debate |
+| 3 | 集中式 | 局部 | 静态 | MetaAgent, YuLan-OneSim, SOTOPIA-S4 |
+| 4 | 集中式 | 局部 | 动态 | OPTIMA, Magentic-One, G-Designer |
+| 5 | 去中心化 | 全局 | 静态 | BlackBoard, LLMBlackBoard, MemorySharing |
+| 6 | 去中心化 | 全局 | 动态 | GPTSwarm, AgentSociety, OpenAgents |
+| 7 | 去中心化 | 局部 | 静态 | MMAgent, WebArena, TalkHier |
+| 8 | 去中心化 | 局部 | 动态 | GenAgents, 1000-Person Sims, AgentNet, SOTOPIA-S |
+
+## 核心发现
+
+### 1. 通信栈三层结构
+
+| 层 | 作用 | 通信形式 | 主要难点 |
+|----|------|---------|---------|
+| **传输层** | 网络数据传输 | 二进制/文本消息 | 延迟、排序、可靠性 |
+| **结构层** (Function Calling) | 跨 agent 的结构化操作 | Schema 消息 | 兼容性、版本漂移 |
+| **语义层** (通信协议) | 推理对齐、上下文传播 | 自然语言+结构化证据 | 跨 agent 一致性和上下文一致性 |
+
+### 2. 扩展性挑战
+
+1. **通信负载**：消息量随 agent 数快速增长，饱和消息队列
+2. **上下文漂移**：分布式执行下各 agent 维护不一致的摘要
+3. **排序与并发**：异步系统中消息重排序导致时序视图分歧
+4. **解释不匹配**：异构模型间即使 schema 相同，语义解释仍不兼容
+5. **更新不稳定**：并发更新放大微小不一致，agent 反复覆盖彼此状态
+6. **安全与信任**：通信通道倍增 → 攻击面扩大
+
+### 3. MCP 作为标准化基础
+
+Model Context Protocol (MCP) 成为大规模 Agent 网络的标准化基板，统一工具调用、资源管理和交互语义。相关工作包括 Gradientsys、SchedCP、Code2MCP、MCP-Bench 等。
+
+## 相关概念
+- [[agent-network-taxonomy]] — 三层级分类法详解
+- [[agent-network-topology]] — 集中式 vs 去中心化拓扑
+- [[agent-network-memory-scope]] — 全局 vs 局部记忆
+- [[agent-network-update-behavior]] — 静态 vs 动态更新
+- [[agent-communication-stack]] — 三层通信栈
+- [[centralized-agent-architecture]] — 集中式架构
+- [[decentralized-agent-architecture]] — 去中心化架构
+- [[cognitive-architecture]] — 认知架构
+- [[hyperagents]] — 超智能体（自指代理）
--- a/papers/streaming-llm.md
+++ b/papers/streaming-llm.md
@@ -0,0 +1,74 @@
+---
+title: "StreamingLLM: 基于注意力汇的高效流式语言模型"
+created: 2026-05-14
+updated: 2026-05-14
+type: paper
+tags: [llm, attention, streaming, kv-cache, inference-optimization]
+sources: ["https://arxiv.org/abs/2309.17453"]
+venue: "ICLR 2024"
+authors: ["Guangxuan Xiao", "Yuandong Tian", "Beidi Chen", "Song Han", "Mike Lewis"]
+---
+
+# StreamingLLM: 基于注意力汇的高效流式语言模型
+
+Efficient Streaming Language Models with Attention Sinks
+
+[[guangxuan-xiao]], [[yuandong-tian]], [[beidi-chen]], [[song-han]], [[mike-lewis]] — ICLR 2024
+
+## 核心问题
+
+如何让 LLM 在流式场景（多轮对话、实时生成）中处理**无限长**输入序列，同时保持效率和性能？
+
+现有方案的问题：
+- **Dense Attention**：O(T²) 复杂度，且超出预训练窗口后性能崩溃
+- **Window Attention**：只缓存最近 Token 的 KV，但当初始 Token 被逐出时模型崩溃
+- **Sliding Window + Re-computation**：性能好但太慢，每个新 Token 都要重建 KV
+
+## 核心发现：Attention Sink（注意力汇）
+
+作者发现了一个关键现象：**LLM 的初始 Token 在所有层和注意力头上都吸引了不成比例的高注意力分数**，无论其语义是否相关。
+
+**原因**：SoftMax 函数要求所有 token 的注意力分数之和为 1。即使当前 query 没有强语义匹配，模型也必须把多余的注意力值 "倾倒" 到某处。由于自回归建模的特性，初始 Token 对所有后续 Token 都可见，因此被自然训练为注意力的 "汇" (sink)。
+
+→ 这就是为什么 Window Attention 一旦驱逐初始 Token 就会崩溃：它破坏了 SoftMax 分母的分布。
+
+详见 [[attention-sinks|注意力汇]]。
+
+## 方法：StreamingLLM
+
+基于上述洞察，StreamingLLM 的 KV 缓存分为两部分：
+
+1. **Attention Sinks**（4 个初始 Token）：稳定注意力计算，锚定 SoftMax 分布
+2. **Rolling KV Cache**（最近 Token）：负责语言建模的语义内容
+
+**关键设计**：位置编码在 **cache 内部**分配（而非原始文本），这对 RoPE 和 ALiBi 的性能至关重要。
+
+- **无需微调**，直接适用于任何使用相对位置编码的自回归 LLM
+- 支持 RoPE（Llama-2, Falcon, Pythia）和 ALiBi（MPT）
+- 与上下文窗口扩展方法**正交**，可互补使用
+
+## 关键结果
+
+- 在 Llama-2 (7/13/70B)、MPT (7/30B)、Falcon (7/40B)、Pythia (2.9/6.9/12B) 上验证
+- 稳定语言建模至 **400 万 Token** 以上
+- 相比 Sliding Window + Re-computation 加速 **最高 22.2×**
+- 4 个初始 Token 即可恢复性能，更多 Token 边际收益递减
+
+## Sink Token 预训练
+
+- 用 1.6 亿参数模型从头预训练验证
+- 在所有训练样本前添加一个可学习的专用 **Sink Token** → 只需要这一个 Token 即可稳定流式推理
+- 相比之下，Vanilla 模型需要 4 个初始 Token 作为 attention sinks
+- SoftMax-off-by-One（Zero Sink）有改善但不够充分
+
+→ 建议未来的 LLM 预训练统一加入 Sink Token
+
+## 概念网络
+
+- [[attention-sinks|注意力汇]] — 核心现象
+- [[window-attention|窗口注意力]] — 失败的基线
+- [[length-extrapolation|长度外推]] — 问题域
+- [[rolling-kv-cache|滚动 KV 缓存]] — StreamingLLM 机制
+- [[sink-token|汇 Token]] — 预训练改进
+- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关优化
+- [[rotary-position-embedding|RoPE]] — 位置编码
--- a/papers/tao-klowden-ai-mathematical-methods.md
+++ b/papers/tao-klowden-ai-mathematical-methods.md
@@ -0,0 +1,72 @@
+---
+title: "Mathematical methods and human thought in the age of AI"
+created: 2025-04-15
+updated: 2025-04-15
+type: paper
+tags: [paper, ai-philosophy, mathematics, human-centered-ai, llm, deep-learning]
+sources: [raw/papers/tao-ai-mathematical-methods-2026.md]
+arXiv: "2603.26524"
+authors: [[terence-tao]], [[tanya-klowden]]
+published: 2026-03-27
+---
+
+# Mathematical methods and human thought in the age of AI
+
+作者：[[terence-tao]], [[tanya-klowden]]  
+arXiv: [2603.26524](https://arxiv.org/abs/2603.26524)  发表日期：2026年3月27日  
+页数：27页
+
+## 摘要
+
+人工智能（AI）被通俗地命名为一系列计算机工具，旨在执行越来越复杂的认知任务。本文探讨了 AI 对传统哲学问题的影响，重点关注其在数学中的应用以及更广泛使用的真实世界结果。
+
+**核心论点**：AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进，必须以人类为中心来开发和应用 AI。
+
+## 主要章节
+
+### 1. 定义与背景
+- AI 被定义为执行复杂认知任务的计算机工具谱系
+- 从 [[llm-applications]] 和扩散模型到传统的 "GOFAI"（如自动定理证明器、国际象棋引擎）
+- 缺乏关于为什么要快速开发和部署这些工具的讨论
+
+### 2. 历史类比：这次不同吗？
+- 自动化技术并非新现象（如印刷机、计算机、[[formal-systems]]）
+- 过去技术主要影响输出的传播，而非创造本身
+- 现代 AI 可以自动化创造过程本身，造成内容外在形式与创造价值观的前所未有的脱钩
+
+### 3. 数学作为 AI 使用的 "沙盒"
+- 数学具有更成熟的基础，适合探索各种假设性场景
+- [[ai-alignment]] 模型现在可以解决越来越复杂的数学问题
+- AI 可能在某些任务上超越人类专家，同时在基础概念上犯严重错误
+
+### 4. 证明标准与 "Smell Test"
+- 数学传统上有客观的证明标准，从欧几里得到二十世纪初的基础
+- **"Smell Test"**（气味测试）：好的证明不仅展示逻辑推理，还提供理解和洞察
+- [[formal-verification]]（形式化验证）可以验证正确性，但无法捕捉 "penumbra"（启发式、经验式推理）
+
+### 5. AI 辅助数学的演进
+- 数学社区已适应过之前的技术挑战（如四色定理、开普勒猜想的计算机辅助证明）
+- 证明负担将越来越多地转向计算机
+- 人类数学家可能更专注于 "软性"方面：启发式、动机、实验证据
+
+## 核心观点
+
+1. **AI 是工具的演进**，而非人类的替代
+2. **必须以人类为中心**：创新解决方案满足人类需求、提升生活质量、拓展人类思维能力
+3. **形式化验证的局限**：只能验证形式正确性，无法传达理解与洞察
+4. **"气味测试"的价值**：好的数学不仅是正确的，还是有教育意义和启发性的
+
+## 与其他页面的关联
+
+- [[human-centered-ai]] - 本文核心主题：以人类为中心的 AI 发展
+- [[formal-verification]] - 形式化验证的作用与局限
+- [[ai-mathematics]] - AI 与数学的交叉
+- [[terence-tao]] - 第二作者，著名数学家
+- [[llm-applications]] - 大语言模型
+- [[automated-theorem-proving]] - 论文提及的 AI 数学证明系统
+
+## 关键引用
+
+> "AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进。"
+
+> "形式化验证只能证明形式化论证建立了形式化数学陈述，但不能排除正式陈述与原始意图陈述之间的翻译错误。"
--- a/papers/thinking-with-visual-primitives.md
+++ b/papers/thinking-with-visual-primitives.md
@@ -0,0 +1,91 @@
+---
+title: "Thinking with Visual Primitives — 以视觉原语思考"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency]
+authors: "DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.)"
+year: 2026
+source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives"
+---
+
+# Thinking with Visual Primitives
+
+> **"Seeing is not reasoning."** — 本文的根本洞见
+
+## 核心问题
+
+当前多模态大模型（[[multimodal-large-language-model]]）的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了[[perception-gap|感知鸿沟]]（Perception Gap），模型在复杂空间推理中仍然频繁发生**逻辑崩溃**。
+
+本文指出一个更深层的瓶颈：**[[reference-gap|引用鸿沟]]**（Reference Gap）——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。
+
+## 方法论贡献
+
+提出 **[[visual-primitives|视觉原语思考]]** 框架：将空间标记（bounding boxes 和 points）提升为「思维的最小单位」，直接交织进推理链中。
+
+### 两种视觉原语
+
+| 原语类型 | 功能 | 适用场景 |
+|----------|------|----------|
+| **Bounding Box** (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 |
+| **Point** (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 |
+
+### 训练流程
+
+```
+Pretraining → Specialized SFT (FTwG + FTwP)
+           → Specialized RL (GRPO per expert)
+           → Unified RFT (rejection sampling)
+           → On-Policy Distillation (KL consolidation)
+```
+
+关键技术：
+- **[[specialized-sft|专项监督微调]]**：分别训练框原语专家（FTwG）和点原语专家（FTwP），避免模式冲突
+- **[[specialized-rl|专项强化学习]]**：使用 [[group-relative-policy-optimization|群体相对策略优化]]，配合三类奖励模型（格式 RM、质量 RM、准确率 RM）
+- **[[unified-rft|统一拒绝采样微调]]**：利用专家模型 rollout → 按难度筛选 → 合并训练
+- **[[on-policy-distillation|在线策略蒸馏]]**：通过 KL 散度将两个专家的能力蒸馏到统一模型
+
+### 冷启动数据设计
+
+四大任务维度：
+1. **[[coarse-grained-counting|粗粒度计数]]** — 类别级目标计数（如「图中有多少只狗」）
+2. **[[fine-grained-counting|细粒度计数]]** — 属性/空间约束计数（如「白色的狗有多少只」）
+3. **[[maze-navigation|迷宫导航]]** — 确定迷宫可解性，输出验证路径
+4. **[[path-tracing|路径追踪]]** — 追踪纠缠曲线，识别端点
+
+### 奖励模型设计
+
+| 奖励类型 | 方法 | 关键创新 |
+|----------|------|----------|
+| Format RM | 规则检查 | 格式正确性 + 防重复框生成 |
+| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 |
+| 计数 Accuracy RM | [[exponential-decay-reward|指数衰减奖励]] | 平滑相对误差惩罚 |
+| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 |
+| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation|双向轨迹评估]] | 前向偏差 + 反向覆盖率 |
+
+## 架构亮点
+
+- **视觉 Token 极致压缩**：756×756 图像 → 2,916 patches → 324 visual tokens → **81 KV entries**（压缩比 7056×）
+- 基于 [[deepseek-v4-flash|DeepSeek-V4-Flash]]（284B MoE，13B 激活参数）+ [[deepseek-vit|DeepSeek-ViT]]
+- [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 将每 m 个视觉 token 压缩为一个 KV entry
+
+## 关键结果
+
+| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 |
+|-----------|------|---------|----------------|-------------------|
+| CountQA (EM/RA@10) | **66.1/75.1** | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 |
+| Pixmo-Count (EM) | **89.2** | 77.2 | 82.9 | 68.7 |
+| SpatialMQA (ACC) | **69.4** | 61.9 | 58.2 | 60.6 |
+| DS_Maze_Nav (ACC) | **66.9** | 50.6 | 49.4 | 49.8 |
+| DS_Path_Trace (ACC) | **56.7** | 46.5 | 41.4 | 30.6 |
+| Token per image | **~90** | ~740 | ~1,100 | ~870 |
+
+## 局限与展望
+
+1. 受限于输入分辨率，细粒度场景下偶有视觉原语输出不精确
+2. 当前依赖显式触发词激活「视觉原语思考」机制
+3. 点原语在拓扑推理中的跨场景泛化能力有限
+
+## 意义
+
+> **多模态智能的未来不在于"看到更多像素"，而在于构建语言与视觉之间精确、无歧义的引用桥梁。**
+
+本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径：不是增大视觉 token 预算，而是提升每个 token 的信息密度和指代精度。
--- a/papers/zhang-hyperagents.md
+++ b/papers/zhang-hyperagents.md
@@ -1,3 +1,12 @@
+---
+title: Hyperagents: Self-Referential Agents with Metacognitive Self-Modification
+created: 2025-04-15
+updated: 2026-05-01
+type: paper
+tags: []
+sources: []
+---
+
 # Hyperagents: Self-Referential Agents with Metacognitive Self-Modification

 > **来源**: arXiv:2603.19461 [cs.AI]  
--- a/papers/zhu-moda-mixture-of-depths.md
+++ b/papers/zhu-moda-mixture-of-depths.md
@@ -35,5 +35,5 @@ sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md]
 ## 相关概念

 - [[mixture-of-depths-attention]] — MoDA 机制详解
- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战
- [[signal-degradation]] — 深层网络中的信号退化问题
+- [[depth-scaling-signal-degradation]] — LLM 深度扩展技术与挑战
+- [[depth-scaling-signal-degradation]] — 深层网络中的信号退化问题