20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,100 @@
---
title: "TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练"
authors: ["Brian Bartoldson", "Siddarth Venkatraman", "James Diffenderfer", "Moksh Jain", "Tal Ben-Nun", "Seanie Lee", "Minsu Kim", "Johan Obando-Ceron", "Yoshua Bengio", "Bhavya Kailkhura"]
year: 2025
arxiv: "2503.18929"
venue: "NeurIPS 2025"
type: "paper"
created: 2026-05-12
tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl"]
sources: ["https://arxiv.org/abs/2503.18929", "https://github.com/bbartoldson/TBA"]
---
# TBA: 异步轨迹平衡 — 解耦探索与学习
> **"Decoupling Exploration and Learning"** — 用 GFlowNet 的 off-policy 目标实现 4×50× 训练加速。
## 核心问题
标准 on-policy RL 方法PPO、[[grpo|GRPO]]、RLOO存在**串行瓶颈**数据生成和政策更新必须顺序进行GPU 利用率低。
异步 RL 可解耦两者,但 off-policy 数据会导致性能下降——现有方法Async DPO、Proximal RLOO在策略偏离增大时性能显著衰退。
## TBA 框架
[[tba|TBA]] 将 [[gflownet-fine-tuning|GFlowNet]] 的 [[trajectory-balance-objective|Trajectory Balance (TB)]] 目标集成到 [[asynchronous-rl-llm|异步分布式 RL]] 框架中:
```
┌──────────────────────────────────────────┐
│ S EARCHER 节点 (N个) T RAINER 节点 │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ vLLM 推理 │──◇──▶ │ Replay │ │
│ │ 本地策略πθ' │ 轨迹 │ Buffer │ │
│ │ 奖励评估 │ │ (D_global) │ │
│ └─────────────┘ │ ↓ │ │
│ ↑ 每k步同步 │ TB Loss更新 │ │
│ └─────────────────┤ 策略权重 │ │
│ └─────────────┘ │
└──────────────────────────────────────────┘
```
### 关键设计
**1. Searcher-Trainer 解耦**Searcher 持续生成响应不等待训练Trainer 持续训练(不等待生成),仅在每 k 步同步一次。
**2. [[replay-buffer-rl-llm|Global Replay Buffer]]**存储所有历史轨迹x, y, rTrainer 从中采样进行 off-policy 训练。
**3. [[reward-recency-sampling|双重采样策略]]**:概率 m 采样最近recency数据 → 近似 on-policy概率 1m 采用奖励优先reward-prioritized采样 → 探索高奖励区域。
### TB 目标公式
$$L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2$$
其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$$Z(x)$ 用 K-sample batch estimateVarGrad替代学习。
**关键性质**TB 是 **off-policy 兼容** 的——训练时 $y$ 可从任意分布采样。
## 实验结果
### 数学推理 (GSM8K, RhoMath-1B)
| 方法 | 加速比 | 准确率 |
|------|--------|--------|
| VinePPO | — | ~53% |
| TBA | **50×** | **55%** |
### 偏好微调 (TL;DR, Pythia 410M)
- TBA 在 16 步 off-policy 设置下 **超越 on-policy Online DPO**
- 定义新的 KL vs. Win-Rate **Pareto 前沿**
### 自动红队测试 (GPT-2, Llama 3.2 1B)
- TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA
- 增加 Searcher 数量持续提升攻击成功率和多样性
### 大规模模型 (MATH, Qwen 2.5 7B)
- TBA 在高度 off-policy 设置下10 步 stale**显著优于 Dr. GRPO**
## 概念网络
```
TBA 框架
├── 算法基础
│ ├── [[trajectory-balance-objective]]: Off-policy TB 目标
│ │ └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]]
│ └── KL 正则化 RL: π* ∝ π_ref · exp(r/β)
├── 系统架构
│ ├── [[asynchronous-rl-llm]]: 解耦探索与学习
│ ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer
│ └── [[replay-buffer-rl-llm]]: Global replay buffer
├── 采样策略
│ └── [[reward-recency-sampling]]: 奖励 vs 最近度
└── 对比基线
├── [[grpo]]: On-policy 基线
└── [[off-policy-llm-post-training]]: Off-policy RL 范式
```
## 论文信息
- **arXiv**: [2503.18929](https://arxiv.org/abs/2503.18929)
- **代码**: [bbartoldson/TBA](https://github.com/bbartoldson/TBA)
- **机构**: LLNL × Mila × Université de Montréal × KAIST × CIFAR
- **发表**: NeurIPS 2025

View File

@@ -10,7 +10,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
# Memory Caching: RNNs with Growing Memory
**arXiv:** 2602.24281 [cs.LG] · 2026-02-27
**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
**作者:** [[behrouz-memory-caching-rnn]], Zeman Li, Yuan Deng, Peilin Zhong, [[behrouz-memory-caching-rnn]], [[behrouz-memory-caching-rnn]]
## 核心贡献
@@ -35,7 +35,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
## 相关概念
- [[rnn-memory-caching]] — Memory Caching 技术详解
- [[memory-caching-rnn]] — Memory Caching 技术详解
- [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案
## 来源

View File

@@ -1,3 +1,12 @@
---
title: ClawLess: AI 代理安全模型
created: 2025-04-15
updated: 2026-05-01
type: paper
tags: []
sources: []
---
# ClawLess: AI 代理安全模型
**作者**: Hongyi Lu, Nian Liu, Shuai Wang, Fengwei Zhang
@@ -49,13 +58,13 @@ ClawLess建立了一个细粒度的安全模型捕获系统多个领域中的
本文涉及以下关键概念:
- [[ClawLess]] - AI代理安全框架
- [[AI代理安全]] - 自主AI系统的安全挑战
- [[形式化安全模型]] - 使用数学方法定义的安全规范
- [[用户空间内核]] - 在用户空间实现的内核功能
- [[BPF系统调用拦截]] - 使用BPF技术拦截和控制系统调用
- [[安全容器]] - 提供隔离和保护的容器技术
- [[最坏情况威胁模型]] - 假设系统可能面临的最坏攻击场景
- [[clawless]] - AI代理安全框架
- [[ai-agent-security]] - 自主AI系统的安全挑战
- [[formal-security-model]] - 使用数学方法定义的安全规范
- [[userspace-kernel]] - 在用户空间实现的内核功能
- [[bpf-syscall-interception]] - 使用BPF技术拦截和控制系统调用
- [[secure-containers]] - 提供隔离和保护的容器技术
- [[worst-case-threat-model]] - 假设系统可能面临的最坏攻击场景
## 技术实现
@@ -82,9 +91,9 @@ ClawLess为保护系统免受潜在恶意自主AI代理的攻击提供了原则
## 相关论文
- [[ACE-LLM集成应用系统安全架构]]
- [[IsolateGPT-LLM代理系统执行隔离架构]]
- [[NeuroFilter-对话LLM代理隐私护栏]]
- [[ai-agent-security]]
- [[userspace-kernel]]
- [[secure-containers]]
## 参考文献

View File

@@ -0,0 +1,83 @@
---
title: "MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写"
authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"]
year: 2026
arxiv: "2601.20614"
venue: "ICLR 2026"
type: "paper"
created: 2026-05-12
tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"]
sources: ["https://arxiv.org/abs/2601.20614", "https://github.com/AMAP-ML/MathForge"]
---
# MathForge: Harder Is Better
> **"Harder is Better"** — 从算法和数据双重视角,通过聚焦更困难的问题来提升数学推理能力。
## 核心问题
RLVR可验证奖励强化学习现有方法系统性**忽视了更困难的问题**
- **算法层面**GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大对更难p 接近 0和更简单p 接近 1的问题都被抑制
- **数据层面**:数据增强主要关注多样性,没有系统性地**提高内在难度**
**核心洞察**:难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握,同时提供至少一个正确答案用于定向学习。
## MathForge 框架
MathForge 是一个**双轨协同框架**
### 算法轨:[[dgpo|DGPO]]
1. **[[dgae|DGAE]]**:用 MAD平均绝对偏差替代 std 作为归一化分母,使得每个问题的总更新幅度恒为 G与准确率无关
2. **[[dqw|DQW]]**:用 softmax 温度加权显式优先学习更难的问题
### 数据轨:[[mqr|MQR]]
三种策略改写问题,同时**保持原始答案不变**
| 策略 | 描述 | 挑战的能力 |
|------|------|-----------|
| Background | 添加叙事背景(噪声) | 从噪声中识别关键数学信息 |
| Term | 发明抽象数学术语 | 理解抽象数学概念 |
| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 |
## 关键理论发现
Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时达到最大值 → **难度不平衡**,详见 [[update-magnitude-imbalance]]
Theorem 2: DGAE 的总更新幅度恒为 G → **难度平衡**
## 实验结果
在 Qwen2.5-Math-7B 上的 6 个基准测试结果:
| 方法 | 平均分 | ΔGRPO |
|------|--------|-------|
| GRPO | 37.61 | — |
| DGPO | 39.79 | +2.18 |
| MQR | 41.04 | +3.43 |
| **MathForge** | **42.17** | **+4.56** |
跨模型验证:在 4 个不同模型族Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B上均取得一致增益DGPO+MQR 提升范围 2.864.45%。
## 关键概念网络
```
MathForge
├── 算法轨道
│ ├── [[dgpo]]: 难度感知 GRPO
│ │ ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
│ │ └── [[dqw]]: Softmax 难度加权 → 优先困难问题
│ └── [[grpo]]: 基线方法(存在 [[update-magnitude-imbalance|隐含不平衡]]
├── 数据轨道
│ └── [[mqr]]: 多维度问题改写
│ └── [[math-question-reformulation]]: Background / Term / Sub-Problem
└── 理论基础
└── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式
```
## 论文信息
- **arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614)
- **代码**: [AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
- **机构**: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学

View File

@@ -65,4 +65,4 @@ tags: [large-language-models, mixture-of-experts, long-context, architecture, tr
---
*Added: 2026-04-27 | Source: DeepSeek-AI Technical Report*
*See raw archive: [[../raw/papers/deepseek-ai-deepseek-v4-2026]]*
*See raw archive: [[deepseek-v4-million-token-context]]*

95
papers/dou-cl-bench.md Normal file
View File

@@ -0,0 +1,95 @@
---
title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [benchmark, llm, alignment]
sources: [raw/papers/dou-cl-bench-2026.md]
---
# CL-bench: A Benchmark for Context Learning
> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
## 核心问题
当前 LLM 擅长利用预训练知识回答 prompt但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**(上下文学习),并构建了 CL-bench 基准来评估它。
## 方法论
### 基准规模
- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
- 全部由经验丰富的领域专家人工策展
- 每个上下文平均耗时约 20 小时专家工作量
- 每个任务平均 16.6 个 rubrics
### 污染防护
三种策略确保任务**不能仅靠预训练知识**解决:
1. **虚构创造**:发明完整的虚构法律体系、编程语言等
2. **修改现有内容**:改变历史事件、科学定义、技术文档
3. **纳入小众/新兴内容**:前沿研究、新发布产品手册、窄领域专业知识
上下文无关消融实验:无上下文时模型解决率 **< 1%**
### 四类上下文→18 子类)
| 类别 | 占比 | 子类数 | 核心挑战 |
|------|------|--------|---------|
| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用法律金融科学 |
| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行博弈数学编程 |
| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行产品手册工作流 |
| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |
### 评估方式
使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估严格要求**只有通过所有 rubrics 才算解决任务**。评估可靠性inter-verifier 一致性 > 90%。
## 十模型评估结果
| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
|------|------|---------|---------|---------|---------|
| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
| **平均** | **17.2%** | — | — | — | — |
## 核心发现
### 1. Context Learning 是当前 LLM 的根本瓶颈
十模型平均仅 17.2%,最佳仅 23.7%——**无模型超过 30%**
### 2. 类别间性能差异巨大
- 领域知识推理最易25.3%),经验发现与模拟最难(~11%
- 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15%
### 3. 不是长上下文问题
任务难度与上下文长度**无强相关性**——推理质量才决定成败 CL-bench Life 一致
### 4. 专业领域上下文 vs 真实生活上下文
本文是 CL-bench 系列的**首篇**关注专业领域上下文后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文两者互补
## 与 CL-bench Life 的关系
| 维度 | CL-bench | CL-bench Life |
|------|---------|---------------|
| 上下文类型 | 专业领域虚构法律编程金融 | 真实生活群聊笔记行为日志 |
| 上下文数 | 500 | 405 |
| 任务数 | 1,899 | 405 |
| 类别 | 4 × 18 子类 | 3 × 9 子类 |
| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
| 核心挑战 | 归纳式推理经验发现 | 混乱上下文推理通信社交 |
## 相关概念
- [[context-learning]] 上下文学习能力定义
- [[cl-bench-life]] CL-bench Life后续工作
- [[real-life-context-learning]] 真实生活上下文学习
- [[domain-knowledge-reasoning]] 领域知识推理
- [[rule-system-application]] 规则系统应用
- [[procedural-task-execution]] 程序性任务执行
- [[empirical-discovery-simulation]] 经验发现与模拟

View File

@@ -0,0 +1,70 @@
---
title: "ELF: Embedded Language Flows"
created: 2026-05-13
updated: 2026-05-13
type: paper
arxiv: "2605.10938"
authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
venue: "Tech Report (2026)"
tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
sources:
- https://arxiv.org/abs/2605.10938
- https://github.com/lillian039/ELF
---
# ELF: Embedded Language Flows
**MIT | 2026 | arXiv:2605.10938**
Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**
## 核心问题
连续扩散语言模型DLM能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题?
## 方法
ELF 提出了一种**极简连续 DLM 设计**:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过**共享权重网络**映射回离散 token。
### 核心设计
1. **Flow Matching 框架**:采用连续时间 [[rectified-flows]]线性插值路径z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。
2. **x-prediction 参数化**:网络直接预测干净的嵌入 x̂而非速度 v使去噪MSE和解码CE两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。
3. **共享权重离散化Shared-Weight Discretization**:单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作:
- **Denoise mode (t<1)**MSE loss预测干净嵌入
- **Decode mode (t=1)**CE loss unembedding 层输出离散 token
无需额外 decoder参考 [[shared-weight-discretization]]。
4. **Classifier-Free Guidance**由于 ELF 全程在连续空间操作CFG 可以自然适用结合 [[self-conditioning]] 构造条件信号使用训练时 CFG 避免推理时双倍前向开销参考 [[classifier-free-guidance-language]]。
5. **ODE/SDE 采样器**支持 ODE欧拉求解器 SDE 启发式采样每步注入小噪声)。参考 [[sde-sampler-language]]。
### 训练流程
- 编码冻结的预训练 T5-small encoder token 序列映射到 512-d 嵌入空间 bottleneck 压缩到 128-d
- 去噪分支80% 批次随机采样 t线性插值构造 z_tMSE 训练
- 解码分支20% 批次t=1 z token corruptionCE 训练
## 关键发现
1. **105M ELF-B 超越 170M 基线**MDLM, Duo, FLM, LangFlow训练 token 10%
2. **32 步采样**即可达到基线 1024 步的质量Gen. PPL 大幅降低
3. 无需蒸馏即可与蒸馏版基线竞争
4. 在机器翻译WMT14 De-En和摘要XSum任务上也达到最优
5. CFG 配合自条件化显著提升无条件生成质量
6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
## 概念网络
核心概念[[embedded-language-flows]] [[flow-matching]] + [[continuous-diffusion-language-models]] [[shared-weight-discretization]]
支撑技术[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]
评估指标[[generative-perplexity]]
## 意义
ELF 证明连续 DLM 性能差距源于算法设计而非语言本质——用极简设计无额外 decoder无逐步 CE 监督就能达到甚至超越离散方法这为扩散语言模型开辟了通向图像域成熟技术CFG蒸馏高效采样的直通道

View File

@@ -1,9 +1,18 @@
---
title: "哥德尔不完备定理教程"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: []
sources: []
---
# 哥德尔不完备定理教程
- **类型**: 综合教程
- **年份**: 2026年4月
- **目标读者**: 数学系本科生
- **原始文件**: [[raw/papers/godel-tutorial-2026|原始存档]]
- **原始文件**: [[godel-incompleteness-tutorial|原始存档]]
## 中文摘要

View File

@@ -0,0 +1,53 @@
---
title: "How Far Can Unsupervised RLVR Scale LLM Training?"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: []
sources: []
---
# How Far Can Unsupervised RLVR Scale LLM Training?
- **arXiv**: 2603.08660
- **作者**: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab)
- **会议**: ICLR 2026
- **标签**: #RLVR #unsupervised-learning #reward-hacking
## 中文摘要
URLVR无监督可验证奖励强化学习被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现:**所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布**。这个机制在模型自信且正确时奏效,但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式,崩溃时间由模型先验决定而非工程选择。作者提出 [[model-collapse-step|Model Collapse Step]] 作为衡量模型先验的实用指标,并探索 [[self-verification-rewards|self-verification]] 作为外部奖励路径的突破。
## 核心问题
监督 RLVRDeepSeek-R1、Gemini 2.5、Qwen3很强大但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。**本文提出根本问题:内在 URLVR 真的能规模化 LLM 训练吗?**
## 方法论贡献
1. **URLVR 分类法**: [[certainty-based-rewards|确定性奖励]] vs [[ensemble-based-rewards|集成奖励]]前者从策略置信度logits/熵)推导,后者从多样本一致性(多数投票)推导
2. **[[intrinsic-rewards-sharpening|Sharpening 统一理论]]**: 从 KL 正则化 RL 目标出发,推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好,不发现新知识
3. **Rise-then-Fall 定律**: 无论内在方法具体设计如何,始终先升后降,崩溃不可避免
4. **[[model-collapse-step|Model Collapse Step (MCS)]]**: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数,比 pass@k 更准确,无需 ground truth
## 关键发现
| 发现 | 含义 |
|------|------|
| 内在奖励统一锐化初始分布 | 无法超越模型已有知识 |
| Rise-then-Fall 是必然模式 | 崩溃时间反映模型先验 |
| MCS 预测 RL 可训练性 | 低成本基模型选择替代方案 |
| [[self-verification-rewards|Self-verification]] 无崩溃 | 外部奖励可能突破天花板 |
## 相关概念
- [[test-time-training-rl]]
- [[rlvr-unified-framework]]
- [[confidence-correctness-alignment]]
- [[unsupervised-rlvr]] — URLVR 范式定义
- [[intrinsic-rewards-sharpening]] — Sharpening 机制(理论核心)
- [[model-collapse-step]] — MCS 指标
- [[self-verification-rewards]] — 外部奖励突破
- [[reward-hacking-llm]] — 奖励黑客与模型崩溃
- [[certainty-based-rewards]] — 确定性奖励
- [[ensemble-based-rewards]] — 集成奖励/多数投票
- [[generation-verification-asymmetry]] — 生成-验证不对称性

View File

@@ -0,0 +1,88 @@
---
title: "CL-Bench Life: 真实生活上下文学习基准"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [benchmark, llm, alignment, architecture]
sources: [raw/papers/hunyuan-team-cl-bench-life-2026.md]
---
# CL-Bench Life: Can Language Models Learn From Real-Life Context?
> Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29
## 核心问题
当 AI 助手从专业场景进入日常生活,它们面对的上下文不再是结构化文档,而是**混乱、碎片化、深植于个人与社会经验**的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务?
## 方法论
CL-bench Life 是一个**全人工策展**的基准,包含:
- **405 个上下文-任务对** + **5,348 个验证细则** (rubrics)
- 每个任务要求模型仅根据提供的上下文推理求解,无需外部检索
- 59.8% 的任务为多轮交互,更真实反映日常使用场景
### 三类上下文
| 类别 | 占比 | 典型场景 |
|------|------|---------|
| **沟通与社交互动** | 33.3% | 私聊、群聊、会议纪要、论坛讨论 |
| **碎片化信息与修订** | 33.3% | 个人笔记、RSS流、文档编辑历史 |
| **行为记录与活动轨迹** | 33.3% | 游戏日志、数字足迹、日常健身记录 |
每类下含 3 个子类,共 9 个子类,均衡分布避免评估偏差。
### 评估方式
使用 judge modelLLM-as-judge基于任务级 rubrics 自动评估。rubrics 以 ✅(必须覆盖)和 ❌(不得出现)格式列出。
## 核心发现
### 1. 真实生活上下文学习极度困难
- 最佳模型 **GPT-5.4**:仅 **19.3%** 解决率
- 十模型平均:**13.8%**
- 这意味着**即使最强模型,每 5 个日常上下文任务只能解决不到 1 个**
### 2. 不是"长上下文"问题
- 任务解决率与上下文长度**无强相关性**
- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分23.1%
- 根本困难在于**对混乱、弱结构上下文的推理**,而非上下文长度
### 3. 推理有帮助,但收益递减
- 启用推理模式普遍提升性能,尤其在行为记录类任务上
- 但边际增益随推理 token 增加而递减
- **token 效率差异巨大**Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%Seed-2.0-Pro 需 ~6.7K 达到 15%
### 4. 上下文误用是首要失败模式
- **76-84%** 的错误是"上下文误用"(读了但没读懂/没推对)
- 仅 36-45% 的错误涉及"上下文忽略"
- 格式错误和直接拒答很少(<3%
- **核心挑战**模型"看到了"上下文但**无法正确推理其中的信息**
### 5. 群聊场景的"身份混乱"
在群聊场景中模型频繁**混淆发言者身份别名指代角色关系**导致对整个对话背景的理解出现根本性错误
### 6. 最难子类:自我追踪轨迹
"行为记录 自我追踪轨迹"如健身日志是所有子类中最难的——最佳模型仅 **10.4%**
## 十模型评估结果
| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 |
|------|---------|---------|---------|---------|
| GPT-5.4 (High) | **19.3%** | 30.4% | 17.8% | 34.1% |
| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% |
| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% |
| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% |
| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% |
| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% |
| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% |
| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% |
| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% |
| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% |
## 相关概念
- [[cl-bench-life]] CL-bench Life 基准设计
- [[real-life-context-learning]] 真实生活上下文学习能力
- [[context-misuse]] 上下文误用读了但无法正确推理
- [[messy-context-reasoning]] 混乱上下文推理
- [[llm-evaluation-benchmarks]] LLM 评测基准体系
- [[long-context-understanding]] 长上下文理解能力

View File

@@ -0,0 +1,62 @@
---
title: "LLMs Corrupt Your Documents When You Delegate"
created: 2026-05-14
type: paper
tags: ["delegated-work", "document-editing", "evaluation", "benchmark", "long-horizon", "backtranslation"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# LLMs Corrupt Your Documents When You Delegate
**Philippe Laban, Tobias Schnabel, Jennifer Neville** — Microsoft Research
arXiv 2604.15597 (cs.CL, cs.HC), April 2026
## 核心问题
当我们把文档编辑工作委托给 LLM 时,模型会**静默地破坏文档内容**。即使是前沿模型Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4),在 20 次交互后平均损坏约 25% 的文档内容。更关键的是,这些错误是**稀疏但严重**的:不是"千刀万剐"式的小错误累积,而是少数几次关键失败导致了约 80% 的总损坏。
## 方法论:[[backtranslation-round-trip-relay]]
论文提出 [[delegate-52]] 基准,包含 310 个工作环境、覆盖 52 个专业领域。评估使用 [[backtranslation-round-trip-relay]] 方法——每次编辑任务都是可逆的(正向编辑 + 反向编辑 = 回译),完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay衡量 [[round-trip-reconstruction-score|RS@k]]。
## 关键发现
### 1. [[document-degradation]] 普遍存在
- 所有 19 个模型都出现文档退化,无一例外
- 前沿模型 25% 退化,平均 50% 退化
- Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域
### 2. [[critical-failures|关键失败]] 而非渐进退化
- 约 80% 的退化来自少数几次关键错误(单次回译丢失 10-30+ 分)
- 弱模型的退化主要来自**删除内容**,前沿模型的退化主要来自**内容损坏**
### 3. Agentic 工具使用**未改善**表现
- 4 个测试模型在工具模式下平均额外退化 6%
- 工具使用带来 2-5x 输入 token 开销
- 更好的模型倾向于使用 code execution 而非文件重写GPT 5.4: 45% vs GPT 4.1: 10%
### 4. 复合效应
- [[distractor-context|干扰文档]] 的危害随着交互长度增加而放大
- 文档大小和交互长度的负效应**乘性叠加**5 倍放大)
- 扩展到 100 次交互后所有模型仍持续退化,无平台迹象
## 领域差异
模型在编程领域Python, DBSchema表现更好在自然语言和小众领域Earnings Statements, Music Notation表现更差。高重复性和结构化密度的领域Molecule, Chess表现更好。
## 意义
- **对开发者**52 个领域可视为 "mini-gym",用于通过 cycle consistency 训练模型
- **对研究者**:需要更多 [[long-horizon-evaluation|长视界评估]] 基准,短交互表现不能预测长视界表现
- **对用户**:模型能力遵循 [[jagged-frontier|锯齿前沿]],在 Python 中可靠不等于在其他领域中可靠
## 相关概念
- [[delegate-52]] — 基准本身
- [[backtranslation-round-trip-relay]] — 评估方法论
- [[document-degradation]] — 核心发现
- [[critical-failures]] — 错误结构分析
- [[delegated-work]] — 交互范式
- [[long-horizon-evaluation]] — 评估哲学
- [[domain-specific-evaluation]] — 评估实现
- [[distractor-context]] — 实验设计要素

48
papers/liu-koopa-2023.md Normal file
View File

@@ -0,0 +1,48 @@
---
title: "Koopa: Koopman 预测器驱动的非平稳时间序列学习"
created: 2026-05-11
updated: 2026-05-11
type: paper
arxiv: "2305.18803"
tags: [time-series, koopman-theory, deep-learning, forecasting]
sources: ["https://arxiv.org/abs/2305.18803"]
---
# Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors
## 概述
Koopa 是清华龙明盛组发表于 NeurIPS 2023 的时序预测模型,利用 [[koopman-theory|Koopman 理论]] 从根本上处理[[non-stationary-time-series|非平稳时间序列]]的时变动力学。核心创新:用 [[fourier-filter-dynamics|Fourier Filter]] 解耦时变/时不变分量,再用 [[koopman-predictor|Koopman 预测器]] 在测量空间中线性推进各自动力学。
## 核心问题
真实世界时间序列的 [[non-stationary-time-series|非平稳性]] 导致时变统计特性和时间依赖在不同时段间漂移,训练-推理分布鸿沟巨大。先前方法只从架构层面缓解症状,未从理论基础处理时变模式。
## 方法论贡献
### Koopman 理论 + Fourier Filter
[[koopman-theory|Koopman 理论]] 将非线性动力学映射到无限维线性空间K ∘ g(x_t) = g(x_{t+1})。[[fourier-filter-dynamics|Fourier Filter]] 将序列分解为时变(高频)和时不变(低频)分量,各自送入独立的 [[koopman-predictor|Koopman 预测器]]。
### Koopman Predictor
[[koopman-predictor|Koopman 预测器]] 的核心:
- **测量函数学习**:用深度网络找到理想 Koopman 嵌入 g(x_t)
- **线性算子刻画**Koopman 算子作为隐式转移的线性肖像
- **上下文感知**:在局部时间邻域计算算子,捕捉 [[time-variant-dynamics|时变动力学]] 的强局部性
### 层级架构
可堆叠的 Koopa BlockFourier Filter → Koopman Predictor逐层解耦和利用层级动力学。深度残差结构实现端到端优化无需先前方法的[[koopman-autoencoder|重构损失绑定]]。
## 关键结果
- SOTA 竞争性能
- **77.3% 训练时间节省 + 76.0% 内存节省**
- 可利用真实观测滚动预测,扩展预测范围
## 与现有 Wiki 的关联
- [[koopman-theory|Koopman 理论]] 与 [[probabilistic-method|概率方法]] 类似——提供将复杂问题映射到更易处理空间的数学框架
- [[dynamic-mode-decomposition|DMD]] 作为 Koopman 理论的标准数值方法
- 时序预测与 [[reinforcement-learning-trading|强化学习交易]] 中的市场预测有天然联系

View File

@@ -1,3 +1,12 @@
---
title: "大语言模型注意力机制全面分析"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: []
sources: []
---
# 大语言模型注意力机制全面分析
- **类型**: 综述论文

View File

@@ -0,0 +1,54 @@
---
title: "拉姆齐数的数学综述"
created: 2026-05-11
updated: 2026-05-11
type: survey
tags: [ramsey-theory, combinatorics, graph-theory, additive-combinatorics, mathematical-logic]
sources: ["用户上传 Markdown (2025-06)"]
---
# 拉姆齐数的数学综述
## 概述
本文是 [[ramsey-theory|拉姆齐理论]] 的全面综述,覆盖 [[ramsey-numbers|拉姆齐数]] 的数学理论、已知结果、证明技术、推广变体及跨学科应用。核心理念:「完全的无序是不可能的」。
## 核心问题
[[ramsey-numbers|拉姆齐数]] R(r,s) 精确刻画了"足够大"的数学内涵:在任何足够大的结构中,必然出现规则性子结构。然而,仅有少数小的 [[diagonal-ramsey-number|对角拉姆齐数]] 被精确确定,更一般的 R(k) 上下界之间存在巨大指数鸿沟(底数 √2 到 4
## 方法论贡献
### 概率方法
[[probabilistic-method|概率方法]]Erdős 1947是组合数学最重要的创新之一通过随机图以正概率满足性质来证明存在性避免了显式构造。[[lovasz-local-lemma|Lovász 局部引理]]是其强力推广。
### 构造性与代数方法
[[paley-graph|Paley 图]] 等有限域代数构造提供可验证的下界;[[szemerédi-regularity-lemma|Szemerédi 正则性引理]]1975将大图分解为拟随机子结构是极值组合学的核心工具。
### 动力系统与遍历方法
[[furstenberg-correspondence|Furstenberg 对应原理]] 将组合问题转化为动力系统的多重递推问题,开辟了组合数论与遍历理论的联系。
## 关键推广
- [[hypergraph-ramsey-number|超图拉姆齐数]]k-一致超图情形,增长涉及迭代指数塔
- [[geometric-ramsey-theory|几何拉姆齐理论]]:幸福结局问题、凸多边形存在性
- [[van-der-waerden-theorem|van der Waerden 定理]]:任意着色下存在单色等差数列
- [[paris-harrington-theorem|巴黎-哈灵顿定理]]PA 中不可证明的"自然"命题
## 数论影响
[[green-tao-theorem|Green-Tao 定理]]2004证明素数集包含任意长等差数列是 [[additive-combinatorics|加法组合学]] 的顶峰。[[random-graph-theory|随机图理论]]Erdős-Rényi亦源于概率方法的 Ramsey 应用。
## 跨学科应用
- [[ramsey-theory-applications|计算机科学与密码学]]:分布式容错、随机性提取器、隐私放大
- **物理学**:相变材料 GST 的 Ramsey 分析
- **生物学**:基因调控网络的功能模块必然性
- **社会科学**:群体形成中不可避免的子结构
## 核心未解问题
R(k) 的精确渐近行为——上下界底数从 √2 到 4 的鸿沟——是当代组合数学最重要挑战之一。R(5) 的精确值4348也悬而未决。

View File

@@ -0,0 +1,88 @@
---
title: "Complex networks of AI agentic systems: 拓扑-记忆-更新三层分类法"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [llm, architecture, benchmark, survey]
sources: [raw/papers/song-agent-network-taxonomy-2026.md]
---
# Complex networks of AI agentic systems: topology, memory, and update dynamics
> Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) | TechRxiv 2026
## 核心问题
大规模 AI Agent 网络广泛用于软件工程、科学分析、Web 自动化和社交模拟,但现有架构缺乏**统一框架**来解释为什么某些设计能扩展到长周期多步任务而另一些会失败。系统行为由三个根本维度塑造:**agent 如何连接、信息如何存储、状态如何更新**。
## 方法论:三层级分类法
本文提出一个**嵌套式**(非并行式)三属性分类法:
```
Topology拓扑
├── Centralized集中式
└── Decentralized去中心化
├── Global Memory全局记忆
└── Local Memory局部记忆
├── Static Update静态更新
└── Dynamic Update动态更新
```
### 形式化定义
Agent 系统定义为四元组:**A = (V, E, M, Π)**
- V = {a₁, ..., aₙ}agent 集合
- E ⊆ V × V通信图有向边表示消息传递
- M记忆配置全局 M_global 或局部 {M₁, ..., Mₙ}
- Πagent 级策略
每个 agent aᵢ 是状态函数:**aᵢ : (xᵢ, mᵢ, cᵢ) → (oᵢ, m'ᵢ)** — 局部观察 + 记忆 + 入站消息 → 行动 + 更新记忆
### 8 种系统类别
| # | 拓扑 | 记忆 | 更新 | 代表系统 |
|---|------|------|------|---------|
| 1 | 集中式 | 全局 | 静态 | MetaGPT, ChatDev, AutoGen, HuggingGPT |
| 2 | 集中式 | 全局 | 动态 | SWE-agent, OpenHands, Voyager, Multi-Agent Debate |
| 3 | 集中式 | 局部 | 静态 | MetaAgent, YuLan-OneSim, SOTOPIA-S4 |
| 4 | 集中式 | 局部 | 动态 | OPTIMA, Magentic-One, G-Designer |
| 5 | 去中心化 | 全局 | 静态 | BlackBoard, LLMBlackBoard, MemorySharing |
| 6 | 去中心化 | 全局 | 动态 | GPTSwarm, AgentSociety, OpenAgents |
| 7 | 去中心化 | 局部 | 静态 | MMAgent, WebArena, TalkHier |
| 8 | 去中心化 | 局部 | 动态 | GenAgents, 1000-Person Sims, AgentNet, SOTOPIA-S |
## 核心发现
### 1. 通信栈三层结构
| 层 | 作用 | 通信形式 | 主要难点 |
|----|------|---------|---------|
| **传输层** | 网络数据传输 | 二进制/文本消息 | 延迟、排序、可靠性 |
| **结构层** (Function Calling) | 跨 agent 的结构化操作 | Schema 消息 | 兼容性、版本漂移 |
| **语义层** (通信协议) | 推理对齐、上下文传播 | 自然语言+结构化证据 | 跨 agent 一致性和上下文一致性 |
### 2. 扩展性挑战
1. **通信负载**:消息量随 agent 数快速增长,饱和消息队列
2. **上下文漂移**:分布式执行下各 agent 维护不一致的摘要
3. **排序与并发**:异步系统中消息重排序导致时序视图分歧
4. **解释不匹配**:异构模型间即使 schema 相同,语义解释仍不兼容
5. **更新不稳定**并发更新放大微小不一致agent 反复覆盖彼此状态
6. **安全与信任**:通信通道倍增 → 攻击面扩大
### 3. MCP 作为标准化基础
Model Context Protocol (MCP) 成为大规模 Agent 网络的标准化基板,统一工具调用、资源管理和交互语义。相关工作包括 Gradientsys、SchedCP、Code2MCP、MCP-Bench 等。
## 相关概念
- [[agent-network-taxonomy]] — 三层级分类法详解
- [[agent-network-topology]] — 集中式 vs 去中心化拓扑
- [[agent-network-memory-scope]] — 全局 vs 局部记忆
- [[agent-network-update-behavior]] — 静态 vs 动态更新
- [[agent-communication-stack]] — 三层通信栈
- [[centralized-agent-architecture]] — 集中式架构
- [[decentralized-agent-architecture]] — 去中心化架构
- [[cognitive-architecture]] — 认知架构
- [[hyperagents]] — 超智能体(自指代理)

74
papers/streaming-llm.md Normal file
View File

@@ -0,0 +1,74 @@
---
title: "StreamingLLM: 基于注意力汇的高效流式语言模型"
created: 2026-05-14
updated: 2026-05-14
type: paper
tags: [llm, attention, streaming, kv-cache, inference-optimization]
sources: ["https://arxiv.org/abs/2309.17453"]
venue: "ICLR 2024"
authors: ["Guangxuan Xiao", "Yuandong Tian", "Beidi Chen", "Song Han", "Mike Lewis"]
---
# StreamingLLM: 基于注意力汇的高效流式语言模型
Efficient Streaming Language Models with Attention Sinks
[[guangxuan-xiao]], [[yuandong-tian]], [[beidi-chen]], [[song-han]], [[mike-lewis]] — ICLR 2024
## 核心问题
如何让 LLM 在流式场景(多轮对话、实时生成)中处理**无限长**输入序列,同时保持效率和性能?
现有方案的问题:
- **Dense Attention**O(T²) 复杂度,且超出预训练窗口后性能崩溃
- **Window Attention**:只缓存最近 Token 的 KV但当初始 Token 被逐出时模型崩溃
- **Sliding Window + Re-computation**:性能好但太慢,每个新 Token 都要重建 KV
## 核心发现Attention Sink注意力汇
作者发现了一个关键现象:**LLM 的初始 Token 在所有层和注意力头上都吸引了不成比例的高注意力分数**,无论其语义是否相关。
**原因**SoftMax 函数要求所有 token 的注意力分数之和为 1。即使当前 query 没有强语义匹配,模型也必须把多余的注意力值 "倾倒" 到某处。由于自回归建模的特性,初始 Token 对所有后续 Token 都可见,因此被自然训练为注意力的 "汇" (sink)。
→ 这就是为什么 Window Attention 一旦驱逐初始 Token 就会崩溃:它破坏了 SoftMax 分母的分布。
详见 [[attention-sinks|注意力汇]]。
## 方法StreamingLLM
基于上述洞察StreamingLLM 的 KV 缓存分为两部分:
1. **Attention Sinks**4 个初始 Token稳定注意力计算锚定 SoftMax 分布
2. **Rolling KV Cache**(最近 Token负责语言建模的语义内容
**关键设计**:位置编码在 **cache 内部**分配(而非原始文本),这对 RoPE 和 ALiBi 的性能至关重要。
- **无需微调**,直接适用于任何使用相对位置编码的自回归 LLM
- 支持 RoPELlama-2, Falcon, Pythia和 ALiBiMPT
- 与上下文窗口扩展方法**正交**,可互补使用
## 关键结果
- 在 Llama-2 (7/13/70B)、MPT (7/30B)、Falcon (7/40B)、Pythia (2.9/6.9/12B) 上验证
- 稳定语言建模至 **400 万 Token** 以上
- 相比 Sliding Window + Re-computation 加速 **最高 22.2×**
- 4 个初始 Token 即可恢复性能,更多 Token 边际收益递减
## Sink Token 预训练
- 用 1.6 亿参数模型从头预训练验证
- 在所有训练样本前添加一个可学习的专用 **Sink Token** → 只需要这一个 Token 即可稳定流式推理
- 相比之下Vanilla 模型需要 4 个初始 Token 作为 attention sinks
- SoftMax-off-by-OneZero Sink有改善但不够充分
→ 建议未来的 LLM 预训练统一加入 Sink Token
## 概念网络
- [[attention-sinks|注意力汇]] — 核心现象
- [[window-attention|窗口注意力]] — 失败的基线
- [[length-extrapolation|长度外推]] — 问题域
- [[rolling-kv-cache|滚动 KV 缓存]] — StreamingLLM 机制
- [[sink-token|汇 Token]] — 预训练改进
- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关优化
- [[rotary-position-embedding|RoPE]] — 位置编码

View File

@@ -0,0 +1,72 @@
---
title: "Mathematical methods and human thought in the age of AI"
created: 2025-04-15
updated: 2025-04-15
type: paper
tags: [paper, ai-philosophy, mathematics, human-centered-ai, llm, deep-learning]
sources: [raw/papers/tao-ai-mathematical-methods-2026.md]
arXiv: "2603.26524"
authors: [[terence-tao]], [[tanya-klowden]]
published: 2026-03-27
---
# Mathematical methods and human thought in the age of AI
作者:[[terence-tao]], [[tanya-klowden]]
arXiv: [2603.26524](https://arxiv.org/abs/2603.26524) 发表日期2026年3月27日
页数27页
## 摘要
人工智能AI被通俗地命名为一系列计算机工具旨在执行越来越复杂的认知任务。本文探讨了 AI 对传统哲学问题的影响,重点关注其在数学中的应用以及更广泛使用的真实世界结果。
**核心论点**AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进,必须以人类为中心来开发和应用 AI。
## 主要章节
### 1. 定义与背景
- AI 被定义为执行复杂认知任务的计算机工具谱系
- 从 [[llm-applications]] 和扩散模型到传统的 "GOFAI"(如自动定理证明器、国际象棋引擎)
- 缺乏关于为什么要快速开发和部署这些工具的讨论
### 2. 历史类比:这次不同吗?
- 自动化技术并非新现象(如印刷机、计算机、[[formal-systems]]
- 过去技术主要影响输出的传播,而非创造本身
- 现代 AI 可以自动化创造过程本身,造成内容外在形式与创造价值观的前所未有的脱钩
### 3. 数学作为 AI 使用的 "沙盒"
- 数学具有更成熟的基础,适合探索各种假设性场景
- [[ai-alignment]] 模型现在可以解决越来越复杂的数学问题
- AI 可能在某些任务上超越人类专家,同时在基础概念上犯严重错误
### 4. 证明标准与 "Smell Test"
- 数学传统上有客观的证明标准,从欧几里得到二十世纪初的基础
- **"Smell Test"**(气味测试):好的证明不仅展示逻辑推理,还提供理解和洞察
- [[formal-verification]](形式化验证)可以验证正确性,但无法捕捉 "penumbra"(启发式、经验式推理)
### 5. AI 辅助数学的演进
- 数学社区已适应过之前的技术挑战(如四色定理、开普勒猜想的计算机辅助证明)
- 证明负担将越来越多地转向计算机
- 人类数学家可能更专注于 "软性"方面:启发式、动机、实验证据
## 核心观点
1. **AI 是工具的演进**,而非人类的替代
2. **必须以人类为中心**:创新解决方案满足人类需求、提升生活质量、拓展人类思维能力
3. **形式化验证的局限**:只能验证形式正确性,无法传达理解与洞察
4. **"气味测试"的价值**:好的数学不仅是正确的,还是有教育意义和启发性的
## 与其他页面的关联
- [[human-centered-ai]] - 本文核心主题:以人类为中心的 AI 发展
- [[formal-verification]] - 形式化验证的作用与局限
- [[ai-mathematics]] - AI 与数学的交叉
- [[terence-tao]] - 第二作者,著名数学家
- [[llm-applications]] - 大语言模型
- [[automated-theorem-proving]] - 论文提及的 AI 数学证明系统
## 关键引用
> "AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进。"
> "形式化验证只能证明形式化论证建立了形式化数学陈述,但不能排除正式陈述与原始意图陈述之间的翻译错误。"

View File

@@ -0,0 +1,91 @@
---
title: "Thinking with Visual Primitives — 以视觉原语思考"
domain: "Multimodal AI / Visual Reasoning"
tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency]
authors: "DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.)"
year: 2026
source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives"
---
# Thinking with Visual Primitives
> **"Seeing is not reasoning."** — 本文的根本洞见
## 核心问题
当前多模态大模型([[multimodal-large-language-model]])的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了[[perception-gap|感知鸿沟]]Perception Gap模型在复杂空间推理中仍然频繁发生**逻辑崩溃**。
本文指出一个更深层的瓶颈:**[[reference-gap|引用鸿沟]]**Reference Gap——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。
## 方法论贡献
提出 **[[visual-primitives|视觉原语思考]]** 框架将空间标记bounding boxes 和 points提升为「思维的最小单位」直接交织进推理链中。
### 两种视觉原语
| 原语类型 | 功能 | 适用场景 |
|----------|------|----------|
| **Bounding Box** (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 |
| **Point** (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 |
### 训练流程
```
Pretraining → Specialized SFT (FTwG + FTwP)
→ Specialized RL (GRPO per expert)
→ Unified RFT (rejection sampling)
→ On-Policy Distillation (KL consolidation)
```
关键技术:
- **[[specialized-sft|专项监督微调]]**分别训练框原语专家FTwG和点原语专家FTwP避免模式冲突
- **[[specialized-rl|专项强化学习]]**:使用 [[group-relative-policy-optimization|群体相对策略优化]],配合三类奖励模型(格式 RM、质量 RM、准确率 RM
- **[[unified-rft|统一拒绝采样微调]]**:利用专家模型 rollout → 按难度筛选 → 合并训练
- **[[on-policy-distillation|在线策略蒸馏]]**:通过 KL 散度将两个专家的能力蒸馏到统一模型
### 冷启动数据设计
四大任务维度:
1. **[[coarse-grained-counting|粗粒度计数]]** — 类别级目标计数(如「图中有多少只狗」)
2. **[[fine-grained-counting|细粒度计数]]** — 属性/空间约束计数(如「白色的狗有多少只」)
3. **[[maze-navigation|迷宫导航]]** — 确定迷宫可解性,输出验证路径
4. **[[path-tracing|路径追踪]]** — 追踪纠缠曲线,识别端点
### 奖励模型设计
| 奖励类型 | 方法 | 关键创新 |
|----------|------|----------|
| Format RM | 规则检查 | 格式正确性 + 防重复框生成 |
| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 |
| 计数 Accuracy RM | [[exponential-decay-reward|指数衰减奖励]] | 平滑相对误差惩罚 |
| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 |
| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation|双向轨迹评估]] | 前向偏差 + 反向覆盖率 |
## 架构亮点
- **视觉 Token 极致压缩**756×756 图像 → 2,916 patches → 324 visual tokens → **81 KV entries**(压缩比 7056×
- 基于 [[deepseek-v4-flash|DeepSeek-V4-Flash]]284B MoE13B 激活参数)+ [[deepseek-vit|DeepSeek-ViT]]
- [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 将每 m 个视觉 token 压缩为一个 KV entry
## 关键结果
| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 |
|-----------|------|---------|----------------|-------------------|
| CountQA (EM/RA@10) | **66.1/75.1** | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 |
| Pixmo-Count (EM) | **89.2** | 77.2 | 82.9 | 68.7 |
| SpatialMQA (ACC) | **69.4** | 61.9 | 58.2 | 60.6 |
| DS_Maze_Nav (ACC) | **66.9** | 50.6 | 49.4 | 49.8 |
| DS_Path_Trace (ACC) | **56.7** | 46.5 | 41.4 | 30.6 |
| Token per image | **~90** | ~740 | ~1,100 | ~870 |
## 局限与展望
1. 受限于输入分辨率,细粒度场景下偶有视觉原语输出不精确
2. 当前依赖显式触发词激活「视觉原语思考」机制
3. 点原语在拓扑推理中的跨场景泛化能力有限
## 意义
> **多模态智能的未来不在于"看到更多像素",而在于构建语言与视觉之间精确、无歧义的引用桥梁。**
本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径:不是增大视觉 token 预算,而是提升每个 token 的信息密度和指代精度。

View File

@@ -1,3 +1,12 @@
---
title: Hyperagents: Self-Referential Agents with Metacognitive Self-Modification
created: 2025-04-15
updated: 2026-05-01
type: paper
tags: []
sources: []
---
# Hyperagents: Self-Referential Agents with Metacognitive Self-Modification
> **来源**: arXiv:2603.19461 [cs.AI]

View File

@@ -35,5 +35,5 @@ sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md]
## 相关概念
- [[mixture-of-depths-attention]] — MoDA 机制详解
- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战
- [[signal-degradation]] — 深层网络中的信号退化问题
- [[depth-scaling-signal-degradation]] — LLM 深度扩展技术与挑战
- [[depth-scaling-signal-degradation]] — 深层网络中的信号退化问题