20260514:增加新内容
This commit is contained in:
100
papers/bartoldson-tba-2025.md
Normal file
100
papers/bartoldson-tba-2025.md
Normal file
@@ -0,0 +1,100 @@
|
||||
---
|
||||
title: "TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练"
|
||||
authors: ["Brian Bartoldson", "Siddarth Venkatraman", "James Diffenderfer", "Moksh Jain", "Tal Ben-Nun", "Seanie Lee", "Minsu Kim", "Johan Obando-Ceron", "Yoshua Bengio", "Bhavya Kailkhura"]
|
||||
year: 2025
|
||||
arxiv: "2503.18929"
|
||||
venue: "NeurIPS 2025"
|
||||
type: "paper"
|
||||
created: 2026-05-12
|
||||
tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl"]
|
||||
sources: ["https://arxiv.org/abs/2503.18929", "https://github.com/bbartoldson/TBA"]
|
||||
---
|
||||
|
||||
# TBA: 异步轨迹平衡 — 解耦探索与学习
|
||||
|
||||
> **"Decoupling Exploration and Learning"** — 用 GFlowNet 的 off-policy 目标实现 4×–50× 训练加速。
|
||||
|
||||
## 核心问题
|
||||
|
||||
标准 on-policy RL 方法(PPO、[[grpo|GRPO]]、RLOO)存在**串行瓶颈**:数据生成和政策更新必须顺序进行,GPU 利用率低。
|
||||
|
||||
异步 RL 可解耦两者,但 off-policy 数据会导致性能下降——现有方法(Async DPO、Proximal RLOO)在策略偏离增大时性能显著衰退。
|
||||
|
||||
## TBA 框架
|
||||
|
||||
[[tba|TBA]] 将 [[gflownet-fine-tuning|GFlowNet]] 的 [[trajectory-balance-objective|Trajectory Balance (TB)]] 目标集成到 [[asynchronous-rl-llm|异步分布式 RL]] 框架中:
|
||||
|
||||
```
|
||||
┌──────────────────────────────────────────┐
|
||||
│ S EARCHER 节点 (N个) T RAINER 节点 │
|
||||
│ ┌─────────────┐ ┌─────────────┐ │
|
||||
│ │ vLLM 推理 │──◇──▶ │ Replay │ │
|
||||
│ │ 本地策略πθ' │ 轨迹 │ Buffer │ │
|
||||
│ │ 奖励评估 │ │ (D_global) │ │
|
||||
│ └─────────────┘ │ ↓ │ │
|
||||
│ ↑ 每k步同步 │ TB Loss更新 │ │
|
||||
│ └─────────────────┤ 策略权重 │ │
|
||||
│ └─────────────┘ │
|
||||
└──────────────────────────────────────────┘
|
||||
```
|
||||
|
||||
### 关键设计
|
||||
|
||||
**1. Searcher-Trainer 解耦**:Searcher 持续生成响应(不等待训练),Trainer 持续训练(不等待生成),仅在每 k 步同步一次。
|
||||
|
||||
**2. [[replay-buffer-rl-llm|Global Replay Buffer]]**:存储所有历史轨迹(x, y, r),Trainer 从中采样进行 off-policy 训练。
|
||||
|
||||
**3. [[reward-recency-sampling|双重采样策略]]**:概率 m 采样最近(recency)数据 → 近似 on-policy;概率 1−m 采用奖励优先(reward-prioritized)采样 → 探索高奖励区域。
|
||||
|
||||
### TB 目标公式
|
||||
|
||||
$$L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2$$
|
||||
|
||||
其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$,$Z(x)$ 用 K-sample batch estimate(VarGrad)替代学习。
|
||||
|
||||
**关键性质**:TB 是 **off-policy 兼容** 的——训练时 $y$ 可从任意分布采样。
|
||||
|
||||
## 实验结果
|
||||
|
||||
### 数学推理 (GSM8K, RhoMath-1B)
|
||||
| 方法 | 加速比 | 准确率 |
|
||||
|------|--------|--------|
|
||||
| VinePPO | — | ~53% |
|
||||
| TBA | **50×** | **55%** |
|
||||
|
||||
### 偏好微调 (TL;DR, Pythia 410M)
|
||||
- TBA 在 16 步 off-policy 设置下 **超越 on-policy Online DPO**
|
||||
- 定义新的 KL vs. Win-Rate **Pareto 前沿**
|
||||
|
||||
### 自动红队测试 (GPT-2, Llama 3.2 1B)
|
||||
- TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA
|
||||
- 增加 Searcher 数量持续提升攻击成功率和多样性
|
||||
|
||||
### 大规模模型 (MATH, Qwen 2.5 7B)
|
||||
- TBA′ 在高度 off-policy 设置下(10 步 stale)**显著优于 Dr. GRPO**
|
||||
|
||||
## 概念网络
|
||||
|
||||
```
|
||||
TBA 框架
|
||||
├── 算法基础
|
||||
│ ├── [[trajectory-balance-objective]]: Off-policy TB 目标
|
||||
│ │ └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]]
|
||||
│ └── KL 正则化 RL: π* ∝ π_ref · exp(r/β)
|
||||
├── 系统架构
|
||||
│ ├── [[asynchronous-rl-llm]]: 解耦探索与学习
|
||||
│ ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer
|
||||
│ └── [[replay-buffer-rl-llm]]: Global replay buffer
|
||||
├── 采样策略
|
||||
│ └── [[reward-recency-sampling]]: 奖励 vs 最近度
|
||||
└── 对比基线
|
||||
├── [[grpo]]: On-policy 基线
|
||||
└── [[off-policy-llm-post-training]]: Off-policy RL 范式
|
||||
```
|
||||
|
||||
## 论文信息
|
||||
|
||||
- **arXiv**: [2503.18929](https://arxiv.org/abs/2503.18929)
|
||||
- **代码**: [bbartoldson/TBA](https://github.com/bbartoldson/TBA)
|
||||
- **机构**: LLNL × Mila × Université de Montréal × KAIST × CIFAR
|
||||
- **发表**: NeurIPS 2025
|
||||
@@ -10,7 +10,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
|
||||
# Memory Caching: RNNs with Growing Memory
|
||||
|
||||
**arXiv:** 2602.24281 [cs.LG] · 2026-02-27
|
||||
**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
|
||||
**作者:** [[behrouz-memory-caching-rnn]], Zeman Li, Yuan Deng, Peilin Zhong, [[behrouz-memory-caching-rnn]], [[behrouz-memory-caching-rnn]]
|
||||
|
||||
## 核心贡献
|
||||
|
||||
@@ -35,7 +35,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[rnn-memory-caching]] — Memory Caching 技术详解
|
||||
- [[memory-caching-rnn]] — Memory Caching 技术详解
|
||||
- [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案
|
||||
|
||||
## 来源
|
||||
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: ClawLess: AI 代理安全模型
|
||||
created: 2025-04-15
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# ClawLess: AI 代理安全模型
|
||||
|
||||
**作者**: Hongyi Lu, Nian Liu, Shuai Wang, Fengwei Zhang
|
||||
@@ -49,13 +58,13 @@ ClawLess建立了一个细粒度的安全模型,捕获系统多个领域中的
|
||||
|
||||
本文涉及以下关键概念:
|
||||
|
||||
- [[ClawLess]] - AI代理安全框架
|
||||
- [[AI代理安全]] - 自主AI系统的安全挑战
|
||||
- [[形式化安全模型]] - 使用数学方法定义的安全规范
|
||||
- [[用户空间内核]] - 在用户空间实现的内核功能
|
||||
- [[BPF系统调用拦截]] - 使用BPF技术拦截和控制系统调用
|
||||
- [[安全容器]] - 提供隔离和保护的容器技术
|
||||
- [[最坏情况威胁模型]] - 假设系统可能面临的最坏攻击场景
|
||||
- [[clawless]] - AI代理安全框架
|
||||
- [[ai-agent-security]] - 自主AI系统的安全挑战
|
||||
- [[formal-security-model]] - 使用数学方法定义的安全规范
|
||||
- [[userspace-kernel]] - 在用户空间实现的内核功能
|
||||
- [[bpf-syscall-interception]] - 使用BPF技术拦截和控制系统调用
|
||||
- [[secure-containers]] - 提供隔离和保护的容器技术
|
||||
- [[worst-case-threat-model]] - 假设系统可能面临的最坏攻击场景
|
||||
|
||||
## 技术实现
|
||||
|
||||
@@ -82,9 +91,9 @@ ClawLess为保护系统免受潜在恶意自主AI代理的攻击提供了原则
|
||||
|
||||
## 相关论文
|
||||
|
||||
- [[ACE-LLM集成应用系统安全架构]]
|
||||
- [[IsolateGPT-LLM代理系统执行隔离架构]]
|
||||
- [[NeuroFilter-对话LLM代理隐私护栏]]
|
||||
- [[ai-agent-security]]
|
||||
- [[userspace-kernel]]
|
||||
- [[secure-containers]]
|
||||
|
||||
## 参考文献
|
||||
|
||||
|
||||
83
papers/dai-mathforge-2026.md
Normal file
83
papers/dai-mathforge-2026.md
Normal file
@@ -0,0 +1,83 @@
|
||||
---
|
||||
title: "MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写"
|
||||
authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"]
|
||||
year: 2026
|
||||
arxiv: "2601.20614"
|
||||
venue: "ICLR 2026"
|
||||
type: "paper"
|
||||
created: 2026-05-12
|
||||
tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"]
|
||||
sources: ["https://arxiv.org/abs/2601.20614", "https://github.com/AMAP-ML/MathForge"]
|
||||
---
|
||||
|
||||
# MathForge: Harder Is Better
|
||||
|
||||
> **"Harder is Better"** — 从算法和数据双重视角,通过聚焦更困难的问题来提升数学推理能力。
|
||||
|
||||
## 核心问题
|
||||
|
||||
RLVR(可验证奖励强化学习)中,现有方法系统性**忽视了更困难的问题**:
|
||||
|
||||
- **算法层面**:GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大,对更难(p 接近 0)和更简单(p 接近 1)的问题都被抑制
|
||||
- **数据层面**:数据增强主要关注多样性,没有系统性地**提高内在难度**
|
||||
|
||||
**核心洞察**:难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握,同时提供至少一个正确答案用于定向学习。
|
||||
|
||||
## MathForge 框架
|
||||
|
||||
MathForge 是一个**双轨协同框架**:
|
||||
|
||||
### 算法轨:[[dgpo|DGPO]]
|
||||
|
||||
1. **[[dgae|DGAE]]**:用 MAD(平均绝对偏差)替代 std 作为归一化分母,使得每个问题的总更新幅度恒为 G(与准确率无关)
|
||||
2. **[[dqw|DQW]]**:用 softmax 温度加权显式优先学习更难的问题
|
||||
|
||||
### 数据轨:[[mqr|MQR]]
|
||||
|
||||
三种策略改写问题,同时**保持原始答案不变**:
|
||||
| 策略 | 描述 | 挑战的能力 |
|
||||
|------|------|-----------|
|
||||
| Background | 添加叙事背景(噪声) | 从噪声中识别关键数学信息 |
|
||||
| Term | 发明抽象数学术语 | 理解抽象数学概念 |
|
||||
| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 |
|
||||
|
||||
## 关键理论发现
|
||||
|
||||
Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时达到最大值 → **难度不平衡**,详见 [[update-magnitude-imbalance]]
|
||||
|
||||
Theorem 2: DGAE 的总更新幅度恒为 G → **难度平衡**
|
||||
|
||||
## 实验结果
|
||||
|
||||
在 Qwen2.5-Math-7B 上的 6 个基准测试结果:
|
||||
|
||||
| 方法 | 平均分 | ΔGRPO |
|
||||
|------|--------|-------|
|
||||
| GRPO | 37.61 | — |
|
||||
| DGPO | 39.79 | +2.18 |
|
||||
| MQR | 41.04 | +3.43 |
|
||||
| **MathForge** | **42.17** | **+4.56** |
|
||||
|
||||
跨模型验证:在 4 个不同模型族(Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B)上均取得一致增益,DGPO+MQR 提升范围 2.86–4.45%。
|
||||
|
||||
## 关键概念网络
|
||||
|
||||
```
|
||||
MathForge
|
||||
├── 算法轨道
|
||||
│ ├── [[dgpo]]: 难度感知 GRPO
|
||||
│ │ ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
|
||||
│ │ └── [[dqw]]: Softmax 难度加权 → 优先困难问题
|
||||
│ └── [[grpo]]: 基线方法(存在 [[update-magnitude-imbalance|隐含不平衡]])
|
||||
├── 数据轨道
|
||||
│ └── [[mqr]]: 多维度问题改写
|
||||
│ └── [[math-question-reformulation]]: Background / Term / Sub-Problem
|
||||
└── 理论基础
|
||||
└── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式
|
||||
```
|
||||
|
||||
## 论文信息
|
||||
|
||||
- **arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614)
|
||||
- **代码**: [AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
|
||||
- **机构**: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学
|
||||
@@ -65,4 +65,4 @@ tags: [large-language-models, mixture-of-experts, long-context, architecture, tr
|
||||
---
|
||||
|
||||
*Added: 2026-04-27 | Source: DeepSeek-AI Technical Report*
|
||||
*See raw archive: [[../raw/papers/deepseek-ai-deepseek-v4-2026]]*
|
||||
*See raw archive: [[deepseek-v4-million-token-context]]*
|
||||
|
||||
95
papers/dou-cl-bench.md
Normal file
95
papers/dou-cl-bench.md
Normal file
@@ -0,0 +1,95 @@
|
||||
---
|
||||
title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: [benchmark, llm, alignment]
|
||||
sources: [raw/papers/dou-cl-bench-2026.md]
|
||||
---
|
||||
|
||||
# CL-bench: A Benchmark for Context Learning
|
||||
|
||||
> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
|
||||
|
||||
## 核心问题
|
||||
|
||||
当前 LLM 擅长利用预训练知识回答 prompt,但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**(上下文学习),并构建了 CL-bench 基准来评估它。
|
||||
|
||||
## 方法论
|
||||
|
||||
### 基准规模
|
||||
- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
|
||||
- 全部由经验丰富的领域专家人工策展
|
||||
- 每个上下文平均耗时约 20 小时专家工作量
|
||||
- 每个任务平均 16.6 个 rubrics
|
||||
|
||||
### 污染防护
|
||||
三种策略确保任务**不能仅靠预训练知识**解决:
|
||||
1. **虚构创造**:发明完整的虚构法律体系、编程语言等
|
||||
2. **修改现有内容**:改变历史事件、科学定义、技术文档
|
||||
3. **纳入小众/新兴内容**:前沿研究、新发布产品手册、窄领域专业知识
|
||||
|
||||
上下文无关消融实验:无上下文时模型解决率 **< 1%**
|
||||
|
||||
### 四类上下文(→18 子类)
|
||||
|
||||
| 类别 | 占比 | 子类数 | 核心挑战 |
|
||||
|------|------|--------|---------|
|
||||
| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用(法律、金融、科学) |
|
||||
| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行(博弈、数学、编程) |
|
||||
| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行(产品手册、工作流) |
|
||||
| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |
|
||||
|
||||
### 评估方式
|
||||
使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求:**只有通过所有 rubrics 才算解决任务**。评估可靠性:inter-verifier 一致性 > 90%。
|
||||
|
||||
## 十模型评估结果
|
||||
|
||||
| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
|
||||
|------|------|---------|---------|---------|---------|
|
||||
| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
|
||||
| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
|
||||
| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
|
||||
| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
|
||||
| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
|
||||
| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
|
||||
| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
|
||||
| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
|
||||
| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
|
||||
| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
|
||||
| **平均** | **17.2%** | — | — | — | — |
|
||||
|
||||
## 核心发现
|
||||
|
||||
### 1. Context Learning 是当前 LLM 的根本瓶颈
|
||||
十模型平均仅 17.2%,最佳仅 23.7%——**无模型超过 30%**
|
||||
|
||||
### 2. 类别间性能差异巨大
|
||||
- 领域知识推理最易(25.3%),经验发现与模拟最难(~11%)
|
||||
- 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15%
|
||||
|
||||
### 3. 不是长上下文问题
|
||||
任务难度与上下文长度**无强相关性**——推理质量才决定成败(与 CL-bench Life 一致)
|
||||
|
||||
### 4. 专业领域上下文 vs 真实生活上下文
|
||||
本文是 CL-bench 系列的**首篇**,关注专业领域上下文。后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文,两者互补。
|
||||
|
||||
## 与 CL-bench Life 的关系
|
||||
|
||||
| 维度 | CL-bench | CL-bench Life |
|
||||
|------|---------|---------------|
|
||||
| 上下文类型 | 专业领域(虚构法律、编程、金融) | 真实生活(群聊、笔记、行为日志) |
|
||||
| 上下文数 | 500 | 405 |
|
||||
| 任务数 | 1,899 | 405 |
|
||||
| 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 |
|
||||
| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
|
||||
| 核心挑战 | 归纳式推理(经验发现) | 混乱上下文推理(通信社交) |
|
||||
|
||||
## 相关概念
|
||||
- [[context-learning]] — 上下文学习能力定义
|
||||
- [[cl-bench-life]] — CL-bench Life(后续工作)
|
||||
- [[real-life-context-learning]] — 真实生活上下文学习
|
||||
- [[domain-knowledge-reasoning]] — 领域知识推理
|
||||
- [[rule-system-application]] — 规则系统应用
|
||||
- [[procedural-task-execution]] — 程序性任务执行
|
||||
- [[empirical-discovery-simulation]] — 经验发现与模拟
|
||||
70
papers/elf-embedded-language-flows.md
Normal file
70
papers/elf-embedded-language-flows.md
Normal file
@@ -0,0 +1,70 @@
|
||||
---
|
||||
title: "ELF: Embedded Language Flows"
|
||||
created: 2026-05-13
|
||||
updated: 2026-05-13
|
||||
type: paper
|
||||
arxiv: "2605.10938"
|
||||
authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
|
||||
venue: "Tech Report (2026)"
|
||||
tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2605.10938
|
||||
- https://github.com/lillian039/ELF
|
||||
---
|
||||
|
||||
# ELF: Embedded Language Flows
|
||||
|
||||
**MIT | 2026 | arXiv:2605.10938**
|
||||
|
||||
Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**
|
||||
|
||||
## 核心问题
|
||||
|
||||
连续扩散语言模型(DLM)能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题?
|
||||
|
||||
## 方法
|
||||
|
||||
ELF 提出了一种**极简连续 DLM 设计**:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过**共享权重网络**映射回离散 token。
|
||||
|
||||
### 核心设计
|
||||
|
||||
1. **Flow Matching 框架**:采用连续时间 [[rectified-flows]](线性插值路径:z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。
|
||||
|
||||
2. **x-prediction 参数化**:网络直接预测干净的嵌入 x̂(而非速度 v),使去噪(MSE)和解码(CE)两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。
|
||||
|
||||
3. **共享权重离散化(Shared-Weight Discretization)**:单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作:
|
||||
- **Denoise mode (t<1)**:MSE loss,预测干净嵌入
|
||||
- **Decode mode (t=1)**:CE loss,经 unembedding 层输出离散 token
|
||||
|
||||
无需额外 decoder。参考 [[shared-weight-discretization]]。
|
||||
|
||||
4. **Classifier-Free Guidance**:由于 ELF 全程在连续空间操作,CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号,使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。
|
||||
|
||||
5. **ODE/SDE 采样器**:支持 ODE(欧拉求解器)和 SDE 启发式采样(每步注入小噪声)。参考 [[sde-sampler-language]]。
|
||||
|
||||
### 训练流程
|
||||
|
||||
- 编码:冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间,经 bottleneck 压缩到 128-d
|
||||
- 去噪分支(80% 批次):随机采样 t,线性插值构造 z_t,MSE 训练
|
||||
- 解码分支(20% 批次):t=1,对 z 加 token 级 corruption,CE 训练
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. **105M ELF-B 超越 170M 基线**(MDLM, Duo, FLM, LangFlow),训练 token 仅 10%
|
||||
2. **32 步采样**即可达到基线 1024 步的质量,Gen. PPL 大幅降低
|
||||
3. 无需蒸馏即可与蒸馏版基线竞争
|
||||
4. 在机器翻译(WMT14 De-En)和摘要(XSum)任务上也达到最优
|
||||
5. CFG 配合自条件化显著提升无条件生成质量
|
||||
6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
|
||||
|
||||
## 概念网络
|
||||
|
||||
核心概念:[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]]
|
||||
|
||||
支撑技术:[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]
|
||||
|
||||
评估指标:[[generative-perplexity]]
|
||||
|
||||
## 意义
|
||||
|
||||
ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计(无额外 decoder、无逐步 CE 监督)就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术(CFG、蒸馏、高效采样)的直通道。
|
||||
@@ -1,9 +1,18 @@
|
||||
---
|
||||
title: "哥德尔不完备定理教程"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# 哥德尔不完备定理教程
|
||||
|
||||
- **类型**: 综合教程
|
||||
- **年份**: 2026年4月
|
||||
- **目标读者**: 数学系本科生
|
||||
- **原始文件**: [[raw/papers/godel-tutorial-2026|原始存档]]
|
||||
- **原始文件**: [[godel-incompleteness-tutorial|原始存档]]
|
||||
|
||||
## 中文摘要
|
||||
|
||||
|
||||
53
papers/he-urlvr-sharpening-2026.md
Normal file
53
papers/he-urlvr-sharpening-2026.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "How Far Can Unsupervised RLVR Scale LLM Training?"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# How Far Can Unsupervised RLVR Scale LLM Training?
|
||||
|
||||
- **arXiv**: 2603.08660
|
||||
- **作者**: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab)
|
||||
- **会议**: ICLR 2026
|
||||
- **标签**: #RLVR #unsupervised-learning #reward-hacking
|
||||
|
||||
## 中文摘要
|
||||
|
||||
URLVR(无监督可验证奖励强化学习)被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现:**所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布**。这个机制在模型自信且正确时奏效,但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式,崩溃时间由模型先验决定而非工程选择。作者提出 [[model-collapse-step|Model Collapse Step]] 作为衡量模型先验的实用指标,并探索 [[self-verification-rewards|self-verification]] 作为外部奖励路径的突破。
|
||||
|
||||
## 核心问题
|
||||
|
||||
监督 RLVR(DeepSeek-R1、Gemini 2.5、Qwen3)很强大,但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平,获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。**本文提出根本问题:内在 URLVR 真的能规模化 LLM 训练吗?**
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
1. **URLVR 分类法**: [[certainty-based-rewards|确定性奖励]] vs [[ensemble-based-rewards|集成奖励]],前者从策略置信度(logits/熵)推导,后者从多样本一致性(多数投票)推导
|
||||
2. **[[intrinsic-rewards-sharpening|Sharpening 统一理论]]**: 从 KL 正则化 RL 目标出发,推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好,不发现新知识
|
||||
3. **Rise-then-Fall 定律**: 无论内在方法具体设计如何,始终先升后降,崩溃不可避免
|
||||
4. **[[model-collapse-step|Model Collapse Step (MCS)]]**: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数,比 pass@k 更准确,无需 ground truth
|
||||
|
||||
## 关键发现
|
||||
|
||||
| 发现 | 含义 |
|
||||
|------|------|
|
||||
| 内在奖励统一锐化初始分布 | 无法超越模型已有知识 |
|
||||
| Rise-then-Fall 是必然模式 | 崩溃时间反映模型先验 |
|
||||
| MCS 预测 RL 可训练性 | 低成本基模型选择替代方案 |
|
||||
| [[self-verification-rewards|Self-verification]] 无崩溃 | 外部奖励可能突破天花板 |
|
||||
|
||||
## 相关概念
|
||||
- [[test-time-training-rl]]
|
||||
- [[rlvr-unified-framework]]
|
||||
- [[confidence-correctness-alignment]]
|
||||
|
||||
- [[unsupervised-rlvr]] — URLVR 范式定义
|
||||
- [[intrinsic-rewards-sharpening]] — Sharpening 机制(理论核心)
|
||||
- [[model-collapse-step]] — MCS 指标
|
||||
- [[self-verification-rewards]] — 外部奖励突破
|
||||
- [[reward-hacking-llm]] — 奖励黑客与模型崩溃
|
||||
- [[certainty-based-rewards]] — 确定性奖励
|
||||
- [[ensemble-based-rewards]] — 集成奖励/多数投票
|
||||
- [[generation-verification-asymmetry]] — 生成-验证不对称性
|
||||
88
papers/hunyuan-team-cl-bench-life.md
Normal file
88
papers/hunyuan-team-cl-bench-life.md
Normal file
@@ -0,0 +1,88 @@
|
||||
---
|
||||
title: "CL-Bench Life: 真实生活上下文学习基准"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: [benchmark, llm, alignment, architecture]
|
||||
sources: [raw/papers/hunyuan-team-cl-bench-life-2026.md]
|
||||
---
|
||||
|
||||
# CL-Bench Life: Can Language Models Learn From Real-Life Context?
|
||||
|
||||
> Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29
|
||||
|
||||
## 核心问题
|
||||
|
||||
当 AI 助手从专业场景进入日常生活,它们面对的上下文不再是结构化文档,而是**混乱、碎片化、深植于个人与社会经验**的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务?
|
||||
|
||||
## 方法论
|
||||
|
||||
CL-bench Life 是一个**全人工策展**的基准,包含:
|
||||
- **405 个上下文-任务对** + **5,348 个验证细则** (rubrics)
|
||||
- 每个任务要求模型仅根据提供的上下文推理求解,无需外部检索
|
||||
- 59.8% 的任务为多轮交互,更真实反映日常使用场景
|
||||
|
||||
### 三类上下文
|
||||
|
||||
| 类别 | 占比 | 典型场景 |
|
||||
|------|------|---------|
|
||||
| **沟通与社交互动** | 33.3% | 私聊、群聊、会议纪要、论坛讨论 |
|
||||
| **碎片化信息与修订** | 33.3% | 个人笔记、RSS流、文档编辑历史 |
|
||||
| **行为记录与活动轨迹** | 33.3% | 游戏日志、数字足迹、日常健身记录 |
|
||||
|
||||
每类下含 3 个子类,共 9 个子类,均衡分布避免评估偏差。
|
||||
|
||||
### 评估方式
|
||||
使用 judge model(LLM-as-judge)基于任务级 rubrics 自动评估。rubrics 以 ✅(必须覆盖)和 ❌(不得出现)格式列出。
|
||||
|
||||
## 核心发现
|
||||
|
||||
### 1. 真实生活上下文学习极度困难
|
||||
- 最佳模型 **GPT-5.4**:仅 **19.3%** 解决率
|
||||
- 十模型平均:**13.8%**
|
||||
- 这意味着**即使最强模型,每 5 个日常上下文任务只能解决不到 1 个**
|
||||
|
||||
### 2. 不是"长上下文"问题
|
||||
- 任务解决率与上下文长度**无强相关性**
|
||||
- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分(23.1%)
|
||||
- 根本困难在于**对混乱、弱结构上下文的推理**,而非上下文长度
|
||||
|
||||
### 3. 推理有帮助,但收益递减
|
||||
- 启用推理模式普遍提升性能,尤其在行为记录类任务上
|
||||
- 但边际增益随推理 token 增加而递减
|
||||
- **token 效率差异巨大**:Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%,Seed-2.0-Pro 需 ~6.7K 达到 15%
|
||||
|
||||
### 4. 上下文误用是首要失败模式
|
||||
- **76-84%** 的错误是"上下文误用"(读了但没读懂/没推对)
|
||||
- 仅 36-45% 的错误涉及"上下文忽略"
|
||||
- 格式错误和直接拒答很少(<3%)
|
||||
- **核心挑战**:模型"看到了"上下文但**无法正确推理其中的信息**
|
||||
|
||||
### 5. 群聊场景的"身份混乱"
|
||||
在群聊场景中,模型频繁**混淆发言者身份、别名指代、角色关系**,导致对整个对话背景的理解出现根本性错误。
|
||||
|
||||
### 6. 最难子类:自我追踪轨迹
|
||||
"行为记录 → 自我追踪轨迹"(如健身日志)是所有子类中最难的——最佳模型仅 **10.4%**
|
||||
|
||||
## 十模型评估结果
|
||||
|
||||
| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 |
|
||||
|------|---------|---------|---------|---------|
|
||||
| GPT-5.4 (High) | **19.3%** | 30.4% | 17.8% | 34.1% |
|
||||
| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% |
|
||||
| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% |
|
||||
| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% |
|
||||
| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% |
|
||||
| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% |
|
||||
| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% |
|
||||
| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% |
|
||||
| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% |
|
||||
| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% |
|
||||
|
||||
## 相关概念
|
||||
- [[cl-bench-life]] — CL-bench Life 基准设计
|
||||
- [[real-life-context-learning]] — 真实生活上下文学习能力
|
||||
- [[context-misuse]] — 上下文误用:读了但无法正确推理
|
||||
- [[messy-context-reasoning]] — 混乱上下文推理
|
||||
- [[llm-evaluation-benchmarks]] — LLM 评测基准体系
|
||||
- [[long-context-understanding]] — 长上下文理解能力
|
||||
62
papers/laban-llms-corrupt-documents-delegate.md
Normal file
62
papers/laban-llms-corrupt-documents-delegate.md
Normal file
@@ -0,0 +1,62 @@
|
||||
---
|
||||
title: "LLMs Corrupt Your Documents When You Delegate"
|
||||
created: 2026-05-14
|
||||
type: paper
|
||||
tags: ["delegated-work", "document-editing", "evaluation", "benchmark", "long-horizon", "backtranslation"]
|
||||
sources: ["https://arxiv.org/abs/2604.15597"]
|
||||
---
|
||||
|
||||
# LLMs Corrupt Your Documents When You Delegate
|
||||
|
||||
**Philippe Laban, Tobias Schnabel, Jennifer Neville** — Microsoft Research
|
||||
arXiv 2604.15597 (cs.CL, cs.HC), April 2026
|
||||
|
||||
## 核心问题
|
||||
|
||||
当我们把文档编辑工作委托给 LLM 时,模型会**静默地破坏文档内容**。即使是前沿模型(Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4),在 20 次交互后平均损坏约 25% 的文档内容。更关键的是,这些错误是**稀疏但严重**的:不是"千刀万剐"式的小错误累积,而是少数几次关键失败导致了约 80% 的总损坏。
|
||||
|
||||
## 方法论:[[backtranslation-round-trip-relay]]
|
||||
|
||||
论文提出 [[delegate-52]] 基准,包含 310 个工作环境、覆盖 52 个专业领域。评估使用 [[backtranslation-round-trip-relay]] 方法——每次编辑任务都是可逆的(正向编辑 + 反向编辑 = 回译),完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay,衡量 [[round-trip-reconstruction-score|RS@k]]。
|
||||
|
||||
## 关键发现
|
||||
|
||||
### 1. [[document-degradation]] 普遍存在
|
||||
- 所有 19 个模型都出现文档退化,无一例外
|
||||
- 前沿模型 25% 退化,平均 50% 退化
|
||||
- Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域
|
||||
|
||||
### 2. [[critical-failures|关键失败]] 而非渐进退化
|
||||
- 约 80% 的退化来自少数几次关键错误(单次回译丢失 10-30+ 分)
|
||||
- 弱模型的退化主要来自**删除内容**,前沿模型的退化主要来自**内容损坏**
|
||||
|
||||
### 3. Agentic 工具使用**未改善**表现
|
||||
- 4 个测试模型在工具模式下平均额外退化 6%
|
||||
- 工具使用带来 2-5x 输入 token 开销
|
||||
- 更好的模型倾向于使用 code execution 而非文件重写(GPT 5.4: 45% vs GPT 4.1: 10%)
|
||||
|
||||
### 4. 复合效应
|
||||
- [[distractor-context|干扰文档]] 的危害随着交互长度增加而放大
|
||||
- 文档大小和交互长度的负效应**乘性叠加**(5 倍放大)
|
||||
- 扩展到 100 次交互后所有模型仍持续退化,无平台迹象
|
||||
|
||||
## 领域差异
|
||||
|
||||
模型在编程领域(Python, DBSchema)表现更好,在自然语言和小众领域(Earnings Statements, Music Notation)表现更差。高重复性和结构化密度的领域(Molecule, Chess)表现更好。
|
||||
|
||||
## 意义
|
||||
|
||||
- **对开发者**:52 个领域可视为 "mini-gym",用于通过 cycle consistency 训练模型
|
||||
- **对研究者**:需要更多 [[long-horizon-evaluation|长视界评估]] 基准,短交互表现不能预测长视界表现
|
||||
- **对用户**:模型能力遵循 [[jagged-frontier|锯齿前沿]],在 Python 中可靠不等于在其他领域中可靠
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[delegate-52]] — 基准本身
|
||||
- [[backtranslation-round-trip-relay]] — 评估方法论
|
||||
- [[document-degradation]] — 核心发现
|
||||
- [[critical-failures]] — 错误结构分析
|
||||
- [[delegated-work]] — 交互范式
|
||||
- [[long-horizon-evaluation]] — 评估哲学
|
||||
- [[domain-specific-evaluation]] — 评估实现
|
||||
- [[distractor-context]] — 实验设计要素
|
||||
48
papers/liu-koopa-2023.md
Normal file
48
papers/liu-koopa-2023.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "Koopa: Koopman 预测器驱动的非平稳时间序列学习"
|
||||
created: 2026-05-11
|
||||
updated: 2026-05-11
|
||||
type: paper
|
||||
arxiv: "2305.18803"
|
||||
tags: [time-series, koopman-theory, deep-learning, forecasting]
|
||||
sources: ["https://arxiv.org/abs/2305.18803"]
|
||||
---
|
||||
|
||||
# Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors
|
||||
|
||||
## 概述
|
||||
|
||||
Koopa 是清华龙明盛组发表于 NeurIPS 2023 的时序预测模型,利用 [[koopman-theory|Koopman 理论]] 从根本上处理[[non-stationary-time-series|非平稳时间序列]]的时变动力学。核心创新:用 [[fourier-filter-dynamics|Fourier Filter]] 解耦时变/时不变分量,再用 [[koopman-predictor|Koopman 预测器]] 在测量空间中线性推进各自动力学。
|
||||
|
||||
## 核心问题
|
||||
|
||||
真实世界时间序列的 [[non-stationary-time-series|非平稳性]] 导致时变统计特性和时间依赖在不同时段间漂移,训练-推理分布鸿沟巨大。先前方法只从架构层面缓解症状,未从理论基础处理时变模式。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### Koopman 理论 + Fourier Filter
|
||||
|
||||
[[koopman-theory|Koopman 理论]] 将非线性动力学映射到无限维线性空间:K ∘ g(x_t) = g(x_{t+1})。[[fourier-filter-dynamics|Fourier Filter]] 将序列分解为时变(高频)和时不变(低频)分量,各自送入独立的 [[koopman-predictor|Koopman 预测器]]。
|
||||
|
||||
### Koopman Predictor
|
||||
|
||||
[[koopman-predictor|Koopman 预测器]] 的核心:
|
||||
- **测量函数学习**:用深度网络找到理想 Koopman 嵌入 g(x_t)
|
||||
- **线性算子刻画**:Koopman 算子作为隐式转移的线性肖像
|
||||
- **上下文感知**:在局部时间邻域计算算子,捕捉 [[time-variant-dynamics|时变动力学]] 的强局部性
|
||||
|
||||
### 层级架构
|
||||
|
||||
可堆叠的 Koopa Block:Fourier Filter → Koopman Predictor,逐层解耦和利用层级动力学。深度残差结构实现端到端优化,无需先前方法的[[koopman-autoencoder|重构损失绑定]]。
|
||||
|
||||
## 关键结果
|
||||
|
||||
- SOTA 竞争性能
|
||||
- **77.3% 训练时间节省 + 76.0% 内存节省**
|
||||
- 可利用真实观测滚动预测,扩展预测范围
|
||||
|
||||
## 与现有 Wiki 的关联
|
||||
|
||||
- [[koopman-theory|Koopman 理论]] 与 [[probabilistic-method|概率方法]] 类似——提供将复杂问题映射到更易处理空间的数学框架
|
||||
- [[dynamic-mode-decomposition|DMD]] 作为 Koopman 理论的标准数值方法
|
||||
- 时序预测与 [[reinforcement-learning-trading|强化学习交易]] 中的市场预测有天然联系
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: "大语言模型注意力机制全面分析"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# 大语言模型注意力机制全面分析
|
||||
|
||||
- **类型**: 综述论文
|
||||
|
||||
54
papers/ramsey-numbers-survey.md
Normal file
54
papers/ramsey-numbers-survey.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "拉姆齐数的数学综述"
|
||||
created: 2026-05-11
|
||||
updated: 2026-05-11
|
||||
type: survey
|
||||
tags: [ramsey-theory, combinatorics, graph-theory, additive-combinatorics, mathematical-logic]
|
||||
sources: ["用户上传 Markdown (2025-06)"]
|
||||
---
|
||||
|
||||
# 拉姆齐数的数学综述
|
||||
|
||||
## 概述
|
||||
|
||||
本文是 [[ramsey-theory|拉姆齐理论]] 的全面综述,覆盖 [[ramsey-numbers|拉姆齐数]] 的数学理论、已知结果、证明技术、推广变体及跨学科应用。核心理念:「完全的无序是不可能的」。
|
||||
|
||||
## 核心问题
|
||||
|
||||
[[ramsey-numbers|拉姆齐数]] R(r,s) 精确刻画了"足够大"的数学内涵:在任何足够大的结构中,必然出现规则性子结构。然而,仅有少数小的 [[diagonal-ramsey-number|对角拉姆齐数]] 被精确确定,更一般的 R(k) 上下界之间存在巨大指数鸿沟(底数 √2 到 4)。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### 概率方法
|
||||
|
||||
[[probabilistic-method|概率方法]](Erdős 1947)是组合数学最重要的创新之一:通过随机图以正概率满足性质来证明存在性,避免了显式构造。[[lovasz-local-lemma|Lovász 局部引理]]是其强力推广。
|
||||
|
||||
### 构造性与代数方法
|
||||
|
||||
[[paley-graph|Paley 图]] 等有限域代数构造提供可验证的下界;[[szemerédi-regularity-lemma|Szemerédi 正则性引理]](1975)将大图分解为拟随机子结构,是极值组合学的核心工具。
|
||||
|
||||
### 动力系统与遍历方法
|
||||
|
||||
[[furstenberg-correspondence|Furstenberg 对应原理]] 将组合问题转化为动力系统的多重递推问题,开辟了组合数论与遍历理论的联系。
|
||||
|
||||
## 关键推广
|
||||
|
||||
- [[hypergraph-ramsey-number|超图拉姆齐数]]:k-一致超图情形,增长涉及迭代指数塔
|
||||
- [[geometric-ramsey-theory|几何拉姆齐理论]]:幸福结局问题、凸多边形存在性
|
||||
- [[van-der-waerden-theorem|van der Waerden 定理]]:任意着色下存在单色等差数列
|
||||
- [[paris-harrington-theorem|巴黎-哈灵顿定理]]:PA 中不可证明的"自然"命题
|
||||
|
||||
## 数论影响
|
||||
|
||||
[[green-tao-theorem|Green-Tao 定理]](2004)证明素数集包含任意长等差数列,是 [[additive-combinatorics|加法组合学]] 的顶峰。[[random-graph-theory|随机图理论]](Erdős-Rényi)亦源于概率方法的 Ramsey 应用。
|
||||
|
||||
## 跨学科应用
|
||||
|
||||
- [[ramsey-theory-applications|计算机科学与密码学]]:分布式容错、随机性提取器、隐私放大
|
||||
- **物理学**:相变材料 GST 的 Ramsey 分析
|
||||
- **生物学**:基因调控网络的功能模块必然性
|
||||
- **社会科学**:群体形成中不可避免的子结构
|
||||
|
||||
## 核心未解问题
|
||||
|
||||
R(k) 的精确渐近行为——上下界底数从 √2 到 4 的鸿沟——是当代组合数学最重要挑战之一。R(5) 的精确值(43–48)也悬而未决。
|
||||
88
papers/song-agent-network-taxonomy.md
Normal file
88
papers/song-agent-network-taxonomy.md
Normal file
@@ -0,0 +1,88 @@
|
||||
---
|
||||
title: "Complex networks of AI agentic systems: 拓扑-记忆-更新三层分类法"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: [llm, architecture, benchmark, survey]
|
||||
sources: [raw/papers/song-agent-network-taxonomy-2026.md]
|
||||
---
|
||||
|
||||
# Complex networks of AI agentic systems: topology, memory, and update dynamics
|
||||
|
||||
> Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) | TechRxiv 2026
|
||||
|
||||
## 核心问题
|
||||
|
||||
大规模 AI Agent 网络广泛用于软件工程、科学分析、Web 自动化和社交模拟,但现有架构缺乏**统一框架**来解释为什么某些设计能扩展到长周期多步任务而另一些会失败。系统行为由三个根本维度塑造:**agent 如何连接、信息如何存储、状态如何更新**。
|
||||
|
||||
## 方法论:三层级分类法
|
||||
|
||||
本文提出一个**嵌套式**(非并行式)三属性分类法:
|
||||
|
||||
```
|
||||
Topology(拓扑)
|
||||
├── Centralized(集中式)
|
||||
└── Decentralized(去中心化)
|
||||
├── Global Memory(全局记忆)
|
||||
└── Local Memory(局部记忆)
|
||||
├── Static Update(静态更新)
|
||||
└── Dynamic Update(动态更新)
|
||||
```
|
||||
|
||||
### 形式化定义
|
||||
|
||||
Agent 系统定义为四元组:**A = (V, E, M, Π)**
|
||||
|
||||
- V = {a₁, ..., aₙ}:agent 集合
|
||||
- E ⊆ V × V:通信图,有向边表示消息传递
|
||||
- M:记忆配置(全局 M_global 或局部 {M₁, ..., Mₙ})
|
||||
- Π:agent 级策略
|
||||
|
||||
每个 agent aᵢ 是状态函数:**aᵢ : (xᵢ, mᵢ, cᵢ) → (oᵢ, m'ᵢ)** — 局部观察 + 记忆 + 入站消息 → 行动 + 更新记忆
|
||||
|
||||
### 8 种系统类别
|
||||
|
||||
| # | 拓扑 | 记忆 | 更新 | 代表系统 |
|
||||
|---|------|------|------|---------|
|
||||
| 1 | 集中式 | 全局 | 静态 | MetaGPT, ChatDev, AutoGen, HuggingGPT |
|
||||
| 2 | 集中式 | 全局 | 动态 | SWE-agent, OpenHands, Voyager, Multi-Agent Debate |
|
||||
| 3 | 集中式 | 局部 | 静态 | MetaAgent, YuLan-OneSim, SOTOPIA-S4 |
|
||||
| 4 | 集中式 | 局部 | 动态 | OPTIMA, Magentic-One, G-Designer |
|
||||
| 5 | 去中心化 | 全局 | 静态 | BlackBoard, LLMBlackBoard, MemorySharing |
|
||||
| 6 | 去中心化 | 全局 | 动态 | GPTSwarm, AgentSociety, OpenAgents |
|
||||
| 7 | 去中心化 | 局部 | 静态 | MMAgent, WebArena, TalkHier |
|
||||
| 8 | 去中心化 | 局部 | 动态 | GenAgents, 1000-Person Sims, AgentNet, SOTOPIA-S |
|
||||
|
||||
## 核心发现
|
||||
|
||||
### 1. 通信栈三层结构
|
||||
|
||||
| 层 | 作用 | 通信形式 | 主要难点 |
|
||||
|----|------|---------|---------|
|
||||
| **传输层** | 网络数据传输 | 二进制/文本消息 | 延迟、排序、可靠性 |
|
||||
| **结构层** (Function Calling) | 跨 agent 的结构化操作 | Schema 消息 | 兼容性、版本漂移 |
|
||||
| **语义层** (通信协议) | 推理对齐、上下文传播 | 自然语言+结构化证据 | 跨 agent 一致性和上下文一致性 |
|
||||
|
||||
### 2. 扩展性挑战
|
||||
|
||||
1. **通信负载**:消息量随 agent 数快速增长,饱和消息队列
|
||||
2. **上下文漂移**:分布式执行下各 agent 维护不一致的摘要
|
||||
3. **排序与并发**:异步系统中消息重排序导致时序视图分歧
|
||||
4. **解释不匹配**:异构模型间即使 schema 相同,语义解释仍不兼容
|
||||
5. **更新不稳定**:并发更新放大微小不一致,agent 反复覆盖彼此状态
|
||||
6. **安全与信任**:通信通道倍增 → 攻击面扩大
|
||||
|
||||
### 3. MCP 作为标准化基础
|
||||
|
||||
Model Context Protocol (MCP) 成为大规模 Agent 网络的标准化基板,统一工具调用、资源管理和交互语义。相关工作包括 Gradientsys、SchedCP、Code2MCP、MCP-Bench 等。
|
||||
|
||||
## 相关概念
|
||||
- [[agent-network-taxonomy]] — 三层级分类法详解
|
||||
- [[agent-network-topology]] — 集中式 vs 去中心化拓扑
|
||||
- [[agent-network-memory-scope]] — 全局 vs 局部记忆
|
||||
- [[agent-network-update-behavior]] — 静态 vs 动态更新
|
||||
- [[agent-communication-stack]] — 三层通信栈
|
||||
- [[centralized-agent-architecture]] — 集中式架构
|
||||
- [[decentralized-agent-architecture]] — 去中心化架构
|
||||
- [[cognitive-architecture]] — 认知架构
|
||||
- [[hyperagents]] — 超智能体(自指代理)
|
||||
74
papers/streaming-llm.md
Normal file
74
papers/streaming-llm.md
Normal file
@@ -0,0 +1,74 @@
|
||||
---
|
||||
title: "StreamingLLM: 基于注意力汇的高效流式语言模型"
|
||||
created: 2026-05-14
|
||||
updated: 2026-05-14
|
||||
type: paper
|
||||
tags: [llm, attention, streaming, kv-cache, inference-optimization]
|
||||
sources: ["https://arxiv.org/abs/2309.17453"]
|
||||
venue: "ICLR 2024"
|
||||
authors: ["Guangxuan Xiao", "Yuandong Tian", "Beidi Chen", "Song Han", "Mike Lewis"]
|
||||
---
|
||||
|
||||
# StreamingLLM: 基于注意力汇的高效流式语言模型
|
||||
|
||||
Efficient Streaming Language Models with Attention Sinks
|
||||
|
||||
[[guangxuan-xiao]], [[yuandong-tian]], [[beidi-chen]], [[song-han]], [[mike-lewis]] — ICLR 2024
|
||||
|
||||
## 核心问题
|
||||
|
||||
如何让 LLM 在流式场景(多轮对话、实时生成)中处理**无限长**输入序列,同时保持效率和性能?
|
||||
|
||||
现有方案的问题:
|
||||
- **Dense Attention**:O(T²) 复杂度,且超出预训练窗口后性能崩溃
|
||||
- **Window Attention**:只缓存最近 Token 的 KV,但当初始 Token 被逐出时模型崩溃
|
||||
- **Sliding Window + Re-computation**:性能好但太慢,每个新 Token 都要重建 KV
|
||||
|
||||
## 核心发现:Attention Sink(注意力汇)
|
||||
|
||||
作者发现了一个关键现象:**LLM 的初始 Token 在所有层和注意力头上都吸引了不成比例的高注意力分数**,无论其语义是否相关。
|
||||
|
||||
**原因**:SoftMax 函数要求所有 token 的注意力分数之和为 1。即使当前 query 没有强语义匹配,模型也必须把多余的注意力值 "倾倒" 到某处。由于自回归建模的特性,初始 Token 对所有后续 Token 都可见,因此被自然训练为注意力的 "汇" (sink)。
|
||||
|
||||
→ 这就是为什么 Window Attention 一旦驱逐初始 Token 就会崩溃:它破坏了 SoftMax 分母的分布。
|
||||
|
||||
详见 [[attention-sinks|注意力汇]]。
|
||||
|
||||
## 方法:StreamingLLM
|
||||
|
||||
基于上述洞察,StreamingLLM 的 KV 缓存分为两部分:
|
||||
|
||||
1. **Attention Sinks**(4 个初始 Token):稳定注意力计算,锚定 SoftMax 分布
|
||||
2. **Rolling KV Cache**(最近 Token):负责语言建模的语义内容
|
||||
|
||||
**关键设计**:位置编码在 **cache 内部**分配(而非原始文本),这对 RoPE 和 ALiBi 的性能至关重要。
|
||||
|
||||
- **无需微调**,直接适用于任何使用相对位置编码的自回归 LLM
|
||||
- 支持 RoPE(Llama-2, Falcon, Pythia)和 ALiBi(MPT)
|
||||
- 与上下文窗口扩展方法**正交**,可互补使用
|
||||
|
||||
## 关键结果
|
||||
|
||||
- 在 Llama-2 (7/13/70B)、MPT (7/30B)、Falcon (7/40B)、Pythia (2.9/6.9/12B) 上验证
|
||||
- 稳定语言建模至 **400 万 Token** 以上
|
||||
- 相比 Sliding Window + Re-computation 加速 **最高 22.2×**
|
||||
- 4 个初始 Token 即可恢复性能,更多 Token 边际收益递减
|
||||
|
||||
## Sink Token 预训练
|
||||
|
||||
- 用 1.6 亿参数模型从头预训练验证
|
||||
- 在所有训练样本前添加一个可学习的专用 **Sink Token** → 只需要这一个 Token 即可稳定流式推理
|
||||
- 相比之下,Vanilla 模型需要 4 个初始 Token 作为 attention sinks
|
||||
- SoftMax-off-by-One(Zero Sink)有改善但不够充分
|
||||
|
||||
→ 建议未来的 LLM 预训练统一加入 Sink Token
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[attention-sinks|注意力汇]] — 核心现象
|
||||
- [[window-attention|窗口注意力]] — 失败的基线
|
||||
- [[length-extrapolation|长度外推]] — 问题域
|
||||
- [[rolling-kv-cache|滚动 KV 缓存]] — StreamingLLM 机制
|
||||
- [[sink-token|汇 Token]] — 预训练改进
|
||||
- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关优化
|
||||
- [[rotary-position-embedding|RoPE]] — 位置编码
|
||||
72
papers/tao-klowden-ai-mathematical-methods.md
Normal file
72
papers/tao-klowden-ai-mathematical-methods.md
Normal file
@@ -0,0 +1,72 @@
|
||||
---
|
||||
title: "Mathematical methods and human thought in the age of AI"
|
||||
created: 2025-04-15
|
||||
updated: 2025-04-15
|
||||
type: paper
|
||||
tags: [paper, ai-philosophy, mathematics, human-centered-ai, llm, deep-learning]
|
||||
sources: [raw/papers/tao-ai-mathematical-methods-2026.md]
|
||||
arXiv: "2603.26524"
|
||||
authors: [[terence-tao]], [[tanya-klowden]]
|
||||
published: 2026-03-27
|
||||
---
|
||||
|
||||
# Mathematical methods and human thought in the age of AI
|
||||
|
||||
作者:[[terence-tao]], [[tanya-klowden]]
|
||||
arXiv: [2603.26524](https://arxiv.org/abs/2603.26524) 发表日期:2026年3月27日
|
||||
页数:27页
|
||||
|
||||
## 摘要
|
||||
|
||||
人工智能(AI)被通俗地命名为一系列计算机工具,旨在执行越来越复杂的认知任务。本文探讨了 AI 对传统哲学问题的影响,重点关注其在数学中的应用以及更广泛使用的真实世界结果。
|
||||
|
||||
**核心论点**:AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进,必须以人类为中心来开发和应用 AI。
|
||||
|
||||
## 主要章节
|
||||
|
||||
### 1. 定义与背景
|
||||
- AI 被定义为执行复杂认知任务的计算机工具谱系
|
||||
- 从 [[llm-applications]] 和扩散模型到传统的 "GOFAI"(如自动定理证明器、国际象棋引擎)
|
||||
- 缺乏关于为什么要快速开发和部署这些工具的讨论
|
||||
|
||||
### 2. 历史类比:这次不同吗?
|
||||
- 自动化技术并非新现象(如印刷机、计算机、[[formal-systems]])
|
||||
- 过去技术主要影响输出的传播,而非创造本身
|
||||
- 现代 AI 可以自动化创造过程本身,造成内容外在形式与创造价值观的前所未有的脱钩
|
||||
|
||||
### 3. 数学作为 AI 使用的 "沙盒"
|
||||
- 数学具有更成熟的基础,适合探索各种假设性场景
|
||||
- [[ai-alignment]] 模型现在可以解决越来越复杂的数学问题
|
||||
- AI 可能在某些任务上超越人类专家,同时在基础概念上犯严重错误
|
||||
|
||||
### 4. 证明标准与 "Smell Test"
|
||||
- 数学传统上有客观的证明标准,从欧几里得到二十世纪初的基础
|
||||
- **"Smell Test"**(气味测试):好的证明不仅展示逻辑推理,还提供理解和洞察
|
||||
- [[formal-verification]](形式化验证)可以验证正确性,但无法捕捉 "penumbra"(启发式、经验式推理)
|
||||
|
||||
### 5. AI 辅助数学的演进
|
||||
- 数学社区已适应过之前的技术挑战(如四色定理、开普勒猜想的计算机辅助证明)
|
||||
- 证明负担将越来越多地转向计算机
|
||||
- 人类数学家可能更专注于 "软性"方面:启发式、动机、实验证据
|
||||
|
||||
## 核心观点
|
||||
|
||||
1. **AI 是工具的演进**,而非人类的替代
|
||||
2. **必须以人类为中心**:创新解决方案满足人类需求、提升生活质量、拓展人类思维能力
|
||||
3. **形式化验证的局限**:只能验证形式正确性,无法传达理解与洞察
|
||||
4. **"气味测试"的价值**:好的数学不仅是正确的,还是有教育意义和启发性的
|
||||
|
||||
## 与其他页面的关联
|
||||
|
||||
- [[human-centered-ai]] - 本文核心主题:以人类为中心的 AI 发展
|
||||
- [[formal-verification]] - 形式化验证的作用与局限
|
||||
- [[ai-mathematics]] - AI 与数学的交叉
|
||||
- [[terence-tao]] - 第二作者,著名数学家
|
||||
- [[llm-applications]] - 大语言模型
|
||||
- [[automated-theorem-proving]] - 论文提及的 AI 数学证明系统
|
||||
|
||||
## 关键引用
|
||||
|
||||
> "AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进。"
|
||||
|
||||
> "形式化验证只能证明形式化论证建立了形式化数学陈述,但不能排除正式陈述与原始意图陈述之间的翻译错误。"
|
||||
91
papers/thinking-with-visual-primitives.md
Normal file
91
papers/thinking-with-visual-primitives.md
Normal file
@@ -0,0 +1,91 @@
|
||||
---
|
||||
title: "Thinking with Visual Primitives — 以视觉原语思考"
|
||||
domain: "Multimodal AI / Visual Reasoning"
|
||||
tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency]
|
||||
authors: "DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.)"
|
||||
year: 2026
|
||||
source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives"
|
||||
---
|
||||
|
||||
# Thinking with Visual Primitives
|
||||
|
||||
> **"Seeing is not reasoning."** — 本文的根本洞见
|
||||
|
||||
## 核心问题
|
||||
|
||||
当前多模态大模型([[multimodal-large-language-model]])的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了[[perception-gap|感知鸿沟]](Perception Gap),模型在复杂空间推理中仍然频繁发生**逻辑崩溃**。
|
||||
|
||||
本文指出一个更深层的瓶颈:**[[reference-gap|引用鸿沟]]**(Reference Gap)——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
提出 **[[visual-primitives|视觉原语思考]]** 框架:将空间标记(bounding boxes 和 points)提升为「思维的最小单位」,直接交织进推理链中。
|
||||
|
||||
### 两种视觉原语
|
||||
|
||||
| 原语类型 | 功能 | 适用场景 |
|
||||
|----------|------|----------|
|
||||
| **Bounding Box** (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 |
|
||||
| **Point** (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 |
|
||||
|
||||
### 训练流程
|
||||
|
||||
```
|
||||
Pretraining → Specialized SFT (FTwG + FTwP)
|
||||
→ Specialized RL (GRPO per expert)
|
||||
→ Unified RFT (rejection sampling)
|
||||
→ On-Policy Distillation (KL consolidation)
|
||||
```
|
||||
|
||||
关键技术:
|
||||
- **[[specialized-sft|专项监督微调]]**:分别训练框原语专家(FTwG)和点原语专家(FTwP),避免模式冲突
|
||||
- **[[specialized-rl|专项强化学习]]**:使用 [[group-relative-policy-optimization|群体相对策略优化]],配合三类奖励模型(格式 RM、质量 RM、准确率 RM)
|
||||
- **[[unified-rft|统一拒绝采样微调]]**:利用专家模型 rollout → 按难度筛选 → 合并训练
|
||||
- **[[on-policy-distillation|在线策略蒸馏]]**:通过 KL 散度将两个专家的能力蒸馏到统一模型
|
||||
|
||||
### 冷启动数据设计
|
||||
|
||||
四大任务维度:
|
||||
1. **[[coarse-grained-counting|粗粒度计数]]** — 类别级目标计数(如「图中有多少只狗」)
|
||||
2. **[[fine-grained-counting|细粒度计数]]** — 属性/空间约束计数(如「白色的狗有多少只」)
|
||||
3. **[[maze-navigation|迷宫导航]]** — 确定迷宫可解性,输出验证路径
|
||||
4. **[[path-tracing|路径追踪]]** — 追踪纠缠曲线,识别端点
|
||||
|
||||
### 奖励模型设计
|
||||
|
||||
| 奖励类型 | 方法 | 关键创新 |
|
||||
|----------|------|----------|
|
||||
| Format RM | 规则检查 | 格式正确性 + 防重复框生成 |
|
||||
| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 |
|
||||
| 计数 Accuracy RM | [[exponential-decay-reward|指数衰减奖励]] | 平滑相对误差惩罚 |
|
||||
| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 |
|
||||
| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation|双向轨迹评估]] | 前向偏差 + 反向覆盖率 |
|
||||
|
||||
## 架构亮点
|
||||
|
||||
- **视觉 Token 极致压缩**:756×756 图像 → 2,916 patches → 324 visual tokens → **81 KV entries**(压缩比 7056×)
|
||||
- 基于 [[deepseek-v4-flash|DeepSeek-V4-Flash]](284B MoE,13B 激活参数)+ [[deepseek-vit|DeepSeek-ViT]]
|
||||
- [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 将每 m 个视觉 token 压缩为一个 KV entry
|
||||
|
||||
## 关键结果
|
||||
|
||||
| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 |
|
||||
|-----------|------|---------|----------------|-------------------|
|
||||
| CountQA (EM/RA@10) | **66.1/75.1** | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 |
|
||||
| Pixmo-Count (EM) | **89.2** | 77.2 | 82.9 | 68.7 |
|
||||
| SpatialMQA (ACC) | **69.4** | 61.9 | 58.2 | 60.6 |
|
||||
| DS_Maze_Nav (ACC) | **66.9** | 50.6 | 49.4 | 49.8 |
|
||||
| DS_Path_Trace (ACC) | **56.7** | 46.5 | 41.4 | 30.6 |
|
||||
| Token per image | **~90** | ~740 | ~1,100 | ~870 |
|
||||
|
||||
## 局限与展望
|
||||
|
||||
1. 受限于输入分辨率,细粒度场景下偶有视觉原语输出不精确
|
||||
2. 当前依赖显式触发词激活「视觉原语思考」机制
|
||||
3. 点原语在拓扑推理中的跨场景泛化能力有限
|
||||
|
||||
## 意义
|
||||
|
||||
> **多模态智能的未来不在于"看到更多像素",而在于构建语言与视觉之间精确、无歧义的引用桥梁。**
|
||||
|
||||
本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径:不是增大视觉 token 预算,而是提升每个 token 的信息密度和指代精度。
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: Hyperagents: Self-Referential Agents with Metacognitive Self-Modification
|
||||
created: 2025-04-15
|
||||
updated: 2026-05-01
|
||||
type: paper
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# Hyperagents: Self-Referential Agents with Metacognitive Self-Modification
|
||||
|
||||
> **来源**: arXiv:2603.19461 [cs.AI]
|
||||
|
||||
@@ -35,5 +35,5 @@ sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md]
|
||||
## 相关概念
|
||||
|
||||
- [[mixture-of-depths-attention]] — MoDA 机制详解
|
||||
- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战
|
||||
- [[signal-degradation]] — 深层网络中的信号退化问题
|
||||
- [[depth-scaling-signal-degradation]] — LLM 深度扩展技术与挑战
|
||||
- [[depth-scaling-signal-degradation]] — 深层网络中的信号退化问题
|
||||
|
||||
Reference in New Issue
Block a user