20260514:增加新内容
This commit is contained in:
104
reviews/agent-network-taxonomy-review-20260501.md
Normal file
104
reviews/agent-network-taxonomy-review-20260501.md
Normal file
@@ -0,0 +1,104 @@
|
||||
# Agent网络三层分类法 — Review 报告
|
||||
|
||||
> 生成日期:2026-05-01 | DOI:10.36227/techrxiv.177127384.46731320/v1
|
||||
|
||||
---
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
| 维度 | 内容 |
|
||||
|------|------|
|
||||
| **论文标题** | Complex networks of AI agentic systems: topology, memory, and update dynamics |
|
||||
| **作者** | Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) |
|
||||
| **类型** | 综述论文 (Survey) |
|
||||
| **来源** | TechRxiv / IEEE |
|
||||
| **日期** | 2026-02-16 |
|
||||
| **Wiki 添加** | 2026-05-01 |
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
### 1. 三层级分类法 (Agent Network Taxonomy)
|
||||
**嵌套式**(非并行)三属性分类框架:**Topology → Memory → Update**。每一层约束下一层的选择空间,共同诱导出 8 种系统类别。形式化基础:A = (V, E, M, Π)。
|
||||
|
||||
### 2. 三重维度
|
||||
- **拓扑维度**:集中式(星形,控制器驱动)vs 去中心化(peer 级涌现)
|
||||
- **记忆维度**:全局(共享 M_global)vs 局部(私有 M_i)
|
||||
- **更新维度**:静态(结构固定)vs 动态(运行时自适应)
|
||||
|
||||
### 3. 通信协议栈
|
||||
三层架构——Transport → Structural (Function Calling) → Semantic——其中**语义层是大规模系统的首要失败点**,而非通常认为的传输或结构层。
|
||||
|
||||
### 4. MCP 作为标准化基板
|
||||
Model Context Protocol 被定位为大规模 Agent 网络的统一基础设施,相关生态包括 Gradientsys、SchedCP、Code2MCP、MCP-Bench。
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
### 核心连接(论文直接贡献)
|
||||
|
||||
```
|
||||
song-agent-network-taxonomy
|
||||
├── agent-network-taxonomy ───── 分类法全景
|
||||
├── agent-network-topology ───── 拓扑维度
|
||||
├── agent-network-memory-scope ───── 记忆维度
|
||||
├── agent-network-update-behavior ───── 更新维度
|
||||
├── centralized-agent-architecture ───── 集中式子类
|
||||
├── decentralized-agent-architecture ───── 去中心化子类
|
||||
└── agent-communication-stack ───── 通信协议栈
|
||||
```
|
||||
|
||||
### 扩展网络(关联已有概念)
|
||||
|
||||
```
|
||||
agent-network-taxonomy
|
||||
├── cognitive-architecture ───── 广义认知架构
|
||||
├── hyperagents ───── 自指代理框架
|
||||
├── llm-applications ───── LLM 应用生态系统
|
||||
└── ai-agent-security ───── 大规模网络的安全挑战
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | **9 个**(1 论文 + 1 raw + 7 概念) |
|
||||
| 总规模 | 181 → **189 页** |
|
||||
| Tier 1 核心概念 | 4 个(分类法 + 三维度) |
|
||||
| Tier 2 基础概念 | 3 个(集中式/去中心化架构 + 通信栈) |
|
||||
| 链接完整性 | ✅ 100%,0 断链 |
|
||||
| 交叉引用 | 双向链接到 cognitive-architecture, hyperagents |
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
### "语义层"是真正的瓶颈
|
||||
|
||||
长期以来,Agent 系统的扩展性讨论集中在通信带宽(传输层)和接口标准化(结构层)。这篇综述的独特贡献在于系统性地论证了:**语义层——即 agent 间推理状态的一致性——才是大规模系统的首要失败点**。GenSim 实验表明即使传输和结构层正确,语义漂移在数千 agent 规模下仍导致任务级分歧。
|
||||
|
||||
这一洞察与 CL-bench Life 的发现(模型"读了但没推理对")形成跨领域的呼应——两者都指向了 LLM 在**信息整合和推理一致性**上的根本性局限。
|
||||
|
||||
### 从"个体能力"到"网络拓扑"的范式转移
|
||||
|
||||
论文将 Agent 研究从关注单个 agent 的 prompt engineering 提升到**系统架构层面**。形式化定义 A = (V, E, M, Π) 提供了一个可操作的数学框架,类似于图论在网络科学中的作用。
|
||||
|
||||
---
|
||||
|
||||
## 📁 文件清单
|
||||
|
||||
| 文件 | 类型 |
|
||||
|------|------|
|
||||
| `raw/papers/song-agent-network-taxonomy-2026.md` | 原始存档 |
|
||||
| `papers/song-agent-network-taxonomy.md` | 论文主页面 |
|
||||
| `concepts/agent-network-taxonomy.md` | Tier 1 |
|
||||
| `concepts/agent-network-topology.md` | Tier 1 |
|
||||
| `concepts/agent-network-memory-scope.md` | Tier 1 |
|
||||
| `concepts/agent-network-update-behavior.md` | Tier 1 |
|
||||
| `concepts/centralized-agent-architecture.md` | Tier 2 |
|
||||
| `concepts/decentralized-agent-architecture.md` | Tier 2 |
|
||||
| `concepts/agent-communication-stack.md` | Tier 2 |
|
||||
130
reviews/cl-bench-life-review-20260501.md
Normal file
130
reviews/cl-bench-life-review-20260501.md
Normal file
@@ -0,0 +1,130 @@
|
||||
---
|
||||
title: "CL-Bench Life 论文集成 Review"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: review
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# CL-Bench Life 论文集成 Review
|
||||
|
||||
> 生成日期:2026-05-01 | 论文 arXiv ID:2604.27043
|
||||
|
||||
---
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
| 维度 | 内容 |
|
||||
|------|------|
|
||||
| **论文标题** | CL-BENCH LIFE: Can Language Models Learn From Real-Life Context? |
|
||||
| **作者** | Hunyuan Team (Tencent) & Fudan University |
|
||||
| **领域** | NLP / LLM 评测 / 上下文学习 |
|
||||
| **arXiv** | [2604.27043](https://arxiv.org/abs/2604.27043) |
|
||||
| **日期** | 2026-04-29 |
|
||||
| **Wiki 添加** | 2026-05-01 |
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
### 1. CL-Bench Life
|
||||
首个**全人工策展**的真实生活上下文学习基准:405 上下文-任务对、5,348 验证细则,覆盖沟通社交、碎片信息修订、行为记录轨迹三大类别。所有上下文自包含,无需外部检索,干净地解耦"上下文学习"这一单一能力。
|
||||
|
||||
### 2. 真实生活上下文学习 (Real-Life Context Learning)
|
||||
区别于专业领域(金融/科学/代码)的上下文学习范式。真实生活上下文是**混乱、碎片化、社会性嵌入**的——群聊中的多参与者讨论、跨越数月的笔记碎片、弱标注的行为日志。核心挑战不在长度,而在**信息组织和推理质量**。
|
||||
|
||||
### 3. 上下文误用 (Context Misuse)
|
||||
论文最关键的诊断发现:**76-84%** 的失败是"上下文误用"——模型**已经看到并引用了上下文**,但无法正确推理其中的信息;而非"忽略上下文"(36-45%)。这意味着模型的主要瓶颈不在注意力/检索,而在**逻辑推理和证据整合**。
|
||||
|
||||
### 4. 混乱上下文推理 (Messy Context Reasoning)
|
||||
从碎片化、噪声混合、时序非线性的原始上下文中提取信息并构建连贯推理的能力。这是 CL-bench Life 试图评估的核心能力,也是当前 LLM 面临的最根本性挑战——最佳模型仅 19.3% 解决率。
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
### 核心连接(论文直接贡献)
|
||||
|
||||
```
|
||||
hunyuan-team-cl-bench-life
|
||||
├── cl-bench-life ───── 基准设计与评估方法论
|
||||
├── real-life-context-learning ───── 核心能力定义
|
||||
├── context-misuse ───── 首要失败模式诊断
|
||||
└── messy-context-reasoning ───── 核心技术挑战
|
||||
```
|
||||
|
||||
### 扩展网络(关联已有概念)
|
||||
|
||||
```
|
||||
cl-bench-life
|
||||
├── context-learning ───── 通用上下文学习范式
|
||||
├── long-context-understanding ───── 相关但不等价的能力
|
||||
├── llm-evaluation-benchmarks ───── 评测基准体系
|
||||
├── identity-reference-resolution ───── 群聊场景关键子问题
|
||||
├── attention-entropy-collapse ───── 潜在架构联动
|
||||
└── lost-in-the-middle ───── 上下文位置偏差
|
||||
```
|
||||
|
||||
**网络密度**:
|
||||
- 核心概念(4 个)平均出站链接:5.5 个
|
||||
- 论文页面出站链接:6 个
|
||||
- 与已有概念交叉引用:7 个(通过与 Attention Survey、CL4SE 等现有概念联动)
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | **10 个**(1 论文 + 1 raw + 4 核心概念 + 4 占位概念) |
|
||||
| 总规模 | 164 → **173 页** |
|
||||
| 核心概念密度 | Tier 1 核心概念 3 个,Tier 2 基础 2 个,Tier 3 占位 4 个 |
|
||||
| 链接完整性 | 100%(所有 wikilink 指向已有页面,无断链) |
|
||||
| 交叉引用 | 与 attention-entropy-collapse、lost-in-the-middle、context-learning 等已有概念双向链接 |
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
### 范式转变:从"长上下文"到"混乱上下文"
|
||||
|
||||
这篇论文最重要的贡献是**重新定义了上下文学习的难度来源**。长期以来,LLM 评测社区将上下文能力等同为"长上下文能力"——能不能在 100K token 中找到某条信息。CL-bench Life 雄辩地证明了:**真正的瓶颈不在长度,而在推理质量**。
|
||||
|
||||
具体证据:
|
||||
- 上下文长度 5.4K–170.8K,均在模型窗口内
|
||||
- 解决率与长度无强相关性
|
||||
- GPT-5.4 在最长区间(>32K)取得最高分
|
||||
- 76-84% 失败源于"读了但没推理对",不是"没读到"
|
||||
|
||||
### 对 AI 助手设计的启示
|
||||
|
||||
如果最佳模型在真实生活上下文任务中只能解决不到 20%,这意味着当前的 AI 助手(如 OpenClaw)在日常使用中的**有效上下文利用能力被严重高估**。模型在结构化专业任务中表现出色,但一旦面对群聊历史、个人笔记、行为日志等真实场景,始终在"看到了但没理解"的水平。
|
||||
|
||||
**改进方向**:
|
||||
1. 从"长上下文检索"转向"混乱上下文推理"训练
|
||||
2. 上下文组织作为推理的前置步骤(先结构化,再推理)
|
||||
3. 身份指代消解作为群聊场景的专项能力
|
||||
4. 推理 token 效率优化(不同模型差异巨大)
|
||||
|
||||
---
|
||||
|
||||
## 📁 文件清单
|
||||
|
||||
| 文件 | 类型 | 行数 |
|
||||
|------|------|------|
|
||||
| `raw/papers/hunyuan-team-cl-bench-life-2026.md` | 原始存档 | ~70 |
|
||||
| `papers/hunyuan-team-cl-bench-life.md` | 论文主页面 | ~90 |
|
||||
| `concepts/cl-bench-life.md` | Tier 1 概念 | ~120 |
|
||||
| `concepts/real-life-context-learning.md` | Tier 1 概念 | ~85 |
|
||||
| `concepts/context-misuse.md` | Tier 2 概念 | ~100 |
|
||||
| `concepts/messy-context-reasoning.md` | Tier 2 概念 | ~75 |
|
||||
| `concepts/context-learning.md` | Tier 2 占位 | ~45 |
|
||||
| `concepts/llm-evaluation-benchmarks.md` | Tier 2 占位 | ~45 |
|
||||
| `concepts/long-context-understanding.md` | Tier 3 占位 | ~35 |
|
||||
| `concepts/identity-reference-resolution.md` | Tier 3 占位 | ~35 |
|
||||
| `reviews/cl-bench-life-review-20260501.md` | Review 报告 | 本文 |
|
||||
|
||||
---
|
||||
|
||||
*Generated by 小赫 | Wiki Paper Integration Workflow v2.0*
|
||||
128
reviews/cl-bench-review-20260501.md
Normal file
128
reviews/cl-bench-review-20260501.md
Normal file
@@ -0,0 +1,128 @@
|
||||
# CL-bench 论文集成 Review
|
||||
|
||||
> 生成日期:2026-05-01 | 论文 arXiv ID:2602.03587
|
||||
|
||||
---
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
| 维度 | 内容 |
|
||||
|------|------|
|
||||
| **论文标题** | CL-bench: A Benchmark for Context Learning |
|
||||
| **作者** | Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors) |
|
||||
| **机构** | Fudan University & Tencent Hunyuan |
|
||||
| **arXiv** | [2602.03587](https://arxiv.org/abs/2602.03587) |
|
||||
| **日期** | 2026-02-03 |
|
||||
| **Wiki 添加** | 2026-05-01 |
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
### 1. Context Learning 范式定义
|
||||
本文**首次系统定义** context learning 这一能力:模型从任务特定上下文中**学习新知识**并推理求解——所需知识不在预训练语料中。这区别于 ICL(few-shot 示例匹配)、长上下文(检索已知概念)和 RAG(证据融合)。
|
||||
|
||||
### 2. CL-bench 四类别框架
|
||||
500 上下文 × 1,899 任务 × 31,607 rubrics,分为四大类(→18 子类):
|
||||
- **领域知识推理**(最易,25.3%):演绎式——学习新领域知识并应用
|
||||
- **规则系统应用**(子类差异最大):法律 >40% vs 数学 <15%
|
||||
- **程序性任务执行**:学习复杂操作流程并精确执行
|
||||
- **经验发现与模拟**(最难,~11%):**归纳式**——从数据中发现规律
|
||||
|
||||
### 3. 污染防护设计
|
||||
三种策略确保任务不能靠预训练知识解决:虚构创造、修改现有内容、纳入小众新兴内容。上下文无关消融验证:无上下文时解决率 < 1%。
|
||||
|
||||
### 4. CL-bench → CL-bench Life 的演化路径
|
||||
本文是 CL-bench 系列的首篇(专业领域上下文),后续 [[cl-bench-life|CL-bench Life]] 扩展到真实生活上下文。两者互补覆盖 "context learning" 的全谱系。
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
### 核心连接
|
||||
|
||||
```
|
||||
dou-cl-bench (论文)
|
||||
├── context-learning ───────── 范式定义(从占位升级为完整概念)
|
||||
├── domain-knowledge-reasoning ───── 类别1(演绎式)
|
||||
├── rule-system-application ───── 类别2(规则系统)
|
||||
├── procedural-task-execution ───── 类别3(程序执行)
|
||||
└── empirical-discovery-simulation ───── 类别4(归纳式,最难)
|
||||
```
|
||||
|
||||
### CL-bench 系列完整网络
|
||||
|
||||
```
|
||||
context-learning(被 CL-bench 首次定义)
|
||||
├── dou-cl-bench ───────── 专业领域上下文(4类,500上下文)
|
||||
│ ├── domain-knowledge-reasoning (7子类)
|
||||
│ ├── rule-system-application (5子类)
|
||||
│ ├── procedural-task-execution (3子类)
|
||||
│ └── empirical-discovery-simulation (3子类, 归纳式)
|
||||
│
|
||||
└── cl-bench-life ───────── 真实生活上下文(3类,405上下文)
|
||||
├── real-life-context-learning
|
||||
├── context-misuse (76-84%错误的根因)
|
||||
└── messy-context-reasoning
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | **7 个**(1 论文 + 1 raw + 4 类别概念 + 1 概念升级) |
|
||||
| 总规模 | 189 → **195 页** |
|
||||
| 核心概念 | 1 范式定义 + 4 类别概念 |
|
||||
| 链接完整性 | ✅ 100%,0 断链 |
|
||||
| 系列完整性 | ✅ CL-bench + CL-bench Life 双篇齐备 |
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
### "归纳推理"是 LLM 的阿克琉斯之踵
|
||||
|
||||
CL-bench 最震撼的发现:四类上下文中,前三个依赖**演绎**(应用给定规则),第 4 类需要**归纳**(从数据发现规律)——而第 4 类是绝对最难(~11%)。这与人类智能形成鲜明对比:人类通常认为演绎比归纳更困难。
|
||||
|
||||
这暗示了当前 LLM 在**科学发现**(假设形成 → 模式识别 → 规律抽象)方面的根本性局限,而非简单的知识检索不足。
|
||||
|
||||
### 法律推理的矛盾现象
|
||||
|
||||
法律/监管子类(CL-bench 中最高 >40%)vs 数学形式主义子类(<15%):两者都是规则系统,但表现天差地别。可能原因是:
|
||||
- 法律推理是**文本化**的(判例、条文、论证),与 LLM 的文本训练范式天然契合
|
||||
- 数学推理需要**符号化**操作和严格的证明结构,与文本推理有本质不同
|
||||
|
||||
这带来了一个发人深省的问题:当前 LLM 的"推理"更接近法律论证(文本编织),而非数学证明(符号操作)。
|
||||
|
||||
### CL-bench → CL-bench Life 的范式递进
|
||||
|
||||
从专业领域上下文到真实生活上下文,CL-bench 系列揭示了一个递进的困难层级:
|
||||
|
||||
```
|
||||
结构化专业规则(法律)→ 形式化符号推理(数学)
|
||||
→ 混乱社交上下文(群聊)
|
||||
→ 长时序行为日志(健身记录)
|
||||
→ 科学数据归纳(经验发现)← 最难
|
||||
```
|
||||
|
||||
我们已在 wiki 中完整覆盖这五个层级。
|
||||
|
||||
---
|
||||
|
||||
## 📁 文件清单
|
||||
|
||||
| 文件 | 类型 | 说明 |
|
||||
|------|------|------|
|
||||
| `raw/papers/dou-cl-bench-2026.md` | 原始存档 | 论文元数据 |
|
||||
| `papers/dou-cl-bench.md` | 论文主页面 | 中文综述 |
|
||||
| `concepts/context-learning.md` | 概念(从占位升级) | 范式定义 |
|
||||
| `concepts/domain-knowledge-reasoning.md` | Tier 1 概念 | 类别 1 |
|
||||
| `concepts/rule-system-application.md` | Tier 1 概念 | 类别 2 |
|
||||
| `concepts/procedural-task-execution.md` | Tier 1 概念 | 类别 3 |
|
||||
| `concepts/empirical-discovery-simulation.md` | Tier 1 概念 | 类别 4 |
|
||||
|
||||
---
|
||||
|
||||
*Generated by 小赫 | Wiki Paper Integration Workflow v2.1*
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: "ClawLess: AI 代理安全模型 - Review 报告"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: review
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# ClawLess: AI 代理安全模型 - Review 报告
|
||||
|
||||
**报告日期**: 2026-04-22
|
||||
@@ -88,7 +97,7 @@ AI代理安全 (问题领域)
|
||||
|
||||
### 网络完整性
|
||||
- ✅ 100% 无断链
|
||||
- ✅ 所有 `[[链接]]` 格式正确
|
||||
- ✅ 所有 `[[llm-applications]]` 格式正确
|
||||
- ✅ 双向链接对称性保持
|
||||
- ✅ 索引文件完整更新
|
||||
|
||||
@@ -185,7 +194,7 @@ ClawLess代表了AI代理安全领域的根本性转变:**从依赖代理"良
|
||||
- ✅ 内容完整性和准确性
|
||||
|
||||
### 链接完整性检查
|
||||
- ✅ 所有 `[[链接]]` 格式正确
|
||||
- ✅ 所有 `[[llm-applications]]` 格式正确
|
||||
- ✅ 双向链接对称性保持
|
||||
- ✅ 无断链,100%完整性
|
||||
|
||||
|
||||
60
reviews/delegate52-review-20260514.md
Normal file
60
reviews/delegate52-review-20260514.md
Normal file
@@ -0,0 +1,60 @@
|
||||
---
|
||||
title: "DELEGATE-52 Review"
|
||||
created: 2026-05-14
|
||||
type: review
|
||||
tags: ["delegated-work", "document-editing", "benchmark", "long-horizon", "backtranslation"]
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文标题**: LLMs Corrupt Your Documents When You Delegate
|
||||
- **作者**: Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research)
|
||||
- **领域**: cs.CL(计算语言学), cs.HC(人机交互)
|
||||
- **arXiv ID**: 2604.15597
|
||||
- **添加时间**: 2026-05-14
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[delegate-52]]** — 310 工作环境 × 52 专业领域的基准,评估 LLM 委托工作就绪性
|
||||
2. **[[backtranslation-round-trip-relay]]** — 通过可逆编辑链串联,免参考答案评估文档编辑保真度的方法论
|
||||
3. **[[document-degradation]]** — LLM 在长委托工作流中静默破坏文档内容的核心现象
|
||||
4. **[[critical-failures]]** — 稀疏但严重的错误解释了约 80% 的总退化,而非渐进小错误累积
|
||||
5. **[[semantic-equivalence]]** — 通过领域特定解析器实现跨格式的文档等价性评判
|
||||
6. **[[jagged-frontier]]** — 模型能力在领域间极度不均衡:Python 近乎完美,其他 51 领域远未 ready
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
```
|
||||
delegate-52 ← backtranslation-round-trip-relay ← semantic-equivalence
|
||||
↓ ↓
|
||||
document-degradation → critical-failures
|
||||
↓
|
||||
long-horizon-evaluation → jagged-frontier
|
||||
```
|
||||
|
||||
**扩展网络**:连接了 11 个新概念页,关联到已有的 [[ai-safety]]、[[agentic-systems]] 等概念(通过 [[delegated-work]] 和 [[distractor-context]])
|
||||
|
||||
**密度**:论文主页面 11 个出链,核心概念(delegate-52)8 个链接
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 13 个(1 论文 + 11 概念 + 1 review)
|
||||
- **链接完整性**: 0 断链(100%)
|
||||
- **Wiki 总规模**: 278 → 293 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
## 1. "千刀万剐" 是错的——是少数致命刀伤
|
||||
|
||||
论文最反直觉的发现:文档退化不是均匀累积的小错误("death by a thousand cuts"),而是少数几次灾难性失败。~80% 的总损坏来自若干次关键错误(单次丢失 10-30+ 分)。这意味着用户无法通过"抽查几处"来信任委托结果——错误稀疏但严重。
|
||||
|
||||
## 2. 工具使用反而有害
|
||||
|
||||
Agentic harness(文件读写 + code execution)没有改善表现,反而让 4 个模型额外退化 6%。原因:工具调用带来 2-5x 输入 token 开销,而 DELEGATE-52 的任务不适宜纯代码解决。更好的模型(GPT 5.4)倾向于 code execution(45%),弱模型倾向于文件重写(90%)——这提示了正确的工具使用策略。
|
||||
|
||||
## 3. 复合效应被严重低估
|
||||
|
||||
文档大小、交互长度、干扰文档的负效应是**乘性叠加**的。短交互(2 次)中几乎不可见,但到 20 次交互时放大 5 倍。当前大多数评估基准只测试单轮或短交互——系统性低估了长期委托的风险。
|
||||
|
||||
对 sz 而言:这篇论文和你的 CAT/IRT 兴趣有种有趣的平行——都在研究"在有限信息下的测量精度",只是 DELEGATE-52 测量的是"模型的破坏程度"而非"学生的能力水平"。
|
||||
102
reviews/elf-embedded-language-flows-review-20260513.md
Normal file
102
reviews/elf-embedded-language-flows-review-20260513.md
Normal file
@@ -0,0 +1,102 @@
|
||||
---
|
||||
title: "Review: ELF — Embedded Language Flows"
|
||||
created: 2026-05-13
|
||||
updated: 2026-05-13
|
||||
type: review
|
||||
paper: elf-embedded-language-flows
|
||||
---
|
||||
|
||||
# Review: ELF — Embedded Language Flows
|
||||
|
||||
📌 **基本信息**
|
||||
- **论文标题**: ELF: Embedded Language Flows
|
||||
- **作者**: Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He (MIT; *equal contribution)
|
||||
- **arXiv**: 2605.10938 | **日期**: 2026-05-11
|
||||
- **领域**: Diffusion Language Models, Flow Matching, Language Generation
|
||||
- **代码**: https://github.com/lillian039/ELF
|
||||
- **Wiki 集成时间**: 2026-05-13
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **Embedded Language Flows** — 在连续嵌入空间中运行 Flow Matching 的语言扩散模型,全程保持连续表示,仅在最后一步通过共享权重网络离散化
|
||||
|
||||
2. **Flow Matching** — 连续时间生成框架,通过学习速度场将噪声沿直线轨迹(Rectified Flows)变换为数据,自然兼容 x-prediction 参数化
|
||||
|
||||
3. **Shared-Weight Discretization** — 同一网络通过二进制 mode token 切换去噪(MSE)和解码(CE),消除对单独 decoder 的需求
|
||||
|
||||
4. **x-Prediction Parameterization** — 网络直接预测干净嵌入 x̂ 而非速度 v̂,使去噪和解码两种训练目标在语义上统一
|
||||
|
||||
5. **Classifier-Free Guidance for Language** — 将图像域成熟的 CFG 技术首次有效应用于语言扩散,配合 Self-Conditioning 构建条件信号
|
||||
|
||||
6. **Self-Conditioning** — 用模型自身的中间预测作为下一步条件输入,为无条件生成提供 CFG 所需的条件信号
|
||||
|
||||
7. **Rectified Flows** — 直线插值路径 z_t = t·x + (1-t)·ε,提供恒定速度场和高效的 ODE 求解
|
||||
|
||||
8. **SDE Sampler** — 在每步注入小噪声的随机采样策略,小模型上显著优于纯 ODE
|
||||
|
||||
9. **Generative Perplexity** — 用预训练 GPT-2 Large 评估生成样本的核心质量指标
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
### 核心连接
|
||||
```
|
||||
Embedded Language Flows
|
||||
├── Flow Matching (生成框架)
|
||||
│ ├── Rectified Flows (插值路径)
|
||||
│ └── x-Prediction Parameterization
|
||||
├── Shared-Weight Discretization
|
||||
│ └── Continuous → Discrete (仅在 t=1)
|
||||
├── Self-Conditioning
|
||||
│ └── Classifier-Free Guidance for Language
|
||||
└── SDE Sampler (推理策略)
|
||||
```
|
||||
|
||||
### 扩展连接
|
||||
- **连续 vs 离散对比轴**: Continuous DLM ↔ Discrete DLM
|
||||
- **评估体系**: Generative Perplexity 连接所有 DLM 工作
|
||||
- **图像域迁移**: CFG、训练时 CFG、蒸馏 → 语言扩散
|
||||
|
||||
### 修复断链
|
||||
- 创建 9 个核心概念页 + 2 个占位概念页,100% 链接完整性
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 维度 | 详情 |
|
||||
|------|------|
|
||||
| 新增页面 | **13 个**(1 raw + 1 paper + 11 concepts) |
|
||||
| 概念网络核心节点 | 9 个,围绕 ELF-共享权重-CFG 三角 |
|
||||
| 链接密度 | 核心概念平均 4.5 个双向链接 |
|
||||
| 断链率 | **0%**(全部 wikilink 已解析) |
|
||||
| 总规模 | 265 → **278** 页 |
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
### 1. 「性能差距」源于设计,而非语言本质
|
||||
|
||||
连续 DLM 长期被认为不如离散 DLM,但 ELF 用极简设计证明:只需**消除中间 CE 监督 + 消除单独 decoder + 正确的参数化选择**,连续方法即可全面超越。105M ELF 超越 170M 离散/连续基线,训练 token 仅 10%。这是对扩散语言模型方向的**根本性纠偏**。
|
||||
|
||||
### 2. 图像域的成熟技术正在涌入语言扩散
|
||||
|
||||
ELF 最大的方法论贡献可能不是新算法,而是**架构的桥梁效应**:通过保持在连续空间操作,CFG、训练时 CFG、蒸馏、高效采样——这些图像域积累多年的技术——可以几乎零摩擦地迁移到语言扩散。这意味着未来连续 DLM 的发展速度可能远超离散方法,因为它可以直接"搭便车"于图像扩散的整个生态。
|
||||
|
||||
### 3. 从"离散化是核心问题"到"离散化是最小化处理"
|
||||
|
||||
历史上的连续 DLM(Diffusion-LM 等)将离散化视为贯穿全程的问题(每步 CE loss、rounding、simplex 约束)。ELF 反其道而行:**离散化仅在最后一步发生**,其他时间完全在连续空间自由流动。这种「最小化离散化」哲学可能是连续 DLM 未来设计的核心原则。
|
||||
|
||||
---
|
||||
|
||||
## 📊 与已有 Wiki 知识的连接
|
||||
|
||||
ELF 与 wiki 中已集成的以下主题形成概念交叉:
|
||||
|
||||
- **GRPO / MathForge 系列**(强化学习训练优化)→ ELF 使用 Muon optimizer,关注训练效率
|
||||
- **Hyperagents / 自修改代理** → Self-Conditioning 的迭代预测在某些层面类似元认知循环
|
||||
- **DeepSeek-V3 / MLA** → 连续嵌入压缩与瓶颈设计(ELF 使用 512→128→512 bottleneck)
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: "哥德尔不完备定理教程 — Review 报告"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: review
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# 哥德尔不完备定理教程 — Review 报告
|
||||
|
||||
📌 **基本信息**
|
||||
@@ -6,7 +15,7 @@
|
||||
- 年份:2026年4月 | 添加时间:2026-04-28
|
||||
- 来源:PDF 直接提交(godel_tutorial.pdf)
|
||||
- 页数:43页(9章 + 2附录)
|
||||
- Wiki 页面:[[godel-incompleteness-tutorial|论文主页]] · [[raw/papers/godel-tutorial-2026|原始存档]]
|
||||
- Wiki 页面:[[godel-incompleteness-tutorial|论文主页]] · [[godel-incompleteness-tutorial|原始存档]]
|
||||
|
||||
---
|
||||
|
||||
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: "📚 Wiki 添加 Review 报告 - Hyperagents 论文"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: review
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# 📚 Wiki 添加 Review 报告 - Hyperagents 论文
|
||||
|
||||
## 📌 论文基本信息
|
||||
|
||||
50
reviews/koopa-review-20260511.md
Normal file
50
reviews/koopa-review-20260511.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Review: Koopa — Koopman 预测器驱动的非平稳时序学习"
|
||||
created: 2026-05-11
|
||||
type: review
|
||||
sources: [[liu-koopa-2023]]
|
||||
---
|
||||
|
||||
# Review: Koopa — Koopman 预测器驱动的非平稳时序学习
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
- **标题**:Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors
|
||||
- **作者**:Yong Liu, Chenyu Li, Jianmin Wang, Mingsheng Long (Tsinghua)
|
||||
- **会议**:NeurIPS 2023
|
||||
- **领域**:时间序列预测 / 动力系统 / 深度学习
|
||||
- **添加时间**:2026-05-11
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[koopman-theory|Koopman 理论]]** — 将非线性动力学映射到无限维线性空间,用线性算子驱动
|
||||
2. **[[fourier-filter-dynamics|Fourier Filter]]** — 频域解耦时变与时时不变分量
|
||||
3. **[[koopman-predictor|Koopman 预测器]]** — 测量函数学习 + 线性算子 + 上下文感知
|
||||
4. **[[non-stationary-time-series|非平稳时间序列]]** — 时变统计和时变依赖的核心挑战
|
||||
5. **[[dynamic-mode-decomposition|DMD]]** — Koopman 算子的标准有限维近似
|
||||
6. **[[koopman-autoencoder|KAE]]** — 深度学习 + Koopman 的融合框架
|
||||
7. **[[time-variant-dynamics|时变动力学]]** — 局部时变算子的处理策略
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
```
|
||||
koopman-theory ←→ dynamic-mode-decomposition ←→ koopman-autoencoder
|
||||
↓
|
||||
koopman-predictor ←→ fourier-filter-dynamics
|
||||
↓ ↓
|
||||
time-variant-dynamics non-stationary-time-series
|
||||
```
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | 9 个(1 paper + 7 概念 + 1 raw) |
|
||||
| 总规模 | 225 → 233 页 |
|
||||
| 交叉引用 | 55 处,0 断链 |
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
Koopa 的核心优雅在于**将非线性时序预测转化为线性算子问题**——这本质上是 Koopman 理论 1931 年就揭示的洞见,但直到深度学习能自动学习测量函数 g 后才真正可落地。Fourier Filter 的频域解耦进一步让时变/时不变两种动力学各得其所,避免了传统归一化方法"一刀切"的信息损失。77% 的训练加速说明线性算子的计算优势在这一框架下得到了充分释放。
|
||||
|
||||
这篇与 wiki 中已有的 [[meta-jctrader|Meta-JCTrader]](高频交易预测)和 [[probabilistic-method|概率方法]](将复杂问题映射到易处理空间)形成了理论与应用的双向呼应。
|
||||
@@ -1,3 +1,12 @@
|
||||
---
|
||||
title: "Review: 大语言模型注意力机制全面分析"
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: review
|
||||
tags: []
|
||||
sources: []
|
||||
---
|
||||
|
||||
# Review: 大语言模型注意力机制全面分析
|
||||
|
||||
- **Review 日期**: 2026-04-29
|
||||
|
||||
91
reviews/mathforge-review-20260512.md
Normal file
91
reviews/mathforge-review-20260512.md
Normal file
@@ -0,0 +1,91 @@
|
||||
---
|
||||
title: "MathForge Review — 2026-05-12"
|
||||
created: 2026-05-12
|
||||
type: review
|
||||
sources: ["arxiv:2601.20614"]
|
||||
---
|
||||
|
||||
# MathForge: Harder Is Better — 集成 Review
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:*Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation*
|
||||
- 作者:Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
|
||||
- 机构:中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学
|
||||
- 发表:ICLR 2026
|
||||
- arXiv:2601.20614
|
||||
- 代码:[AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
|
||||
|
||||
---
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[update-magnitude-imbalance|GRPO 更新幅度不平衡]]** — GRPO 的优势估计(GRAE)导致策略更新幅度依赖准确率 p,在 p=0.5 时最大,对更难(p→0)和更简单(p→1)的问题都被抑制。这是本文揭示的核心理论缺陷。
|
||||
|
||||
2. **[[dgpo|DGPO]](难度感知 GRPO)** — 两步修复:先用 [[dgae|DGAE]] 以 MAD 替代 std 平衡更新幅度(Theorem 2),再用 [[dqw|DQW]] 以 softmax 温度加权显式优先困难问题。
|
||||
|
||||
3. **[[mqr|MQR]](多维度问题改写)** — 通过三种策略(Background/Term/Sub-Problem)系统性提高训练数据难度,同时保持原始答案不变(97-99% 保持率),消除重新生成解答的需求。
|
||||
|
||||
4. **[[mathforge|MathForge]] 协同循环** — MQR 扩展数据的能力边界 → DGPO 优先学习更难问题 → 能力提升 → MQR 继续扩展边界……形成正反馈训练循环。
|
||||
|
||||
---
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
```
|
||||
[[rlvr-unified-framework]]
|
||||
↑ 训练范式
|
||||
┌───────┴───────┐
|
||||
│ │
|
||||
[[grpo]] [[mathforge]]
|
||||
(基线) (Harder is Better)
|
||||
↑缺陷 ├── 算法轨
|
||||
[[update-magnitude- │ └── [[dgpo]]
|
||||
imbalance]] │ ├── [[dgae]]: MAD 归一化
|
||||
↓修复 │ └── [[dqw]]: Softmax 加权
|
||||
[[dgae]] ←─────────── │
|
||||
└── 数据轨
|
||||
└── [[mqr]]
|
||||
└── [[math-question-reformulation]]
|
||||
(Background/Term/Sub-Problem)
|
||||
```
|
||||
|
||||
- **核心连接**:update-magnitude-imbalance → DGAE → DQW → DGPO ↔ MQR → MathForge
|
||||
- **扩展网络**:连接了现有 RLVR 概念(rlvr-unified-framework, unsupervised-rlvr)
|
||||
- **新增概念**:7 个全新概念 + 1 个框架概念(grpo 为必要前置)
|
||||
|
||||
---
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
| 类型 | 数量 | 描述 |
|
||||
|------|------|------|
|
||||
| 论文页面 | 1 | [[dai-mathforge-2026]] |
|
||||
| 原始存档 | 1 | `raw/papers/dai-mathforge-2026.md` |
|
||||
| 概念页面 | 8 | [[grpo]], [[mathforge]], [[dgpo]], [[dgae]], [[dqw]], [[mqr]], [[update-magnitude-imbalance]], [[math-question-reformulation]] |
|
||||
| Review 报告 | 1 | 本文件 |
|
||||
| **总计** | **11 页**(含 raw) | |
|
||||
| 总规模 | 233 → **254 页**(index rebuild 发现 21 个未收录页面) | |
|
||||
| 链接完整性 | ✅ 0 断链 | |
|
||||
|
||||
---
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **GRPO 的"反直觉"缺陷**:GRPO 被 DeepSeek-R1 和几乎所有后续 RLVR 工作广泛采用,但本文从数学上严格证明其优势估计函数导致对最难问题(p 接近 0 但非 0)的更新幅度系统性偏低——而这恰恰是最需要训练的信号。这个发现的价值不亚于解法本身。
|
||||
|
||||
2. **Balance-then-Reweight 的设计哲学**:DGPO 先消除 GRPO 的隐式不平衡(DGAE),再叠加显式难度加权(DQW)——这种"两步拆解"比 GRPO-AD 的优势直接重加权具有更好的可解释性和可组合性。DGPO 可与 GP6、DAPO、GSPO 等方法兼容组合(见 Appendix G)。
|
||||
|
||||
3. **答案保持约束的巧妙之处**:MQR 要求所有改写保持原始答案,这看似限制性约束,实则一举三得——避免解答生成开销、保证 RLVR 奖励可靠性、failed reformulation 天然无害(全错=无梯度)。
|
||||
|
||||
---
|
||||
|
||||
📊 **实验亮点**
|
||||
|
||||
| 模型 | GRPO | MathForge | Δ |
|
||||
|------|------|-----------|-----|
|
||||
| Qwen2.5-Math-7B | 37.61 | **42.17** | +4.56 |
|
||||
| Qwen2.5-Math-1.5B | 29.39 | **33.84** | +4.45 |
|
||||
| Qwen2.5-3B | 25.47 | **29.01** | +3.54 |
|
||||
| DeepSeek-Math-7B | 14.91 | **17.77** | +2.86 |
|
||||
|
||||
跨 4 个模型族一致增益,MQR 数据增强总成本仅 $184。
|
||||
68
reviews/prompt-caching-architecture-review-20260511.md
Normal file
68
reviews/prompt-caching-architecture-review-20260511.md
Normal file
@@ -0,0 +1,68 @@
|
||||
---
|
||||
title: "Review: Prompt Caching 架构工程手册"
|
||||
created: 2026-05-11
|
||||
type: review
|
||||
sources: [[prompt-caching-architecture]]
|
||||
---
|
||||
|
||||
# Review: Prompt Caching 架构工程手册
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
- **标题**:Agentic Systems: Prompt Caching 架构工程手册 (Volume I)
|
||||
- **来源**:微信公众号
|
||||
- **领域**:AI Agent 系统架构 / Prompt 工程 / 缓存优化
|
||||
- **案例系统**:[[meta-jctrader|Meta-JCTrader]]
|
||||
- **添加时间**:2026-05-11
|
||||
- **类型**:工程实践教程
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[prompt-caching|Prompt Caching]]** — 基于前缀匹配的确定性计算优化,是 Agent 系统稳健性与推理确定性的架构基石
|
||||
2. **[[prefix-matching|前缀匹配]]** — 字节级严格匹配机制,任何微小更改触发雪崩式失效
|
||||
3. **[[prompt-layering|提示分层]]** — Global → Project → Session → Dynamic 四层架构,按变更频率分离静态与动态内容
|
||||
4. **[[stub-pattern|Stub 模式]]** — 通过 ToolRegistry 统一接口避免工具定义变更导致的缓存污染
|
||||
5. **[[cache-safe-forking|缓存安全分叉]]** — 复用父会话前缀实现低成本对话压缩
|
||||
6. **[[cache-hit-ratio|CHR]]** — 核心监控指标,< 95% 即触发告警
|
||||
7. **[[system-message-abuse|System Message 滥用]]** — 高频变更 System Message 的反模式及其工具化替代方案
|
||||
8. **[[cache-health-observability|缓存可观测性]]** — 三大指标体系(CHR + 失效点识别 + 成本效率评分)
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
```
|
||||
prompt-caching ←→ prefix-matching ←→ cache-invalidation
|
||||
↓ ↓
|
||||
prompt-layering ←→ stub-pattern ←→ tool-registry
|
||||
↓
|
||||
cache-safe-forking ←→ context-compression
|
||||
↓
|
||||
cache-hit-ratio ←→ cache-health-observability
|
||||
↓
|
||||
meta-jctrader ←→ agentic-systems ←→ reinforcement-learning-trading
|
||||
```
|
||||
|
||||
- **新增概念**:14 个(12 核心 + 2 占位符)
|
||||
- **扩展网络**:连接了 16+ 个相关概念
|
||||
- **占位符创建**:2 个([[agentic-systems]]、[[reinforcement-learning-trading]])
|
||||
- **断链状态**:0 处断链,100% 链接完整
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | 15 个(1 raw + 1 article + 12 概念 + 2 占位符 - 1 合并 = 15) |
|
||||
| 总规模 | 195 → 203 页 |
|
||||
| 链接完整性 | 100% 无断链 |
|
||||
| 索引更新 | ✅ 全量重建 |
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
1. **缓存不仅是性能问题,更是架构约束** — Prompt Caching 的确定性前缀匹配机制对系统设计提出了"静态前缀不可变性"的硬约束,这使得 Agent 架构必须从根本上区分"静态基础设施"与"动态业务逻辑"
|
||||
|
||||
2. **Stub 模式是缓存与灵活性的权衡最优解** — 通过 ToolRegistry 间接调用,在不牺牲缓存命中率的前提下保留了工具的动态扩展性,这是一种经典的计算机科学"中间层解耦"思路在 LLM 时代的映射
|
||||
|
||||
## 🏷️ 与现有知识库的关联
|
||||
|
||||
- 与 [[hyperagents|Hyperagents]] 的自我修改 Agent 形成互补:前者关注 Agent 内部的自我优化,本文关注 Agent 基础设施的效率优化
|
||||
- 为 [[agentic-systems|Agentic Systems]] 概念提供了工程实现层面的具体方法论
|
||||
63
reviews/ramsey-context-construction-review-20260511.md
Normal file
63
reviews/ramsey-context-construction-review-20260511.md
Normal file
@@ -0,0 +1,63 @@
|
||||
---
|
||||
title: "Review: 上下文构造与拉姆齐数"
|
||||
created: 2026-05-11
|
||||
type: review
|
||||
sources: [[ramsey-context-construction]]
|
||||
---
|
||||
|
||||
# Review: 上下文构造与拉姆齐数
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
- **标题**:上下文构造与拉姆齐数:基于 Ramsey 理论的 Agent 上下文缓存设计
|
||||
- **来源**:用户上传 Markdown
|
||||
- **领域**:Agent 架构设计 / 图论应用 / 上下文工程
|
||||
- **添加时间**:2026-05-11
|
||||
- **类型**:方法论设计 (Methodology)
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[ramsey-context-graph|拉姆齐上下文图]]** — 将 tools/skills/prompts 建模为节点,蓝边=兼容、红边=冲突
|
||||
2. **[[ramsey-context-cache|拉姆齐上下文缓存]]** — 三层机制(缓存池维护→团监控→O(1)命中)
|
||||
3. **[[context-blue-clique|上下文蓝色团]]** — 全兼容子集,作为常驻上下文骨架
|
||||
4. **[[greedy-context-screening|贪心上下文筛选]]** — 三步快速组装(相关性→子图→贪心团扩展)
|
||||
5. **[[ramsey-context-template|拉姆齐上下文模板]]** — 蓝色团模板库,KV cache 命中率 80%+
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
```
|
||||
ramsey-theory ←→ ramsey-numbers
|
||||
↓
|
||||
ramsey-context-graph ←→ prompt-caching
|
||||
↓
|
||||
ramsey-context-cache ←→ context-blue-clique
|
||||
↓ ↓
|
||||
greedy-context-screening ramsey-context-template
|
||||
↓ ↓
|
||||
prompt-layering ←→ stub-pattern
|
||||
```
|
||||
|
||||
**核心桥梁**:本文将纯数学的 [[ramsey-theory|拉姆齐理论]] 和工程的 [[prompt-caching|Prompt Caching]] 打通——用 R(3,3)=6 的必然性保证 Agent 上下文组装从不依赖穷举搜索,而是通过图维护实现确定性效率。
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | 7 个(1 article + 5 概念 + 1 raw) |
|
||||
| 总规模 | 219 → 225 页 |
|
||||
| 交叉引用 | 新页面间 45 处链接 |
|
||||
| 断链 | 0 处 |
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
这篇文档完成了 wiki 中一条**从纯数学到工程落地的完整知识链**:
|
||||
|
||||
```
|
||||
拉姆齐数的数学综述(理论层)
|
||||
↓
|
||||
上下文构造与拉姆齐数(方法论层)
|
||||
↓
|
||||
Prompt Caching 架构工程手册(工程层)
|
||||
```
|
||||
|
||||
最漂亮的洞见是:拉姆齐方法把**"每次费力搜索"降维成"维持一张好图"**——这与 [[stub-pattern|Stub 模式]] 把"动态工具选择"降维成"固定占位符+注册表"异曲同工。两者本质上都是「通过结构性约束换取确定性效率」,只是作用在不同层面:Stub 模式作用于纵向的工具定义稳定性,拉姆齐方法作用于横向的组件兼容性保证。
|
||||
78
reviews/ramsey-numbers-survey-review-20260511.md
Normal file
78
reviews/ramsey-numbers-survey-review-20260511.md
Normal file
@@ -0,0 +1,78 @@
|
||||
---
|
||||
title: "Review: 拉姆齐数的数学综述"
|
||||
created: 2026-05-11
|
||||
type: review
|
||||
sources: [[ramsey-numbers-survey]]
|
||||
---
|
||||
|
||||
# Review: 拉姆齐数的数学综述
|
||||
|
||||
## 📌 基本信息
|
||||
|
||||
- **标题**:拉姆齐数的数学综述 (Ramsey Numbers: A Comprehensive Survey)
|
||||
- **来源**:用户上传 Markdown
|
||||
- **日期**:2025年6月
|
||||
- **领域**:组合数学 / 图论 / 数论 / 数理逻辑
|
||||
- **添加时间**:2026-05-11
|
||||
- **类型**:综述论文 (Survey)
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[ramsey-theory|拉姆齐理论]]** — "完全的无序是不可能的",揭示大规模结构中必然存在规则性子结构
|
||||
2. **[[ramsey-numbers|拉姆齐数]]** R(r,s) — 量化"足够大"的数学不变量,精确值极其难以确定
|
||||
3. **[[diagonal-ramsey-number|对角拉姆齐数]]** R(k) — 二色边着色下必含单色 k-团的最小顶点数,R(5) 仍悬而未决
|
||||
4. **[[probabilistic-method|概率方法]]** — Erdős 1947 的革命性证明技术,获 R(k) > 2^{k/2} 下界,催生随机图理论
|
||||
5. **[[hypergraph-ramsey-number|超图拉姆齐数]]** — k-一致超图情形,增长涉及迭代指数塔
|
||||
6. **[[geometric-ramsey-theory|几何拉姆齐理论]]** — 幸福结局问题,凸多边形必然出现
|
||||
7. **[[additive-combinatorics|加法组合学]]** — 从 van der Waerden 到 Green-Tao,整数集中必然出现的加法子结构
|
||||
8. **[[paris-harrington-theorem|巴黎-哈灵顿定理]]** — PA 中不可证明的"自然"Ramsey 命题
|
||||
9. **[[green-tao-theorem|Green-Tao 定理]]** — 素数集包含任意长等差数列(Tao 获 2006 菲尔兹奖)
|
||||
10. **[[szemerédi-regularity-lemma|Szemerédi 正则性引理]]** — 大图分解为拟随机子结构的核心工具
|
||||
11. **[[ramsey-theory-applications|跨学科应用]]** — CS、密码学、物理、生物、社会科学中的 Ramsey 精神
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
```
|
||||
ramsey-theory ←→ ramsey-numbers ←→ diagonal-ramsey-number
|
||||
↓ ↓
|
||||
probabilistic-method ←→ lovasz-local-lemma ←→ random-graph-theory
|
||||
↓
|
||||
hypergraph-ramsey-number ←→ szemerédi-regularity-lemma
|
||||
↓
|
||||
geometric-ramsey-theory ←→ additive-combinatorics
|
||||
↓
|
||||
van-der-waerden-theorem → green-tao-theorem
|
||||
↓
|
||||
furstenberg-correspondence
|
||||
↓
|
||||
paris-harrington-theorem ←→ godel-incompleteness-theorems
|
||||
↓
|
||||
ramsey-theory-applications (CS / crypto / physics / biology)
|
||||
```
|
||||
|
||||
- **新增概念**:17 个(12 核心 + 4 占位符 + 1 论文页)
|
||||
- **与已有网络的连接**:[[godel-incompleteness-theorems|哥德尔不完备定理]](via Paris-Harrington)
|
||||
- **断链状态**:0 处断链,100% 链接完整
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | 18 个(1 raw + 1 survey + 12 核心概念 + 4 占位符) |
|
||||
| 总规模 | 203 → 219 页 |
|
||||
| 链接密度 | 新页面间 90 处交叉引用 |
|
||||
| 链接完整性 | 100% 无断链 |
|
||||
| 索引更新 | ✅ 全量重建 |
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
1. **Ramsey 理论是"秩序必然性"的数学证明** — 它不依赖于任何设计或意图:当系统规模足够大时,秩序是数学上不可避免的。这一洞见从组合数学穿透到物理学(相变)、生物学(基因网络)乃至社会科学(群体形成),构成了跨学科统一的底层逻辑。
|
||||
|
||||
2. **概率方法开辟的范式转变** — Erdős 不构造具体的 Ramsey 图,而是证明随机图"几乎必然"具有所需性质。这种"存在性先于构造性"的方法论深刻影响了整个计算机科学——从密码学中的随机性提取器到机器学习中的泛化理论,都继承了这一精神。R(5) 依然未知,但概率方法已经让人类理解了 R(k) 的渐近行为。
|
||||
|
||||
## 🏷️ 与现有知识库的关联
|
||||
|
||||
- 通过 [[paris-harrington-theorem|巴黎-哈灵顿定理]] 与 [[godel-incompleteness-theorems|哥德尔不完备定理]] 形成逻辑→组合的连接
|
||||
- 为 wiki 中尚薄弱的**纯数学/组合数学**分支提供坚实基础
|
||||
- [[random-graph-theory|随机图理论]]、[[probabilistic-method|概率方法]] 与 AI/ML 概念有天然接口
|
||||
54
reviews/streaming-llm-review-20260514.md
Normal file
54
reviews/streaming-llm-review-20260514.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "Review: StreamingLLM — 基于注意力汇的无限长流式语言模型"
|
||||
created: 2026-05-14
|
||||
updated: 2026-05-14
|
||||
type: review
|
||||
tags: [llm, attention, streaming, kv-cache]
|
||||
sources: ["https://arxiv.org/abs/2309.17453"]
|
||||
---
|
||||
|
||||
# Review: StreamingLLM — 基于注意力汇的无限长流式语言模型
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文: Efficient Streaming Language Models with Attention Sinks
|
||||
- 作者: Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis
|
||||
- 机构: MIT / Meta AI / CMU / NVIDIA
|
||||
- 发表: ICLR 2024
|
||||
- arXiv: 2309.17453
|
||||
- 代码: [mit-han-lab/streaming-llm](https://github.com/mit-han-lab/streaming-llm)
|
||||
|
||||
---
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[attention-sinks|注意力汇]]** — 初始 Token 在所有层/头中吸引不成比例的高注意力分数,不是因语义而是因绝对位置。根因是 SoftMax 归一化强制求和为 1。
|
||||
|
||||
2. **[[streaming-llm|StreamingLLM]]** — 保留 4 个初始 Token 的 KV + 最近 Token 的滑动窗口,使 LLM 无需微调即可处理无限长流式输入。
|
||||
|
||||
3. **[[window-attention|窗口注意力]]崩溃** — 仅缓存最近 Token 的朴素方案因逐出注意力汇 Token 而 PPL 飙升至 5000+。
|
||||
|
||||
4. **[[rolling-kv-cache|滚动 KV 缓存]]** — 固定大小的两段式缓存,位置编码在 cache 内部连续分配(关键设计)。
|
||||
|
||||
5. **[[sink-token|Sink Token 预训练]]** — 训练样本前加可学习 Token 作为唯一注意力汇,仅需 1 个 Token 替代 4 个。
|
||||
|
||||
6. **[[softmax-off-by-one|SoftMax-off-by-One]]** — SoftMax₁ = eˣ/(1+Σeˣ),允许丢弃注意力但不够充分。
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- 核心连接: [[attention-sinks|注意力汇]] ↔ [[streaming-llm|StreamingLLM]] ↔ [[rolling-kv-cache|滚动 KV 缓存]]
|
||||
- 问题链: [[length-extrapolation|长度外推]] → [[window-attention|窗口注意力]]失败 → [[attention-sinks|注意力汇]] → [[streaming-llm|StreamingLLM]]方案
|
||||
- 改进链: Vanilla → Zero Sink ([[softmax-off-by-one|SoftMax₁]]) → [[sink-token|Learnable Sink Token]]
|
||||
- 扩展网络: 连接到 [[kv-cache-bottleneck|KV 缓存瓶颈]]、[[rotary-position-embedding|RoPE]]、[[llm-attention-survey-2026|注意力综述]]
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面: 6 个(1 论文 + 5 概念)
|
||||
- 更新页面: 1 个([[attention-sinks|注意力汇]] 从占位符 → 完整内容)
|
||||
- 链接密度: 核心概念平均 5-7 个链接
|
||||
- 总规模: 294 → 300 页
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **SoftMax 的"结构必然性"**:注意力汇不是 bug,而是 SoftMax 归一化约束下的结构必然产物。这个洞察改变了我们对注意力机制的理解——"多余"的注意力不是模型学坏了,而是数学结构要求它存在。
|
||||
|
||||
2. **最简单的方案最优雅**:StreamingLLM 不需要微调、不需要修改架构、不需要重新训练——只是保留 4 个初始 Token 的 KV。这种"发现现象→解释机制→最小干预"的研究范式堪称典范。
|
||||
109
reviews/tba-review-20260512.md
Normal file
109
reviews/tba-review-20260512.md
Normal file
@@ -0,0 +1,109 @@
|
||||
---
|
||||
title: "TBA Review — 2026-05-12"
|
||||
created: 2026-05-12
|
||||
type: review
|
||||
sources: ["arxiv:2503.18929"]
|
||||
---
|
||||
|
||||
# TBA: Trajectory Balance with Asynchrony — 集成 Review
|
||||
|
||||
📌 **基本信息**
|
||||
- 论文:*Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training*
|
||||
- 作者:Brian Bartoldson et al. (LLNL × Mila × UdeM × KAIST × CIFAR)
|
||||
- 发表:NeurIPS 2025
|
||||
- arXiv:2503.18929
|
||||
- 代码:[bbartoldson/TBA](https://github.com/bbartoldson/TBA)
|
||||
|
||||
---
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **[[tba|TBA]](异步轨迹平衡框架)** — 将 GFlowNet 的 off-policy [[trajectory-balance-objective|TB 目标]] 与分布式 [[asynchronous-rl-llm|异步 RL]] 结合,实现 Searcher-Trainer 解耦,达到 4×–50× 训练加速。
|
||||
|
||||
2. **[[trajectory-balance-objective|Trajectory Balance (TB) 目标]]** — GFlowNet 的一种学习目标,天然 off-policy 兼容。在 LLM 后训练中,TB_VarGrad 梯度等价于 mean-baseline REINFORCE + KL 正则化奖励,但不要求 on-policy 数据。
|
||||
|
||||
3. **[[searcher-trainer-decoupling|Searcher-Trainer 解耦]]** — Searcher 节点持续生成响应和评估奖励(vLLM 推理),Trainer 节点持续从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样训练——两者互不等待,GPU 利用率接近 100%。
|
||||
|
||||
4. **[[reward-recency-sampling|奖励-最近度混合采样]]** — 概率 m 采样最近数据(稳定训练),概率 1−m 按奖励采样(鼓励探索),在 query 级别随机切换。m=0.5–0.6 效果最佳。
|
||||
|
||||
5. **[[gflownet-fine-tuning|GFlowNet 微调]]** — TBA 所属的理论框架,利用 GFlowNet 的分布匹配(而非奖励最大化)进行 LLM 后训练,天然产生多样化输出。
|
||||
|
||||
---
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
```
|
||||
[[rlvr-unified-framework]]
|
||||
↑ RL 后训练范式
|
||||
┌───────┴───────────┐
|
||||
│ │
|
||||
[[grpo]] [[gflownet-fine-tuning]]
|
||||
(On-Policy) (Off-Policy 分布式采样)
|
||||
↑ 对比 ↑ 基础框架
|
||||
│ │
|
||||
┌───┴───────────┐ [[trajectory-balance-objective]]
|
||||
│ │ ↑ TB 目标
|
||||
[[asynchronous-rl-llm]] ┌───────┴───────────────┐
|
||||
↑ 异步范式 │ │
|
||||
│ │ │
|
||||
[[searcher-trainer- [[tba|TBA]] [[replay-buffer-rl-llm]]
|
||||
decoupling]] ↑ 框架 ↑ Buffer
|
||||
↑ 架构 │ │
|
||||
└────────────────────┼────────────────────────┘
|
||||
│
|
||||
[[reward-recency-sampling]]
|
||||
↑ 采样策略
|
||||
│
|
||||
[[off-policy-llm-post-training]]
|
||||
↑ Off-Policy 范式
|
||||
```
|
||||
|
||||
- **核心连接**:GFlowNet → TB → TBA → Searcher-Trainer 解耦 → Replay Buffer → 奖励-最近度采样
|
||||
- **与现有网络连接**:链接了 [[grpo]]、[[rlvr-unified-framework]]、[[dgpo]]、[[dai-mathforge-2026|MathForge]]
|
||||
- **新增概念**:8 个(全部为全新建模概念)
|
||||
|
||||
---
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
| 类型 | 数量 | 描述 |
|
||||
|------|------|------|
|
||||
| 论文页面 | 1 | [[bartoldson-tba-2025]] |
|
||||
| 原始存档 | 1 | `raw/papers/bartoldson-tba-2025.md` |
|
||||
| 概念页面 | 8 | [[tba]], [[trajectory-balance-objective]], [[asynchronous-rl-llm]], [[off-policy-llm-post-training]], [[gflownet-fine-tuning]], [[replay-buffer-rl-llm]], [[searcher-trainer-decoupling]], [[reward-recency-sampling]] |
|
||||
| Review 报告 | 1 | 本文件 |
|
||||
| **本论文新增** | **11 页** | |
|
||||
| 总规模 | 255 → **264 页** | |
|
||||
| 链接完整性 | ✅ **0 断链** | |
|
||||
|
||||
---
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **TB 的 off-policy 性质是核心突破**:此前异步 LLM RL 的瓶颈在于 on-policy 算法(PPO/GRPO/RLOO)对 off-policyness 敏感——Async DPO 和 Proximal RLOO 在策略偏离增大时性能显著下降。TBA 用 TB 目标绕过了这个限制:TB 天然 off-policy 兼容,只要数据有 full support 即保证收敛。这不仅是工程优化,更是**算法选择决定架构可能性**的典型案例。
|
||||
|
||||
2. **"训练速度即模型能力"**:TBA 的 50× 加速不是免费的午餐——它源于架构上的根本性重新思考。Searcher 和 Trainer 互不等待意味着在相同 wall-clock 时间内可以处理更多数据、尝试更多探索。在 red-teaming 实验中,增加 Searcher 数量持续提升攻击成功率和多样性,表明**计算扩展直接转化为能力提升**。
|
||||
|
||||
3. **与 MathForge 的互补性**:TBA(加速训练)和 [[dai-mathforge-2026|MathForge]](提升训练质量)代表了 LLM RL 后训练的两个正交维度。TBA 解决 "how fast",MathForge 解决 "how well"。未来二者结合可能有巨大潜力。
|
||||
|
||||
4. **Kimi K1.5/K2 的联系**:论文揭示 Kimi K1.5/K2 的 RL 目标几乎等同 TB,但排除了 log-probability-ratio 的 control variate。TBA 保持此 term 且 ref-policy reset 更保守,这是理解工业界前沿 RL 训练的一个理论锚点。
|
||||
|
||||
---
|
||||
|
||||
📊 **实验亮点**
|
||||
|
||||
| 任务 | 模型 | 加速比 | 性能 |
|
||||
|------|------|--------|------|
|
||||
| GSM8K MR | RhoMath-1B | **50×** vs VinePPO | 55% (+1.8%) |
|
||||
| TL;DR PFT | Pythia 410M | **5×** vs Async DPO | 0.86 win-rate |
|
||||
| MATH MR | Qwen 2.5 7B | — | 超越 Dr. GRPO (off-policy) |
|
||||
| Red-Teaming | GPT-2 | **7×** vs GFlowNet | SOTA Pareto 前沿 |
|
||||
|
||||
---
|
||||
|
||||
🎓 **方法论意义**
|
||||
|
||||
TBA 展示了"借鉴成熟 RL 社区的技术 + 适配 LLM 特性"的成功范式:
|
||||
- 从 GFlowNets 借 TB 目标 → 解决 off-policy 学习
|
||||
- 从 IMPALA 借 Actor-Learner 架构 → 解耦探索与学习
|
||||
- 避免直接移植 Value-based 方法(不适合 LLM 的巨大 action space)
|
||||
98
reviews/thinking-with-visual-primitives-review-20260430.md
Normal file
98
reviews/thinking-with-visual-primitives-review-20260430.md
Normal file
@@ -0,0 +1,98 @@
|
||||
---
|
||||
title: "Review — Thinking with Visual Primitives"
|
||||
date: 2026-04-30
|
||||
paper: "Thinking with Visual Primitives"
|
||||
authors: "DeepSeek-AI"
|
||||
domain: "Multimodal AI / Visual Reasoning"
|
||||
---
|
||||
|
||||
# 📌 Thinking with Visual Primitives — 集成 Review
|
||||
|
||||
**论文**: Thinking with Visual Primitives
|
||||
**作者**: Ruijie Lu, Yiyang Ma, Xiaokang Chen (Project Lead) et al. — DeepSeek-AI, 北京大学, 清华大学
|
||||
**来源**: [GitHub](https://github.com/deepseek-ai/Thinking-with-Visual-Primitives) (2026)
|
||||
**集成时间**: 2026-04-30
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **视觉原语 (Visual Primitives)** — Bounding boxes 和 points 被提升为「思维的最小单位」,直接交织进 MLLM 的 Chain-of-Thought 推理链。框用于精确定位对象,点用于抽象空间引用和轨迹追踪。
|
||||
|
||||
2. **引用鸿沟 (Reference Gap)** — 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代。这是现有 MLLM 在复杂空间推理中逻辑崩溃的**根本瓶颈**,比感知鸿沟更深层。「Seeing is not reasoning.」
|
||||
|
||||
3. **极致 Token 效率** — 从 756×756 图像到仅 81 个 KV entries,压缩比 **7056×**。以 GPT-5.4 1/8、Gemini 1/12 的 token 预算,在空间推理和拓扑任务上实现反超。
|
||||
|
||||
4. **训练流水线** — 「train specialists—then—merge」策略:专项 SFT(框专家 FTwG + 点专家 FTwP)→ 专项 RL(GRPO + 多维度 RM)→ 统一 RFT → 在线策略蒸馏。
|
||||
|
||||
5. **四大冷启动任务** — 粗粒度计数、细粒度计数、迷宫导航、路径追踪。每个任务都设计了专门的奖励模型(指数衰减奖励、因果探索进度、双向轨迹评估等)。
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
### 核心连接
|
||||
```
|
||||
视觉原语 ←→ 引用鸿沟 ←→ 感知鸿沟
|
||||
↓
|
||||
框原语(计数/空间推理) + 点原语(迷宫/路径追踪)
|
||||
↓
|
||||
专项SFT→专项RL(GRPO)→统一RFT→在线策略蒸馏
|
||||
↓
|
||||
Token效率(7056×) ← CSA + DeepSeek-ViT
|
||||
```
|
||||
|
||||
### 扩展网络
|
||||
- 连接到已有概念: [[compressed-sparse-attention]], [[on-policy-distillation]], [[mixture-of-experts]], [[deepseek-v4-million-token-context]]
|
||||
- 新建 20 个概念页面,与现有 attention/MoE/训练方法概念形成密集交叉引用
|
||||
- 将 wiki 从 LLM 架构层**垂直延伸到多模态视觉推理层**
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | **21** 个(1 论文 + 20 概念) |
|
||||
| 总规模 | 143 → **164** 页 |
|
||||
| 链接密度 | 141 个交叉链接(仅新页面间) |
|
||||
| 网络完整性 | **100%** 无断链 |
|
||||
| 代码修复 | 75 个中文 wikilink → English kebab-case 格式化 |
|
||||
| 覆盖维度 | 新增「多模态视觉推理」知识维度 |
|
||||
|
||||
### 新增概念一览
|
||||
`visual-primitives`, `reference-gap`, `perception-gap`, `chain-of-thought`, `multimodal-large-language-model`, `system-2-thinking`, `deepseek-vit`, `deepseek-v4-flash`, `token-efficiency`, `coarse-grained-counting`, `fine-grained-counting`, `maze-navigation`, `path-tracing`, `group-relative-policy-optimization`, `specialized-sft`, `specialized-rl`, `unified-rft`, `exponential-decay-reward`, `bidirectional-trajectory-evaluation`, `reward-model`
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
### 1. 从「看到更多」到「指得更准」的范式转移
|
||||
|
||||
本文最深刻的贡献不是架构创新,而是**问题定义的重新框架化**。整个多模态社区一直在追求更高分辨率、更多视觉 token,好像问题就是「看得不够清楚」。DeepSeek 指出:即使完美感知,语言本身在空间指代上就是有缺陷的。这个洞察一旦提出就几乎是显然的——人类在解迷宫时不会自言自语「向左第三格再向右第五格」,而是直接用手指。
|
||||
|
||||
视觉原语本质上是在给 CoT 添加一个**空间类型系统**:让模型能够区分「说"红色的球"」(语言引用,有歧义)和「指 (342, 567) 那个位置」(空间引用,无歧义)。
|
||||
|
||||
### 2. Token 效率的工程奇迹
|
||||
|
||||
7056× 的压缩比是惊人的。这意味着 DeepSeek 在说:「我们不需要更贵的硬件,我们需要更聪明的信息压缩」。90 个 KV entries 承载了比 1,100 个密集 token 更丰富的空间信息——因为每个 token 都是精确的空间坐标,而非模糊的 visual embedding。
|
||||
|
||||
### 3. 对 Agent 和具身 AI 的潜在影响
|
||||
|
||||
这项工作的真正价值可能尚未完全释放。如果 MLLM 能够原生地「Think in coordinates」,那么:
|
||||
- **GUI Agent** 可以直接输出操作坐标而非依赖 OCR+语义匹配
|
||||
- **机器人操作** 可以接收精确的抓取点而非「那个杯子」
|
||||
- **自动驾驶** 可以用轨迹原语替代高维规划空间
|
||||
|
||||
---
|
||||
|
||||
## ⚠️ 局限与未来
|
||||
|
||||
1. **需要显式触发词** — 当前视觉原语能力无法自主激活
|
||||
2. **点原语的泛化有限** — 跨场景拓扑推理仍是开放挑战
|
||||
3. **与感知鸿沟方案的整合** — 理论上互补,实战待验证
|
||||
4. **中英文能力继承** — 训练数据无中文,但得益于基座模型的多语言能力意外地支持中文推理
|
||||
|
||||
---
|
||||
|
||||
*「多模态智能的未来不在于看到更多像素,而在于构建语言与视觉之间精确、无歧义的引用桥梁。」*
|
||||
Reference in New Issue
Block a user