diff --git a/articles/caddy-reverse-proxy-auth.md b/articles/caddy-reverse-proxy-auth.md new file mode 100644 index 0000000..08a8252 --- /dev/null +++ b/articles/caddy-reverse-proxy-auth.md @@ -0,0 +1,56 @@ +--- +title: "Caddy 反向代理认证方案" +created: 2026-05-01 +updated: 2026-05-01 +type: article +tags: [] +sources: [] +--- + +# Caddy 反向代理认证方案 + +- **类型**: 技术教程/配置指南 +- **标签**: #caddy #reverse-proxy #authentication + +## 概述 + +Caddy 本身没有内置 `X-API-Key` 或 `Bearer Token` 的直接校验指令,但利用**命名匹配器(Named Matcher)** + `respond`/`abort` 指令可以干净利落地实现。本文涵盖 5 种认证方案,从零依赖纯内置到完整 JWT 生态。 + +## 方案总览 + +### 方案一:Header 匹配器(纯内置,推荐) +利用 Caddy 的 `header` 匹配器检查请求头,不匹配则返回 401。 + +核心逻辑:`@unauthorized { not header X-API-Key "..." }` → `respond @unauthorized "Unauthorized" 401` + +- 支持 `X-API-Key` 和 `Authorization: Bearer` 两种头格式 +- 可通过命名匹配器组合实现多 Key 白名单 + +### 方案二:Route + Handle(路径级别控制) +同一站点下,`/public/*` 不需要认证,`/api/*` 需要 Bearer Token —— 用 `route` + `handle` 块做路径级别精细控制。 + +### 方案三:Basic Auth(用户名密码) +Caddy 内置 `basicauth` 指令,使用 `caddy hash-password` 生成 bcrypt 哈希。 + +### 方案四:Forward Auth(外部认证委托) +将认证逻辑委托给外部服务(查数据库、第三方鉴权),外部服务返回 200 通过,401/403 拒绝。Caddy 原生支持 `forward_auth` 指令。 + +### 方案五:JWT 插件(完整 JWT 生态) +通过社区插件 `caddy-auth-jwt` 实现 JWT 签发、验证、claim 提取,需重新编译 Caddy。 + +## 方案选择指南 + +| 场景 | 推荐方案 | +|------|---------| +| 简单固定 API Key / Bearer Token | [[reverse-proxy-authentication|方案一]] | +| 部分路径需要认证 | 方案二(route + handle) | +| 用户名密码即可 | 方案三(basicauth) | +| 认证逻辑复杂,需外部服务 | [[forward-authentication|方案四]] | +| 需要完整的 JWT 生态 | 方案五(JWT 插件) | + +## 相关概念 + +- [[caddy-web-server]] — Caddy Web 服务器 +- [[reverse-proxy-authentication]] — 反向代理层认证模式 +- [[api-key-authentication]] — API Key / Token 认证 +- [[forward-authentication]] — 外部委托认证模式 diff --git a/articles/crawl4ai-open-source-web-crawler.md b/articles/crawl4ai-open-source-web-crawler.md index eeed7ad..925a966 100644 --- a/articles/crawl4ai-open-source-web-crawler.md +++ b/articles/crawl4ai-open-source-web-crawler.md @@ -1,3 +1,12 @@ +--- +title: "Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具" +created: 2026-05-01 +updated: 2026-05-01 +type: article +tags: [] +sources: [] +--- + # Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具 **来源**: 知乎专栏 diff --git a/articles/gpt-image2-prompt-collection.md b/articles/gpt-image2-prompt-collection.md new file mode 100644 index 0000000..ce8a3ac --- /dev/null +++ b/articles/gpt-image2-prompt-collection.md @@ -0,0 +1,54 @@ +--- +title: "GPT-Image-2 绘图 Prompt 方法论与风格合集" +created: 2026-05-01 +updated: 2026-05-01 +type: article +tags: [] +sources: [] +--- + +# GPT-Image-2 绘图 Prompt 方法论与风格合集 + +- **类型**: 论坛教程/经验分享 +- **来源**: linux.do 论坛,作者 sallyn +- **日期**: 2026-04-24 +- **标签**: #gpt-image2 #prompt-engineering #image-generation + +## 概述 + +来自 linux.do 论坛用户 sallyn 的 GPT-Image-2 实战经验,包含 11 种经过验证的绘图风格 Prompt 模板和 3 种 Prompt 工程方法论。核心价值不在于模板本身,而在于展示了**系统化的 Prompt 设计思维**——从风格解构到反推复现的完整链条。 + +## 核心方法论 + +### 1. [[prompt-reverse-engineering|图片反推 Prompt]](最核心) + +15 维分析模板,将任意参考图的美学属性拆解为可操作的自然语言描述: +- **基础维度**: 画面风格、成分组成、构图方式、光影特质、色调色彩、媒介材质、情绪氛围、渲染参数 +- **进阶维度**: 时代感、空间逻辑与透视、信息密度与留白、动态瞬时感、后期数字痕迹、符号化特征 + +### 2. AI 辅助风格学习 + +AI 搜索设计风格关键词 → Pinterest/Google 图像验证 → 提示词中精确引用术语 + +### 3. Grok 审核包装 + +敏感主题经由 Grok 包装为合规 Prompt,再投喂给 GPT-Image-2 + +## 风格分类 + +| 类别 | 风格 | 核心特征 | +|------|------|---------| +| 几何/构成 | [[russian-constructivism|俄国构成主义]] | 三角/圆形/对角线、三色限定、丝网印刷 | +| 数字/故障 | [[glitch-art-style|故障艺术]] | 像素排序、RGB偏移、数字碎片化 | +| 印刷/网点 | [[halftone-print-style|半调雕刻]] | 线条密度构建立体、双色极简 | +| 印刷/网点 | [[risograph-print-style|Riso杂志]] | 半调网点、波普艺术、复古封面 | +| 动漫/平面 | [[cel-shading-style|赛璐璐]] | 硬边阴影、克莱因蓝、仰拍透视 | +| 混合媒介 | 波普水墨 | 赛璐璐平涂+水墨喷溅+波点网纹 | +| 朋克/亚文化 | DEDSEC赛博 | 硬核朋克、橙黑白三色、半调网点 | +| 工业/冷峻 | 数字工业故障 | 电光蓝剪影、色差边缘、胶片噪点 | + +## 相关概念 + +- [[gpt-image2]] — GPT-Image-2 图像生成工具 +- [[prompt-reverse-engineering]] — 从图像反推 Prompt 的系统方法 +- [[image-generation-prompt-design]] — 通用图像生成 Prompt 设计原则 diff --git a/articles/prompt-caching-architecture.md b/articles/prompt-caching-architecture.md new file mode 100644 index 0000000..7787a40 --- /dev/null +++ b/articles/prompt-caching-architecture.md @@ -0,0 +1,46 @@ +--- +title: "Prompt Caching 架构工程手册" +created: 2026-05-11 +updated: 2026-05-11 +type: article +tags: [prompt-caching, agent-architecture, system-design, ai-engineering] +sources: ["https://mp.weixin.qq.com/s/gyd4cqxadv3YW5Fe09r95g"] +--- + +# Prompt Caching 架构工程手册 (Volume I) + +## 概述 + +本文系统阐述了 **Prompt Caching** 在大规模 AI Agent 系统中的工程实践,以高频交易系统 [[meta-jctrader]] 为案例。Prompt Caching 不仅是降低延迟和成本的财务工具,更是系统稳健性与推理确定性的架构基石。 + +## 核心问题 + +在大规模 Agent 系统中,动态变化的 System Prompt 和工具定义导致缓存频繁失效([[cache-invalidation|缓存失效]]),使模型丧失"热启动"能力,造成不可控的延迟和成本。 + +## 方法论贡献 + +### 四层架构分层 + +构建 **Global → Project → Session → Dynamic** 的 [[prompt-layering|提示分层]] 堆栈,将不可变静态前缀与高频动态数据严格分离。 + +### Stub 模式 + +引入 [[stub-pattern|Stub 模式]] 和 [[tool-registry|ToolRegistry]] 统一接口,在 System Prompt 中仅保留最小化工具占位符,避免工具定义变更触发 [[cache-invalidation|缓存失效]]。 + +### Cache-Safe Forking + +实现 [[cache-safe-forking|缓存安全分叉]],在 [[context-compression|上下文压缩]] 时复用父会话的完整前缀,将总结成本降低一个数量级。 + +### 状态管理工具化 + +规避 [[system-message-abuse|System Message 滥用]],将状态切换从 System Message 迁移到消息化标签或工具调用。 + +### 可观测性体系 + +建立以 [[cache-hit-ratio|缓存命中率]] (CHR) 为核心的 [[cache-health-observability|缓存健康度指标]] 系统,包含失效点识别和成本效率评分。 + +## 与现有 Wiki 的关联 + +- [[prompt-caching|提示缓存]] 作为 Agent 基础设施的核心组件 +- 与 [[agentic-systems|Agent 系统设计]] 中的状态管理与成本优化形成互补 +- [[meta-jctrader]] 作为 [[reinforcement-learning-trading|强化学习交易]] 的工程实践案例 diff --git a/articles/ramsey-context-construction.md b/articles/ramsey-context-construction.md new file mode 100644 index 0000000..bbb42d2 --- /dev/null +++ b/articles/ramsey-context-construction.md @@ -0,0 +1,61 @@ +--- +title: "上下文构造与拉姆齐数" +created: 2026-05-11 +updated: 2026-05-11 +type: methodology +tags: [ramsey-theory, agent-architecture, prompt-caching, context-design] +sources: ["用户上传 Markdown"] +--- + +# 上下文构造与拉姆齐数:基于 Ramsey 理论的 Agent 上下文缓存设计 + +## 概述 + +本文提出将 [[ramsey-theory|拉姆齐理论]] 的数学保证应用于 Agent 上下文的构筑,设计一套**有存在性保证的高效缓存与组织方法**。核心创新:将上下文组装从"每次都要费力搜索"变成"维持一张好图"的维护问题。 + +## 核心问题 + +在 Agent 上下文中,tools、skills、prompts 的组合空间呈爆炸增长。传统方法依赖穷举或启发式搜索来找到兼容组合——而 [[ramsey-numbers|拉姆齐数]] 告诉我们:只要维持的候选池超过某个阈值,**必然存在**一个完全兼容的子集。关键在于如何将这一"必然性"工程化。 + +## 方法论 + +### [[ramsey-context-graph|拉姆齐上下文图]] + +将所有上下文原子(tools、skills、prompts)建模为图的**节点**,用两种颜色的边表达关系: +- **蓝边**:兼容、可共存 +- **红边**:冲突、冗余、超 token + +涵盖**跨部边**(工具-技能)和**部内边**(工具-工具、技能-技能)。 + +### [[ramsey-context-cache|拉姆齐上下文缓存]] + +三层运转机制: +1. **缓存池维护**:动态计算和更新红蓝边 +2. **必然团监控器**:追踪最大蓝色团,跌破阈值触发重组 +3. **O(1) 上下文命中**:预计算兼容团直接作为上下文骨架 + +### [[greedy-context-screening|贪心上下文筛选]] + +基于当前用户需求,三步完成快速筛选: +1. **相关性投射**:每个节点计算相关度分数 +2. **高相关子图**:过滤出与需求相关的节点诱导子图 +3. **贪心团搜索**:利用蓝色边稠密性,贪心扩展得到近似最优团(差距 <5%) + +## 与 Prompt Caching 的协同 + +- [[ramsey-context-template|拉姆齐上下文模板]]:蓝色团天然是稳定前缀,作为模板库直接复用 → [[cache-hit-ratio|KV cache 命中率]] 可达 80%+ +- 模板复用保证前缀一致性,与 [[prompt-caching|Prompt Caching]] 的 [[prefix-matching|前缀匹配]] 原则完美契合 +- 与 [[prompt-layering|提示分层]] 形成互补:拉姆齐方法处理组件间的横向兼容性,分层方法处理纵向静态/动态分离 + +## 反遗忘机制 + +- **团大小动态收缩**:长对话轮次时下调目标团大小 +- **节点活性评级**:低频长描述节点受惩罚,优先选择高频轻量节点 + +## 与现有 Wiki 的关联 + +- [[ramsey-theory|拉姆齐理论]] — 数学基础 +- [[ramsey-numbers|拉姆齐数]] — 提供阈值保证 R(3,3)=6, R(4,4)=18 +- [[prompt-caching|Prompt Caching]] — 工程目标 +- [[prompt-layering|提示分层]] — 互补的设计理念 +- [[stub-pattern|Stub 模式]] — 类似的"通过结构保证稳定性"的思路 diff --git a/concepts/additive-combinatorics.md b/concepts/additive-combinatorics.md new file mode 100644 index 0000000..a7ebe81 --- /dev/null +++ b/concepts/additive-combinatorics.md @@ -0,0 +1,39 @@ +--- +title: "Additive Combinatorics(加法组合学)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [number-theory, combinatorics, additive-theory] +sources: [[ramsey-numbers-survey]] +--- + +# Additive Combinatorics(加法组合学) + +## 定义 + +加法组合学是研究整数集(或更一般地,Abel 群)的加法结构的分支,核心问题是:一个集合在何种条件下必然包含特定的加法子结构(如等差数列)。 + +## 核心结果 + +| 定理 | 内容 | 年份 | +|------|------|------| +| [[van-der-waerden-theorem|van der Waerden]] | 有限着色下必存在任意长单色等差数列 | 1927 | +| Szemerédi 定理 | 正上密度集包含任意长等差数列 | 1975 | +| [[green-tao-theorem|Green-Tao]] | 素数集包含任意长等差数列 | 2004 | +| 多项式 Freiman-Ruzsa | 小倍增集的代数结构刻画 | 2023 | + +## 与 Ramsey 理论的关系 + +加法组合学可视为算术 Ramsey 理论的密度版本:从"着色"推广到"密度",从"必然存在"深化为"以什么频率出现"。 + +## 核心工具 + +- **Gowers 一致性范数**:度量集合的"伪随机程度" +- **密度增量方法**:迭代提取有序子结构的 Ramsey 论证 +- **Furstenberg 对应原理**:转化为动力系统问题 + +## 相关概念 + +- [[ramsey-theory|拉姆齐理论]] +- [[green-tao-theorem|Green-Tao 定理]] +- [[furstenberg-correspondence|Furstenberg 对应原理]] diff --git a/concepts/agent-communication-stack.md b/concepts/agent-communication-stack.md new file mode 100644 index 0000000..60f01db --- /dev/null +++ b/concepts/agent-communication-stack.md @@ -0,0 +1,52 @@ +--- +title: Agent通信协议栈 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# Agent通信协议栈 (Agent Communication Stack) + +> 大规模 LLM Agent 网络的**三层通信架构**:传输层 → 结构层(Function Calling)→ 语义层。由 Song et al. (2026) 在 [[song-agent-network-taxonomy]] 论文中系统化。 + +## 三层结构 + +| 层 | 作用 | 通信形式 | 主要难点 | +|----|------|---------|---------| +| **传输层** (Transport) | 网络数据传输 | 二进制/文本消息 | 延迟、排序、可靠性 | +| **结构层** (Structural) | 跨 agent 结构化操作执行 | Schema-based 消息 | 兼容性、版本漂移、schema 演化 | +| **语义层** (Semantic) | 推理对齐、上下文传播、共享状态 | 自然语言 + 结构化证据 | 跨 agent 一致性和上下文一致性 | + +## 各层详解 + +### 传输层 +负责消息的实际传递。大规模系统中需处理: +- 可预测延迟 +- 消息排序与可靠性 +- 并发消息冲突 + +### 结构层 (Function Calling + Tool Calling) +Agent 通过 schema 定义发出结构化操作。核心机制: +```json +{"name": "get_weather", "arguments": {"city": "Atlanta"}} +``` +大规模网络中,每次调用都参与全局通信图,影响信息流动和长期稳定性。 + +### 语义层 +最高层——确保 agent 的推理状态在分布式执行下保持一致。**语义不一致是大规模系统的首要失败点**——GenSim 实验表明即使传输和结构层正确,语义漂移在数千 agent 规模下仍导致任务级分歧。 + +## 大规模扩展难题 + +1. 通信负载随 N 增长饱和消息队列 +2. 上下文漂移:不同 agent 维护不一致的事件摘要 +3. 排序与并发:异步消息重排序导致时序视图分歧 +4. 解释不匹配:异构模型间 schema 相同但语义不兼容 +5. 更新不稳定:并发更新放大微小不一致 +6. 安全与信任:通信通道倍增 → 攻击面扩大 + +## 相关概念 +- [[agent-network-taxonomy]] — 完整分类法 +- [[decentralized-agent-architecture]] — 去中心化架构 +- [[song-agent-network-taxonomy]] — 父论文 diff --git a/concepts/agent-mediated-deception.md b/concepts/agent-mediated-deception.md index 14b387b..88109d4 100644 --- a/concepts/agent-mediated-deception.md +++ b/concepts/agent-mediated-deception.md @@ -44,4 +44,4 @@ Agent-Mediated Deception (AMD) 是一种新型攻击面,指被攻破或恶意 - [[li-amd-human-perception]] — 原始论文 - [[human-agent-trust]] — 人机信任研究 -- [[alignment]] — AI 对齐与安全 +- [[ai-alignment]] — AI 对齐与安全 diff --git a/concepts/agent-network-memory-scope.md b/concepts/agent-network-memory-scope.md new file mode 100644 index 0000000..2843d06 --- /dev/null +++ b/concepts/agent-network-memory-scope.md @@ -0,0 +1,56 @@ +--- +title: Agent网络记忆范围 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# Agent网络记忆范围 (Agent Network Memory Scope) + +> **全局 vs 局部**记忆——决定信息在 Agent 网络中是共享还是隔离的。[[agent-network-taxonomy]] 的第二层分类维度。 + +## 全局记忆 (Global Memory) + +所有 agent 读写共享状态 M_global: +``` +a_i : (x_i, M_global, c_i) → (o_i, M_global) +``` + +**特性**: +- 统一信息板,所有 agent 可访问最新状态 +- 适合需要强一致性的场景(软件工程流水线、多角色协作) +- 缺点:单点瓶颈、并发写入冲突 + +**代表系统**:MetaGPT (共享消息池)、AutoGen (全局对话历史)、BlackBoard 模式 + +## 局部记忆 (Local Memory) + +每个 agent 仅维护私有状态 M_i: +``` +M = {M_1, ..., M_N} +a_i : (x_i, M_i, c_i) → (o_i, M'_i) +``` + +**特性**: +- 无跨 agent 同步,agent 自主管理记忆 +- 适合社会模拟、自治 agent、异质任务 +- 缺点:信息孤岛、需要显式通信共享知识 + +**代表系统**:Generative Agents (个体记忆流)、AgentNet (局部知识图谱)、Voyager (技能库) + +## 选择权衡 + +| 维度 | 全局记忆 | 局部记忆 | +|------|---------|---------| +| 一致性 | 强(共享真相源) | 弱(可能分歧) | +| 可扩展性 | 受共享状态大小限制 | 水平扩展 | +| 隐私 | 无(所有 agent 可见) | 有(隔离状态) | +| 通信需求 | 低(读即可) | 高(需显式交换) | +| 适合场景 | 协作式流水线 | 社会模拟、自主探索 | + +## 相关概念 +- [[agent-network-taxonomy]] — 完整分类法 +- [[agent-network-update-behavior]] — 更新行为维度 +- [[song-agent-network-taxonomy]] — 父论文 diff --git a/concepts/agent-network-taxonomy.md b/concepts/agent-network-taxonomy.md new file mode 100644 index 0000000..7a243e1 --- /dev/null +++ b/concepts/agent-network-taxonomy.md @@ -0,0 +1,56 @@ +--- +title: Agent网络三层分类法 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture, survey] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# Agent网络三层分类法 (Agent Network Taxonomy) + +> 由 Song et al. (2026) 提出的大规模 LLM Agent 系统的**嵌套式三层分类框架**:拓扑 → 记忆 → 更新,诱导出 8 种系统类别并揭示架构权衡。 + +## 三层维度 + +### 第一层:拓扑 (Topology) +- **集中式** (Centralized):存在一个协调者 agent a_c,通信图形成星形拓扑 +- **去中心化** (Decentralized):无区分协调者,协调通过 peer 级交互涌现 +- 详见 [[agent-network-topology]] + +### 第二层:记忆范围 (Memory Scope) +- **全局记忆** (Global):所有 agent 读写共享状态 M_global +- **局部记忆** (Local):每个 agent 仅维护私有状态 M_i,无跨 agent 同步 +- 详见 [[agent-network-memory-scope]] + +### 第三层:更新行为 (Update Behavior) +- **静态** (Static):通信图、策略、记忆配置在初始化后保持不变 +- **动态** (Dynamic):结构组件基于交互历史/执行结果自适应演化 +- 详见 [[agent-network-update-behavior]] + +## 8 种系统类别 + +| 拓扑 | 记忆 | 更新 | 关键特征 | +|------|------|------|---------| +| 集中式 | 全局 | 静态 | 固定全局工作流 (MetaGPT, ChatDev) | +| 集中式 | 全局 | 动态 | 自适应全局协调 (SWE-agent, Voyager) | +| 集中式 | 局部 | 静态 | 固定本地状态 (MetaAgent, SOTOPIA-S4) | +| 集中式 | 局部 | 动态 | 自适应本地协调 (OPTIMA, Magentic-One) | +| 去中心化 | 全局 | 静态 | 共享黑板 (BlackBoard, LLMBlackBoard) | +| 去中心化 | 全局 | 动态 | 动态共享市场 (GPTSwarm, OpenAgents) | +| 去中心化 | 局部 | 静态 | 固定局部交互 (MMAgent, WebArena) | +| 去中心化 | 局部 | 动态 | 涌现式社交 (GenAgents, AgentNet) | + +## 形式化基础 + +Agent 系统定义为 A = (V, E, M, Π),其中每个 agent a_i 是状态转移函数: +``` +a_i : (x_i, m_i, c_i) → (o_i, m'_i) +``` + +## 相关概念 +- [[agent-network-topology]] — 拓扑维度详解 +- [[agent-network-memory-scope]] — 记忆维度详解 +- [[agent-network-update-behavior]] — 更新行为详解 +- [[song-agent-network-taxonomy]] — 父论文 +- [[cognitive-architecture]] — 广义认知架构 diff --git a/concepts/agent-network-topology.md b/concepts/agent-network-topology.md new file mode 100644 index 0000000..e29395e --- /dev/null +++ b/concepts/agent-network-topology.md @@ -0,0 +1,53 @@ +--- +title: Agent网络拓扑 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# Agent网络拓扑 (Agent Network Topology) + +> Agent 网络的通信结构——**集中式 vs 去中心化**——是 [[agent-network-taxonomy]] 的第一层分类维度。 + +## 集中式 (Centralized) + +存在一个区分协调者 a_c,通信图形成以 a_c 为中心的星形: +``` +E = {(a_c, a_i), (a_i, a_c) | ∀a_i ≠ a_c} +``` + +路由和角色分配由控制器独占更新: +``` +E^(t+1) = Φ_c(E^(t), o^(t)) +Π^(t+1) = Γ_c(Π^(t), o^(t)) +``` + +**代表系统**:MetaGPT (Φ_c = 全连接星形)、OPTIMA (状态交换图) + +## 去中心化 (Decentralized) + +不存在区分协调者,协调通过局部交互涌现: +``` +E^(t+1) = Φ(E^(t), o^(t)) // 分布式更新 +Π^(t+1) = Γ(Π^(t), o^(t)) // 无中心节点 +``` + +**代表系统**:AgentNet (进化协调)、Generative Agents (社交涌现)、GPTSwarm (图优化) + +## 拓扑选择的影响 + +| 维度 | 集中式 | 去中心化 | +|------|--------|---------| +| 协调效率 | 高(控制器全局视角) | 低(需协商共识) | +| 可扩展性 | 受控制器瓶颈限制 | 高(水平扩展) | +| 鲁棒性 | 控制器单点故障 | 高(冗余容错) | +| 通信开销 | O(N)(星形) | O(N²)(全连接最坏) | +| 规划深度 | 强(全局优化) | 有限(局部决策) | + +## 相关概念 +- [[agent-network-taxonomy]] — 完整分类法 +- [[centralized-agent-architecture]] — 集中式详解 +- [[decentralized-agent-architecture]] — 去中心化详解 +- [[song-agent-network-taxonomy]] — 父论文 diff --git a/concepts/agent-network-update-behavior.md b/concepts/agent-network-update-behavior.md new file mode 100644 index 0000000..2568b8f --- /dev/null +++ b/concepts/agent-network-update-behavior.md @@ -0,0 +1,60 @@ +--- +title: Agent网络更新行为 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# Agent网络更新行为 (Agent Network Update Behavior) + +> **静态 vs 动态**更新——决定 Agent 网络的结构在运行时是固定不变还是会自适应演化。[[agent-network-taxonomy]] 的第三层分类维度。 + +## 静态更新 (Static) + +通信图、策略和记忆配置在初始化后保持不变: +``` +E^(t+1) = E^(t) +Π^(t+1) = Π^(t) +M^(t+1) = M^(t) +``` + +**特性**:行为完全由初始设计决定,运行时无自适应 + +**代表系统**:MetaGPT (固定角色流水线)、ChatDev (预设多角色)、HuggingGPT (固定调度器) + +## 动态更新 (Dynamic) + +结构组件基于交互历史或执行结果自适应演化: +``` +E^(t+1) = Φ(E^(t), {o_i^(t)}) +Π^(t+1) = Ψ(Π^(t), {o_i^(t)}) +``` + +**特性**:路由、角色分配、记忆检索策略在运行时调整 + +**代表系统**: +- SWE-agent:根据调试失败动态修改搜索和修复工作流 +- OPTIMA:控制器根据部分进展自适应路由 +- Generative Agents:根据社交上下文动态修改角色分配和记忆策略 +- AgentNet:去中心化进化协调,拓扑和策略在每代更新 + +## 静态 vs 动态权衡 + +| 维度 | 静态 | 动态 | +|------|------|------| +| 可预测性 | 高 | 低 | +| 适应性 | 无(预设固定) | 强(环境响应) | +| 复杂度 | 低 | 高(需更新逻辑) | +| 稳定性 | 稳定 | 可能振荡/发散 | +| 适合场景 | 定义明确的重复任务 | 开放域探索、长周期任务 | + +## 关键挑战 +动态系统面临的核心问题:**更新不稳定**——并发更新可能放大微小不一致,agent 反复覆盖彼此状态(在 AWI、OASIS 等系统中观察到)。 + +## 相关概念 +- [[agent-network-taxonomy]] — 完整分类法 +- [[agent-network-memory-scope]] — 记忆维度 +- [[agent-network-topology]] — 拓扑维度 +- [[song-agent-network-taxonomy]] — 父论文 diff --git a/concepts/agentic-systems.md b/concepts/agentic-systems.md new file mode 100644 index 0000000..bb5a2e4 --- /dev/null +++ b/concepts/agentic-systems.md @@ -0,0 +1,21 @@ +--- +title: "Agentic Systems(智能体系统)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, placeholder] +sources: [[prompt-caching-architecture]] +--- + +# Agentic Systems(智能体系统) + +## 定义 + +Agentic Systems 指具备自主决策和执行能力的 AI 系统,通常包含工具调用、状态管理、上下文维护等核心能力。 + +> 此页面为占位符,由 [[prompt-caching-architecture|Prompt Caching 架构工程手册]] 集成时创建。 + +## 相关概念 + +- [[prompt-caching|Prompt Caching]] +- [[prompt-caching-architecture|Prompt Caching 架构工程手册]] diff --git a/concepts/ai-agent-security.md b/concepts/ai-agent-security.md index dd9bf31..2e05bda 100644 --- a/concepts/ai-agent-security.md +++ b/concepts/ai-agent-security.md @@ -1,3 +1,12 @@ +--- +title: AI代理安全 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # AI代理安全 **类型**: 安全领域 @@ -61,7 +70,7 @@ AI代理安全是指保护自主AI代理及其运行环境免受恶意攻击、 - **原理**: 使用数学方法定义和验证安全策略 - **优点**: 提供根本性安全保证 - **缺点**: 实施复杂,需要专业知识 -- **示例**: [[ClawLess]],形式化验证框架 +- **示例**: [[clawless]],形式化验证框架 ### 4. 运行时监控 - **原理**: 实时监控代理行为并执行安全策略 @@ -79,7 +88,7 @@ AI代理安全是指保护自主AI代理及其运行环境免受恶意攻击、 ### 2. 用户空间内核 - **目的**: 提供可信执行环境 - **优点**: 减少对主机内核的依赖 -- **应用**: [[ClawLess]],安全容器 +- **应用**: [[clawless]],安全容器 ### 3. BPF系统调用拦截 - **目的**: 实时监控和控制系统调用 @@ -110,12 +119,12 @@ AI代理安全是指保护自主AI代理及其运行环境免受恶意攻击、 ## 相关概念 -- [[ClawLess]] - AI代理安全框架实例 -- [[形式化安全模型]] - AI代理安全的方法论基础 -- [[用户空间内核]] - 提供安全执行环境的技术 -- [[BPF系统调用拦截]] - 运行时监控技术 -- [[安全容器]] - 隔离技术 -- [[最坏情况威胁模型]] - 安全设计假设 +- [[clawless]] - AI代理安全框架实例 +- [[formal-security-model]] - AI代理安全的方法论基础 +- [[userspace-kernel]] - 提供安全执行环境的技术 +- [[bpf-syscall-interception]] - 运行时监控技术 +- [[secure-containers]] - 隔离技术 +- [[worst-case-threat-model]] - 安全设计假设 ## 研究趋势 diff --git a/concepts/ai-alignment.md b/concepts/ai-alignment.md index 7e17175..278b582 100644 --- a/concepts/ai-alignment.md +++ b/concepts/ai-alignment.md @@ -1,3 +1,12 @@ +--- +title: AI Alignment (AI对齐) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # AI Alignment (AI对齐) > **类型**: 概念 diff --git a/concepts/ai-mathematics.md b/concepts/ai-mathematics.md index 58dcaff..052e6c5 100644 --- a/concepts/ai-mathematics.md +++ b/concepts/ai-mathematics.md @@ -21,7 +21,7 @@ AI 与数学的交叉是当代最活跃的研究领域之一。数学被视为 - 协助数学家解决深奥的数学猜想 ### 典型弱点 -[[Terence Tao]] 指出当前 AI 工具展示出**显著且常常荒谬的弱点**: +[[terence-tao]] 指出当前 AI 工具展示出**显著且常常荒谬的弱点**: - 在某些任务上超越人类专家 - 同时在基础概念上犯**令人据脸的基本错误** @@ -29,7 +29,7 @@ AI 与数学的交叉是当代最活跃的研究领域之一。数学被视为 ## 数学作为 "沙盒" -[[Terence Tao]] 认为数学是探索 AI 影响的理想领域: +[[terence-tao]] 认为数学是探索 AI 影响的理想领域: 1. **成熟的基础** - 数学有着深厚的历史和严谨的基础 2. **假设性场景** - 适合探索与现实相反的抽象情境 @@ -58,9 +58,9 @@ AI 与数学的交叉是当代最活跃的研究领域之一。数学被视为 ## 关联页面 -- [[Mathematical methods and human thought in the age of AI]] - 详细阐述 -- [[Terence Tao]] - 该领域的主要思想家 +- [[tao-klowden-ai-mathematical-methods]] - 详细阐述 +- [[terence-tao]] - 该领域的主要思想家 - [[human-centered-ai]] - 以人类为中心的 AI - [[formal-verification]] - 形式化验证 -- [[alpha-proof]] - DeepMind 的数学证明 AI -- [[lean-mathlib]] - 大型形式化数学库 +- [[automated-theorem-proving]] - DeepMind 的数学证明 AI +- [[automated-theorem-proving]] - 大型形式化数学库 diff --git a/concepts/ai-safety.md b/concepts/ai-safety.md index ef3d8cf..c05746f 100644 --- a/concepts/ai-safety.md +++ b/concepts/ai-safety.md @@ -1,3 +1,12 @@ +--- +title: AI Safety (AI安全) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # AI Safety (AI安全) > **类型**: 概念 diff --git a/concepts/api-key-authentication.md b/concepts/api-key-authentication.md new file mode 100644 index 0000000..f7e55f3 --- /dev/null +++ b/concepts/api-key-authentication.md @@ -0,0 +1,53 @@ +--- +title: API Key 认证 (API Key Authentication) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# API Key 认证 (API Key Authentication) + +**通过预共享密钥验证客户端身份的简单认证机制**,常见于 API 网关和微服务间通信。 + +## 常见形式 + +| 形式 | HTTP 头格式 | 示例 | +|------|------------|------| +| API Key | `X-API-Key: ` | `X-API-Key: sk-abc123` | +| Bearer Token | `Authorization: Bearer ` | `Authorization: Bearer eyJ...` | +| Basic Auth | `Authorization: Basic ` | `Authorization: Basic dXNlcjpwYXNz` | + +## 在反向代理层实现 + +API Key 认证最适合在 [[reverse-proxy-authentication|反向代理层]] 实现——网关检查请求头,未携带有效 Key 的请求在到达后端前即被拒绝。 + +### 单 Key 校验 +``` +@unauthorized { not header X-API-Key "the-key" } +respond @unauthorized "Unauthorized" 401 +``` + +### 多 Key 白名单 +``` +@authorized { + header X-API-Key "key-001" + header X-API-Key "key-002" +} +@unauthorized { not @authorized } +respond @unauthorized "Unauthorized" 401 +``` + +## 适用场景 + +- ✅ 服务间 API 调用(内部微服务) +- ✅ 简单 Webhook 接收端点 +- ✅ 开发/测试环境快速保护 +- ❌ 需要用户身份/权限细分的场景 → 使用 JWT 或 [[forward-authentication|外部认证]] + +## 相关概念 + +- [[reverse-proxy-authentication]] — 反向代理层认证 +- [[forward-authentication]] — 复杂认证委托 +- [[caddy-reverse-proxy-auth]] — Caddy 配置方案 diff --git a/concepts/asynchronous-rl-llm.md b/concepts/asynchronous-rl-llm.md new file mode 100644 index 0000000..1e00d83 --- /dev/null +++ b/concepts/asynchronous-rl-llm.md @@ -0,0 +1,67 @@ +--- +title: "异步强化学习与大语言模型后训练" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["reinforcement-learning", "llm-post-training", "distributed-systems"] +sources: ["arxiv:2503.18929"] +--- + +# 异步强化学习与大语言模型后训练 + +**异步 RL** 将数据生成(探索)与策略更新(学习)解耦,使两者可以**独立并行**进行,大幅提升计算资源利用率。 + +## 串行瓶颈 (On-Policy) + +标准 on-policy RL 流程: +``` +生成 rollouts → 计算奖励 → 更新策略 → 生成 rollouts → ... + ↑____________________________________↓ + 每次更新后重新生成(串行等待) +``` + +瓶颈在于: +- **Generation-bound**:训练等待推理完成 +- **Training-bound**:推理等待训练完成 + +## 异步架构 + +``` +Searcher 1 ────┐ ┌── Trainer +Searcher 2 ────┤ Replay │ ↓ +Searcher 3 ────┤ Buffer ──┤ TB Loss + ... │ │ Policy Update +Searcher N ────┘ └── ...... + ↑ 每k步同步权重 ↓ + └─────────────────────────┘ +``` + +Searcher 和 Trainer **从不互相等待**,仅在同步点交换权重和数据。 + +## 关键挑战 + +On-policy 算法(PPO、GRPO、RLOO)对 **off-policyness** 敏感: +- Async DPO 在策略偏离增大时性能显著下降 +- Proximal RLOO 用 IS ratio clipping 缓解但仍然受限 + +## TBA 的解决方案 + +[[tba|TBA]] 用 [[trajectory-balance-objective|TB 目标]] 替代 on-policy 目标——TB 天然 off-policy 兼容,使得 stale 数据(即使偏离当前策略很多步)仍然高效可用。 + +**实验验证**:TBA 即使在 15 步 off-policy 设置下,性能仍超越 on-policy Online DPO。 + +## 与分布式 RL 经典方法的关系 + +| 方法 | 年份 | 通信方式 | LLM 适用性 | +|------|------|---------|-----------| +| A3C | 2016 | 梯度 | ❌ 需要 value function | +| IMPALA | 2018 | 轨迹 (s,a,r) | ⚠️ V-trace 需要 V(s) | +| TBA | 2025 | 轨迹 (x,y,r) | ✅ TB 无需 critic | + +## 相关概念 + +- [[tba|TBA]] — 框架实现 +- [[searcher-trainer-decoupling]] — 架构模式 +- [[replay-buffer-rl-llm]] — Buffer 设计 +- [[off-policy-llm-post-training]] — Off-policy 范式 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/attention-entropy-collapse.md b/concepts/attention-entropy-collapse.md index ad8f1a4..197c1c4 100644 --- a/concepts/attention-entropy-collapse.md +++ b/concepts/attention-entropy-collapse.md @@ -1,3 +1,12 @@ +--- +title: 注意力熵崩溃 (Attention Entropy Collapse) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 注意力熵崩溃 (Attention Entropy Collapse) **注意力退化现象**,随着 Transformer 层数加深,注意力分布逐渐退化为接近均匀或过度集中的退化模式。 diff --git a/concepts/attention-sinks.md b/concepts/attention-sinks.md index 4402805..2e30f0d 100644 --- a/concepts/attention-sinks.md +++ b/concepts/attention-sinks.md @@ -1,17 +1,58 @@ +--- +title: "注意力汇 (Attention Sinks)" +created: 2025-04-15 +updated: 2026-05-14 +type: concept +tags: [attention, llm, streaming, softmax, kv-cache] +sources: ["https://arxiv.org/abs/2309.17453"] +--- + # 注意力汇 (Attention Sinks) -占位符 — 待补充完整内容。 +## 定义 -**核心概念**: 某些初始 Token(如 BOS)天然吸引大量注意力权重,可作为"注意力汇"稳定长序列推理。基于此可以设计高效的 KV 缓存淘汰策略(如 StreamingLLM、H2O)。 +**注意力汇**是 Xiao et al. (2024) 在 ICLR 论文 [[streaming-llm|StreamingLLM]] 中发现的现象:自回归 LLM 中,**初始 Token 在所有层和注意力头上吸引不成比例的高注意力分数**,即使它们与当前预测任务语义无关。 -## 关键应用 +## 数学解释 -- **StreamingLLM**: 保留初始 Attention Sinks + 最近 Token 实现无限长流式推理 -- **H2O**: 基于注意力权重选择性地保留"重击者"Token 的 KV -- **SinkRouter**: 汇感知的路由优化 +SoftMax 函数的性质导致注意力汇的出现: + +$$\text{SoftMax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^N e^{x_j}}$$ + +关键约束:所有 token 的注意力分数之和必须为 1($\sum_i \text{SoftMax}(x)_i = 1$)。 + +当当前 query 与大多数上下文 token 没有强语义匹配时,模型仍然需要把这些"多余"的注意力值分配到某处。**初始 Token 因自回归建模中对所有后续 token 都可见,被自然训练为注意力的"汇" (sink)**。 + +Xiao et al. 的公式表述: + +$$\text{SoftMax}(x)_i = \frac{e^{x_i}}{e^{x_1} + \sum_{j=2}^N e^{x_j}}, \quad x_1 \gg x_j, \, j \in 2, \ldots, N$$ + +其中 $x_1$(初始 token 的注意力 logit)远大于其他 token。 + +## 实验证据 + +1. **注意力可视化**:Llama-2-7B 除底部两层外,几乎所有层和注意力头都严重关注初始 token +2. **替换实验**:将前 4 个 Token 替换为换行符 `\n`,模型仍大量关注它们,恢复它们后 PPL 恢复——证明是**绝对位置**而非语义在起作用 +3. **数量研究**:4 个初始 Token 即可完全恢复性能,1-2 个不够,更多边际递减 + +## 根因分析 + +为什么是**初始 Token** 而不是其他 Token? + +→ 自回归语言建模中,初始 Token 对**所有后续 Token 都可见**,而后面的 Token 只对有限集合可见。这使得初始 Token 更容易被训练为注意力的通用"倾倒目标"。 + +## 应用 + +- **[[streaming-llm|StreamingLLM]]**:保留 4 个初始 Token 的 KV + 最近 Token 的滑动窗口 → 无限长流式推理 +- **H2O**:基于累积注意力分数选择性地保留 "Heavy Hitter" Token +- **SinkRouter**:汇感知的路由优化策略 +- **预训练改进**:在训练样本前添加专用 [[sink-token|可学习汇 Token]],消除对多个初始 Token 的依赖 ## 相关概念 -- [[lost-in-the-middle]] — 问题背景 -- [[kv-cache-bottleneck]] — 缓存优化 -- [[llm-attention-survey-2026]] — 综述参考 +- [[streaming-llm|StreamingLLM]] — 基于注意力汇的流式推理框架 +- [[window-attention|窗口注意力]] — 驱逐初始 Token 导致崩溃的基线 +- [[sink-token|汇 Token]] — 预训练中的专用注意力汇 +- [[softmax-off-by-one|SoftMax-off-by-One]] — 替代方案 +- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关优化问题 +- [[length-extrapolation|长度外推]] — 问题域 diff --git a/concepts/automated-theorem-proving.md b/concepts/automated-theorem-proving.md index d9a5782..dc8b56d 100644 --- a/concepts/automated-theorem-proving.md +++ b/concepts/automated-theorem-proving.md @@ -1,3 +1,12 @@ +--- +title: 自动定理证明 (Automated Theorem Proving, ATP) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 自动定理证明 (Automated Theorem Proving, ATP) - **领域**: AI × 数理逻辑 diff --git a/concepts/backtranslation-round-trip-relay.md b/concepts/backtranslation-round-trip-relay.md new file mode 100644 index 0000000..9c258b3 --- /dev/null +++ b/concepts/backtranslation-round-trip-relay.md @@ -0,0 +1,46 @@ +--- +title: "Backtranslation Round-Trip Relay" +created: 2026-05-14 +type: concept +tags: ["evaluation-methodology", "backtranslation", "round-trip", "relay", "semantic-equivalence"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Backtranslation Round-Trip Relay + +回译接力(Backtranslation Round-Trip Relay)是 [[delegate-52]] 基准的核心评估方法论,通过可逆编辑任务的链式组合来衡量 LLM 的文档编辑保真度。 + +## 回译原语(Round-Trip Primitive) + +给定种子文档 s 和一对编辑指令 (x→, x←): + +1. **正向编辑**:t = σ(s) = LLM(s; x→) +2. **反向编辑**:ŝ = σ⁻¹(t) = LLM(t; x←) +3. **重建分数**:sim(s, ŝ) ∈ [0, 1] + +完美模型应使 sim(s, ŝ) = 1,评估退化为衡量语义等价程度,无需人工标注参考答案。 + +## Relay 组合 + +将 N 对正向/反向指令连续应用: + +ŝₖ = σ₁ ∘ σ₁⁻¹ ∘ ... ∘ σₙ ∘ σₙ⁻¹(s) + +每轮回译后计算 RS@k = sim(s, ŝ_{k/2}),跟踪退化曲线。 + +## 方法论前提 + +- 每个编辑任务必须是可逆的 +- 模型**真正尝试执行编辑**而非走捷径(附录 A 验证) +- 每次交互是独立的单轮会话 + +## 思想渊源 + +源于机器翻译中的回译(backtranslation)技术(Sennrich et al., 2015; Somers, 2005),近期被用于评估 LLM 一致性(Hong et al., 2025; Allamanis et al., 2024)。 + +## 相关概念 + +- [[delegate-52]] — 使用此方法论的基准 +- [[round-trip-reconstruction-score]] — RS@k 指标 +- [[semantic-equivalence]] — 评分的理论基础 +- [[document-degradation]] — 此方法揭示的核心现象 diff --git a/concepts/bidirectional-trajectory-evaluation.md b/concepts/bidirectional-trajectory-evaluation.md new file mode 100644 index 0000000..48fac37 --- /dev/null +++ b/concepts/bidirectional-trajectory-evaluation.md @@ -0,0 +1,49 @@ +--- +title: "双向轨迹评估 (Bidirectional Trajectory Evaluation)" +domain: "Reinforcement Learning / Reward Design" +tags: [trajectory, evaluation, path-tracing, reward] +sources: [[thinking-with-visual-primitives]] +--- + +# 双向轨迹评估 (Bidirectional Trajectory Evaluation) + +> 路径追踪任务的核心评估方法:同时从预测→真实(前向)和真实→预测(反向)两个方向计算轨迹对齐度。 + +## 为什么需要双向 + +单向评估的缺陷: +- **仅前向**:模型只输出起点附近的几个安全点 → 高分但路径不完整 +- **仅反向**:不惩罚模型幻想出的偏离路径(detour) + +**双向结合** → 激励模型输出**完整且准确**的坐标轨迹。 + +## 双向计算 + +### 前向(Forward) +对每个**预测点**,计算到**真实曲线**任意线段的最小距离 → 取平均 +$$\text{Forward} = \frac{1}{N_{\text{pred}}} \sum_{p \in \text{pred}} \min_{s \in \text{GT}} \text{dist}(p, s)$$ + +→ 惩罚偏离真实路径的点 + +### 反向(Reverse) +对每个**真实点**,计算到**预测折线**任意线段的最小距离 → 取平均 +$$\text{Reverse} = \frac{1}{N_{\text{GT}}} \sum_{g \in \text{GT}} \min_{s \in \text{pred}} \text{dist}(g, s)$$ + +→ 惩罚遗漏的曲线段 + +### 最终得分 +$$\text{Trajectory Score} = \frac{\text{Forward} + \text{Reverse}}{2}$$ + +## 完整奖励组成 + +路径追踪 Accuracy RM = 加权组合: +1. 双向轨迹精度 +2. 端点精度(起终点坐标匹配) +3. 轨迹连续性惩罚(最后预测点→预测终点的距离超过阈值则处罚) +4. 答案正确性 + +## 相关概念 + +- [[path-tracing|路径追踪]] — 应用任务 +- [[exponential-decay-reward|指数衰减奖励]] — 计数任务对应方案 +- [[reward-model|奖励模型]] — 整体 RM 设计 \ No newline at end of file diff --git a/concepts/bpf-syscall-interception.md b/concepts/bpf-syscall-interception.md index 2c146c1..efefa8b 100644 --- a/concepts/bpf-syscall-interception.md +++ b/concepts/bpf-syscall-interception.md @@ -1,3 +1,12 @@ +--- +title: BPF系统调用拦截 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # BPF系统调用拦截 **类型**: 系统安全技术,运行时监控 @@ -140,11 +149,11 @@ BPF虚拟机 (在内核中) ## 相关概念 -- [[ClawLess]] - 使用BPF系统调用拦截的安全框架 -- [[用户空间内核]] - 与BPF协同工作的技术 -- [[形式化安全模型]] - BPF程序实现的安全策略基础 -- [[AI代理安全]] - BPF技术的主要应用领域 -- [[安全容器]] - BPF技术的部署环境 +- [[clawless]] - 使用BPF系统调用拦截的安全框架 +- [[userspace-kernel]] - 与BPF协同工作的技术 +- [[formal-security-model]] - BPF程序实现的安全策略基础 +- [[ai-agent-security]] - BPF技术的主要应用领域 +- [[secure-containers]] - BPF技术的部署环境 ## 发展趋势 diff --git a/concepts/cache-health-observability.md b/concepts/cache-health-observability.md new file mode 100644 index 0000000..c14115c --- /dev/null +++ b/concepts/cache-health-observability.md @@ -0,0 +1,35 @@ +--- +title: "Cache Health Observability(缓存健康度可观测性)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [observability, monitoring, cache, system-design] +sources: [[prompt-caching-architecture]] +--- + +# Cache Health Observability(缓存健康度可观测性) + +## 定义 + +Cache Health Observability 是对 [[prompt-caching|Prompt Caching]] 系统运行状态的全方位监控体系,包括三大核心指标和相应的告警机制。 + +## 指标体系 + +| 指标 | 定义 | 告警阈值 | +|------|------|----------| +| [[cache-hit-ratio|CHR]] | 缓存命中请求占比 | < 95% 触发告警 | +| Invalidation Point ID | 失效首现场的字节偏移 | 每次失效记录 | +| Cost Efficiency Score | Cache-Off vs On 的 Token 差 | 按实验量化 | + +## 工程实现 + +- 在 API 调用封装层 (wrapper) 添加埋点 +- 记录每次请求的 `cache_hit` 字段 +- 实时同步到监控仪表盘 +- CHR 骤降时联动告警(SSH、Slack 等) + +## 相关概念 + +- [[cache-hit-ratio|缓存命中率]] +- [[prompt-caching|Prompt Caching]] +- [[cache-invalidation|缓存失效]] diff --git a/concepts/cache-hit-ratio.md b/concepts/cache-hit-ratio.md new file mode 100644 index 0000000..bea07d5 --- /dev/null +++ b/concepts/cache-hit-ratio.md @@ -0,0 +1,33 @@ +--- +title: "Cache Hit Ratio (CHR)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [cache, metrics, observability, system-design] +sources: [[prompt-caching-architecture]] +--- + +# Cache Hit Ratio (CHR,缓存命中率) + +## 定义 + +Cache Hit Ratio 是衡量 [[prompt-caching|Prompt Caching]] 效率的核心指标: + +CHR = (缓存命中的请求数) / (总请求数) + +## 工程标准 + +- **CHR ≥ 95%**:健康状态,[[prompt-layering|提示分层]] 设计有效 +- **CHR < 95%**:触发告警,需立即排查 [[cache-invalidation|失效原因]] +- 在 [[meta-jctrader|Meta-JCTrader]] 等高频系统中,低 CHR 直接意味着高额账单损失和不可接受的延迟 + +## 辅助指标 + +- **Invalidation Point Identification**:失效点的字节偏移追踪 +- **Cost Efficiency Score**:Cache-Off vs Cache-On 的 Token 消耗对比 + +## 相关概念 + +- [[prompt-caching|Prompt Caching]] +- [[cache-invalidation|缓存失效]] +- [[cache-health-observability|缓存健康度可观测性]] diff --git a/concepts/cache-invalidation.md b/concepts/cache-invalidation.md new file mode 100644 index 0000000..2bca5cf --- /dev/null +++ b/concepts/cache-invalidation.md @@ -0,0 +1,32 @@ +--- +title: "Cache Invalidation(缓存失效)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [cache, system-design, debugging] +sources: [[prompt-caching-architecture]] +--- + +# Cache Invalidation(缓存失效) + +## 定义 + +Cache Invalidation 指 [[prompt-caching|Prompt Caching]] 中缓存前缀因字节级不匹配而导致整个缓存树失效的现象。由于 [[prefix-matching|前缀匹配]] 的高严格性,任何对前缀的微小更改都会触发"雪崩式"失效。 + +## 常见触发源 + +1. **System Prompt 动态变量**:日期、状态摘要、不确定的路径名 +2. **工具定义动态调整**:按需加载/移除工具(→ 使用 [[stub-pattern|Stub 模式]] 规避) +3. **System Message 滥用**:频繁更新 System Message 切换状态(→ 使用消息化状态管理) +4. **压缩操作不当**:独立 API 调用使用不同的 System Prompt + +## 失效点识别 + +系统应记录导致失效的"第一现场"——通过日志追踪失效点的字节偏移,快速定位代码逻辑缺陷。 + +## 相关概念 + +- [[prefix-matching|前缀匹配]] +- [[prompt-caching|Prompt Caching]] +- [[cache-hit-ratio|缓存命中率]] +- [[system-message-abuse|System Message 滥用]] diff --git a/concepts/cache-safe-forking.md b/concepts/cache-safe-forking.md new file mode 100644 index 0000000..1d4ac76 --- /dev/null +++ b/concepts/cache-safe-forking.md @@ -0,0 +1,36 @@ +--- +title: "Cache-Safe Forking(缓存安全分叉)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, context-management, caching-optimization] +sources: [[prompt-caching-architecture]] +--- + +# Cache-Safe Forking(缓存安全分叉) + +## 定义 + +Cache-Safe Forking 是一种在 [[context-compression|上下文压缩]] 过程中保持 [[prompt-caching|缓存]] 命中的技术,通过复用父会话的完整前缀避免压缩操作触发缓存失效。 + +## 算法 + +1. **复用父会话属性**:新请求对象包含与父会话完全相同的 System Prompt、Tools 定义、Session 配置 +2. **强制拼接历史**:将父会话的完整 Message 历史直接拷贝到新请求 +3. **追加总结指令**:在历史末尾追加 User Message:「基于上述历史,执行压缩总结」 + +## 效果 + +由于新请求的前缀(历史 + 系统指令)与父会话最后状态几乎完全重叠,API 层自动命中缓存,总结过程仅需计算最后追加的几百个 Token——将压缩成本降低一个数量级。 + +## 应用场景 + +- 长对话的自动总结 +- [[meta-jctrader|Meta-JCTrader]] 中 AI Judge 的长期运行评估 +- [[agentic-systems|Agent 系统]] 中无视上下文长度限制的持续推理 + +## 相关概念 + +- [[context-compression|上下文压缩]] +- [[prompt-caching|Prompt Caching]] +- [[agentic-systems|Agentic Systems]] diff --git a/concepts/caddy-web-server.md b/concepts/caddy-web-server.md new file mode 100644 index 0000000..35b6fc0 --- /dev/null +++ b/concepts/caddy-web-server.md @@ -0,0 +1,42 @@ +--- +title: Caddy Web Server +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# Caddy Web Server + +**现代化的 Go 语言 Web 服务器/反向代理**,以自动 HTTPS 和简洁 Caddyfile 配置著称。 + +## 核心特性 + +- **自动 HTTPS**: 无需额外配置即可自动获取和续期 Let's Encrypt 证书 +- **Caddyfile**: 简洁直观的配置语法,远优于 Nginx 的复杂配置 +- **命名匹配器 (Named Matcher)**: `@name { conditions... }` 定义可复用的请求匹配规则 +- **原生反向代理**: `reverse_proxy` 指令内置健康检查、负载均衡 +- **API 控制**: 支持运行时通过 REST API 动态修改配置 + +## 关键指令 + +| 指令 | 功能 | +|------|------| +| `reverse_proxy` | 反向代理到后端 | +| `header` | 请求头匹配器 | +| `respond` | 直接返回 HTTP 响应 | +| `route` / `handle` | 路径级别的路由控制 | +| `basicauth` | HTTP Basic 认证 | +| `forward_auth` | 委托外部认证 | + +## 常见使用场景 + +- [[reverse-proxy-authentication|反向代理层认证]] — 在 Caddy 层拦截未认证请求 +- [[forward-authentication|外部认证委托]] — 复杂认证逻辑交给外部服务 +- [[api-key-authentication|API Key 网关]] — 统一 API Key 校验入口 + +## 相关概念 + +- [[caddy-reverse-proxy-auth]] — 反向代理认证完整方案 +- [[reverse-proxy-authentication]] — 认证模式 diff --git a/concepts/cel-shading-style.md b/concepts/cel-shading-style.md new file mode 100644 index 0000000..c661b9c --- /dev/null +++ b/concepts/cel-shading-style.md @@ -0,0 +1,29 @@ +--- +title: 赛璐璐风格 (Cel-Shading) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 赛璐璐风格 (Cel-Shading) + +**源自传统手绘动画的非真实感渲染技术**,以扁平色块和硬边阴影为特征。 + +## 视觉特征 + +- **硬边阴影 (Hard Edge Shadow)**: 光影分界线锐利,无渐变过渡 +- **扁平色彩**: 色块平整无颗粒,类似动画赛璐璐片 +- **强对比**: 亮面清透微曝,阴影区深邃 +- **特殊配色**: 常搭配 [[klein-blue|克莱因蓝]] 形成强烈视觉冲击 + +## 在 AI 生成中的应用 + +"赛璐璐"是 [[gpt-image2]] 中生成动漫/二次元风格的核心关键词,配合仰拍透视和几何切割可产生"动画分镜感"。 + +## 相关概念 + +- [[klein-blue]] — 常与赛璐璐搭配的高饱和蓝 +- [[glitch-art-style]] — 对立的数字破坏美学 +- [[gpt-image2-prompt-collection]] — 风格合集 diff --git a/concepts/centralized-agent-architecture.md b/concepts/centralized-agent-architecture.md new file mode 100644 index 0000000..431b49d --- /dev/null +++ b/concepts/centralized-agent-architecture.md @@ -0,0 +1,48 @@ +--- +title: 集中式Agent架构 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# 集中式Agent架构 (Centralized Agent Architecture) + +> 由一个区分控制器 agent 管理协调过程的多 Agent 架构模式。通信图形成星形拓扑,是 [[agent-network-topology]] 的一个分支。 + +## 形式定义 + +存在 orchestrator a_c 使得: +``` +E = {(a_c, a_i), (a_i, a_c) | ∀a_i ≠ a_c} +``` + +更新由控制器独占执行: +``` +E^(t+1) = Φ_c(E^(t), o^(t)) +Π^(t+1) = Γ_c(Π^(t), o^(t)) +``` + +## 子类别 + +根据 [[agent-network-memory-scope]] 和 [[agent-network-update-behavior]] 可进一步分为 4 种: + +1. **全局+静态**:固定全局工作流 (MetaGPT, ChatDev, AutoGen) +2. **全局+动态**:自适应全局协调 (SWE-agent, OpenHands, Voyager) +3. **局部+静态**:固定本地状态 (MetaAgent, SOTOPIA-S4) +4. **局部+动态**:自适应本地协调 (OPTIMA, Magentic-One) + +## 优势与劣势 + +| 优势 | 劣势 | +|------|------| +| 全局视角优化任务分解 | 控制器成为瓶颈 | +| 协调一致性强 | 单点故障 | +| 实现简单、可预测 | 随 agent 数扩展困难 | +| 适合结构化流水线任务 | 不适合开放域探索 | + +## 相关概念 +- [[agent-network-topology]] — 拓扑维度 +- [[decentralized-agent-architecture]] — 对偶架构 +- [[song-agent-network-taxonomy]] — 父论文 diff --git a/concepts/certainty-based-rewards.md b/concepts/certainty-based-rewards.md new file mode 100644 index 0000000..e7743cd --- /dev/null +++ b/concepts/certainty-based-rewards.md @@ -0,0 +1,42 @@ +--- +title: 确定性奖励 (Certainty-Based Rewards) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 确定性奖励 (Certainty-Based Rewards) + +**URLVR 的内在奖励范式之一**,从策略的置信度(logits/概率分布)推导奖励,假设更高置信度 = 更正确。 + +## 代表方法 + +| 方法 | 奖励函数 | 核心思想 | +|------|---------|---------| +| EM-RL | 轨迹级平均对数概率 | 鼓励低熵(高置信)轨迹 | +| RENT | 序列级熵最小化 | 同上,不同归一化 | +| RLIF | 自确定性 (KL 散度) | 鼓励输出分布偏离均匀 | +| RLSC | 概率自我一致性 | 高概率采样点的自我一致性 | +| RLSF | 概率差异 | 交叉样本概率对比 | + +## 理论局限 + +[[intrinsic-rewards-sharpening|Sharpening 理论]] 揭示了确定性奖励的根本问题:置信度是模型内部状态——它只反映"模型认为什么是对的",而非"什么客观上是对的"。当模型自信但错误时,确定性奖励在积极强化错误。 + +## 对比 Ensemble-Based + +| 确定性奖励 | [[ensemble-based-rewards|集成奖励]] | +|-----------|------| +| 单次前向传播 | 需多次采样 | +| 计算成本低 | 计算成本高 | +| 完全依赖模型内部状态 | 通过多样本交叉验证 | +| 同样受 Sharpening 限制 | 同样受 Sharpening 限制 | + +## 相关概念 + +- [[ensemble-based-rewards]] — 另一内在范式 +- [[intrinsic-rewards-sharpening]] — 统一理论 +- [[unsupervised-rlvr]] — URLVR 全景 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/chain-of-thought.md b/concepts/chain-of-thought.md new file mode 100644 index 0000000..d746f7f --- /dev/null +++ b/concepts/chain-of-thought.md @@ -0,0 +1,38 @@ +--- +title: "思维链 (Chain-of-Thought, CoT)" +domain: "AI / Reasoning" +tags: [chain-of-thought, reasoning, prompt-engineering] +sources: [[thinking-with-visual-primitives]] +--- + +# 思维链 (Chain-of-Thought, CoT) + +> 一种通过显式生成中间推理步骤来增强大语言模型复杂推理能力的技术。 + +## 定义 + +Chain-of-Thought (CoT) 是让模型在给出最终答案前,先生成一系列中间推理步骤的方法。这些步骤模拟人类的「出声思考」过程,显著提升算术、逻辑、常识推理等任务的准确率。 + +## 多模态 CoT 的局限 + +在 [[multimodal-large-language-model|多模态大语言模型]] 中,传统 CoT 的推理链**完全局限在语言空间**: +- 语言描述空间关系天然模糊(「在 A 左边的右边那个…」) +- 无法精确指代密集场景中的特定实例 +- 推理链可能脱离视觉证据,产生级联幻觉 + +## 视觉原语增强的 CoT + +[[visual-primitives|视觉原语]] 框架将 CoT 从纯语言空间扩展到语言+视觉混合空间: + +``` +传统 CoT: "左边有 3 个球,右边有 2 个球,一共 5 个" +视觉 CoT: "<|box|>[[x1,y1,x2,y2],...]<|/box|> 左边 3 个,右边 2 个,一共 5 个" +``` + +通过直接输出归一化坐标,视觉原语使 CoT 的每一步推理都有对应的、可验证的空间锚点。 + +## 相关概念 + +- [[visual-primitives|视觉原语]] — CoT 的视觉扩展 +- [[reference-gap|引用鸿沟]] — 纯语言 CoT 的根本局限 +- [[system-2-thinking|System-2 思维]] — CoT 的理论基础 \ No newline at end of file diff --git a/concepts/chaitin-algorithmic-information-theory.md b/concepts/chaitin-algorithmic-information-theory.md index 8d5be27..a0d7211 100644 --- a/concepts/chaitin-algorithmic-information-theory.md +++ b/concepts/chaitin-algorithmic-information-theory.md @@ -1,3 +1,12 @@ +--- +title: 算法信息论 (Algorithmic Information Theory, AIT) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 算法信息论 (Algorithmic Information Theory, AIT) - **领域**: 信息论、可计算性理论 diff --git a/concepts/chaitin-constant.md b/concepts/chaitin-constant.md index 94b9507..ce068f0 100644 --- a/concepts/chaitin-constant.md +++ b/concepts/chaitin-constant.md @@ -1,3 +1,12 @@ +--- +title: 蔡廷常数 Ω (Chaitin's Constant) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 蔡廷常数 Ω (Chaitin's Constant) - **领域**: 算法信息论 diff --git a/concepts/cl-bench-life.md b/concepts/cl-bench-life.md new file mode 100644 index 0000000..031147b --- /dev/null +++ b/concepts/cl-bench-life.md @@ -0,0 +1,84 @@ +--- +title: CL-Bench Life +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [benchmark, llm, alignment] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# CL-Bench Life + +> 首个**全人工策展**的真实生活上下文学习基准,评估 LM 从混乱、碎片化日常上下文中学习并推理的能力。 + +## 定义 + +CL-bench Life 是由腾讯混元团队与复旦大学联合构建的 [[real-life-context-learning]] 评估基准,包含 405 个上下文-任务对和 5,348 个验证细则。每个任务以身临其境的真实生活上下文为输入,要求模型不依赖外部检索,仅从给定上下文中推理求解。 + +## 设计原则 + +### 上下文自包含性 +所有任务所需信息已整合在提供的上下文中,模型无需调用外部检索工具。这一设计**干净地隔离了"上下文学习"这一单一能力**,排除了搜索、工具调用、记忆检索等前期阶段的干扰。 + +### 全人工策展 +每个实例(context + task + rubrics)均由人工编写,确保了任务的真实性和评估的一致性,避免自动生成的偏差。 + +### 均衡分布 +三大类别各占 33.3%,每类下三个子类各占 11.1%,避免对单一上下文类型的评估偏差。 + +## 三大上下文类别 + +```mermaid +graph TD + CL[CL-Bench Life: 405 pairs] + CL --> A[沟通与社交互动 135] + CL --> B[碎片化信息与修订 135] + CL --> C[行为记录与活动轨迹 135] + A --> A1[私密对话] + A --> A2[群聊与会议] + A --> A3[社区互动] + B --> B1[个人信息碎片] + B --> B2[公共信息碎片] + B --> B3[创作与修订历史] + C --> C1[游戏日志] + C --> C2[数字足迹] + C --> C3[自我追踪轨迹] +``` + +## 评估方法 + +### Judge Model +使用 LLM-as-judge 进行自动评估。每个任务配备一组 rubrics(细则): + +- ✅ **必须覆盖项**:回复必须包含的信息或推理步骤 +- ❌ **禁止出现项**:回复不得包含的错误内容(附理据说明) + +每个 rubric 独立判定 pass/fail,任务整体评分取决于所有 rubrics 的满足情况。 + +### 四种错误类型 +评估框架识别四种非互斥的失败模式: + +| 错误类型 | 含义 | 占比 | +|---------|------|------| +| **Context-Misused** | 读了上下文但推理错误 | **76-84%** | +| Context-Ignored | 完全未使用关键上下文信息 | 36-45% | +| Format-Error | 输出格式不符合要求 | 10-16% | +| Refusal | 明确拒答或虚假声称信息不足 | <3% | + +## 核心指标 + +- 405 上下文-任务对,5,348 个 rubrics +- 59.8% 为多轮交互 +- 上下文长度:5.4K – 170.8K tokens,平均 19.4K +- 最佳模型 (GPT-5.4):19.3% 解决率 +- 十模型平均:13.8% + +## 相关概念 +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[context-misuse]] — 上下文误用:核心失败模式 +- [[messy-context-reasoning]] — 混乱上下文推理 +- [[hunyuan-team-cl-bench-life]] — 论文详情 + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/classifier-free-guidance-language.md b/concepts/classifier-free-guidance-language.md new file mode 100644 index 0000000..0b3b299 --- /dev/null +++ b/concepts/classifier-free-guidance-language.md @@ -0,0 +1,53 @@ +--- +title: "Classifier-Free Guidance for Language" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [guidance, diffusion-language-model, controllable-generation] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# CFG for Language (Classifier-Free Guidance) + +Classifier-Free Guidance (CFG) 最早在图像扩散模型中提出,通过外推条件和无条件预测来引导生成方向。[[embedded-language-flows|ELF]] 将其首次有效应用于语言扩散模型。 + +## 核心公式 + +在 Flow Matching 框架中: + +``` +v_cfg(z_t | c) = ω · v(z_t | c) + (1-ω) · v(z_t | ∅) +``` + +其中 ω 是引导强度(guidance scale),c 是条件信号,∅ 是空条件。 + +## ELF 中的实现 + +### 条件信号构造 + +由于语言生成没有显式 class label,ELF 使用 [[self-conditioning]] 构造条件信号 c:将上一时间步的预测 x̂' 作为当前步的条件。 + +### 训练时 CFG + +为避免推理时双倍前向开销,ELF 采用**训练时 CFG**: +- 训练时随机丢弃条件信号(以概率 p_uncond),让网络同时学习条件和无条件预测 +- 单个前向 pass 输出 x_cfg(而非 x),通过条件信号的线性组合隐式建模 CFG +- 推理时无需双倍计算 + +## 为什么在连续 DLM 中特别有效 + +CFG 原本为连续量设计(score function, velocity field)。在连续空间中 CFG 直接作用于速度/嵌入预测;在离散空间中需要处理离散概率分布的外推,效果通常更差。ELF 的连续嵌入设计使其能**自然受益于图像域积累的 CFG 经验**。 + +## 效果 + +ELF 中 CFG 显著降低 Gen. PPL: +- CFG=1.0 → 效果中等 +- CFG=2.0-3.0 → 最优区间 +- CFG>3.0 → 收益递减,质量可能下降 + +## 相关概念 + +- [[self-conditioning]] — ELF 的条件信号源 +- [[embedded-language-flows]] — 使用此技术的模型 +- [[continuous-diffusion-language-models]] — CFG 天然适用的模型类别 diff --git a/concepts/clawless.md b/concepts/clawless.md index 14d9a54..b897e86 100644 --- a/concepts/clawless.md +++ b/concepts/clawless.md @@ -1,3 +1,12 @@ +--- +title: ClawLess +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # ClawLess **类型**: 安全框架 @@ -89,12 +98,12 @@ ClawLess 是一个针对自主AI代理的安全框架,在最坏情况威胁模 ## 相关概念 -- [[AI代理安全]] - ClawLess解决的安全问题领域 -- [[形式化安全模型]] - ClawLess使用的方法论基础 -- [[用户空间内核]] - ClawLess的执行环境 -- [[BPF系统调用拦截]] - ClawLess的核心执行机制 -- [[安全容器]] - ClawLess的部署环境 -- [[最坏情况威胁模型]] - ClawLess的设计假设 +- [[ai-agent-security]] - ClawLess解决的安全问题领域 +- [[formal-security-model]] - ClawLess使用的方法论基础 +- [[userspace-kernel]] - ClawLess的执行环境 +- [[bpf-syscall-interception]] - ClawLess的核心执行机制 +- [[secure-containers]] - ClawLess的部署环境 +- [[worst-case-threat-model]] - ClawLess的设计假设 ## 未来发展 diff --git a/concepts/coarse-grained-counting.md b/concepts/coarse-grained-counting.md new file mode 100644 index 0000000..462d8b0 --- /dev/null +++ b/concepts/coarse-grained-counting.md @@ -0,0 +1,41 @@ +--- +title: "粗粒度计数 (Coarse-grained Counting)" +domain: "Multimodal AI / Visual Reasoning" +tags: [counting, visual-primitives, grounding] +sources: [[thinking-with-visual-primitives]] +--- + +# 粗粒度计数 (Coarse-grained Counting) + +> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。 + +## 任务定义 + +对图像中特定**类别**的实例进行计数,不考虑细粒度属性区分。 + +## 三步推理协议 + +在 [[visual-primitives|视觉原语]] 框架下的标准思考流程: + +1. **意图分析** → 识别目标类别 +2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象 +3. **统计汇总** → 基于视觉原语计数 + +## 批量 vs 顺序锚定 + +粗粒度计数采用**批量锚定**(batch grounding)而非逐个枚举,原因: +- 利用模型固有的定位优势 +- 避免重复枚举的低效 +- 更接近人类的「扫一眼→分组→数数」策略 + +## 数据来源 + +- 密集检测数据集:Open Images, Objects365, CrowdHuman, NUCLS 等 +- 过滤标准:避免过度密集、确保框足够大、高召回率 +- 冷启动样本:约 **10,000** 个(粗+细粒度合计) + +## 相关概念 + +- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务 +- [[visual-primitives|视觉原语]] — 使用的框原语 +- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数 \ No newline at end of file diff --git a/concepts/cognitive-architecture.md b/concepts/cognitive-architecture.md index 5aa1a74..229ca8e 100644 --- a/concepts/cognitive-architecture.md +++ b/concepts/cognitive-architecture.md @@ -1,8 +1,18 @@ +--- +title: Cognitive Architecture (认知架构) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Cognitive Architecture (认知架构) > **类型**: 概念 > **领域**: 认知科学,人工智能,心理学 -> **相关概念**: [[metacognitive-self-modification]], [[hyperagents]], [[self-improving-ai]], [[human-centered-ai]] +> **相关概念 +- [[agent-network-taxonomy]] — Agent网络分类法**: [[metacognitive-self-modification]], [[hyperagents]], [[self-improving-ai]], [[human-centered-ai]] ## 定义 @@ -204,6 +214,7 @@ 4. **跨学科整合**:整合心理学、神经科学、计算机科学 ## 相关概念 +- [[agent-network-taxonomy]] — Agent网络分类法 - [[metacognitive-self-modification]]:元认知自我修改,认知架构的自我改进 - [[hyperagents]]:超智能体,可能具有可编辑的认知架构 - [[self-improving-ai]]:自我改进 AI,可能通过修改认知架构实现 diff --git a/concepts/completeness-logic.md b/concepts/completeness-logic.md index 7320374..44726d1 100644 --- a/concepts/completeness-logic.md +++ b/concepts/completeness-logic.md @@ -1,3 +1,12 @@ +--- +title: 完备性 (Completeness, 逻辑学) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 完备性 (Completeness, 逻辑学) - **领域**: 数理逻辑 diff --git a/concepts/computability-theory.md b/concepts/computability-theory.md index b94730e..9547331 100644 --- a/concepts/computability-theory.md +++ b/concepts/computability-theory.md @@ -1,3 +1,12 @@ +--- +title: 可计算性理论 (Computability Theory) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 可计算性理论 (Computability Theory) - **领域**: 理论计算机科学 diff --git a/concepts/confidence-correctness-alignment.md b/concepts/confidence-correctness-alignment.md new file mode 100644 index 0000000..4339047 --- /dev/null +++ b/concepts/confidence-correctness-alignment.md @@ -0,0 +1,25 @@ +--- +title: 置信度-正确性对齐 (Confidence-Correctness Alignment) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 置信度-正确性对齐 (Confidence-Correctness Alignment) + +**模型初始置信度与实际正确性的一致程度**,是决定 [[intrinsic-rewards-sharpening|内在 URLVR]] 成败的关键变量。 + +## 二分命运 + +- **对齐**: 锐化 → 放大正确推理路径 → 性能提升 +- **错位**: 锐化 → 系统性放大错误 → 模型崩溃 + +对齐强度可通过 [[model-collapse-step|MCS]] 量化。 + +## 相关概念 + +- [[intrinsic-rewards-sharpening]] — Sharpening 机制 +- [[model-collapse-step]] — 对齐强度的度量 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/consistency-logic.md b/concepts/consistency-logic.md index 757d851..2408fd4 100644 --- a/concepts/consistency-logic.md +++ b/concepts/consistency-logic.md @@ -1,3 +1,12 @@ +--- +title: 一致性 (Consistency, 逻辑学) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 一致性 (Consistency, 逻辑学) - **领域**: 数理逻辑 diff --git a/concepts/context-blue-clique.md b/concepts/context-blue-clique.md new file mode 100644 index 0000000..aed3b34 --- /dev/null +++ b/concepts/context-blue-clique.md @@ -0,0 +1,34 @@ +--- +title: "Context Blue Clique(上下文蓝色团)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [context-design, graph-theory, ramsey-theory] +sources: [[ramsey-context-construction]] +--- + +# Context Blue Clique(上下文蓝色团) + +## 定义 + +上下文蓝色团是 [[ramsey-context-graph|拉姆齐上下文图]] 中的一个**全蓝色完全子图**——其内部任意两个节点之间都是蓝边(完全兼容),可以直接作为 Agent 的无冲突上下文骨架。 + +## 拉姆齐保证 + +根据 [[ramsey-theory|拉姆齐理论]],当总节点数 N ≥ R(t, m) 时,下面两者必居其一: +1. **存在大小为 t 的蓝色团** — 可直接使用的优质上下文 +2. **存在大小为 m 的红色独立集** — 冲突严重,需清理 + +工程实践中让系统永远处于状态 1。 + +## 工程角色 + +- **作为常驻上下文骨架**:如 `[tool_A, skill_B, prompt_C]` 构成最小可用三元组 +- **作为模板缓存**:蓝色团天然是稳定前缀 → 复用提高 [[cache-hit-ratio|KV cache 命中率]] +- **团大小动态调整**:长对话时下调 t 值,牺牲部分功能换取记忆清晰度 + +## 相关概念 + +- [[ramsey-context-graph|拉姆齐上下文图]] +- [[greedy-context-screening|贪心上下文筛选]] +- [[ramsey-context-template|拉姆齐上下文模板]] diff --git a/concepts/context-compression.md b/concepts/context-compression.md new file mode 100644 index 0000000..fc395db --- /dev/null +++ b/concepts/context-compression.md @@ -0,0 +1,31 @@ +--- +title: "Context Compression(上下文压缩)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [context-management, summarization, agent-architecture] +sources: [[prompt-caching-architecture]] +--- + +# Context Compression(上下文压缩) + +## 定义 + +Context Compression 是当 Agent 对话长度触及 Context Window 限制时,对历史对话进行摘要压缩的技术。其核心挑战是在压缩过程中避免触发 [[cache-invalidation|缓存失效]]。 + +## 两种压缩方式 + +| 方式 | 做法 | 缓存影响 | +|------|------|----------| +| 传统(错误) | 独立 API 调用,使用默认 System Prompt | 前缀不一致 → 缓存全失效 | +| [[cache-safe-forking|Cache-Safe Forking]] | 复用父会话完整前缀 | 仅最后几百 Token 需计算 | + +## 工程陷阱 + +最常见的错误:发起新的独立 API 调用请求总结,该调用使用与原始会话不同的 System Prompt → 完全前缀不一致 → 成本剧增。 + +## 相关概念 + +- [[cache-safe-forking|缓存安全分叉]] +- [[prompt-caching|Prompt Caching]] +- [[agentic-systems|Agentic Systems]] diff --git a/concepts/context-learning.md b/concepts/context-learning.md new file mode 100644 index 0000000..ad891f4 --- /dev/null +++ b/concepts/context-learning.md @@ -0,0 +1,67 @@ +--- +title: 上下文学习 (Context Learning) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, benchmark] +sources: [papers/dou-cl-bench.md, papers/hunyuan-team-cl-bench-life.md] +--- + +# 上下文学习 (Context Learning) + +> 由 Dou et al. (2026) 在 [[dou-cl-bench|CL-bench]] 中首次定义的核心能力:语言模型**从任务特定上下文中学习新知识并进行推理**,而非仅依赖预训练知识。与 ICL(上下文少样本学习)和长上下文理解有本质区别。 + +## 定义 + +上下文学习(Context Learning)是 LLM 在给定富含新信息的上下文中: +1. **搜索和组织**相关信息 +2. **学习**上下文中的新知识(领域规则、操作流程、经验规律) +3. **应用**这些新知识推理和解决任务 + +核心特征:**所需知识不在预训练语料中**,必须在推理时从上下文习得。 + +## 与其他能力的区别 + +| 能力 | 上下文内容 | 核心操作 | 评估基准 | +|------|-----------|---------|---------| +| **Context Learning** | 新领域知识、规则系统、操作流程 | 学习 + 推理 + 应用 | CL-bench, CL-bench Life | +| ICL (In-Context Learning) | 少量示例(few-shot) | 模式匹配、类比 | 标准 NLP 基准 | +| 长上下文理解 | 长文本中的已知概念 | 检索、阅读 | Needle-in-Haystack, RULER | +| RAG | 检索到的文档片段 | 证据融合 | KILT, RGB | + +## CL-bench 系列的两种范式 + +### 专业领域上下文学习 (CL-bench) +由 Dou et al. (2026) 提出,聚焦**结构化的专业领域上下文**: +- 虚构法律体系、新编程语言、操作手册 +- 4 类 → 18 子类:领域知识推理、规则系统应用、程序性执行、经验发现 +- 最佳成绩:23.7% (GPT-5.1) + +### 真实生活上下文学习 (CL-bench Life) +由 Hunyuan Team (2026) 提出,聚焦**混乱的日常上下文**: +- 群聊历史、碎片笔记、行为日志 +- 3 类 → 9 子类:通信社交、碎片化信息、行为记录 +- 最佳成绩:19.3% (GPT-5.4) +- 详见 [[real-life-context-learning]] + +## 核心挑战 + +### 1. 上下文误用(首要失败模式) +CL-bench Life 发现 76-84% 的错误是模型"读了但没推理对"——信息提取成功但逻辑整合失败。详见 [[context-misuse]] + +### 2. 归纳 vs 演绎推理 +- 前三个类别(领域知识、规则、程序)主要是**演绎**:从给定规则推导 +- 经验发现类别需要**归纳**:从数据中发现规律——这对当前模型是最难的 + +### 3. 上下文的结构化程度 +从高度结构化(操作手册)到非结构化(群聊),推理难度不随上下文长度线性增长,而是取决于**信息碎片化程度** + +## 相关概念 +- [[dou-cl-bench]] — CL-bench 基准论文 +- [[cl-bench-life]] — CL-bench Life 基准 +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[context-misuse]] — 上下文误用 +- [[domain-knowledge-reasoning]] — 领域知识推理 +- [[rule-system-application]] — 规则系统应用 +- [[empirical-discovery-simulation]] — 经验发现与模拟 +- [[long-context-understanding]] — 长上下文理解(相关但不等价) diff --git a/concepts/context-misuse.md b/concepts/context-misuse.md new file mode 100644 index 0000000..3a2f4b2 --- /dev/null +++ b/concepts/context-misuse.md @@ -0,0 +1,82 @@ +--- +title: 上下文误用 (Context Misuse) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, benchmark, alignment] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# 上下文误用 (Context Misuse) + +> 语言模型**已经读取并关注了上下文信息,但未能正确推理或整合这些信息**的失败模式。区别于"上下文忽略"(Context Ignored),是当前 LLM 上下文学习的**首要瓶颈**。 + +## 定义 + +上下文误用(Context Misuse)是 [[cl-bench-life]] 评估框架中识别的最主要失败类型,指模型: + +- ✅ 在回复中引用了上下文中的信息片段 +- ❌ 但对其进行了**错误解读、错误整合或错误加权** +- 导致最终答案在逻辑上存在系统性缺陷 + +这区别于 **上下文忽略**(Context Ignored)——模型完全未使用某条关键信息。 + +## 典型表现 + +### 1. 错误整合 +模型正确提取了多条信息,但在合并时出现了逻辑矛盾。例如: +- 同时记录了"A 只能周二"和"最终定在周三",但结论中未体现约束冲突 + +### 2. 错误加权 +模型对上下文中的不同证据赋予错误的重要性权重,将次要信息视为核心依据。 + +### 3. 时序混淆 +在处理跨时间窗口的信息时,将早期版本的约束误认为当前版本的约束。 + +### 4. 身份归因错误 +群聊场景中,将一个参与者的观点或行为错误归属给另一个参与者。 + +### 5. 事实幻觉化 +基于上下文中的部分线索"脑补"出实际上不存在的约束或事件。 + +## 数据 + +在 CL-bench Life 的十模型评估中: + +| 错误类型 | 占比范围 | 说明 | +|---------|---------|------| +| Context-Misused | **76% – 84%** | 绝对主导的失败模式 | +| Context-Ignored | 36% – 45% | 次要失败模式 | +| Format-Error | 10% – 16% | 格式违规 | +| Refusal | <3% | 拒答/虚假信息不足 | + +**关键洞察**:上下文误用的占比**远超**上下文忽略。这意味着即使模型"看到了"所有相关信息,也**无法可靠地推理**这些信息。 + +## 与注意力机制的关系 + +上下文误用可能反映了当前 Transformer 架构在以下方面的局限: + +- [[attention-entropy-collapse]]:深层注意力分布的退化 +- [[lost-in-the-middle]]:中间位置信息被系统性低估 +- 长程依赖衰减:跨长距离的因果链和信息整合能力不足 + +但 CL-bench Life 的数据表明,上下文误用并不仅是位置偏差的问题——即使在较短的上下文中,模型仍然频繁出现推理错误。 + +## 缓解方向 + +1. **显式推理**:启用 CoT/推理模式可部分缓解,但边际收益递减 +2. **验证机制**:对提取的事实进行自检(rubric-level self-evaluation) +3. **结构化中间表示**:在推理前先将混乱上下文转化为结构化知识图谱 +4. **多轮交互**:59.8% 的 CL-bench Life 任务为多轮,多轮本身即可帮助逐步推进理解 + +## 相关概念 +- [[cl-bench-life]] — 基准设计 +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[messy-context-reasoning]] — 混乱上下文推理 +- [[attention-entropy-collapse]] — 注意力熵崩溃 +- [[lost-in-the-middle]] — U 形注意力分布 +- [[context-learning]] — 通用上下文学习 + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/continuous-diffusion-language-models.md b/concepts/continuous-diffusion-language-models.md new file mode 100644 index 0000000..29578b8 --- /dev/null +++ b/concepts/continuous-diffusion-language-models.md @@ -0,0 +1,48 @@ +--- +title: "Continuous Diffusion Language Models" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [diffusion-language-model, continuous-embeddings, language-generation] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# Continuous Diffusion Language Models + +连续扩散语言模型(Continuous DLM)将离散 token 映射到连续表示空间进行去噪生成,与在 token 空间直接操作的[[discrete-diffusion-language-models|离散 DLM]] 形成对比。 + +## 两类连续 DLM + +### 嵌入空间方法(Embedding-space) + +直接在 token 嵌入上添加高斯噪声并去噪: +- **Diffusion-LM**:在嵌入空间加噪,通过 rounding 步骤恢复 token +- **CDCD**、**DiffuSeq**:类似思路,用于文本扩散和序列生成 +- 共同特征:中间步骤通常通过 CE loss 施加 token 级监督 + +### 潜在扩散方法(Latent Diffusion) + +在冻结编码器的潜在表示上操作: +- **LD4LG**:冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token +- 需要额外的 decoder 模块 + +## ELF 的独特性 + +[[embedded-language-flows|ELF]] 属于嵌入空间方法,但有两个关键区别: + +1. **无中间 CE 监督**:除最后一步外,全程使用 MSE loss,不施加 token 级约束 +2. **无单独 decoder**:利用 Flow Matching 的最后一步自然完成离散化([[shared-weight-discretization]]) + +这种极简设计使其能**无缝迁移图像域扩散模型的成熟技术**(CFG、蒸馏、高效采样)。 + +## 关键争议 + +连续 DLM 长期被认为不如离散 DLM,但 ELF 表明这**不是语言建模固有特性,而是算法设计问题**。通过正确的设计选择([[flow-matching]] + [[x-prediction-parameterization]] + [[shared-weight-discretization]]),连续 DLM 可以全面超越离散方法。 + +## 相关概念 + +- [[flow-matching]] — 连续时间生成框架 +- [[embedded-language-flows]] — 当前最优连续 DLM +- [[discrete-diffusion-language-models]] — 离散空间的对比方法 +- [[shared-weight-discretization]] — ELF 的核心离散化机制 diff --git a/concepts/continuum-hypothesis.md b/concepts/continuum-hypothesis.md index bb3157f..97cb4fd 100644 --- a/concepts/continuum-hypothesis.md +++ b/concepts/continuum-hypothesis.md @@ -1,3 +1,12 @@ +--- +title: 连续统假设 (Continuum Hypothesis, CH) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 连续统假设 (Continuum Hypothesis, CH) - **领域**: 集合论 diff --git a/concepts/cramer-rao-lower-bound.md b/concepts/cramer-rao-lower-bound.md index 1ca3fd9..def3198 100644 --- a/concepts/cramer-rao-lower-bound.md +++ b/concepts/cramer-rao-lower-bound.md @@ -74,4 +74,4 @@ $$\text{Cov}(\hat{\boldsymbol{\theta}}) \succeq \mathbf{I}(\boldsymbol{\theta})^ ## 相关概念 - [[computerized-adaptive-testing]] — CAT 的核心目标是最小化能力估计方差,CRLB 提供了理论下界,选题策略本质上是在最大化 Fisher 信息以快速逼近该下界。 -- [[eml-universal-operator]] — EML 树的梯度优化依赖于对参数空间的曲率估计,与 CRLB 中 Fisher 信息作为对数似然曲率的数学本质相通。 +- [[eml-operator]] — EML 树的梯度优化依赖于对参数空间的曲率估计,与 CRLB 中 Fisher 信息作为对数似然曲率的数学本质相通。 diff --git a/concepts/crawl4ai.md b/concepts/crawl4ai.md index 33b72fd..fec5032 100644 --- a/concepts/crawl4ai.md +++ b/concepts/crawl4ai.md @@ -1,3 +1,12 @@ +--- +title: Crawl4AI +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Crawl4AI **类型**: 开源工具,数据提取,网页爬虫 @@ -146,8 +155,8 @@ result = await crawler.arun( - [[knowledge-bank]] — AI 辅助开发时代的知识管理系统 - [[rag-systems]] — 检索增强生成系统 - [[llm-applications]] — 大型语言模型应用 -- [[web-scraping]] — 网页抓取技术 -- [[data-extraction]] — 数据提取技术 +- [[crawl4ai]] — 网页抓取技术 +- [[crawl4ai]] — 数据提取技术 ## 参考资源 diff --git a/concepts/critical-failures.md b/concepts/critical-failures.md new file mode 100644 index 0000000..a315f22 --- /dev/null +++ b/concepts/critical-failures.md @@ -0,0 +1,41 @@ +--- +title: "Critical Failures / 关键失败" +created: 2026-05-14 +type: concept +tags: ["error-analysis", "sparse-errors", "document-corruption", "degradation-decomposition"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Critical Failures + +在 [[delegate-52]] 基准中,关键失败(Critical Failure)定义为单次回译导致重建分数下降 ≥10% 的事件。分析发现,模型退化的**主要驱动力不是均匀的小错误累积,而是稀疏的严重失败**。 + +## 关键数据 + +- 关键失败解释了约 **80%** 的总 [[document-degradation|文档退化]] +- 更强的模型并非更好地避免小错误,而是**延迟关键失败**并减少其发生频率 +- Gemini 3.1 Pro: 20 次交互后 38.1% 的 relay 至少经历一次关键失败 +- GPT 5 Nano: 20 次交互后 97.2% 的 relay 至少经历一次关键失败 + +## 错误结构 + +按模型退化分解(10 轮 relay 后): + +| 退化来源 | 弱模型 | 前沿模型 | +|----------|--------|----------| +| 删除(元素消失) | ~70% | ~22-35% | +| 损坏(元素内容错误) | ~30% | ~65-78% | + +前沿模型的退化主要是**内容被改错**,而非内容丢失。 + +## 实践含义 + +- 用户无法通过"抽查几处"来信任委托结果——错误是稀疏但毁灭性的 +- 短交互评估会严重低估风险——关键失败概率随交互长度非线性增长 +- [[long-horizon-evaluation|长视界评估]]对捕捉此类失败模式至关重要 + +## 相关概念 + +- [[document-degradation]] — 关键失败是其主要来源 +- [[delegate-52]] — 分析的数据来源 +- [[backtranslation-round-trip-relay]] — 检测方法 diff --git a/concepts/darwin-godel-machine.md b/concepts/darwin-godel-machine.md index 84fbed6..2dde2c1 100644 --- a/concepts/darwin-godel-machine.md +++ b/concepts/darwin-godel-machine.md @@ -1,3 +1,12 @@ +--- +title: Darwin Gödel Machine (达尔文·哥德尔机) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Darwin Gödel Machine (达尔文·哥德尔机) > **类型**: 概念 diff --git a/concepts/decentralized-agent-architecture.md b/concepts/decentralized-agent-architecture.md new file mode 100644 index 0000000..a91dd53 --- /dev/null +++ b/concepts/decentralized-agent-architecture.md @@ -0,0 +1,49 @@ +--- +title: 去中心化Agent架构 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture] +sources: [papers/song-agent-network-taxonomy.md] +--- + +# 去中心化Agent架构 (Decentralized Agent Architecture) + +> 不存在区分协调者,协调通过 peer 级交互或共享媒体涌现的多 Agent 架构模式。是 [[agent-network-topology]] 的一个分支。 + +## 形式定义 + +无区分控制器: +``` +∄ a_c ∈ V +E^(t+1) = Φ(E^(t), o^(t)) // 分布式更新 +Π^(t+1) = Γ(Π^(t), o^(t)) // 无中心节点 +``` + +## 子类别 + +1. **全局+静态**:共享黑板模式 (LLMBlackBoard, MemorySharing) +2. **全局+动态**:动态共享市场 (GPTSwarm, AgentSociety, OpenAgents) +3. **局部+静态**:固定局部交互 (MMAgent, WebArena, TalkHier) +4. **局部+动态**:涌现式社交 (Generative Agents, AgentNet, SOTOPIA-S) + +## 优势与劣势 + +| 优势 | 劣势 | +|------|------| +| 水平扩展能力强 | 协调效率低 | +| 无单点故障 | 一致性难以保证 | +| 适合大规模社会模拟 | 上下文漂移风险 | +| 鲁棒性高 | 通信开销 O(N²) 最坏 | + +## 新兴趋势 + +- **Peer-to-Peer (P2P) 通信层**:rust-libp2p、DHT 发现、gossipsub 发布-订阅 +- **MCP 标准化**:Model Context Protocol 作为去中心化网络的统一基板 +- **图神经网络路由**:G-Designer 使用 GNN 自动设计通信拓扑 + +## 相关概念 +- [[agent-network-topology]] — 拓扑维度 +- [[centralized-agent-architecture]] — 对偶架构 +- [[agent-communication-stack]] — 通信协议栈 +- [[song-agent-network-taxonomy]] — 父论文 diff --git a/concepts/deepseek-v4-flash.md b/concepts/deepseek-v4-flash.md new file mode 100644 index 0000000..bd890e8 --- /dev/null +++ b/concepts/deepseek-v4-flash.md @@ -0,0 +1,27 @@ +--- +title: "DeepSeek-V4-Flash" +domain: "Deep Learning / LLM" +tags: [deepseek, llm, moe, backbone] +sources: [[thinking-with-visual-primitives]], [[deepseek-v4-million-token-context]] +--- + +# DeepSeek-V4-Flash + +> 「Thinking with Visual Primitives」的语言骨干模型:284B 总参数 / 13B 激活参数的 MoE 架构。 + +## 角色 + +在视觉原语框架中,DeepSeek-V4-Flash 作为 LLM backbone,接收来自 [[deepseek-vit|DeepSeek-ViT]] 的视觉 token 和语言指令,生成交织视觉原语的思维链和最终响应。 + +## 关键特性 + +- [[mixture-of-experts|混合专家模型]] (MoE) 架构 +- 内置 [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 机制——这是实现极致 token 效率的关键 +- 支持百万 token 级长上下文 +- 在 pretraining 阶段使用 64K 序列长度 (FP8),post-training 扩展到 256K + +## 相关概念 + +- [[deepseek-vit|DeepSeek-ViT]] — 视觉编码器 +- [[compressed-sparse-attention|压缩稀疏注意力]] — KV cache 压缩 +- [[mixture-of-experts|混合专家模型]] — 参数效率架构 \ No newline at end of file diff --git a/concepts/deepseek-vit.md b/concepts/deepseek-vit.md new file mode 100644 index 0000000..174e532 --- /dev/null +++ b/concepts/deepseek-vit.md @@ -0,0 +1,40 @@ +--- +title: "DeepSeek-ViT" +domain: "Deep Learning / Vision" +tags: [vit, vision-transformer, deepseek, visual-encoding] +sources: [[thinking-with-visual-primitives]] +--- + +# DeepSeek-ViT + +> DeepSeek 自研的视觉 Transformer,支持任意分辨率输入,配合 3×3 空间压缩实现极致 token 效率。 + +## 架构 + +- 从头训练的 Vision Transformer +- 支持**任意分辨率**输入 +- 14×14 patch size → 生成 patch tokens +- ViT 输出端施加 **3×3 空间 token 压缩**:每 9 个相邻 patch token 沿通道维度压缩为 1 个 token + +## Token 压缩管道 + +以 756×756 图像为例: + +``` +原始像素 (571,536) + → Patch Embedding → 2,916 patch tokens + → 3×3 空间压缩 → 324 visual tokens (进入 LLM prefilling) + → CSA 压缩 → 81 KV entries +``` + +**总压缩比:7056×** + +## 视觉 token 数量限制 + +为平衡性能和计算成本,视觉 token 输出限制在 **81 到 384** 之间。超出范围的图像在保留宽高比的前提下缩放。 + +## 相关概念 + +- [[compressed-sparse-attention|压缩稀疏注意力]] — ViT 之后的 KV cache 压缩 +- [[visual-primitives|视觉原语]] — ViT 输出的使用方式 +- [[token-efficiency|token-效率]] — 整体效率指标 \ No newline at end of file diff --git a/concepts/delegate-52.md b/concepts/delegate-52.md new file mode 100644 index 0000000..27b1222 --- /dev/null +++ b/concepts/delegate-52.md @@ -0,0 +1,46 @@ +--- +title: "DELEGATE-52" +created: 2026-05-14 +type: concept +tags: ["benchmark", "document-editing", "evaluation", "delegated-work", "52-domains"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# DELEGATE-52 + +DELEGATE-52 是 Microsoft Research 提出的基准测试,用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境,覆盖 52 个专业领域。 + +## 设计原则 + +- **真实文档**:所有种子文档来自真实在线来源(非合成数据),范围 3-5k tokens +- **可逆编辑**:每个编辑任务有正向和反向指令,形成 [[backtranslation-round-trip-relay|回译]] +- **领域特定评估**:每个领域有自定义的解析器和语义等价评分函数 +- **干扰上下文**:每个环境包含 8-12k tokens 的话题相关但无需编辑的文档 + +## 五个领域类别 + +| 类别 | 领域数 | 示例 | +|------|--------|------| +| Code & Configuration | 11 | Python, DBSchema, Docker, JSON, Graphviz | +| Science & Engineering | 11 | Crystal, Molecule, MathLean, Quantum, Robotics | +| Creative & Media | 11 | Music, LaTeX, Slides, Fiction, Weaving | +| Structured Records | 11 | Accounting, Genealogy, Spreadsheet, EDIFACT | +| Everyday | 8 | Recipe, Chess, Job Board, Playlist, Transit | + +## 核心指标 + +[[round-trip-reconstruction-score|RS@k]]:经过 k 次交互后的文档重建分数,衡量与原始文档的 [[semantic-equivalence|语义等价]]程度。RS@20 ≥ 98% 视为该领域"准备就绪"。 + +## 主要结果 + +- 19 个 LLM 测试,最终平均退化 50% +- 前沿模型退化约 25% +- Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域 +- 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready" + +## 相关概念 + +- [[backtranslation-round-trip-relay]] — 评估方法论 +- [[round-trip-reconstruction-score]] — RS@k 指标 +- [[domain-specific-evaluation]] — 领域特定解析器设计 +- [[laban-llms-corrupt-documents-delegate]] — 论文主页面 diff --git a/concepts/delegated-work.md b/concepts/delegated-work.md new file mode 100644 index 0000000..fe7f9b8 --- /dev/null +++ b/concepts/delegated-work.md @@ -0,0 +1,39 @@ +--- +title: "Delegated Work / 委托工作" +created: 2026-05-14 +type: concept +tags: ["interaction-paradigm", "human-AI-collaboration", "trust", "knowledge-work"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Delegated Work + +委托工作(Delegated Work)是一种新兴的 LLM 交互范式:知识工作者监督 LLM 代其完成任务(如 "vibe coding")。用户可能缺乏审查每个改动的专业知识或时间,因此必须**信任** LLM 不会引入未检测到的错误。 + +## 与对话式交互的区别 + +| 维度 | 对话式 | 委托式 | +|------|--------|--------| +| 审查力度 | 用户逐轮审核 | 用户可能跳过审查 | +| 信任需求 | 低(即时反馈) | 高(延迟验证) | +| 错误传播 | 单轮可纠正 | 跨轮次累积 | +| 典型场景 | 问答、头脑风暴 | 文档编辑、代码重构 | + +## 委托可行性的前提 + +1. LLM 能可靠执行领域任务 +2. LLM 不引入静默错误 +3. 错误不随时间复合增长 + +[[delegate-52]] 的实验表明,当前模型在绝大多数领域中**不满足**这些前提。 + +## 领域不对称性 + +模型在 Python 编程中足够可靠(17/19 达到 "ready"),但在其他 51 个领域中远未准备好。这反映了 [[jagged-frontier|锯齿前沿]]——模型能力在领域间极不均衡。 + +## 相关概念 + +- [[delegate-52]] — 测试委托就绪性的基准 +- [[document-degradation]] — 委托中的核心风险 +- [[jagged-frontier]] — 委托能力的领域不对称 +- [[long-horizon-evaluation]] — 委托评估的时间维度 diff --git a/concepts/depth-scaling-signal-degradation.md b/concepts/depth-scaling-signal-degradation.md index d8be2ba..9bf4354 100644 --- a/concepts/depth-scaling-signal-degradation.md +++ b/concepts/depth-scaling-signal-degradation.md @@ -34,4 +34,4 @@ $$x_{l+1} = x_l + f_l(x_l)$$ - [[mixture-of-depths-attention]] — MoDA 机制 - [[zhu-moda-mixture-of-depths]] — MoDA 论文 -- [[transformer-architecture]] — Transformer 基础架构 +- [[multi-head-attention]] — Transformer 基础架构 diff --git a/concepts/dgae.md b/concepts/dgae.md new file mode 100644 index 0000000..4701882 --- /dev/null +++ b/concepts/dgae.md @@ -0,0 +1,48 @@ +--- +title: "Difficulty-Balanced Group Advantage Estimation (DGAE)" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["grpo", "advantage-estimation", "reinforcement-learning"] +sources: ["arxiv:2601.20614"] +--- + +# Difficulty-Balanced Group Advantage Estimation (DGAE) + +**DGAE** 是 [[dgpo|DGPO]] 的核心技术之一,通过将 GRPO 优势估计中的 std 分母替换为 MAD(平均绝对偏差),实现**难度平衡**的更新幅度。 + +## 公式对比 + +**GRPO (GRAE)**: +$$\hat{A}_{GR,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{std}(\{r_i\})}$$ + +**DGAE**: +$$\hat{A}_{DG,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{MAD}(\{r_i\})}, \quad \text{MAD}(\{r_i\}) = \frac{1}{G}\sum_{j=1}^{G}|r_j - \text{mean}(\{r_i\})|$$ + +## 关键定理 + +**Theorem 2**:使用 DGAE 时,单个问题的总更新幅度(无裁剪)恒为: + +$$\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G$$ + +与奖励分布无关——无论准确率 p 是多少,更新幅度恒定。 + +**对比 Theorem 1**(GRPO):总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时最大。 + +## 为什么 MAD 优于 std? + +- **std** 引入 $\sqrt{p(1-p)}$ 因子 → 更新幅度依赖准确率 → [[update-magnitude-imbalance|难度不平衡]] +- **MAD = 2p(1-p)** 对于二元奖励 → 恰好消除 $p(1-p)$ 因子 → 难度平衡 +- MAD 的线性性质(vs std 的平方根)使得归一化后的总更新幅度恒定 + +## 泛化性 + +Theorem 2 **不要求奖励为二元值**(ri ∈ {0,1}),适用于任意奖励函数。这意味着 DGAE 可以用于更广泛的 RLVR 场景(如带 length penalty 的复合奖励)。 + +## 相关概念 + +- [[dqw|DQW]] — 第二步:难度加权 +- [[dgpo|DGPO]] — 算法整体 +- [[update-magnitude-imbalance]] — 被解决的问题 +- [[grpo]] — 基线方法 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/dgpo.md b/concepts/dgpo.md new file mode 100644 index 0000000..ba14fbd --- /dev/null +++ b/concepts/dgpo.md @@ -0,0 +1,55 @@ +--- +title: "Difficulty-Aware Group Policy Optimization (DGPO)" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["grpo", "difficulty-aware", "reinforcement-learning", "policy-optimization"] +sources: ["arxiv:2601.20614"] +--- + +# Difficulty-Aware Group Policy Optimization (DGPO) + +**DGPO** 是 [[mathforge|MathForge]] 框架的算法组件,通过两步策略解决 [[grpo|GRPO]] 的 [[update-magnitude-imbalance|难度不平衡问题]]。 + +## 优化目标 + +$$J_{DGPO}(\theta) = \mathbb{E} \frac{1}{\sum_{s=1}^{B_v} \sum_{i=1}^{G} |o_{si}|} \sum_{s=1}^{B_v} \lambda_s \sum_{i=1}^{G} \sum_{t=1}^{|o_{si}|} \min(I_{sit}A_{DG,si}, \text{clip}(...))$$ + +## 两步策略:Balance-then-Reweight + +### 第一步:[[dgae|DGAE]](平衡) + +用 **MAD(平均绝对偏差)** 替代 std 作为优势归一化分母: + +$$\hat{A}_{DG,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{MAD}(\{r_i\})}$$ + +**效果**:总更新幅度恒为 G,与准确率 p 无关(Theorem 2)。 + +### 第二步:[[dqw|DQW]](加权) + +用 softmax 温度加权显式优先更难的问题: + +$$\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum \exp(D_s/T)}, \quad D_s = -\text{mean}(\{r_{si}\})$$ + +**关键**:Balance-then-reweight 提供比直接优势重加权(如 GRPO-AD)更好的可解释性和可控性。 + +## 与 GRPO 的关键区别 + +| 组件 | GRPO | DGPO | +|------|------|------| +| 优势估计 | std 归一化 | **MAD 归一化** | +| 难度处理 | 隐式不平衡(p=0.5 峰值) | **显式优先困难问题** | +| 问题权重 | 均等 | **softmax 难度加权** | +| Valid query | 全部 | **仅有效问题(非全对/全错)** | + +## DGPO 与其他方法的组合 + +DGPO 可以与 GP6、DAPO、GSPO 等方法组合,详见论文 Appendix G。组合时 DQW 的难度分数 D_s 仅基于 accuracy reward 计算(排除 length penalty 等辅助信号)。 + +## 相关概念 + +- [[dgae|DGAE]] — 难度平衡优势估计 +- [[dqw|DQW]] — 难度感知问题级加权 +- [[grpo]] — 基线方法 +- [[mathforge]] — 完整框架 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/diagonal-ramsey-number.md b/concepts/diagonal-ramsey-number.md new file mode 100644 index 0000000..a0e70b5 --- /dev/null +++ b/concepts/diagonal-ramsey-number.md @@ -0,0 +1,39 @@ +--- +title: "Diagonal Ramsey Number(对角拉姆齐数)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [combinatorics, graph-theory] +sources: [[ramsey-numbers-survey]] +--- + +# Diagonal Ramsey Number(对角拉姆齐数) + +## 定义 + +对角拉姆齐数 R(k) = R(k,k),即保证任意二色边着色下必存在单色 k-团的最小顶点数。它是 [[ramsey-numbers|拉姆齐数]] 中最核心的研究对象。 + +## 对称性与困难 + +对角情形的对称性使其在数学上最为优美,但也最难处理。对称性消除了非对角情形中可利用的结构差异,使得传统的递归估计方法效果有限。 + +## 关键结果 + +| k | R(k) | 关键突破 | +|---|------|----------| +| 3 | 6 | 鸽巢原理直接证明 | +| 4 | 18 | Paley 图 P₁₇ 提供下界 | +| 5 | 43–48 | McKay-Radziszowski 计算机辅助上界 | +| 6 | 102–165 | 差距近 50% | + +## 核心猜想 + +1. **渐近阶**:R(k) 的真实增长指数 c ∈ [√2, 4],多数研究者认为更接近下界 +2. **R(5) = 43?**:McKay & Radziszowski 的猜想,尚无决定性证据 +3. **指数改进**:Conlon(2023) 首次将上界底数从 4 略微降低 + +## 相关概念 + +- [[ramsey-numbers|拉姆齐数]] +- [[probabilistic-method|概率方法]] +- [[paley-graph|Paley 图]] diff --git a/concepts/diagonalization-method.md b/concepts/diagonalization-method.md index 3e65751..698e05d 100644 --- a/concepts/diagonalization-method.md +++ b/concepts/diagonalization-method.md @@ -1,3 +1,12 @@ +--- +title: 对角线方法 (Diagonalization Method) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 对角线方法 (Diagonalization Method) - **领域**: 数学基础、逻辑学 diff --git a/concepts/discrete-diffusion-language-models.md b/concepts/discrete-diffusion-language-models.md new file mode 100644 index 0000000..99fc548 --- /dev/null +++ b/concepts/discrete-diffusion-language-models.md @@ -0,0 +1 @@ +discrete-diffusion-language-models \ No newline at end of file diff --git a/concepts/distractor-context.md b/concepts/distractor-context.md new file mode 100644 index 0000000..3635c14 --- /dev/null +++ b/concepts/distractor-context.md @@ -0,0 +1,36 @@ +--- +title: "Distractor Context / 干扰上下文" +created: 2026-05-14 +type: concept +tags: ["experiment-design", "retrieval", "context-management", "realism"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Distractor Context + +干扰上下文(Distractor Context)是 [[delegate-52]] 实验设计中的一个关键要素:每个工作环境包含 8-12k tokens 的**话题相关但不需编辑**的文档,模拟真实场景中检索精度不完美的情况。 + +## 设计动机 + +在真实工作环境中,用户提供给 LLM 的文档并非全都与当前任务相关(检索精度不完美)。干扰上下文迫使模型在编辑前判断哪些文档与任务相关。 + +## 实验发现 + +| 度量 | 含干扰 | 去干扰 | 差异 | +|------|--------|--------|------| +| 第 2 次交互 | 94.3 (GPT 5.4) | 94.7 | +0.4% | +| 第 20 次交互 | 71.5 (GPT 5.4) | 77.8 | +6.3% | + +### 关键洞察 + +干扰的危害随交互长度**放大**——短交互评估会**严重低估**干扰的长期影响。这个发现与 Shi et al. (2023) 的无关上下文干扰研究一致,并扩展到长视界设置。 + +## 对检索系统的意义 + +长期基准能捕捉改进检索(减少干扰)的**持续效果**——这对检索系统的评估有直接意义:仅测量短期精度可能低估检索质量对下游任务的影响。 + +## 相关概念 + +- [[delegate-52]] — 使用干扰上下文的基准 +- [[long-horizon-evaluation]] — 揭示干扰放大效应的框架 +- [[document-degradation]] — 干扰加剧的退化 diff --git a/concepts/document-degradation.md b/concepts/document-degradation.md new file mode 100644 index 0000000..5770a10 --- /dev/null +++ b/concepts/document-degradation.md @@ -0,0 +1,39 @@ +--- +title: "Document Degradation / 文档退化" +created: 2026-05-14 +type: concept +tags: ["document-corruption", "error-accumulation", "silent-failure", "delegated-work"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Document Degradation + +文档退化(Document Degradation)是 [[delegate-52]] 基准揭示的核心现象:当 LLM 在长时间委托工作流中持续编辑文档时,文档内容会**静默地、逐步地**被损坏。 + +## 退化特征 + +### 稀疏但严重(Sparse but Severe) +不是"千刀万剐"式的小错误累积——约 80% 的总退化来自少数几次 [[critical-failures|关键失败]](单次交互损失 10-30+ 分)。模型在某些回合中保持近乎完美的重建,然后在少数回合中发生灾难性错误。 + +### 删除 vs 损坏(Deletion vs Corruption) +- **弱模型**(GPT 5 Nano, GPT 4o)的退化主要来自**内容删除**(结构化元素计数减少) +- **前沿模型**(Claude 4.6 Opus, Gemini 3.1 Pro)的退化主要来自**内容损坏**(元素存在但内容错误) + +### 渐进而非线性 +退化曲线呈单调下降,约 3 次交互后就开始出现明显退化。即使扩展到 100 次交互仍持续退化,无平台迹象。 + +## 影响因素 + +| 因素 | 效应 | +|------|------| +| 文档大小 | 每增加 1000 tokens,退化加剧约 3.6%(20 次交互后) | +| 交互长度 | 与文档大小**乘性叠加**(5 倍放大效应) | +| [[distractor-context\|干扰文档]] | 危害随交互长度放大(短交互低估其影响) | +| Agentic 工具使用 | 反而加剧退化(+6%),因工具开销 | + +## 相关概念 + +- [[delegate-52]] — 发现此现象的基准 +- [[critical-failures]] — 退化的主要来源 +- [[backtranslation-round-trip-relay]] — 测量方法 +- [[long-horizon-evaluation]] — 为什么短评估不够 diff --git a/concepts/domain-knowledge-reasoning.md b/concepts/domain-knowledge-reasoning.md new file mode 100644 index 0000000..a1a6436 --- /dev/null +++ b/concepts/domain-knowledge-reasoning.md @@ -0,0 +1,36 @@ +--- +title: 领域知识推理 (Domain Knowledge Reasoning) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [benchmark, llm] +sources: [papers/dou-cl-bench.md] +--- + +# 领域知识推理 (Domain Knowledge Reasoning) + +> CL-bench 的第一类上下文:模型需从上下文中**学习新领域知识并应用**来解决任务。是四种类型中最易的一类,最佳成绩 25.3%。 + +## 七个子类 + +| 子类 | 典型场景 | GPT-5.1 成绩 | +|------|---------|-------------| +| Finance | 新金融产品分析 | 25.2% | +| Healthcare | 窄领域医学建议 | 21.7% | +| Humanities | 虚构历史分析 | 23.7% | +| Legal Advisory | 虚构法律体系断案 | 22.8% | +| Lifestyle | 专业咨询建议 | 19.9% | +| Management | 管理场景决策 | **34.8%** | +| Science | 科学领域推理 | 25.8% | + +## 核心特征 + +- 上下文提供**新的领域知识体系**(如一个虚构国家的完整法律) +- 任务本质是**演绎推理**:将给定知识应用于具体案例 +- 相对最容易,因为知识是**显式陈述**的(不像经验发现需要归纳) + +## 相关概念 +- [[context-learning]] — 上下文学习能力 +- [[dou-cl-bench]] — CL-bench 论文 +- [[rule-system-application]] — 规则系统应用 +- [[empirical-discovery-simulation]] — 经验发现(最难类别) diff --git a/concepts/domain-specific-evaluation.md b/concepts/domain-specific-evaluation.md new file mode 100644 index 0000000..de49851 --- /dev/null +++ b/concepts/domain-specific-evaluation.md @@ -0,0 +1,41 @@ +--- +title: "Domain-Specific Evaluation / 领域特定评估" +created: 2026-05-14 +type: concept +tags: ["evaluation", "parsing", "domain-adaptation", "semantic-equivalence"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Domain-Specific Evaluation + +领域特定评估是 [[delegate-52]] 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。 + +## 通用流水线 + +``` +原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1] +``` + +## 设计原则 + +### 语义敏感性 +表面变化不影响分数(如 `200g` vs `0.2kg`、材料列表顺序),但语义变化严重影响分数(如 `200g` vs `800g`)。 + +### 组件化加权 +每个领域的评分由多个组件加权组合,权重通过消融实验校准。例如 Recipe: +- 材料列表 40%(匈牙利匹配名字) +- 步骤 40%(序列文本相似度) +- 提示 20%(二分图匹配) + +### 免参考答案 +通过 [[backtranslation-round-trip-relay]] 与种子文档比较,无需人工标注。 + +## 实现挑战 + +为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法(Levenshtein 距离、语义嵌入、LLM-as-a-judge)**最多捕获 25% 的方差**,远不足以替代自定义解析器。 + +## 相关概念 + +- [[delegate-52]] — 52 个领域特定评估的集合 +- [[semantic-equivalence]] — 评估目标 +- [[backtranslation-round-trip-relay]] — 评估循环 diff --git a/concepts/dqw.md b/concepts/dqw.md new file mode 100644 index 0000000..1ed3232 --- /dev/null +++ b/concepts/dqw.md @@ -0,0 +1,55 @@ +--- +title: "Difficulty-Aware Question-Level Weighting (DQW)" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["grpo", "difficulty-aware", "importance-weighting"] +sources: ["arxiv:2601.20614"] +--- + +# Difficulty-Aware Question-Level Weighting (DQW) + +**DQW** 是 [[dgpo|DGPO]] 的第二步组件,在 [[dgae|DGAE]] 平衡更新幅度的基础上,通过 softmax 温度加权**显式优先学习更难的问题**。 + +## 公式 + +$$\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum_{s'=1}^{B_v} \exp(D_{s'}/T)}, \quad D_s = -\text{mean}(\{r_{si}\}_{i=1}^G)$$ + +其中: +- $D_s$:问题难度分数 = 负平均正确率(越高越难) +- $T$:温度参数(控制分布锐度,默认 2.0) +- $B_v$:batch 中有效问题数量 + +## 设计原则 + +### Balance-then-Reweight + +DQW 遵循**先平衡再加权**的原则: +1. [[dgae|DGAE]]:消除 GRPO 固有的更新幅度不平衡 +2. DQW:在平衡基础上显式加权 + +相比直接对优势进行难度重加权(如 GRPO-AD),这种两步法具有更好的**可解释性**和**可控性**。 + +### 仅对有效问题加权 + +只有**有效问题**(非全对/全错)才参与 DQW 加权: +- 全对问题:$D_s = -1$,梯度为零(已完全掌握) +- 全错问题:$D_s = 0$,无正样本可供学习 + +### DQW 与组合方法 + +DGPO 与 DAPO 组合时,DQW 的难度分数 $D_s$ **仅基于 accuracy reward** 计算,排除 length penalty 等辅助奖励。这确保问题加权反映的是**逻辑难度**而非回答长度偏好。 + +## 与相关方法的对比 + +| 方法 | 机制 | 复杂度 | +|------|------|--------| +| **DQW** | Softmax 温度加权 | 低(1 个超参数 T) | +| GRPO-AD | 优势重加权 | 高(多超参数) | + +## 相关概念 + +- [[dgae|DGAE]] — 第一步:难度平衡 +- [[dgpo|DGPO]] — 算法整体 +- [[mathforge]] — 完整框架 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/duo-attention.md b/concepts/duo-attention.md index ba1fb79..cbfe0f2 100644 --- a/concepts/duo-attention.md +++ b/concepts/duo-attention.md @@ -1,3 +1,12 @@ +--- +title: DuoAttention +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # DuoAttention **双模式注意力**,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。 diff --git a/concepts/dynamic-mode-decomposition.md b/concepts/dynamic-mode-decomposition.md new file mode 100644 index 0000000..a912dfd --- /dev/null +++ b/concepts/dynamic-mode-decomposition.md @@ -0,0 +1,32 @@ +--- +title: "Dynamic Mode Decomposition (DMD)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [dynamical-systems, numerical-methods, linear-algebra] +sources: [[liu-koopa-2023]] +--- + +# Dynamic Mode Decomposition (DMD) + +## 定义 + +动态模式分解 (DMD) 是 [[koopman-theory|Koopman 理论]] 的标准数值方法,通过收集观测到的系统状态(快照)来寻找最佳拟合的有限维矩阵 K 以近似无限维 Koopman 算子。 + +## 与 Koopman 理论的关系 + +- Koopman 理论提供**理论保证**:存在无限维线性算子 +- DMD 提供**数值方法**:用有限维矩阵逼近该算子 +- 局限:DMD 仅在线性空间假设下工作,需要先验知识选择测量函数 + +## 深度学习扩展 + +[[koopman-autoencoder|Koopman 自编码器 (KAE)]] 用自编码器学习测量函数 g,避免了手工设计: +- **编码器**:x_t → g(x_t)(Koopman 嵌入) +- **线性层**:g(x_t) → K·g(x_t) = g(x_{t+1}) +- **解码器**:g(x_{t+1}) → x_{t+1} + +## 相关概念 + +- [[koopman-theory|Koopman 理论]] +- [[koopman-autoencoder|Koopman 自编码器]] diff --git a/concepts/embedded-language-flows.md b/concepts/embedded-language-flows.md new file mode 100644 index 0000000..1dc75d7 --- /dev/null +++ b/concepts/embedded-language-flows.md @@ -0,0 +1,50 @@ +--- +title: "Embedded Language Flows (ELF)" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# Embedded Language Flows (ELF) + +ELF 是一类基于 [[flow-matching|Flow Matching]] 的[[continuous-diffusion-language-models|连续扩散语言模型]],核心思想是**在连续嵌入空间中完成几乎所有去噪过程,仅在最后一步将嵌入映射回离散 token**。 + +## 核心设计 + +### 两阶段操作 + +| 阶段 | 时间步 | 模式 | 损失 | 输出 | +|------|--------|------|------|------| +| 去噪 | t ∈ [0,1) | denoise | MSE (v_pred vs v) | 干净嵌入 x̂ | +| 解码 | t = 1 | decode | Cross-Entropy | 离散 token | + +两种模式通过二进制 mode token 切换,但**共享同一网络权重**——这是 ELF 区别于其他连续 DLM 的关键。详细机制见 [[shared-weight-discretization]]。 + +### 与其他方法的对比 + +- **vs 离散 DLM**(MDLM, Duo):ELF 在连续空间操作,可自然使用 CFG 等连续域成熟技术 +- **vs 其他连续 DLM**(Diffusion-LM, CDCD):ELF 不在中间步骤施加 token 级 CE 监督,保持去噪轨迹的连续性 +- **vs 潜在扩散方法**(LD4LG):ELF 无需单独 decoder,利用 Flow Matching 的最后一步自然完成解码 + +## 为什么连续空间有帮助 + +1. **Flow Matching 稳定性**:在高维嵌入空间(768-d per token)中,x-prediction 配合 [[rectified-flows]] 比 v-prediction 更稳定 +2. **CFG 自然兼容**:CFG 原本为连续量设计(score/velocity),在连续空间中可直接应用;离散空间中的 CFG 效果存疑 +3. **成熟技术的迁移**:训练时 CFG、蒸馏、高效采样器可直接从图像域迁移 + +## 关键结果 + +- 105M ELF 超越 170M 离散/连续基线(MDLM, Duo, FLM, LangFlow) +- 32 步采样即可达到基线 1024 步的质量 +- 10× 更少的训练 token + +## 相关页面 + +- 论文:[[elf-embedded-language-flows]] +- 框架:[[flow-matching]] · [[continuous-diffusion-language-models]] +- 关键技术:[[shared-weight-discretization]] · [[x-prediction-parameterization]] +- 增强技术:[[classifier-free-guidance-language]] · [[self-conditioning]] · [[sde-sampler-language]] +- 基础:[[rectified-flows]] diff --git a/concepts/empirical-discovery-simulation.md b/concepts/empirical-discovery-simulation.md new file mode 100644 index 0000000..11c4a31 --- /dev/null +++ b/concepts/empirical-discovery-simulation.md @@ -0,0 +1,49 @@ +--- +title: 经验发现与模拟 (Empirical Discovery & Simulation) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [benchmark, llm] +sources: [papers/dou-cl-bench.md] +--- + +# 经验发现与模拟 (Empirical Discovery & Simulation) + +> CL-bench 第四类上下文——**最难类别**(最佳仅 18.1%)。与前三个类别的根本区别在于需要**归纳推理**:从数据中发现模式,而非从给定规则推导。 + +## 三个子类 + +| 子类 | 核心操作 | +|------|---------| +| Experimental Data | 从实验数据中发现物理规律 | +| Observational Data | 从观测记录中提取模式 | +| Simulation Environment | 在虚拟沙盒环境中推理分析 | + +## 为什么最难? + +### 演绎 vs 归纳 +- 前三个类别:给定规则 → 应用规则(**演绎**) +- 经验发现:给定数据 → 发现规则 → 应用规则(**归纳 + 演绎**) + +归纳是人类智能的核心优势之一,也是当前 LLM 的最薄弱环节。 + +### 信息密度低 +- 规则系统应用中信息是显式的、符号化的 +- 经验数据中模式是**隐式的**、需要从噪声中分离 + +### 需要科学思维 +- 假设形成 → 数据验证 → 规律抽象 +- 这是完整的科学发现循环,远超出简单的信息检索 + +## 成绩数据 + +- 十模型平均:~11% +- GPT-5.1:18.1%(最佳) +- GPT-5.2:22.6%(在该类别上领先) +- DeepSeek V3.2:8.0%(最低) + +## 相关概念 +- [[context-learning]] — 上下文学习 +- [[dou-cl-bench]] — CL-bench 论文 +- [[domain-knowledge-reasoning]] — 领域知识(演绎式) +- [[spurious-predictability]] — 数据中的虚假模式(金融 ML) diff --git a/concepts/ensemble-based-rewards.md b/concepts/ensemble-based-rewards.md new file mode 100644 index 0000000..dfd6aba --- /dev/null +++ b/concepts/ensemble-based-rewards.md @@ -0,0 +1,42 @@ +--- +title: 集成奖励 (Ensemble-Based Rewards) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 集成奖励 (Ensemble-Based Rewards) + +**URLVR 的内在奖励范式之一**,从多次采样的一致性(多数投票)推导奖励,假设一致性 = 正确性。 + +## 代表方法 + +| 方法 | 奖励构造 | 核心思想 | +|------|---------|---------| +| TTRL | 多数投票匹配 | 与多数答案一致 → +1 | +| SRT | 自奖励训练 | 多数答案作为伪标签 | +| SeRL | 自进化 RL | 多样本交叉验证 | +| R-Zero | 零监督推理 | 集成一致性驱动 | +| Co-Reward | 协同奖励 | 多模型交叉验证 | +| EMPO | 聚类奖励 | 聚类中心作为伪答案 | + +## 理论局限 + +虽然集成奖励比 [[certainty-based-rewards|确定性奖励]] 多了"多样本交叉验证"的维度,但 [[intrinsic-rewards-sharpening|Sharpening 理论]] 证明它同样收敛于锐化初始分布:多数投票的统计特性依赖模型初始偏好的分布,而锐化机制恰好放大了这些偏好。 + +## 对比 Certainty-Based + +| 集成奖励 | [[certainty-based-rewards|确定性奖励]] | +|---------|------| +| 多次采样(计算昂贵) | 单次前向(计算便宜)| +| 样本间一致性驱动 | 样本内置信度驱动 | +| 采样多样性 → 更好信号 | 速度快但可能更偏置 | + +## 相关概念 + +- [[certainty-based-rewards]] — 另一内在范式 +- [[intrinsic-rewards-sharpening]] — 统一理论 +- [[unsupervised-rlvr]] — URLVR 全景 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/evolutionary-algorithms.md b/concepts/evolutionary-algorithms.md index c118dd0..ea8e55a 100644 --- a/concepts/evolutionary-algorithms.md +++ b/concepts/evolutionary-algorithms.md @@ -1,3 +1,12 @@ +--- +title: Evolutionary Algorithms (进化算法) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Evolutionary Algorithms (进化算法) > **类型**: 概念 diff --git a/concepts/exponential-decay-reward.md b/concepts/exponential-decay-reward.md new file mode 100644 index 0000000..eaa1fd8 --- /dev/null +++ b/concepts/exponential-decay-reward.md @@ -0,0 +1,47 @@ +--- +title: "指数衰减奖励 (Exponential Decay Reward)" +domain: "Reinforcement Learning / Reward Design" +tags: [reward, counting, grpo, exponential-decay] +sources: [[thinking-with-visual-primitives]] +--- + +# 指数衰减奖励 (Exponential Decay Reward) + +> 计数任务的平滑奖励函数:不使用二元对错,而是基于相对误差的指数衰减——越接近正确答案奖励越高。 + +## 公式 + +$$R(\hat{y}, y) = \alpha \cdot \exp\left(-\beta \cdot \frac{|\hat{y} - y|}{|y| + 1}\right)$$ + +其中: +- $\hat{y}$:预测计数 +- $y$:真实计数 +- $|y| + 1$:归一化项,使奖励依赖于**相对误差** +- $\alpha = 0.7$:奖励缩放系数 +- $\beta = 3$:衰减速率 + +## 设计动机 + +传统二元奖励(对/错)的问题: +- 预测 99 vs 真实 100 → 零奖励(与预测 1 vs 100 相同) +- 无法提供梯度信号帮助模型「靠近」正确答案 + +指数衰减奖励的优势: +- **平滑梯度**:预测 99 时仍有高奖励 +- **相对误差**:大基数场景对小偏差更宽容 +- **稳定训练**:避免 RL 奖励空间的稀疏问题 + +## 示例 + +| 预测 | 真实 | 相对误差 | 奖励 | +|------|------|----------|------| +| 10 | 10 | 0 | 0.7 | +| 9 | 10 | 0.091 | 0.53 | +| 5 | 10 | 0.455 | 0.18 | +| 0 | 10 | 0.909 | 0.046 | + +## 相关概念 + +- [[group-relative-policy-optimization|群体相对策略优化]] — 使用此奖励的 RL 算法 +- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 应用场景 +- [[reward-model|奖励模型]] — 奖励设计体系 \ No newline at end of file diff --git a/concepts/few-shot-learning.md b/concepts/few-shot-learning.md index 17a045e..ce8d37b 100644 --- a/concepts/few-shot-learning.md +++ b/concepts/few-shot-learning.md @@ -1,3 +1,12 @@ +--- +title: Few-Shot Learning (少样本学习) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Few-Shot Learning (少样本学习) > **类型**: 概念 diff --git a/concepts/fine-grained-counting.md b/concepts/fine-grained-counting.md new file mode 100644 index 0000000..3fc0dd4 --- /dev/null +++ b/concepts/fine-grained-counting.md @@ -0,0 +1,43 @@ +--- +title: "细粒度计数 (Fine-grained Counting)" +domain: "Multimodal AI / Visual Reasoning" +tags: [counting, visual-primitives, fine-grained, grounding] +sources: [[thinking-with-visual-primitives]] +--- + +# 细粒度计数 (Fine-grained Counting) + +> 属性/空间约束下的目标计数——如「白色的狗有多少只」或「左边那只狗的旁边有多少个球」——需要结合视觉原语的顺序扫描和逐项验证。 + +## 与粗粒度计数的区别 + +| 维度 | [[coarse-grained-counting|粗粒度计数]] | 细粒度计数 | +|------|---------------|-----------| +| 查询类型 | 类别级 | 属性/空间约束 | +| 锚定方式 | 批量锚定 | **顺序扫描 + 逐项验证** | +| 认知负荷 | 较低 | 高(需要区分性判断) | + +## 数据构造 + +由于公开数据集稀缺,采用专门的数据构建管道: + +1. **问题生成**:使用 GQA 场景图 + MLLM 生成细粒度计数问题 +2. **思维内容合成**:顺序扫描场景中每个候选对象,对照细粒度约束验证 +3. **负样本构造**:ground-truth 计数为 0 的样本(增强抗幻觉鲁棒性) + +## 推理模式 + +``` +1. 意图分析:识别目标类别 + 属性约束 +2. 顺序扫描: + <|box|>[[x1,y1,x2,y2]]<|/box|> → 符合约束?是/否 + <|box|>[[x3,y3,x4,y4]]<|/box|> → 符合约束?是/否 + ... +3. 统计汇总:总计数 +``` + +## 相关概念 + +- [[coarse-grained-counting|粗粒度计数]] — 互补任务 +- [[visual-primitives|视觉原语]] — 核心机制 +- [[perception-gap|感知鸿沟]] — 细粒度场景更容易触发 \ No newline at end of file diff --git a/concepts/flash-attention-3.md b/concepts/flash-attention-3.md index 926358a..de744d5 100644 --- a/concepts/flash-attention-3.md +++ b/concepts/flash-attention-3.md @@ -1,3 +1,12 @@ +--- +title: FlashAttention-3 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # FlashAttention-3 **FlashAttention 的最新版本** (2024),引入异步计算和低精度支持。 diff --git a/concepts/flash-attention.md b/concepts/flash-attention.md index f45890e..1bc9bde 100644 --- a/concepts/flash-attention.md +++ b/concepts/flash-attention.md @@ -1,3 +1,12 @@ +--- +title: FlashAttention +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # FlashAttention **IO感知的精确注意力优化**,由 Dao 等 2022 年提出,是注意力计算效率的最大单次突破。 diff --git a/concepts/flow-matching.md b/concepts/flow-matching.md new file mode 100644 index 0000000..209d6b8 --- /dev/null +++ b/concepts/flow-matching.md @@ -0,0 +1,63 @@ +--- +title: "Flow Matching" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [generative-modeling, diffusion, continuous-time, ODE] +sources: + - https://arxiv.org/abs/2210.02747 +--- + +# Flow Matching + +Flow Matching 是一种连续时间生成建模框架,通过学习速度场(velocity field)来定义从噪声到数据的连续变换路径。 + +## 核心公式 + +给定数据分布 p_data(x) 和噪声分布 p_noise(ε)(通常 ε ~ N(0,I)),定义**线性插值路径**([[rectified-flows]]): + +``` +z_t = t·x + (1-t)·ε, t ∈ [0,1] +``` + +速度场定义为 z_t 对时间的导数: + +``` +v = dz/dt = x - ε +``` + +训练目标是最小化预测速度与真实速度的 MSE: + +``` +L_MSE = E_{t,x,ε} ||v_θ(z_t, t) - v||² +``` + +## x-prediction vs v-prediction + +由于 v = (x - z_t)/(1-t),网络可以直接预测 x([[x-prediction-parameterization]])而非 v: + +``` +x_θ = net_θ(z_t, t) +v_θ = (x_θ - z_t) / (1-t) +``` + +x-prediction 在 [[embedded-language-flows|ELF]] 中至关重要:它与解码任务(预测干净离散 token)的语义一致,使得共享权重设计可行。 + +## 推理 + +通过求解 ODE `dz_t/dt = v_θ(z_t, t)` 从 z_0 ~ N(0,I) 逐步推进到 z_1 ≈ x。可使用欧拉求解器或更高级的数值方法。 + +## 与其他框架的关系 + +- **DDPM**:离散时间步,高斯前向过程 + 去噪后向过程 +- **Score-based models**:通过 score function ∇log p_t(z) 参数化;Flow Matching 可统一在此框架下 +- **Rectified Flows**:Flow Matching 的特例,使用直线插值路径 + +## 在语言建模中的应用 + +[[embedded-language-flows|ELF]] 将 Flow Matching 应用于语言生成:离散 token → T5 编码 → 连续嵌入空间 → Flow Matching 去噪 → 最后一步解码回 token。 + +## 参考 + +- Lipman et al., "Flow Matching for Generative Modeling", ICLR 2023 +- Albergo & Vanden-Eijnden, "Stochastic Interpolants", JMLR 2025 diff --git a/concepts/formal-security-model.md b/concepts/formal-security-model.md index 5f80066..73f4bd4 100644 --- a/concepts/formal-security-model.md +++ b/concepts/formal-security-model.md @@ -1,3 +1,12 @@ +--- +title: 形式化安全模型 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 形式化安全模型 **类型**: 方法论,安全工程 @@ -120,11 +129,11 @@ ## 相关概念 -- [[ClawLess]] - 应用形式化安全模型的框架 -- [[AI代理安全]] - 形式化安全模型的应用领域 -- [[用户空间内核]] - 形式化策略的执行环境 -- [[BPF系统调用拦截]] - 形式化策略的运行时执行机制 -- [[安全容器]] - 形式化安全模型的部署环境 +- [[clawless]] - 应用形式化安全模型的框架 +- [[ai-agent-security]] - 形式化安全模型的应用领域 +- [[userspace-kernel]] - 形式化策略的执行环境 +- [[bpf-syscall-interception]] - 形式化策略的运行时执行机制 +- [[secure-containers]] - 形式化安全模型的部署环境 ## 发展趋势 diff --git a/concepts/formal-systems.md b/concepts/formal-systems.md index edaeb08..87b7319 100644 --- a/concepts/formal-systems.md +++ b/concepts/formal-systems.md @@ -1,3 +1,12 @@ +--- +title: 形式系统 (Formal System) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 形式系统 (Formal System) - **领域**: 数理逻辑 diff --git a/concepts/formal-verification.md b/concepts/formal-verification.md index ea95917..ea307a3 100644 --- a/concepts/formal-verification.md +++ b/concepts/formal-verification.md @@ -22,7 +22,7 @@ sources: [raw/papers/tao-ai-mathematical-methods-2026.md] ## 形式化验证的局限 -[[Terence Tao]] 在其论文中指出了形式化验证的两个关键局限: +[[terence-tao]] 在其论文中指出了形式化验证的两个关键局限: ### 1. 翻译问题 Formal verification only certifies that a formalized argument establishes a formal mathematical statement, but does not rule out errors in translation between the formal statement and the original intended statement. @@ -41,14 +41,14 @@ Formal verification only certifies that a formalized argument establishes a form ## AI 时代的意义 -[[Terence Tao]] 认为: +[[terence-tao]] 认为: - AI 可以自动化形式化证明的生成 - 但这可能产生 "odorless proofs"(无味证明):技术上正确,但缺乏启发性 - 人类数学家需要专注于那些不容易自动验证的方面 ## 关联页面 -- [[Mathematical methods and human thought in the age of AI]] - 详细讨论 -- [[Terence Tao]] - 该概念的主要阐述者 -- [[lean-mathlib]] - 论文提及的大型形式化数学库 -- [[smell-test]] - "气味测试"概念 +- [[tao-klowden-ai-mathematical-methods]] - 详细讨论 +- [[terence-tao]] - 该概念的主要阐述者 +- [[automated-theorem-proving]] - 论文提及的大型形式化数学库 +- [[spurious-predictability]] - "气味测试"概念 diff --git a/concepts/forward-authentication.md b/concepts/forward-authentication.md new file mode 100644 index 0000000..1bd3ecd --- /dev/null +++ b/concepts/forward-authentication.md @@ -0,0 +1,60 @@ +--- +title: 外部认证委托 (Forward Authentication) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 外部认证委托 (Forward Authentication) + +**将认证决策委托给外部服务的架构模式**,反向代理作为认证网关,实际鉴权逻辑由独立服务处理。 + +## 工作原理 + +``` +Client → Caddy (forward_auth) → Auth Service (返回 200/401) + │ │ + │ 200 OK: 放行 │ + │ 401/403: 拒绝 │ + ▼ │ + Backend Service ←────────────┘ +``` + +[[caddy-web-server|Caddy]] 的 `forward_auth` 指令将请求的特定头(如 `Authorization`、`X-API-Key`)转发给外部认证服务,根据返回状态码决定是否放行。 + +## Caddy 配置示例 + +```caddy +api.example.com { + forward_auth localhost:9000 { + uri /auth + copy_headers Authorization X-API-Key + } + reverse_proxy localhost:8080 +} +``` + +## 适用场景 + +- 认证逻辑涉及数据库查询、多因素验证 +- 需要对接已有的用户认证系统(LDAP、OAuth) +- 认证策略频繁变更,不希望修改网关配置 +- 多网关共享同一认证服务 + +## 与 API Key 认证的区别 + +| 特性 | [[api-key-authentication|API Key]] | Forward Auth | +|------|---------|-------------| +| 复杂度 | 极低 | 中等 | +| 依赖 | 无外部服务 | 需认证服务 | +| 灵活性 | 固定 Key 比对 | 任意复杂逻辑 | +| 延迟 | 亚毫秒 | 取决于外部服务 | + +## 相关概念 + +- [[api-key-authentication]] — 简单 Key 认证(对比方案) +- [[reverse-proxy-authentication]] — 反向代理认证全景 +- [[caddy-web-server]] — Caddy 实现 +- [[caddy-reverse-proxy-auth]] — 完整配置指南 diff --git a/concepts/fourier-filter-dynamics.md b/concepts/fourier-filter-dynamics.md new file mode 100644 index 0000000..678283b --- /dev/null +++ b/concepts/fourier-filter-dynamics.md @@ -0,0 +1,33 @@ +--- +title: "Fourier Filter for Dynamics(Fourier Filter 动力学分解)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [signal-processing, time-series, dynamics-decomposition] +sources: [[liu-koopa-2023]] +--- + +# Fourier Filter for Dynamics(Fourier Filter 动力学分解) + +## 定义 + +Fourier Filter 是 Koopa 模型中用于解耦[[non-stationary-time-series|非平稳时间序列]]中时变与时不变分量的模块。通过在频域进行选择性滤波,将序列分解为两个动力学特性不同的子信号。 + +## 分解策略 + +| 分量 | 频域特性 | 动力学特性 | 处理方式 | +|------|----------|------------|----------| +| **时不变** | 低频 | 全局稳定、可长期预测 | 全局 Koopman 算子 | +| **时变** | 高频 | 局部变化、强非平稳 | 上下文感知 Koopman 算子 | + +## 工程意义 + +- 显式分离使[[koopman-predictor|Koopman 预测器]]可以**分别建模**两种动力学 +- 低频分量对应趋势/季节性,高频分量对应局部波动/突发事件 +- 频域操作用 FFT 实现,计算极高效 + +## 相关概念 + +- [[non-stationary-time-series|非平稳时间序列]] +- [[time-variant-dynamics|时变动力学]] +- [[koopman-predictor|Koopman 预测器]] diff --git a/concepts/furstenberg-correspondence.md b/concepts/furstenberg-correspondence.md new file mode 100644 index 0000000..f2d9d7d --- /dev/null +++ b/concepts/furstenberg-correspondence.md @@ -0,0 +1,25 @@ +--- +title: "Furstenberg Correspondence Principle" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [ergodic-theory, dynamical-systems, combinatorics, placeholder] +sources: [[ramsey-numbers-survey]] +--- + +# Furstenberg Correspondence Principle + +## 定义 + +Furstenberg 对应原理(Hillel Furstenberg, 1977)将组合问题转化为动力系统中的多重递推问题:整数集被替换为概率保测系统,等差数列对应于系统的同步回归性质。 + +> 此页面为占位符。 + +## 历史意义 + +该原理给出了 Szemerédi 定理的全新遍历论证明,开辟了组合数论与遍历理论之间的全新联系("遍历 Ramsey 理论")。 + +## 相关概念 + +- [[additive-combinatorics|加法组合学]] +- [[ramsey-theory|拉姆齐理论]] diff --git a/concepts/generation-verification-asymmetry.md b/concepts/generation-verification-asymmetry.md new file mode 100644 index 0000000..089fc0b --- /dev/null +++ b/concepts/generation-verification-asymmetry.md @@ -0,0 +1,42 @@ +--- +title: 生成-验证不对称性 (Generation-Verification Asymmetry) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 生成-验证不对称性 (Generation-Verification Asymmetry) + +**生成任务困难但验证结果容易的计算不对称性**,是 [[self-verification-rewards|自我验证奖励]] 和可扩展 URLVR 的理论基础。 + +## 核心洞见 + +许多结构化任务中存在天然的不对称性: + +| 任务 | 生成难度 | 验证难度 | +|------|---------|---------| +| 数学推理 | 需要多步推导 | 计算最终表达式即可 | +| 代码生成 | 需要逻辑设计 | 运行测试用例即可 | +| 约束满足 | 需要回溯搜索 | 检查约束即可 | + +## 对 URLVR 的关键意义 + +这一不对称性在标准 RLVR 中已是关键(代码执行验证、数学答案比对),但在 URLVR 中更加重要: +- **内在奖励**: 模型从自身推导信号 → 受模型先验限制 +- **外部奖励 + GVA**: 模型生成 + 模型验证,但验证步骤利用的是"计算"而非"置信度" → 可能突破天花板 + +## He et al. 的实验洞见 + +在 Countdown 任务中,self-verification 利用 GVA 展示了持续改进而无崩溃的证据。生成-验证之间的差距越大,外部奖励信号的可靠性越高。 + +## 推广 + +GVA 不限于数学/代码 —— 任何"生成成本高于验证成本"的领域(逻辑推理、规划、排序)都可能利用这一不对称性构建可扩展的无监督奖励。 + +## 相关概念 + +- [[self-verification-rewards]] — 利用 GVA 的具体方法 +- [[unsupervised-rlvr]] — URLVR 全景 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/generative-perplexity.md b/concepts/generative-perplexity.md new file mode 100644 index 0000000..3b6e802 --- /dev/null +++ b/concepts/generative-perplexity.md @@ -0,0 +1 @@ +generative-perplexity \ No newline at end of file diff --git a/concepts/genetic-programming.md b/concepts/genetic-programming.md index 2997d7b..26c1170 100644 --- a/concepts/genetic-programming.md +++ b/concepts/genetic-programming.md @@ -1,3 +1,12 @@ +--- +title: Genetic Programming (遗传编程) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Genetic Programming (遗传编程) > **类型**: 概念 diff --git a/concepts/geometric-ramsey-theory.md b/concepts/geometric-ramsey-theory.md new file mode 100644 index 0000000..00698df --- /dev/null +++ b/concepts/geometric-ramsey-theory.md @@ -0,0 +1,36 @@ +--- +title: "Geometric Ramsey Theory(几何拉姆齐理论)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [geometry, combinatorics, discrete-geometry] +sources: [[ramsey-numbers-survey]] +--- + +# Geometric Ramsey Theory(几何拉姆齐理论) + +## 定义 + +几何拉姆齐理论研究欧几里得空间中点集的着色与必然出现的几何子结构。经典的"幸福结局问题"(Happy Ending Problem)是该领域的起点。 + +## 幸福结局问题(Erdős-Szekeres 1935) + +对任意整数 m ≥ 3,存在最小的 N(m),使得平面上任意 N 个一般位置的点中必有 m 个点构成凸 m 边形。 + +**上界**:N(m) ≤ C(2m-5, m-2) + 1 + +## 相关定理 + +- **van der Waerden 定理**:任意整数着色下存在任意长单色等差数列 +- **Szemerédi 定理**(密度版本):正上密度集包含任意长等差数列 +- **Green-Tao 定理**:素数集包含任意长等差数列 + +## 方法特色 + +几何 Ramsey 问题通常通过组合论证与几何约束的结合来解决,与经典图 Ramsey 的方法既有重叠又有本质差异。 + +## 相关概念 + +- [[ramsey-theory|拉姆齐理论]] +- [[van-der-waerden-theorem|van der Waerden 定理]] +- [[green-tao-theorem|Green-Tao 定理]] diff --git a/concepts/gflownet-fine-tuning.md b/concepts/gflownet-fine-tuning.md new file mode 100644 index 0000000..7dbc3a5 --- /dev/null +++ b/concepts/gflownet-fine-tuning.md @@ -0,0 +1,54 @@ +--- +title: "GFlowNet 微调" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["gflownet", "reinforcement-learning", "llm-fine-tuning"] +sources: ["arxiv:2311.09278", "arxiv:2503.18929", "arxiv:2402.15211"] +--- + +# GFlowNet 微调 + +**GFlowNet 微调** 是使用 Generative Flow Networks (GFlowNets) 的目标函数对 LLM 进行后训练的方法,核心优势是 **off-policy 兼容** 和 **多样性采样**。 + +## GFlowNets 基础 + +GFlowNets 训练层次化生成模型,使其从给定未归一化密度(奖励函数)按比例采样:$\pi_\theta(x) \propto R(x)$。 + +关键区别:GFlowNets 学习的是**分布匹配**而非奖励最大化——自然产生多样化输出。 + +### 三种主要目标 + +| 目标 | 公式 | 特点 | +|------|------|------| +| Flow Matching (FM) | $\sum_{s' \to s} F(s') = \sum_{s \to s''} F(s)$ | 最基础 | +| Detailed Balance (DB) | $F(s)P_F(s'|s) = F(s')P_B(s|s')$ | 前后向一致 | +| **Trajectory Balance (TB)** | $(\log \frac{Z\prod P_F}{R})^2$ | **用于 LLM 微调** | + +## LLM 应用 + +### Hu et al. (ICLR 2024) — GFlowNet Fine-Tuning + +首次将 GFlowNets 用于 LLM 微调,利用 off-policy 性质进行 KL 正则化 RL 推理。 + +### Lee et al. (ICLR 2025) — Red-Teaming + +使用 TB + MLE smoothing 生成多样化、可迁移的对抗攻击提示。 + +### Bartoldson et al. (NeurIPS 2025) — TBA + +将 TB 目标扩展到分布式异步 RL,实现 4×–50× 加速。参见 [[tba|TBA]] 和 [[trajectory-balance-objective|TB 目标]]。 + +## 为什么 GFlowNets 适合 LLM? + +1. **Off-Policy**:不需要当前策略数据 → 支持 replay buffer / 异步训练 +2. **多样性**:学习分布而非最大值 → 避免 mode collapse +3. **无 Critic**:不需要价值网络 → 绕开 LLM 中价值估计的困难 +4. **与 REINFORCE 等价**:TB\_VarGrad 梯度 = mean-baseline REINFORCE + KL reward + +## 相关概念 + +- [[trajectory-balance-objective]] — TB 目标详解 +- [[tba|TBA]] — 异步分布式实现 +- [[off-policy-llm-post-training]] — Off-policy 范式 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/glitch-art-style.md b/concepts/glitch-art-style.md new file mode 100644 index 0000000..119e758 --- /dev/null +++ b/concepts/glitch-art-style.md @@ -0,0 +1,28 @@ +--- +title: 故障艺术 (Glitch Art) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 故障艺术 (Glitch Art) + +**以数字错误和数据损坏为美学手段的艺术风格**,赛博朋克亚文化的核心视觉语言。 + +## 核心技法 + +- **像素排序 (Pixel Sorting)**: 按亮度/色彩重排像素行 +- **RGB 色彩偏移 (Chromatic Aberration)**: 红绿蓝通道分离错位 +- **数字噪点**: 横向拉伸的噪点带、扫描线 +- **窗口重叠**: 错位的矩形切片叠加 + +## 文化语境 + +故障艺术将"技术失败"转化为"美学表达",反映了数字时代的脆弱性与不可控性。在 [[gpt-image2]] 中可通过精确描述数据损坏效果来生成。 + +## 相关概念 + +- [[cel-shading-style]] — 与之对立的整洁动漫风格 +- [[gpt-image2-prompt-collection]] — 风格合集 diff --git a/concepts/godel-incompleteness-theorems.md b/concepts/godel-incompleteness-theorems.md index 5355d06..3b4768a 100644 --- a/concepts/godel-incompleteness-theorems.md +++ b/concepts/godel-incompleteness-theorems.md @@ -1,3 +1,12 @@ +--- +title: 哥德尔不完备定理 (Gödel's Incompleteness Theorems) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 哥德尔不完备定理 (Gödel's Incompleteness Theorems) - **领域**: 数理逻辑、数学基础 diff --git a/concepts/godel-numbering.md b/concepts/godel-numbering.md index 439771a..23adc5b 100644 --- a/concepts/godel-numbering.md +++ b/concepts/godel-numbering.md @@ -1,3 +1,12 @@ +--- +title: 哥德尔编码 (Gödel Numbering) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 哥德尔编码 (Gödel Numbering) - **领域**: 数理逻辑 diff --git a/concepts/goodsteins-theorem.md b/concepts/goodsteins-theorem.md index 710c6b0..aced1a1 100644 --- a/concepts/goodsteins-theorem.md +++ b/concepts/goodsteins-theorem.md @@ -1,3 +1,12 @@ +--- +title: 古德斯坦定理 (Goodstein's Theorem) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 古德斯坦定理 (Goodstein's Theorem) - **领域**: 数论、证明论 diff --git a/concepts/gpt-image2.md b/concepts/gpt-image2.md new file mode 100644 index 0000000..41bd341 --- /dev/null +++ b/concepts/gpt-image2.md @@ -0,0 +1,30 @@ +--- +title: GPT-Image-2 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# GPT-Image-2 + +**OpenAI 的图像生成模型**,基于 GPT 架构的多模态图像生成工具。 + +## 核心特性 + +- **自然语言驱动**: 通过文本 Prompt 直接生成图像,无需额外参数调校 +- **风格理解**: 能理解和复现多种艺术风格(构成主义、故障艺术、赛璐璐等) +- **上下文连贯**: 作为 GPT 系列模型,擅长理解复杂的多句 Prompt 描述 + +## 使用场景 + +- 概念艺术快速原型 +- 风格化海报/插图生成 +- Prompt 工程实验平台 + +## 相关概念 + +- [[image-generation-prompt-design]] — Prompt 设计方法论 +- [[prompt-reverse-engineering]] — 从图像反推 Prompt +- [[gpt-image2-prompt-collection]] — 风格 Prompt 合集 diff --git a/concepts/greedy-context-screening.md b/concepts/greedy-context-screening.md new file mode 100644 index 0000000..95af844 --- /dev/null +++ b/concepts/greedy-context-screening.md @@ -0,0 +1,38 @@ +--- +title: "Greedy Context Screening(贪心上下文筛选)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [algorithm, context-design, screening] +sources: [[ramsey-context-construction]] +--- + +# Greedy Context Screening(贪心上下文筛选) + +## 定义 + +贪心上下文筛选是基于 [[ramsey-context-graph|拉姆齐上下文图]] 的快速上下文组装算法。利用蓝色边的**稠密性保证**(由拉姆齐维护策略提供),用 O(可接受) 的贪心搜索替代 NP-hard 的最大团搜索。 + +## 三步流程 + +### 1. 相关性投射 +对用户 prompt 解析后,每个节点计算相关度分数 s_i ∈ [0,1](向量检索 + 规则打分)。 + +### 2. 高相关子图 +仅保留相关度高于阈值的节点,形成**诱导子图**。由于原始图蓝色边稠密,子图中大概率仍含蓝色团。 + +### 3. 贪心团扩展 +- **种子**:相关度最高的节点 +- **扩展**:依次加入与当前团全蓝边的节点,按"边际收益/成本"排序 +- **终止**:达到目标 t 值或 token 预算耗尽 +- **反遗忘约束**:低频长节点受惩罚 + +## 性能 + +蓝色边稠密条件下,贪心解与最优解的差距通常在 **5% 以内**,耗时毫秒级。 + +## 相关概念 + +- [[context-blue-clique|上下文蓝色团]] +- [[ramsey-context-graph|拉姆齐上下文图]] +- [[ramsey-context-template|拉姆齐上下文模板]] diff --git a/concepts/green-tao-theorem.md b/concepts/green-tao-theorem.md new file mode 100644 index 0000000..3669226 --- /dev/null +++ b/concepts/green-tao-theorem.md @@ -0,0 +1,32 @@ +--- +title: "Green-Tao Theorem" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [number-theory, additive-combinatorics, prime-numbers] +sources: [[ramsey-numbers-survey]] +--- + +# Green-Tao Theorem + +## 定义 + +Green-Tao 定理(Ben Green & Terence Tao, 2004)证明:素数集合包含任意长的等差数列。 + +## 证明策略 + +1. 构造伪随机测度,使素数在该测度下具有正密度 +2. 将 Szemerédi 定理推广到"伪随机"情形(相对 Szemerédi 定理) +3. 利用 Goldston-Yıldırım 筛法构造合适的伪随机测度 + +## 意义 + +- **算术 Ramsey 理论的顶峰**:将 van der Waerden → Szemerédi 的路线推向极致(着色 → 密度 → 素数) +- **解析数论与组合学的融合**:展示了筛法、调和分析与 Ramsey 型论证的深度协同 +- Tao 因此获得 **2006 年菲尔兹奖** + +## 相关概念 + +- [[additive-combinatorics|加法组合学]] +- [[van-der-waerden-theorem|van der Waerden 定理]] +- [[ramsey-theory|拉姆齐理论]] diff --git a/concepts/group-relative-policy-optimization.md b/concepts/group-relative-policy-optimization.md new file mode 100644 index 0000000..f537a1c --- /dev/null +++ b/concepts/group-relative-policy-optimization.md @@ -0,0 +1,39 @@ +--- +title: "群体相对策略优化 (GRPO)" +domain: "Reinforcement Learning / LLM Training" +tags: [grpo, reinforcement-learning, rlhf, policy-optimization] +sources: [[thinking-with-visual-primitives]], [[deepseek-v4-million-token-context]] +--- + +# 群体相对策略优化 (GRPO) + +> Group Relative Policy Optimization — DeepSeek 采用的强化学习算法,通过组内相对比较来优化策略,无需显式的价值函数。 + +## 核心思想 + +GRPO 是 DeepSeek 系列模型(V4、V4-Flash、视觉原语模型)统一使用的 RL 算法。相比传统 PPO 需要训练一个与策略模型等大的 critic 网络,GRPO 通过**组内采样 + 相对比较**消除了 critic 的需求,显著降低了 RLHF 阶段的计算和内存开销。 + +## 在视觉原语训练中的应用 + +在 [[specialized-rl|专项强化学习]] 阶段: +1. 对每个样本生成 N 个 rollout +2. 使用多个 [[reward-model|奖励模型]](Format RM、Quality RM、Accuracy RM)评分 +3. 组内相对比较 → 策略梯度更新 + +数据难度分级: +- **Easy**:N 个 rollout 全部正确 +- **Normal**:1 ≤ k < N 个正确(**选用于训练**) +- **Hard**:0 个正确 + +## 优势 + +- 无需 critic 网络,节省显存和计算 +- 组内比较提供自然的 baseline,减少方差 +- 与多种奖励模型组合灵活 + +## 相关概念 + +- [[specialized-rl|专项强化学习]] — GRPO 在视觉原语中的应用 +- [[on-policy-distillation|在线策略蒸馏]] — 后续蒸馏阶段 +- [[reward-model|奖励模型]] — GRPO 的 reward 来源 +- [[exponential-decay-reward|指数衰减奖励]] — 计数任务的 GRPO reward 设计 \ No newline at end of file diff --git a/concepts/grouped-query-attention.md b/concepts/grouped-query-attention.md index 3fb39f4..98d11a4 100644 --- a/concepts/grouped-query-attention.md +++ b/concepts/grouped-query-attention.md @@ -1,3 +1,12 @@ +--- +title: Grouped-Query Attention (GQA) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Grouped-Query Attention (GQA) **分组查询注意力**,在 MHA 和 MQA 之间的折中方案,由 Ainslie 等 2023 年提出。 diff --git a/concepts/grpo.md b/concepts/grpo.md new file mode 100644 index 0000000..3a9d251 --- /dev/null +++ b/concepts/grpo.md @@ -0,0 +1,39 @@ +--- +title: "Group Relative Policy Optimization (GRPO)" +created: 2025-04-15 +updated: 2026-05-12 +type: concept +tags: ["reinforcement-learning", "llm-training", "policy-optimization"] +sources: ["arxiv:2402.03300"] +--- + +# Group Relative Policy Optimization (GRPO) + +**GRPO** 是 PPO 的一种变体,由 DeepSeekMath 提出,被 DeepSeek-R1 广泛采用。其核心创新是**消除 critic 模型**,通过在同一个问题的多组响应内部进行相对优势估计。 + +## 核心公式 + +对于问题 q 的 G 个响应,GRPO 优化目标为: + +$$\max_{\pi_\theta} \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min(I_{it}(\theta)\hat{A}_{GR,i}, \text{clip}(I_{it}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_{GR,i})$$ + +其中组相对优势估计(GRAE): + +$$\hat{A}_{GR,i} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^G)}{\text{std}(\{r_i\}_{i=1}^G)}$$ + +## 关键特性 + +- **无需 Critic**:通过对同问题响应的组内比较,避免了训练额外的价值函数模型 +- **二元奖励兼容**:与基于规则的验证器(如数学正确/错误)天然兼容 +- **GRPO 变体**:GP6、DAPO 等移除了 KL 散度并采用 token-level loss + +## 已知局限 + +GRPO 存在 [[update-magnitude-imbalance|隐含的难度不平衡]]:更新幅度在 p=0.5 时最大,对困难和简单问题都被抑制。[[dgpo|DGPO]] 通过 DGAE 解决了这一问题。 + +## 相关概念 + +- [[dgpo|DGPO]] — 难度感知 GRPO 改进 +- [[dgae|DGAE]] — 难度平衡优势估计 +- [[rlvr-unified-framework]] — RLVR 训练范式 +- [[dai-mathforge-2026|MathForge]] — 难度感知数学推理框架 diff --git a/concepts/halftone-print-style.md b/concepts/halftone-print-style.md new file mode 100644 index 0000000..9ad3e1a --- /dev/null +++ b/concepts/halftone-print-style.md @@ -0,0 +1,28 @@ +--- +title: 半调印刷风格 (Halftone Print Style) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 半调印刷风格 (Halftone Print Style) + +**通过网点或线条的密度变化模拟连续色调的印刷技术**,是 Riso 印刷、丝网印刷和波普艺术的共同技法基础。 + +## 技法分类 + +- **网点半调**: 圆形/菱形网点的疏密变化 → 经典报纸/漫画印刷感 +- **线刻半调**: 平行线或同心圆的粗细变化 → 雕刻版画质感 +- **色版叠加**: 多色半调网的叠印偏移 → 波普艺术效果 + +## 在 AI 生成中的应用 + +"半调网点 (Halftone Patterns)"是 [[gpt-image2]] 中快速注入复古印刷质感的强力关键词。结合双色限定可产生强烈的现代平面设计感。 + +## 相关概念 + +- [[risograph-print-style]] — Riso 半调风格的具体实现 +- [[russian-constructivism]] — 共享印刷美学传统 +- [[gpt-image2-prompt-collection]] — 风格合集 diff --git a/concepts/halting-problem.md b/concepts/halting-problem.md index 603089c..6ce66bf 100644 --- a/concepts/halting-problem.md +++ b/concepts/halting-problem.md @@ -1,3 +1,12 @@ +--- +title: 停机问题 (Halting Problem) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 停机问题 (Halting Problem) - **领域**: 计算机科学、可计算性理论 diff --git a/concepts/hilberts-program.md b/concepts/hilberts-program.md index 239453b..77feb58 100644 --- a/concepts/hilberts-program.md +++ b/concepts/hilberts-program.md @@ -1,3 +1,12 @@ +--- +title: 希尔伯特计划 (Hilbert's Program) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 希尔伯特计划 (Hilbert's Program) - **领域**: 数学基础、元数学 diff --git a/concepts/human-centered-ai.md b/concepts/human-centered-ai.md index 70474c3..48a6d13 100644 --- a/concepts/human-centered-ai.md +++ b/concepts/human-centered-ai.md @@ -13,7 +13,7 @@ sources: [raw/papers/tao-ai-mathematical-methods-2026.md] **Human-Centered AI (HCAI)** 是一种 AI 发展和应用的哲学框架,强调 AI 工具应当设计和使用以增强人类能力、满足人类需求和提升人类生活质量为核心目标。 -**核心原则**(来自 [[Terence Tao]] 和 [[Tanya Klowden]]): +**核心原则**(来自 [[terence-tao]] 和 [[tanya-klowden]]): 1. AI 是人类历史上为促进思想的创造、组织和传播而发展的工具的自然演进 2. 必须确保 AI 的发展和应用保持**根本上以人类为中心** 3. 创新应以满足人类需求为导向 @@ -29,7 +29,7 @@ sources: [raw/papers/tao-ai-mathematical-methods-2026.md] ## 在数学中的应用 -在 [[Mathematical methods and human thought in the age of AI]] 中,陶哲轩提出: +在 [[tao-klowden-ai-mathematical-methods]] 中,陶哲轩提出: - AI 可以处理费力的计算,但人类数学家应专注于启发式、创造性的工作 - "Smell Test"(气味测试):好的数学不仅要正确,还要有启发性 @@ -37,7 +37,7 @@ sources: [raw/papers/tao-ai-mathematical-methods-2026.md] ## 关联页面 -- [[Mathematical methods and human thought in the age of AI]] - 详细阐述以人类为中心 AI 的论文 -- [[Terence Tao]] - 该概念的主要倡导者之一 -- [[alignment]] - AI 对齐/安全 -- [[ai-philosophy]] - AI 哲学 +- [[tao-klowden-ai-mathematical-methods]] - 详细阐述以人类为中心 AI 的论文 +- [[terence-tao]] - 该概念的主要倡导者之一 +- [[ai-alignment]] - AI 对齐/安全 +- [[ai-alignment]] - AI 哲学 diff --git a/concepts/hyperagents.md b/concepts/hyperagents.md index 56262ae..10de572 100644 --- a/concepts/hyperagents.md +++ b/concepts/hyperagents.md @@ -1,3 +1,12 @@ +--- +title: Hyperagents (超智能体) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Hyperagents (超智能体) > **类型**: 概念 diff --git a/concepts/hypergraph-ramsey-number.md b/concepts/hypergraph-ramsey-number.md new file mode 100644 index 0000000..8bf1a6c --- /dev/null +++ b/concepts/hypergraph-ramsey-number.md @@ -0,0 +1,33 @@ +--- +title: "Hypergraph Ramsey Number(超图拉姆齐数)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [combinatorics, hypergraph-theory] +sources: [[ramsey-numbers-survey]] +--- + +# Hypergraph Ramsey Number(超图拉姆齐数) + +## 定义 + +k-一致超图的拉姆齐数 R^{(k)}(s₁,...,s_c) 定义为:对完全 k-一致超图的 c-着色,必存在颜色为 i 的单色 s_i-团的最小顶点数。 + +## 核心特征 + +- **超指数增长**:对于 k ≥ 3,R^{(k)}(s,n) 的增长涉及迭代指数塔(tower function) +- **双指数界**:2^{c₁ n^{k-2}} < R^{(k)}(s,n) < 2^{2^{c₂ n^{k-2}}} + +## 与图的根本差异 + +图的 Ramsey 数增长最多是指数的(底数 2–4),而超图 Ramsey 数跃升至双指数甚至更高——揭示了高维组合结构的极端复杂性。 + +## 必要工具 + +- **超图正则性引理**:Szemerédi 正则性引理的高维推广 +- **Gowers 一致性范数**:处理高阶结构的核心分析工具 + +## 相关概念 + +- [[ramsey-numbers|拉姆齐数]] +- [[szemerédi-regularity-lemma|Szemerédi 正则性引理]] diff --git a/concepts/identity-reference-resolution.md b/concepts/identity-reference-resolution.md new file mode 100644 index 0000000..ce461a2 --- /dev/null +++ b/concepts/identity-reference-resolution.md @@ -0,0 +1,34 @@ +--- +title: 身份指代消解 (Identity Reference Resolution) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, nlp] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# 身份指代消解 (Identity Reference Resolution) + +> 在多参与者自然语言交互中,确定代词、别名、称呼所指代的具体人物的能力。CL-bench Life 发现这是 LLM 在群聊场景中的**系统性弱点**。 + +## 群聊场景的特殊挑战 + +在 [[cl-bench-life]] 的"沟通与社交互动"类别中,模型频繁出现: + +- **别名混淆**:同一人有多个称呼,模型无法统一 +- **指代歧义**:代词"他/她/它"在多个参与者间无法准确消解 +- **角色归因错误**:将 A 的发言或决策错误归属给 B +- **关系推断失败**:无法追踪参与者间的立场、权力关系 + +## 评估数据 + +在群聊与会议子类中,身份相关错误是仅次于"上下文误用"的**第二大失败原因**。身份混淆直接导致了后续推理的根本性错误。 + +## 相关概念 +- [[cl-bench-life]] — CL-bench Life 基准 +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[context-misuse]] — 上下文误用 + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/image-generation-prompt-design.md b/concepts/image-generation-prompt-design.md new file mode 100644 index 0000000..946879c --- /dev/null +++ b/concepts/image-generation-prompt-design.md @@ -0,0 +1,32 @@ +--- +title: 图像生成 Prompt 设计 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 图像生成 Prompt 设计 + +**为 AI 图像生成模型(如 [[gpt-image2]])编写高质量 Prompt 的系统方法**。 + +## 核心原则 + +1. **风格术语精确化**: 使用艺术史中的精确术语(构成主义、赛璐璐、Riso印刷)而非模糊形容词 +2. **结构化描述**: 将画面拆解为构图+色彩+光影+材质+氛围五大维度的组合 +3. **占位符设计**: 使用可替换占位符使 Prompt 模板化,便于复用 +4. **多工具协作**: Grok 包装敏感词 → GPT-Image 生成 → 迭代优化 + +## 关键技巧 + +- **视觉参考驱动**: 先找参考图,再通过 [[prompt-reverse-engineering|反推]] 获得精确描述 +- **色彩限定**: 限定 2-3 色可大幅提升风格一致性和视觉冲击力 +- **材质指定**: 丝网印刷/半调网点/胶片噪点等材质关键词决定画面质感 +- **对比控制**: 高对比度+锐利边缘 vs 柔光+景深虚化,决定画面情绪 + +## 相关概念 + +- [[prompt-reverse-engineering]] — 从图反推 Prompt +- [[gpt-image2]] — GPT-Image-2 工具 +- [[gpt-image2-prompt-collection]] — 实战风格合集 diff --git a/concepts/intrinsic-rewards-sharpening.md b/concepts/intrinsic-rewards-sharpening.md new file mode 100644 index 0000000..4d6855d --- /dev/null +++ b/concepts/intrinsic-rewards-sharpening.md @@ -0,0 +1,52 @@ +--- +title: 内在奖励锐化机制 (Intrinsic Rewards Sharpening) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 内在奖励锐化机制 (Intrinsic Rewards Sharpening) + +**所有 URLVR 内在奖励方法收敛于锐化模型初始分布的统一机制**,由 He et al. (ICLR 2026) 首次理论化。 + +## 理论推导 + +从 KL 正则化 RL 目标出发,最优策略有闭式解: + +$$\pi_\theta^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)$$ + +当 $r(x,y)$ 为二值内在奖励(如多数投票)时,指数项仅取两值: +- 多数答案: $\pi_{ref} \cdot e^{1/\beta}$ +- 少数答案: $\pi_{ref} \cdot 1$ + +**结果**:每步更新都在按指数因子 $e^{1/\beta}$ 放大模型初始分布中已被偏好的输出。 + +## 双重性 + +| 条件 | 效果 | +|------|------| +| 初始置信度 **对齐** 正确性 | 放大器:增强正确推理路径 | +| 初始置信度 **错位** 正确性 | 灾难:系统性放大错误偏见 | + +## Rise-then-Fall 模式 + +内在奖励始终遵循统一的先升后降轨迹: +- **上升阶段**: 锐化帮助模型在已有知识的边界内做更好选择 +- **崩溃阶段**: 锐化消灭了多样性,模型陷入自我强化循环 + +崩溃时机由 [[model-collapse-step|模型先验]] 决定,而非超参数选择。 + +## 关键启示 + +> "Intrinsic rewards are fundamentally bounded by what the model already knows." + +这正是推广 [[self-verification-rewards|外部奖励]] 的根本动机——突破模型已有知识的边界。 + +## 相关概念 + +- [[unsupervised-rlvr]] — URLVR 全景 +- [[model-collapse-step]] — 量化崩溃时机 +- [[reward-hacking-llm]] — 崩溃的另一种表述 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/jagged-frontier.md b/concepts/jagged-frontier.md new file mode 100644 index 0000000..f2288de --- /dev/null +++ b/concepts/jagged-frontier.md @@ -0,0 +1,39 @@ +--- +title: "Jagged Frontier / 锯齿前沿" +created: 2026-05-14 +type: concept +tags: ["model-capability", "domain-asymmetry", "capability-boundary", "ai-safety"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Jagged Frontier + +锯齿前沿(Jagged Frontier)是 Dell'Acqua et al. (2023) 提出的概念,指 AI 模型能力在不同任务/领域中呈现**不均衡、不可预测**的分布。某些任务表现惊人地好,某些任务惊人地差——两者可以相邻共存。 + +## 在 [[delegate-52]] 中的体现 + +[[delegate-52]] 中的 52 个领域清楚展现了锯齿前沿: + +- **Python**:17/19 模型达到 "ready" (RS@20 ≥ 98%) +- **DBSchema, Graphviz**:表现良好 +- **Earnings Statements, Music Notation, Textile**:极度糟糕 + +同一个模型可以在一个领域近乎完美,在另一个领域灾难性失败——而且这两个领域可能对用户来说看起来"差不多难"。 + +## 对用户的警示 + +论文明确警告:**不要将模型在一个领域中的能力推广到其他领域**。在 Python 中可靠的模型在 Genealogy 或 Weaving 中可能静默地破坏你的文档。 + +## 与 [[delegated-work|委托工作]] 的关系 + +锯齿前沿使得委托决策极其困难:用户无法凭直觉判断"这个任务模型能做好吗"——需要领域特定的基准测试。 + +## 趋势 + +GPT 系列 16 个月的进展(GPT 4o → GPT 5.4)将分数从 14.7% 提升到 71.5%,表明快速进步——但即使前沿模型仍有大量领域未准备好。 + +## 相关概念 + +- [[delegate-52]] — 量化锯齿前沿的基准 +- [[delegated-work]] — 锯齿前沿使委托决策复杂化 +- [[document-degradation]] — 锯齿前沿中的"差"领域的表现 diff --git a/concepts/klein-blue.md b/concepts/klein-blue.md new file mode 100644 index 0000000..ef516e7 --- /dev/null +++ b/concepts/klein-blue.md @@ -0,0 +1,27 @@ +--- +title: 克莱因蓝 (Klein Blue / IKB) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 克莱因蓝 (Klein Blue / IKB) + +**由法国艺术家伊夫·克莱因 (Yves Klein) 创造的极致蓝色**,国际克莱因蓝 (International Klein Blue, IKB) 是一种高饱和、深沉的群青色。 + +## 特征 + +- **色值**: RGB (0, 47, 167) 近似,极其深邃的群青 +- **质感**: 哑光、粉末状、超现实 +- **心理效应**: 沉浸感、精神性、现代主义冷峻 + +## 在 AI 图像生成中的应用 + +克莱因蓝在 [[gpt-image2]] 的 Prompt 中是一个"高杠杆色彩词"——单次出现即可建立强烈的视觉身份。常与纯白、纯黑构成极简三色方案,与 [[cel-shading-style|赛璐璐风格]] 配合尤佳。 + +## 相关概念 + +- [[cel-shading-style]] — 常见搭配风格 +- [[gpt-image2-prompt-collection]] — 风格合集 diff --git a/concepts/kolmogorov-complexity.md b/concepts/kolmogorov-complexity.md index 27366e1..e34232b 100644 --- a/concepts/kolmogorov-complexity.md +++ b/concepts/kolmogorov-complexity.md @@ -1,3 +1,12 @@ +--- +title: 柯尔莫哥洛夫复杂度 (Kolmogorov Complexity) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 柯尔莫哥洛夫复杂度 (Kolmogorov Complexity) - **领域**: 算法信息论 diff --git a/concepts/koopman-autoencoder.md b/concepts/koopman-autoencoder.md new file mode 100644 index 0000000..9b0a998 --- /dev/null +++ b/concepts/koopman-autoencoder.md @@ -0,0 +1,34 @@ +--- +title: "Koopman Autoencoder (KAE)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [deep-learning, autoencoder, dynamical-systems] +sources: [[liu-koopa-2023]] +--- + +# Koopman Autoencoder (KAE) + +## 定义 + +Koopman 自编码器是将 [[koopman-theory|Koopman 理论]] 与深度学习自编码器结合的框架。用编码器学习测量函数 g(Koopman 嵌入),线性层实现 Koopman 算子,解码器重建状态。 + +## 架构 + +``` +x_t → [Encoder] → g(x_t) → [K·] → g(x_{t+1}) → [Decoder] → x_{t+1} +``` + +- **编码器** = 测量函数:将状态映射到测量空间 +- **线性中间层** = Koopman 算子 K +- **解码器** = 逆测量函数 + +## Koopa 对 KAE 的改进 + +传统 KAE 需要**重构损失绑定**(编码器-解码器 + 前向预测双重目标),Koopa 通过深度残差结构将其分解,实现端到端预测优化,消除了绑定的训练困难。 + +## 相关概念 + +- [[koopman-theory|Koopman 理论]] +- [[dynamic-mode-decomposition|DMD]] +- [[liu-koopa-2023|Koopa]] diff --git a/concepts/koopman-predictor.md b/concepts/koopman-predictor.md new file mode 100644 index 0000000..6e8207a --- /dev/null +++ b/concepts/koopman-predictor.md @@ -0,0 +1,37 @@ +--- +title: "Koopman Predictor(Koopman 预测器)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [deep-learning, time-series, forecasting] +sources: [[liu-koopa-2023]] +--- + +# Koopman Predictor(Koopman 预测器) + +## 定义 + +Koopman 预测器是 Koopa 模型的核心组件,负责在 Koopman 嵌入空间中推进系统动力学。它利用 [[koopman-theory|Koopman 理论]] 的线性性,将非线性时序预测转化为线性算子驱动的前向传播。 + +## 三个关键组件 + +### 1. 测量函数学习 +用深度网络学习 Koopman 嵌入 g(x_t),将原始状态映射到适合线性动力学的测量空间。 + +### 2. Koopman 算子 +线性矩阵 K 作为隐式状态转移的线性肖像。由于算子在测量空间中是线性的,计算高效且可解释。 + +### 3. 上下文感知机制 +对[[time-variant-dynamics|时变动力学]],在局部时间邻域动态计算算子 K_t,捕捉动力学的局部变化——而非使用全局固定的 K。 + +## 工程优势 + +- **线性计算效率**:算子矩阵乘法替代复杂的非线性转移 +- **滚动预测**:可利用真实观测逐步推进,扩展预测范围 +- **端到端训练**:与 Fourier Filter 协同,无需重构损失绑定 + +## 相关概念 + +- [[koopman-theory|Koopman 理论]] +- [[fourier-filter-dynamics|Fourier Filter]] +- [[liu-koopa-2023|Koopa]] diff --git a/concepts/koopman-theory.md b/concepts/koopman-theory.md new file mode 100644 index 0000000..6e0482b --- /dev/null +++ b/concepts/koopman-theory.md @@ -0,0 +1,32 @@ +--- +title: "Koopman Theory(Koopman 理论)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [dynamical-systems, operator-theory, mathematical-physics] +sources: [[liu-koopa-2023]] +--- + +# Koopman Theory(Koopman 理论) + +## 定义 + +Koopman 理论(Bernard Koopman, 1931)是动力系统的算子理论框架:假设系统状态 x_t 可被投影到测量函数 g 的空间中,该空间中的动力学由一个**无限维线性算子 K** 驱动: + +K ∘ g(x_t) = g(F(x_t)) = g(x_{t+1}) + +## 核心洞见 + +- **从非线性到线性的映射**:在原始状态空间是非线性的动力学 F,在测量函数空间中是线性的 +- **谱分析能力**:线性算子可应用全套谱分析工具,获得动力学的深度解析 +- **无限维代价**:算子 K 是无限维的,实践中需要有限维近似 + +## 数值实现 + +[[dynamic-mode-decomposition|动态模式分解 (DMD)]] 是标准的有限维 Koopman 算子近似方法。[[koopman-autoencoder|Koopman 自编码器 (KAE)]] 用深度网络学习测量函数,避免了手工设计的困难。 + +## 相关概念 + +- [[koopman-predictor|Koopman 预测器]] +- [[dynamic-mode-decomposition|DMD]] +- [[liu-koopa-2023|Koopa]] diff --git a/concepts/kv-cache-bottleneck.md b/concepts/kv-cache-bottleneck.md index e4bf4a1..7cefeb6 100644 --- a/concepts/kv-cache-bottleneck.md +++ b/concepts/kv-cache-bottleneck.md @@ -1,3 +1,12 @@ +--- +title: KV 缓存内存瓶颈 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # KV 缓存内存瓶颈 **自回归推理中的核心内存瓶颈**,KV 缓存的线性增长严重限制 LLM 推理效率。 diff --git a/concepts/kvcache-transfer.md b/concepts/kvcache-transfer.md index b103cf9..15f9012 100644 --- a/concepts/kvcache-transfer.md +++ b/concepts/kvcache-transfer.md @@ -35,4 +35,4 @@ KVCache 是 LLM 推理过程中缓存的 Key-Value 状态,用于避免重复 - [[prefill-as-a-service]] — PrfaaS 架构中的 KVCache 传输 - [[prefill-decode-disaggregation]] — PD 分离架构 -- [[inference-optimization]] — 推理优化技术 +- [[kv-cache-bottleneck]] — 推理优化技术 diff --git a/concepts/length-extrapolation.md b/concepts/length-extrapolation.md new file mode 100644 index 0000000..1cd0388 --- /dev/null +++ b/concepts/length-extrapolation.md @@ -0,0 +1,53 @@ +--- +title: "长度外推 (Length Extrapolation)" +created: 2026-05-14 +updated: 2026-05-14 +type: concept +tags: [llm, attention, position-encoding, generalization] +sources: ["https://arxiv.org/abs/2309.17453", "https://arxiv.org/abs/2104.09864", "https://arxiv.org/abs/2108.12409"] +--- + +# 长度外推 (Length Extrapolation) + +## 定义 + +长度外推(Length Extrapolation)是 LLM 研究中的一个核心问题:**让在较短文本上训练的模型能够在测试时处理远超训练窗口长度的输入序列。** + +与上下文窗口扩展(Context Window Extension)不同,长度外推的目标不是扩大一次前向传播能处理的 token 数量,而是让模型在序列长度超出预训练窗口后仍保持性能稳定。 + +## 与其他方向的关系 + +| 方向 | 目标 | 代表工作 | +|------|------|---------| +| **长度外推** | 处理超出训练长度的输入 | [[streaming-llm|StreamingLLM]], ALiBi | +| 上下文窗口扩展 | 扩大单次前向的窗口 | RoPE 插值, FlashAttention | +| 长文本利用优化 | 更好地理解和利用长上下文 | LongBench, Lost-in-the-Middle | + +这三个方向**互相正交**——一个方向的进展不自动解决其他方向的问题。 + +## 主要方法 + +### 相对位置编码 +- **RoPE** (Su et al., 2021):通过旋转 query 和 key 编码相对位置。理论上有外推能力,但实证表明在超出训练窗口后性能下降 +- **ALiBi** (Press et al., 2022):基于距离偏置注意力分数。外推能力优于 RoPE,但仍会在序列极长时崩溃 + +### 基于注意力机制的外推 +- **[[streaming-llm|StreamingLLM]]** (Xiao et al., 2024):保留 [[attention-sinks|注意力汇]] + 最近 Token 的滑动窗口 → 首次实现**无限长**外推(验证至 4M Token) +- **Window Attention**:仅保留最近 Token → 初始 Token 被逐出后崩溃 + +### 位置插值 +- 通过缩放或插值 RoPE 频率来扩展上下文窗口,但仍是**有限**扩展 + +## 关键挑战 + +1. **SoftMax 归一化约束**:注意力分数必须和为 1,迫使模型将多余注意力"倾倒"至某些 token +2. **Attention Sink 依赖性**:初始 token 承担了注意力汇的角色,一旦被逐出即崩溃 +3. **位置编码泛化**:训练中未见过的位置索引在推理时表现不可预测 + +## 相关概念 + +- [[streaming-llm|StreamingLLM]] — 无限长外推的实用方案 +- [[attention-sinks|注意力汇]] — 外推失败的关键机制 +- [[window-attention|窗口注意力]] — 朴素外推方案的失败案例 +- [[rotary-position-embedding|RoPE]] — 主流位置编码 +- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 长序列的内存挑战 diff --git a/concepts/linear-attention-methods.md b/concepts/linear-attention-methods.md index 5aea2c1..71d6f92 100644 --- a/concepts/linear-attention-methods.md +++ b/concepts/linear-attention-methods.md @@ -1,3 +1,12 @@ +--- +title: 线性注意力方法 (Linear Attention Methods) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 线性注意力方法 (Linear Attention Methods) **O(n) 复杂度的注意力替代方案**,通过核函数分解避免显式 N×N 注意力矩阵计算。 diff --git a/concepts/llm-applications.md b/concepts/llm-applications.md index 386d586..ed1889a 100644 --- a/concepts/llm-applications.md +++ b/concepts/llm-applications.md @@ -1,3 +1,12 @@ +--- +title: LLM 应用 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # LLM 应用 **类型**: AI 应用领域 diff --git a/concepts/llm-evaluation-benchmarks.md b/concepts/llm-evaluation-benchmarks.md new file mode 100644 index 0000000..517c7db --- /dev/null +++ b/concepts/llm-evaluation-benchmarks.md @@ -0,0 +1,45 @@ +--- +title: LLM 评测基准体系 +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [benchmark, llm] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# LLM 评测基准体系 (LLM Evaluation Benchmarks) + +> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。 + +## 基准分类 + +### 按能力维度 +- **知识与推理**:MMLU, GSM8K, MATH +- **编程能力**:HumanEval, MBPP, SWE-bench +- **上下文学习**:CL-bench, CL4SE, [[cl-bench-life]] +- **长上下文**:Needle-in-a-Haystack, RULER, LongBench +- **多模态**:MMBench, MMMU +- **对齐与安全**:HarmBench, WildBench + +### 按评估范式 +1. **静态基准**:固定测试集,考察预训练/微调后的静态能力 +2. **上下文学习基准**:提供动态上下文,考察信息利用能力 +3. **Agent 基准**:端到端评估,耦合工具使用、记忆、规划等多种能力 +4. **对抗基准**:设计干扰项或对抗样本,考察鲁棒性 + +## CL-bench 系列的特殊位置 + +[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别,其独特之处在于: + +- 干净地**解耦上下文学习与其它能力**(无需工具、搜索、记忆) +- 从专业领域扩展到**真实生活场景** +- 全人工策展确保任务质量 + +## 相关概念 +- [[cl-bench-life]] — CL-bench Life 基准详情 +- [[context-learning]] — 上下文学习能力 +- [[real-life-context-learning]] — 真实生活上下文学习 + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/long-context-understanding.md b/concepts/long-context-understanding.md new file mode 100644 index 0000000..c96e92a --- /dev/null +++ b/concepts/long-context-understanding.md @@ -0,0 +1,37 @@ +--- +title: 长上下文理解 (Long-Context Understanding) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, architecture, benchmark] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# 长上下文理解 (Long-Context Understanding) + +> 语言模型在超长输入序列(10K–1M+ tokens)中检索信息和进行推理的能力。与 [[real-life-context-learning]] 相关但不等价。 + +## 定义 + +长上下文理解考察模型在以下方面的表现: +- **信息检索**:能否在长文本中的任意位置找到特定事实(Needle-in-a-Haystack) +- **多跳推理**:能否组合分散在不同位置的信息 +- **位置鲁棒性**:性能是否随目标信息位置变化(如 [[lost-in-the-middle]]) + +## 与真实生活上下文学习的解耦 + +CL-bench Life 的重要发现:**长上下文能力 ≠ 真实生活上下文学习能力**: + +- CL-bench Life 的上下文长度(5.4K–170.8K)在大多数前沿模型窗口内 +- 任务解决率与上下文长度**无强相关性** +- 混乱上下文的推理质量是独立于上下文长度的瓶颈 + +## 相关概念 +- [[context-learning]] — 通用上下文学习 +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[lost-in-the-middle]] — 中间信息丢失 +- [[million-token-context]] — 百万 Token 上下文 + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/long-horizon-evaluation.md b/concepts/long-horizon-evaluation.md new file mode 100644 index 0000000..c436c36 --- /dev/null +++ b/concepts/long-horizon-evaluation.md @@ -0,0 +1,46 @@ +--- +title: "Long-Horizon Evaluation / 长视界评估" +created: 2026-05-14 +type: concept +tags: ["evaluation", "benchmarking", "long-interaction", "compounding-errors"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Long-Horizon Evaluation + +长视界评估(Long-Horizon Evaluation)是 [[delegate-52]] 的核心方法论贡献:通过延长交互来揭示短评估中不可见的退化模式。 + +## 核心发现:短 ≠ 长 + +[[delegate-52]] 的实验明确证明,短交互表现不能预测长视界表现: + +- GPT 5 和 Kimi K2.5 在 2 次交互后几乎同分 (91.5 vs 91.1),但 20 次后差距巨大 (48.3 vs 64.1) +- Gemini 3 Flash 在 2 次交互时落后 Mistral Large 3 达 6.4 分,但最终追平 (35.8 vs 35.5) + +## 复合效应 + +多种退化因素在长视界中**乘性叠加**: + +- 文档大小效应:短交互中每 1k tokens 约退 0.7%,长交互中约退 3.6%(5 倍放大) +- 干扰文档效应:2 次交互后仅 0.4-4% 改善,20 次后改善 2-8% +- 扩展到 100 次交互仍持续退化,无收敛迹象 + +## 与传统评估的对比 + +| 维度 | 传统单轮评估 | 长视界评估 | +|------|-------------|-----------| +| 错误累积 | 不评估 | 核心指标 | +| 预测效力 | 弱 | 强 | +| 真实度 | 低 | 高 | +| 成本 | 低 | 高(长链推理 × N 次) | + +## 与 Memory 评估的区别 + +传统多会话研究关注记忆问题(系统能否记住、检索、适应),[[delegate-52]] 研究的是正交的失败模式:**被操作的对象是否在退化**。 + +## 相关概念 + +- [[delegate-52]] — 长视界评估的具体实现 +- [[document-degradation]] — 长视界揭示的核心现象 +- [[backtranslation-round-trip-relay]] — 实现长视界的机制 +- [[critical-failures]] — 长视界中才充分暴露的错误模式 diff --git a/concepts/lost-in-the-middle.md b/concepts/lost-in-the-middle.md index f51118f..e83d7d9 100644 --- a/concepts/lost-in-the-middle.md +++ b/concepts/lost-in-the-middle.md @@ -1,3 +1,12 @@ +--- +title: Lost in the Middle +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Lost in the Middle **长上下文信息丢失现象**,LLM 在处理长上下文时对中间位置的信息利用效率最低。 diff --git a/concepts/lovasz-local-lemma.md b/concepts/lovasz-local-lemma.md new file mode 100644 index 0000000..e2b7904 --- /dev/null +++ b/concepts/lovasz-local-lemma.md @@ -0,0 +1,25 @@ +--- +title: "Lovász Local Lemma" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [combinatorics, probability, placeholder] +sources: [[ramsey-numbers-survey]] +--- + +# Lovász Local Lemma + +## 定义 + +Lovász 局部引理(László Lovász, 1975)是[[probabilistic-method|概率方法]]的强力推广,处理大量相关事件同时不发生的情形。 + +> 此页面为占位符。 + +## 在 Ramsey 理论中的应用 + +用于证明更强的存在性结果——在局部引理的框架下,即使事件之间存在依赖关系,只要每个事件依赖于较少其他事件,仍可保证所有坏事件不发生的概率为正。 + +## 相关概念 + +- [[probabilistic-method|概率方法]] +- [[ramsey-theory|拉姆齐理论]] diff --git a/concepts/lucas-penrose-argument.md b/concepts/lucas-penrose-argument.md index 0aba577..66eb500 100644 --- a/concepts/lucas-penrose-argument.md +++ b/concepts/lucas-penrose-argument.md @@ -1,3 +1,12 @@ +--- +title: 卢卡斯-彭罗斯论证 (Lucas-Penrose Argument) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 卢卡斯-彭罗斯论证 (Lucas-Penrose Argument) - **领域**: 心灵哲学、人工智能 diff --git a/concepts/mamba-ssm.md b/concepts/mamba-ssm.md index dbcc658..8fc2c70 100644 --- a/concepts/mamba-ssm.md +++ b/concepts/mamba-ssm.md @@ -1,3 +1,12 @@ +--- +title: Mamba (State Space Model) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Mamba (State Space Model) **选择性状态空间模型**,由 Gu 和 Dao 2024 年提出,线性复杂度的 Transformer 替代方案。 diff --git a/concepts/math-question-reformulation.md b/concepts/math-question-reformulation.md new file mode 100644 index 0000000..bd20bff --- /dev/null +++ b/concepts/math-question-reformulation.md @@ -0,0 +1,56 @@ +--- +title: "数学问题多维度改写" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["data-augmentation", "question-reformulation", "mathematical-reasoning"] +sources: ["arxiv:2601.20614"] +--- + +# 数学问题多维度改写 + +**数学问题多维度改写** 是 [[mqr|MQR]] 的核心策略,通过三个维度系统性地提高数学问题的内在难度,同时保持原始答案不变。 + +## 三种改写策略 + +### 1. Background(背景添加) +- **操作**:添加与核心数学内容不相关但表面上与问题相关的叙事背景 +- **背景主题**:历史、文化、地理、自然、职业、日常生活、体育、艺术、科幻、冒险(明确排除天文学) +- **挑战**:从噪声中识别关键数学信息的能力 +- **约束**:改写后问题不超过原题 100 词 + +### 2. Term(术语发明) +- **操作**:发明一个新的抽象数学术语来定义问题的核心概念 +- **要求**:术语在问题中自然呈现,改写后问题自洽 +- **挑战**:理解抽象数学概念的能力 + +### 3. Sub-Problem(子问题嵌套) +- **操作**:将原题中具有确定值的数值条件转化为独立子问题 +- **子问题领域**:代数、几何、数论、组合数学等任意数学分支 +- **要求**:子问题自洽、有唯一解、解恰好等于原题所需值 +- **挑战**:多步推理与跨域知识整合 + +## 质量保证 + +使用 OpenAI o3 评估改写后的数学等价性: +- Background: 99% +- Term: 97% +- Sub-Problem: 97% + +**失败的改写**意味着问题不可解或答案改变。但由于 RLVR 中答案空间极大且需要精确匹配,模型不可能偶然答对→所有响应全错→无梯度更新→**无害**。 + +## 与标准数据增强的区别 + +| 方法 | 策略 | 答案 | 难度 | +|------|------|------|------| +| WizardMath | 生成新 QA 对 | 质量难保证 | 不变 | +| MuqleMath | 查询+响应增强 | 需验证 | 不变 | +| Variational Synthesis | 变分再表述 | 需重新求解 | 可能变化 | +| **MQR** | **多维度改写** | **保持原答案** | **系统性提高** | + +## 相关概念 + +- [[mqr|MQR]] — 完整策略 +- [[mathforge]] — 框架 +- [[dgpo|DGPO]] — 算法组件 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/mathematical-pluralism.md b/concepts/mathematical-pluralism.md index 88048fd..f4678f1 100644 --- a/concepts/mathematical-pluralism.md +++ b/concepts/mathematical-pluralism.md @@ -1,3 +1,12 @@ +--- +title: 数学多元主义 (Mathematical Pluralism) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 数学多元主义 (Mathematical Pluralism) - **领域**: 数学哲学 diff --git a/concepts/mathforge.md b/concepts/mathforge.md new file mode 100644 index 0000000..89b406c --- /dev/null +++ b/concepts/mathforge.md @@ -0,0 +1,50 @@ +--- +title: "MathForge 框架" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["mathematical-reasoning", "rlvr", "grpo", "difficulty-aware"] +sources: ["arxiv:2601.20614"] +--- + +# MathForge 框架 + +**MathForge** 是一个双轨协同框架,通过从算法和数据两个层面聚焦更困难的问题来提升 LLM 的数学推理能力。核心哲学:**"Harder is Better"**。 + +## 双轨架构 + +``` +MathForge +├── 算法轨:[[dgpo|DGPO]](优化学习过程) +│ ├── [[dgae|DGAE]]: MAD 归一化 → 平衡更新幅度 +│ └── [[dqw|DQW]]: Softmax 加权 → 优先困难问题 +│ +└── 数据轨:[[mqr|MQR]](扩展数据边界) + └── [[math-question-reformulation|三维改写]]: Background / Term / Sub-Problem +``` + +## 协同循环 + +MQR 从数据侧扩展新的能力边界,DGPO 在算法侧高效学习这些 augmented data,形成正反馈闭环: +$$ ext{MQR} \rightarrow \text{更难的问题} \rightarrow \text{DGPO 优先学习} \rightarrow \text{能力提升} \rightarrow \text{MQR}...$$ + +## 关键实验结果 + +- Qwen2.5-Math-7B 上平均 +4.56% over GRPO(6 基准平均 42.17%) +- 跨 4 个模型族(1.5B–7B)一致增益 2.86–4.45% +- DGPO 单独使用 +2.18%,MQR 单独使用 +3.43%,组合效果最佳 + +## 设计原则 + +1. **平衡先于加权**:先用 DGAE 消除 GRPO 的更新幅度不平衡,再用 DQW 显式加权 +2. **答案保持约束**:MQR 所有改写必须保持原始答案,避免重新生成解答 +3. **valid token-level loss averaging**:仅对有效问题(非全对/全错)计算损失 + +## 相关概念 + +- [[dgpo|DGPO]] — 算法核心 +- [[mqr|MQR]] — 数据核心 +- [[grpo]] — 基线方法 +- [[rlvr-unified-framework]] — 训练范式 +- [[update-magnitude-imbalance]] — 理论发现 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/maze-navigation.md b/concepts/maze-navigation.md new file mode 100644 index 0000000..cd6edb1 --- /dev/null +++ b/concepts/maze-navigation.md @@ -0,0 +1,50 @@ +--- +title: "迷宫导航 (Maze Navigation)" +domain: "Multimodal AI / Topological Reasoning" +tags: [maze, navigation, topological-reasoning, visual-primitives, dfs] +sources: [[thinking-with-visual-primitives]] +--- + +# 迷宫导航 (Maze Navigation) + +> 利用点视觉原语进行拓扑推理的典型任务:判断迷宫是否可解,探索并输出验证路径。 + +## 任务定义 + +给定一张迷宫图像(标记起点和终点),模型需要: +1. 判断是否存在可行路径 +2. 如果可解,输出经过验证的具体路径(坐标序列) +3. 最终给出 `True`/`False` 判断 + +## 为什么需要视觉原语 + +纯语言 CoT 在迷宫导航中几乎不可能: +- 无法用语言精确描述不规则形状的路径 +- 需要空间连续性判断(这堵墙是否完全阻挡了通路?) +- 需要回溯(「此路不通→返回上一个岔路口」) + +[[visual-primitives|视觉原语]](点)天然适合:每个岔路口的坐标、每段路径的轨迹、回溯标记都是精确的空间操作。 + +## 数据构造 + +- **生成算法**:DFS、Prim、Kruskal → 生成非平凡迷宫 +- **拓扑类型**:矩形网格、圆形同心环、六边形蜂巢 +- **不可解迷宫**:在可行路径中段添加墙壁,断开连通性 +- **难度控制**:网格大小(推理步数)→ Easy 到 Nightmare +- **视觉多样性**:渐变墙、不同背景、多种标记、随机旋转 +- **冷启动规模**:**460,000** 样本 + +## 奖励模型设计 + +[[specialized-rl|专项强化学习]] 阶段的迷宫 Accuracy RM: +- 因果探索进度(遇墙违规 → 截断后续) +- 探索完整性(不可解迷宫需穷举可达区域) +- 墙违规惩罚 +- 最终路径有效性 +- 答案正确性 + +## 相关概念 + +- [[path-tracing|路径追踪]] — 互补的拓扑推理任务 +- [[visual-primitives|视觉原语]] — 点原语 +- [[bidirectional-trajectory-evaluation|双向轨迹评估]] — 路径评估方法 \ No newline at end of file diff --git a/concepts/messy-context-reasoning.md b/concepts/messy-context-reasoning.md new file mode 100644 index 0000000..9cd9009 --- /dev/null +++ b/concepts/messy-context-reasoning.md @@ -0,0 +1,74 @@ +--- +title: 混乱上下文推理 (Messy Context Reasoning) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, benchmark, alignment] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# 混乱上下文推理 (Messy Context Reasoning) + +> 从**非结构化、碎片化、噪声干扰**的上下文中提取有效信息并构建连贯推理的能力。真实生活上下文学习的核心技术挑战。 + +## 定义 + +混乱上下文推理是指语言模型在以下条件下进行信息提取和逻辑推理的能力: + +- 信息**非结构化**:无标题、无分段、无格式化标记 +- 信息**碎片化**:相关信息分散在上下文的不同位置 +- 信息**噪声混合**:大量与任务无关的内容与关键线索交织 +- **时序非线性**:修订覆盖、话题分叉、信息版本更新 +- **多源异质**:群聊中不同发言者、不同时间的片段交错 + +## 混乱上下文 vs 结构化上下文 + +| 特征 | 结构化上下文 | 混乱上下文 | +|------|-----------|---------| +| 信息组织 | 标题、章节、表格 | 自然语言流、无显式分隔 | +| 线索定位 | 段落级检索有效 | 需跨段落"拼接"碎片 | +| 噪声处理 | 主要为正例 | 大量负例和无关信息 | +| 时序处理 | 显式时间标记 | 隐式时间推断 | +| 指代消解 | 单源或少量引用 | 多参与者、多别名 | + +## 为什么困难? + +### 信息提取层面的挑战 + +在混乱上下文中,**"找到相关信息"本身就是非平凡的**: +- 关键线索可能隐藏在口语化的闲聊中 +- 同一信息可能以多个版本出现(修订覆盖) +- 信息可能被情绪化或社交化的语言包裹 + +### 推理整合层面的挑战 + +即使信息被正确提取,**多碎片信息间的逻辑整合**难度远超单文档推理: +- 约束冲突:不同碎片提供了看似矛盾的信息 +- 证据加权:需要判断哪些信息版本更"新"或更"可靠" +- 时序编排:碎片间的时序因果关系需要推断而非读取 + +### 语言模型的系统性弱点 + +CL-bench Life 揭示的典型混乱上下文推理失败: +- 无法追踪群聊中"谁在什么时候决定什么" +- 无法区分"提议"→"讨论"→"决策"→"最终确定"的信息演变阶段 +- 将侧面提及视为核心约束,将核心约束当作次要信息被忽略 + +## 评估 + +[[cl-bench-life]] 是目前唯一专门评估混乱上下文推理能力的基准(405 任务、5,348 rubrics)。关键发现: + +- 最佳模型仅 19.3% 解决率 +- "自我追踪轨迹"子类最难(10.4%):原始、弱结构、隐式模式 +- 推理模式有帮助但上限明显,表明架构层面的根本性瓶颈 + +## 相关概念 +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[context-misuse]] — 上下文误用 +- [[cl-bench-life]] — CL-bench Life 基准 +- [[long-context-understanding]] — 长上下文理解(相关但不等价) +- [[identity-reference-resolution]] — 身份指代消解(群聊场景核心挑战) + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/meta-jctrader.md b/concepts/meta-jctrader.md new file mode 100644 index 0000000..8aac86b --- /dev/null +++ b/concepts/meta-jctrader.md @@ -0,0 +1,33 @@ +--- +title: "Meta-JCTrader" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [trading-system, reinforcement-learning, agent-architecture, case-study] +sources: [[prompt-caching-architecture]] +--- + +# Meta-JCTrader + +## 定义 + +Meta-JCTrader 是 [[prompt-caching-architecture|Prompt Caching 架构工程手册]] 中的案例系统,一个涉及高频数据流、强化学习和 Meta-Learning 的 AI 交易系统。 + +## 技术栈 + +- **高频交易数据流**:毫秒级市场数据处理 +- **强化学习**:策略优化与决策 +- **Meta-Learning**:跨市场状态的学习迁移 +- **AI Judge**:Kimi vs GLM 双模型对比评估 + +## 架构需求 + +- [[prompt-caching|Prompt Caching]] 作为系统稳健性的基石 +- [[prompt-layering|四层分层架构]] 确保缓存效率 +- [[cache-safe-forking|缓存安全分叉]] 支持 AI Judge 的长期运行评估 +- [[cache-health-observability|缓存可观测性]] 实时监控 CHR + +## 相关概念 + +- [[prompt-caching-architecture|Prompt Caching 架构]] +- [[reinforcement-learning-trading|强化学习交易]] diff --git a/concepts/meta-learning.md b/concepts/meta-learning.md index d30654e..e61f543 100644 --- a/concepts/meta-learning.md +++ b/concepts/meta-learning.md @@ -1,3 +1,12 @@ +--- +title: Meta-Learning (元学习) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Meta-Learning (元学习) > **类型**: 概念 @@ -124,7 +133,7 @@ - [[hyperagents]]:实现元认知自我修改的具体框架 - [[few-shot-learning]]:少样本学习,元学习的核心应用 - [[transfer-learning]]:迁移学习,与元学习密切相关 -- [[automated-machine-learning]]:自动化机器学习,包含元学习技术 +- [[meta-learning]]:自动化机器学习,包含元学习技术 ## 重要参考文献 - Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. diff --git a/concepts/metacognitive-self-modification.md b/concepts/metacognitive-self-modification.md index 35371b8..e691365 100644 --- a/concepts/metacognitive-self-modification.md +++ b/concepts/metacognitive-self-modification.md @@ -1,3 +1,12 @@ +--- +title: Metacognitive Self-Modification (元认知自我修改) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Metacognitive Self-Modification (元认知自我修改) > **类型**: 概念 diff --git a/concepts/metamathematics.md b/concepts/metamathematics.md index 145415b..1cd5f92 100644 --- a/concepts/metamathematics.md +++ b/concepts/metamathematics.md @@ -1,3 +1,12 @@ +--- +title: 元数学 (Metamathematics) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 元数学 (Metamathematics) - **领域**: 数学基础、逻辑学 diff --git a/concepts/mixture-of-attention-schemes.md b/concepts/mixture-of-attention-schemes.md index 1ab03d6..5d6e19e 100644 --- a/concepts/mixture-of-attention-schemes.md +++ b/concepts/mixture-of-attention-schemes.md @@ -1,3 +1,12 @@ +--- +title: Mixture of Attention Schemes (MoAS) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Mixture of Attention Schemes (MoAS) **注意力方案混合路由**,根据 Token 复杂度动态分配注意力类型。 diff --git a/concepts/mixture-of-depths-attention.md b/concepts/mixture-of-depths-attention.md index f908148..46e60f9 100644 --- a/concepts/mixture-of-depths-attention.md +++ b/concepts/mixture-of-depths-attention.md @@ -55,5 +55,5 @@ $$\text{MoDA}(Q_l) = \text{Softmax}\left(\frac{Q_l [K_{l-D:l}]^T}{\sqrt{d}}\righ ## 相关概念 - [[zhu-moda-mixture-of-depths]] — 原始论文 -- [[depth-scaling-llms]] — LLM 深度扩展 -- [[signal-degradation]] — 信号退化问题 +- [[depth-scaling-signal-degradation]] — LLM 深度扩展 +- [[depth-scaling-signal-degradation]] — 信号退化问题 diff --git a/concepts/model-collapse-step.md b/concepts/model-collapse-step.md new file mode 100644 index 0000000..e262e7e --- /dev/null +++ b/concepts/model-collapse-step.md @@ -0,0 +1,44 @@ +--- +title: 模型崩溃步 (Model Collapse Step, MCS) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 模型崩溃步 (Model Collapse Step, MCS) + +**衡量模型在内在 URLVR 下能维持多久才崩溃的实用指标**,由 He et al. (ICLR 2026) 提出,作为模型先验的低成本度量。 + +## 定义 + +$$\text{MCS} = \arg\min_{t} \{ \text{Reward Accuracy}(t) < 1\% \}$$ + +模型在内在 URLVR 训练中,从开始到奖励准确率跌破 1% 的训练步数。MCS 越大 → 模型先验越强 → 更适合作为标准 RL 的基模型。 + +## 为什么需要 MCS? + +| 方法 | 问题 | +|------|------| +| 跑完整 RL 训练 | 成本极高 | +| pass@k | 准确率低,多选问题中 k 足够大时 → 1 | +| **MCS** | 无需 GT 标签,比 pass@k 更准,对多选问题鲁棒 | + +## 实验发现 + +- **Qwen 家族**: SFT 变体在整个训练中维持高奖励准确率,MCS 极大 +- **LLaMA 家族**: 基模型约 40 步崩溃,SFT 变体约 200 步 +- MCS 与标准 RL 的 GT 增益 **高度相关**(优于 pass@k) + +## 实际应用 + +1. **基模型选择**: 不跑标准 RL,跑一小段内在 URLVR 看 MCS +2. **RL 可行性预测**: MCS 低的模型不适合标准 RLVR +3. **模型先验度量**: 量化"模型内在知识"的强度 + +## 相关概念 + +- [[intrinsic-rewards-sharpening]] — Sharpening 是 MCS 的底层机制 +- [[unsupervised-rlvr]] — URLVR 上下文 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/mqr.md b/concepts/mqr.md new file mode 100644 index 0000000..6062d0d --- /dev/null +++ b/concepts/mqr.md @@ -0,0 +1,62 @@ +--- +title: "Multi-Aspect Question Reformulation (MQR)" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["data-augmentation", "mathematical-reasoning", "question-reformulation"] +sources: ["arxiv:2601.20614"] +--- + +# Multi-Aspect Question Reformulation (MQR) + +**MQR** 是 [[mathforge|MathForge]] 框架的数据组件,通过多维度改写数学问题来系统性地**提高训练数据的内在难度**,同时保持原始答案不变。 + +## 核心约束 + +> **答案保持(Answer Preservation)**:所有改写必须保持原始 gold answer 不变。 + +这一约束的意义: +- 维持问题的数学逻辑核心 +- **无需重新生成解答**(对 reformulator 模型要求极低) +- 保证 RLVR 训练中的奖励信号可靠性 + +## 三种改写策略 + +| 策略 | 操作 | 挑战的能力 | 答案保持率 | +|------|------|-----------|-----------| +| **Background** | 添加叙事背景(历史/文化/科幻等) | 从噪声中识别关键数学信息 | 99% | +| **Term** | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% | +| **Sub-Problem** | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% | + +## 改写示例 + +**原题**:Bérengère 和 Emily 在巴黎买蛋糕,蛋糕 6 欧元,Emily 有 5 美元,汇率 1 欧元 = 1.25 美元,Bérengère 需付多少欧元? + +**Background 改写**:添加蒙马特历史街区的故事背景,描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕…… + +**Term 改写**:定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额…… + +**Sub-Problem 改写**:先求解 x+y=9, x²+y²=41 得到汇率比 r,再计算欧元贡献…… + +## Reforumulator 模型 + +默认使用 **OpenAI o3**,小型开源模型也可胜任。平均每题消耗: +- Input: 255 tokens +- Output reasoning: 820 tokens +- Output reformulated: 138 tokens +- MATH 数据集 22.5k 题的改写总成本 ≈ $184 + +## 与 DGPO 的协同 + +MQR 生成的更难问题**是 DGPO 的理想训练材料**: +- MQR 扩展数据的能力边界 +- DGPO 优先学习这些更难的问题 +- 形成正反馈训练循环 + +## 相关概念 + +- [[math-question-reformulation]] — 三种策略详解 +- [[dgpo|DGPO]] — 算法组件 +- [[mathforge]] — 完整框架 +- [[rlvr-unified-framework]] — 训练范式 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/multi-head-attention.md b/concepts/multi-head-attention.md index e0a0e70..1c69fc6 100644 --- a/concepts/multi-head-attention.md +++ b/concepts/multi-head-attention.md @@ -1,3 +1,12 @@ +--- +title: Multi-Head Attention (MHA) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Multi-Head Attention (MHA) **标准多头注意力**,Transformer 架构的核心注意力变体。 diff --git a/concepts/multi-head-latent-attention.md b/concepts/multi-head-latent-attention.md index bb086c7..aac6494 100644 --- a/concepts/multi-head-latent-attention.md +++ b/concepts/multi-head-latent-attention.md @@ -1,3 +1,12 @@ +--- +title: Multi-head Latent Attention (MLA) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Multi-head Latent Attention (MLA) **多潜在头注意力**,DeepSeek 团队在 DeepSeek-V2 (2024) 中提出的革命性注意力机制。 diff --git a/concepts/multi-query-attention.md b/concepts/multi-query-attention.md index 618772e..3b653ab 100644 --- a/concepts/multi-query-attention.md +++ b/concepts/multi-query-attention.md @@ -1,3 +1,12 @@ +--- +title: Multi-Query Attention (MQA) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Multi-Query Attention (MQA) **多查询注意力**,由 Shazeer 2019 年提出,所有 Q 头共享单个 KV 头。 diff --git a/concepts/multimodal-large-language-model.md b/concepts/multimodal-large-language-model.md new file mode 100644 index 0000000..6bf512b --- /dev/null +++ b/concepts/multimodal-large-language-model.md @@ -0,0 +1,34 @@ +--- +title: "多模态大语言模型 (MLLM)" +domain: "Multimodal AI" +tags: [mllm, multimodal, llm, vision] +sources: [[thinking-with-visual-primitives]] +--- + +# 多模态大语言模型 (MLLM) + +> Multimodal Large Language Model:能同时处理文本和视觉(图像/视频)输入的大语言模型。 + +## 典型架构 + +MLLM 通常采用 LLaVA 风格的架构: +1. **Vision Encoder**(如 ViT):图像 → 视觉特征 +2. **Connector/Projector**:视觉特征 → LLM 可理解的 token +3. **LLM Backbone**:接收视觉+语言 token → 生成文本响应 + +## 推理能力的两个瓶颈 + +| 瓶颈 | 层级 | 描述 | +|------|------|------| +| [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足,看不清细节 | +| [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 | + +## 本文贡献 + +「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟,同时利用极致 token 压缩([[compressed-sparse-attention|压缩稀疏注意力]])在不牺牲推理深度的前提下大幅降低计算开销。 + +## 相关概念 + +- [[visual-primitives|视觉原语]] — MLLM 推理的新范式 +- [[reference-gap|引用鸿沟]] — 本文解决的核心问题 +- [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架 \ No newline at end of file diff --git a/concepts/native-sparse-attention.md b/concepts/native-sparse-attention.md index 77172b1..72281a3 100644 --- a/concepts/native-sparse-attention.md +++ b/concepts/native-sparse-attention.md @@ -1,3 +1,12 @@ +--- +title: Native Sparse Attention (NSA) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Native Sparse Attention (NSA) **硬件对齐的原生可训练稀疏注意力**,DeepSeek 2025 年提出。 diff --git a/concepts/neuroscience.md b/concepts/neuroscience.md index d50b475..897b629 100644 --- a/concepts/neuroscience.md +++ b/concepts/neuroscience.md @@ -1,3 +1,12 @@ +--- +title: Neuroscience (神经科学) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Neuroscience (神经科学) > **类型**: 概念 diff --git a/concepts/non-stationary-time-series.md b/concepts/non-stationary-time-series.md new file mode 100644 index 0000000..5002600 --- /dev/null +++ b/concepts/non-stationary-time-series.md @@ -0,0 +1,30 @@ +--- +title: "Non-stationary Time Series(非平稳时间序列)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [time-series, statistics, machine-learning] +sources: [[liu-koopa-2023]] +--- + +# Non-stationary Time Series(非平稳时间序列) + +## 定义 + +非平稳时间序列是指统计特性(均值、方差、协方差)或时间依赖模式随时间变化的时间序列。这是真实世界数据的普遍特征——天气、金融、能耗等几乎都是非平稳的。 + +## 对深度学习的挑战 + +- **分布迁移**:训练窗口和推理窗口的数据分布可能截然不同 +- **模型泛化困难**:模型学到的模式在分布变化后失效 +- **传统应对**:差分、归一化等预处理,但会丢失信息 + +## Koopa 的处理方式 + +不将非平稳视为需要消除的"噪声",而是通过 [[fourier-filter-dynamics|Fourier Filter]] 将其**显式解耦**为时变和时不变分量,分别用不同的 [[koopman-predictor|Koopman 预测器]] 处理。 + +## 相关概念 + +- [[time-variant-dynamics|时变动力学]] +- [[fourier-filter-dynamics|Fourier Filter]] +- [[liu-koopa-2023|Koopa]] diff --git a/concepts/ntk-aware-interpolation.md b/concepts/ntk-aware-interpolation.md index 39dc5aa..00d4977 100644 --- a/concepts/ntk-aware-interpolation.md +++ b/concepts/ntk-aware-interpolation.md @@ -1,3 +1,12 @@ +--- +title: NTK-aware 位置编码插值 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # NTK-aware 位置编码插值 **RoPE 外推技术**,通过 NTK 理论调整旋转频率实现上下文窗口扩展。 diff --git a/concepts/off-policy-llm-post-training.md b/concepts/off-policy-llm-post-training.md new file mode 100644 index 0000000..d07a57d --- /dev/null +++ b/concepts/off-policy-llm-post-training.md @@ -0,0 +1,50 @@ +--- +title: "Off-Policy LLM 后训练" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["reinforcement-learning", "llm-post-training", "off-policy"] +sources: ["arxiv:2503.18929"] +--- + +# Off-Policy LLM 后训练 + +**Off-Policy LLM 后训练** 指使用**非当前策略生成的数据**来训练语言模型策略的 RL 范式,是 [[asynchronous-rl-llm|异步 RL]] 的基础。 + +## 与 On-Policy 的对比 + +| 维度 | On-Policy | Off-Policy | +|------|-----------|-----------| +| 数据来源 | 当前策略生成 | 任意策略(历史 buffer) | +| 训练效率 | 串行瓶颈 | 高度并行 | +| 数据利用率 | 一次使用 | 多次重用 | +| 探索能力 | 受限于当前策略 | 可混合多种策略数据 | +| 算法要求 | 简单 | 需处理分布偏移 | + +## 为什么 LLM RL 难以 Off-Policy? + +传统 RL(Atari、机器人)通过价值函数(Q-learning)实现 off-policy 学习。但 LLM 的 action space 极大(token-level),学习准确的价值函数极具挑战性(DeepSeek-R1 明确指出 critic 训练的困难)。 + +因此现有方法: +- Async DPO:性能随 off-policyness 增长而下降 +- Proximal RLOO:用 IS ratio clipping 勉强缓解 + +## TBA 的突破 + +[[tba|TBA]] 绕过了价值函数的需求——[[trajectory-balance-objective|TB 目标]] 直接从轨迹级(trajectory-level)信号学习,不依赖 Q(s,a) 估计。数据只要具有 full support,TB 保证收敛。 + +**结果**:即使在 15 步 stale 数据上训练,TBA 的性能仍超越 on-policy 基线。 + +## 关键设计要素 + +1. **分布约束**:TB 的 KL 正则化(β 参数)防止策略过度偏离 +2. **参考策略重置**:定期重置 π_ref,提供新鲜的正则化锚点 +3. **采样策略混合**:[[reward-recency-sampling|recency + reward 混合采样]] 平衡稳定性与探索 + +## 相关概念 + +- [[tba|TBA]] — 框架实现 +- [[trajectory-balance-objective]] — TB 目标 +- [[asynchronous-rl-llm]] — 异步 RL 范式 +- [[replay-buffer-rl-llm]] — Buffer 设计 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/paley-graph.md b/concepts/paley-graph.md new file mode 100644 index 0000000..2e3ab58 --- /dev/null +++ b/concepts/paley-graph.md @@ -0,0 +1,25 @@ +--- +title: "Paley Graph" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [graph-theory, algebraic-construction, placeholder] +sources: [[ramsey-numbers-survey]] +--- + +# Paley Graph + +## 定义 + +Paley 图 P_q 是基于有限域 GF(q)(q ≡ 1 mod 4)的代数构造图。顶点为 GF(q) 的元素,两顶点相邻当且仅当其差为二次剩余。 + +> 此页面为占位符。 + +## 在 Ramsey 理论中的角色 + +P₁₇ 提供了 R(4,4) ≥ 17 的下界构造。Paley 图具有高度对称性和准随机性,在拉姆齐问题中表现优异。 + +## 相关概念 + +- [[ramsey-numbers|拉姆齐数]] +- [[diagonal-ramsey-number|对角拉姆齐数]] diff --git a/concepts/paris-harrington-theorem.md b/concepts/paris-harrington-theorem.md index 233a19a..7e1fe9f 100644 --- a/concepts/paris-harrington-theorem.md +++ b/concepts/paris-harrington-theorem.md @@ -1,14 +1,29 @@ -# 巴黎-哈灵顿定理 (Paris-Harrington Theorem) +--- +title: "Paris-Harrington Theorem(巴黎-哈灵顿定理)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [mathematical-logic, proof-theory, incompleteness] +sources: [[ramsey-numbers-survey]] +--- -- **领域**: 组合数学、证明论 -- **发现者**: Jeff Paris & Leo Harrington, 1977 -- **来源**: [[godel-incompleteness-tutorial|哥德尔不完备定理教程]] +# Paris-Harrington Theorem(巴黎-哈灵顿定理) -## 概述 +## 定义 -首次在「自然」的数学命题(而非人工构造的自指命题)中发现[[godel-incompleteness-theorems|不可判定性]]。Paris-Harrington 原理是对有限拉姆齐定理的轻微加强(要求同色子集的基数大于其最小元素),这一原理在[[peano-arithmetic|PA]]中不可证,但在 ZFC 中可证。 +Paris-Harrington 定理(1977)构造了一个在皮亚诺算术(PA)中可陈述但**不可证明**的命题——有限 Ramsey 定理的一个微小变体:要求单色集的极小元素大于其基数。 -> 📌 *占位符页面 — 待补充完整内容。* +## 历史意义 + +这是 [[godel-incompleteness-theorems|哥德尔不完备定理]] 之后,首个在"自然"数学实践中发现的独立于 PA 的命题。不同于哥德尔人工构造的自指语句,Paris-Harrington 命题来自组合数学的正常研究。 + +## 启示 + +- 组合数学中看似简单的有限性命题可能已超出 PA 的证明能力 +- 不可判定性并非逻辑学的孤立现象,而是渗透到数学实践的核心 +- Ramsey 理论成为衡量证明论强度的标准尺度(逆向数学) ## 相关概念 -[[godel-incompleteness-theorems]] · [[goodsteins-theorem]] · [[peano-arithmetic]] + +- [[godel-incompleteness-theorems|哥德尔不完备定理]] +- [[ramsey-theory|拉姆齐理论]] diff --git a/concepts/path-tracing.md b/concepts/path-tracing.md new file mode 100644 index 0000000..3eafb0e --- /dev/null +++ b/concepts/path-tracing.md @@ -0,0 +1,52 @@ +--- +title: "路径追踪 (Path Tracing)" +domain: "Multimodal AI / Visual Reasoning" +tags: [path-tracing, visual-primitives, bezier-curves, topological-reasoning] +sources: [[thinking-with-visual-primitives]] +--- + +# 路径追踪 (Path Tracing) + +> 利用点视觉原语在纠缠曲线中追踪目标路径,识别端点——测试模型「线连续性判断」的原语能力。 + +## 任务定义 + +给定一张包含多条 Bézier 曲线的图像(每条连接一个标记起点到一个标记终点),模型需要: +1. 从指定起点出发 +2. 沿着曲线追踪(处理与其他曲线的交叉点) +3. 识别到达的端点 + +## 核心挑战:交叉点消歧 + +在曲线交叉处,模型必须调用**局部几何连续性判断**来决定哪条分支是目标曲线的延续。这要求模型具备真正的「路径追踪原语」,而非靠颜色匹配。 + +- **统一风格模式**(uniform-style mode):所有线颜色和粗细相同,消除颜色捷径 + +## 难度控制 + +- 曲线数量 + 曲率振幅 +- Easy:少量平缓曲线,交叉稀疏 +- Hard:大量紧密卷曲曲线,密集交叉点 + +## 思维内容格式 + +``` +<|point|>[[x1,y1],[x2,y2],...[xn,yn]]<|/point|> +``` +- 坐标密度自适应局部几何:直段稀疏,弯曲/交叉区域密集 +- 模拟人类在复杂区域的「慢下来仔细观察」策略 + +## 奖励模型设计 + +[[bidirectional-trajectory-evaluation|双向轨迹评估]] 是核心: +- **前向偏差**:预测点到真实曲线的最小距离(惩罚偏离) +- **反向覆盖率**:真实曲线点被预测覆盖的程度(惩罚遗漏) +- **端点精度** + **连续性惩罚** + **答案正确性** + +**冷启动规模**:**125,000** 样本 + +## 相关概念 + +- [[maze-navigation|迷宫导航]] — 互补的拓扑推理任务 +- [[bidirectional-trajectory-evaluation|双向轨迹评估]] — 核心评估方法 +- [[visual-primitives|视觉原语]] — 点原语 \ No newline at end of file diff --git a/concepts/peano-arithmetic.md b/concepts/peano-arithmetic.md index 28358eb..bdadcaf 100644 --- a/concepts/peano-arithmetic.md +++ b/concepts/peano-arithmetic.md @@ -1,3 +1,12 @@ +--- +title: 皮亚诺算术 (Peano Arithmetic, PA) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 皮亚诺算术 (Peano Arithmetic, PA) - **领域**: 数理逻辑、数学基础 diff --git a/concepts/perception-gap.md b/concepts/perception-gap.md new file mode 100644 index 0000000..fc78b24 --- /dev/null +++ b/concepts/perception-gap.md @@ -0,0 +1,42 @@ +--- +title: "感知鸿沟 (Perception Gap)" +domain: "Multimodal AI / Visual Reasoning" +tags: [perception-gap, multimodal, vision] +sources: [[thinking-with-visual-primitives]] +--- + +# 感知鸿沟 (Perception Gap) + +> MLLM 在低分辨率下无法「看清」细粒度视觉细节——这是当前多模态模型面临的第一层瓶颈。 + +## 定义 + +Perception Gap(感知鸿沟)指多模态大语言模型因视觉编码器分辨率限制或 token 压缩策略,导致无法捕获图像中的细粒度信息(如小文字、远距离物体、密集场景中的个体)。 + +## 现有应对方案 + +- 高分辨率裁剪(high-resolution cropping) +- 动态 patching(dynamic patching) +- 自适应分辨率编码 +- 多尺度特征融合 + +## 与引用鸿沟的关系 + +| 维度 | 感知鸿沟 | [[reference-gap|引用鸿沟]] | +|------|----------|-------------| +| 问题层 | 视觉感知层 | 语言指代层 | +| 症状 | 看不清 | 说不清 | +| 解决思路 | 更多像素/更高分辨率 | 空间标记作为思维单元 | +| 本文态度 | 已被 prior work 部分解决 | **核心贡献所在** | + +> 本文指出:即使完美弥合感知鸿沟,引用鸿沟依然会导致复杂空间推理中的逻辑崩溃。 + +## 未来方向 + +DeepSeek 团队指出,将视觉原语框架与弥合感知鸿沟的方法相结合,有望实现互补收益——既能「看清」又能「指准」。 + +## 相关概念 + +- [[reference-gap|引用鸿沟]] — 更深层的瓶颈 +- [[visual-primitives|视觉原语]] — 解决引用鸿沟的机制 +- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 两类鸿沟的具体表现 \ No newline at end of file diff --git a/concepts/prefill-as-a-service.md b/concepts/prefill-as-a-service.md index 51d15a8..ce2408a 100644 --- a/concepts/prefill-as-a-service.md +++ b/concepts/prefill-as-a-service.md @@ -56,4 +56,4 @@ PrfaaS 解除了"异构加速器必须共享同一低延迟 RDMA fabric"的限 - [[qin-prfaas-cross-datacenter]] — 原始论文 - [[prefill-decode-disaggregation]] — PD 分离架构 - [[kvcache-transfer]] — KVCache 传输优化 -- [[hybrid-attention-models]] — 混合注意力架构 +- [[hybrid-attention-architecture]] — 混合注意力架构 diff --git a/concepts/prefill-decode-disaggregation.md b/concepts/prefill-decode-disaggregation.md index 06899e7..f2ba16d 100644 --- a/concepts/prefill-decode-disaggregation.md +++ b/concepts/prefill-decode-disaggregation.md @@ -35,4 +35,4 @@ sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md] - [[prefill-as-a-service]] — PrfaaS 架构 - [[kvcache-transfer]] — KVCache 传输优化 -- [[hybrid-attention-models]] — 混合注意力架构 +- [[hybrid-attention-architecture]] — 混合注意力架构 diff --git a/concepts/prefix-matching.md b/concepts/prefix-matching.md new file mode 100644 index 0000000..6863e65 --- /dev/null +++ b/concepts/prefix-matching.md @@ -0,0 +1,32 @@ +--- +title: "Prefix Matching(前缀匹配)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [cache, prompt-engineering, llm-api] +sources: [[prompt-caching-architecture]] +--- + +# Prefix Matching(前缀匹配) + +## 定义 + +Prefix Matching 是 [[prompt-caching|Prompt Caching]] 的底层实现机制。在 LLM API 层面,任何一次调用请求本质上是一个 Token 序列 T = [t₁, t₂, ..., tₙ]。当请求中植入 `cache_control` 断点时,系统将前缀 T[0:k] 进行哈希持久化。后续请求若前缀的字节流完全一致,系统直接跳过对前缀的重新推理。 + +## 核心特性 + +- **确定性与严格性**:匹配是字节级别的,任何差异(包括空白字符、动态变量)都会导致匹配失败 +- **雪崩效应**:一个动态变量插入前缀 → [[cache-invalidation|整个缓存树失效]] +- **隐含约束**:要求架构师将"静态"与"动态"严格分离到不同层 + +## 工程启示 + +- System Prompt 中**禁止**包含动态变量(日期、状态摘要等) +- 工具定义必须保持静态,通过 [[stub-pattern|Stub 模式]] 规避变更 +- 前缀的"不可变性"是设计第一原则 + +## 相关概念 + +- [[prompt-caching|Prompt Caching]] +- [[cache-invalidation|缓存失效]] +- [[prompt-layering|提示分层]] diff --git a/concepts/primitive-recursive-functions.md b/concepts/primitive-recursive-functions.md index edda9ae..f8e4ba5 100644 --- a/concepts/primitive-recursive-functions.md +++ b/concepts/primitive-recursive-functions.md @@ -1,3 +1,12 @@ +--- +title: 原始递归函数 (Primitive Recursive Functions) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 原始递归函数 (Primitive Recursive Functions) - **领域**: 可计算性理论 diff --git a/concepts/probabilistic-method.md b/concepts/probabilistic-method.md new file mode 100644 index 0000000..f62afc9 --- /dev/null +++ b/concepts/probabilistic-method.md @@ -0,0 +1,34 @@ +--- +title: "Probabilistic Method(概率方法)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [combinatorics, probability, proof-technique] +sources: [[ramsey-numbers-survey]] +--- + +# Probabilistic Method(概率方法) + +## 定义 + +概率方法是 Paul Erdős 于 1947 年引入的证明技术:为证明具有某种性质的组合对象存在,构造一个概率空间,并证明该对象以正概率满足性质——由此推出存在性,无需显式构造。 + +## 在 Ramsey 理论中的应用 + +对 K_n 的边进行随机二色着色(每条边独立以 1/2 概率染红),计算出现单色 K_k 的期望数量。当该期望 < 1 时,存在无单色 K_k 的着色 → R(k) > n。 + +**结果**:R(k) > 2^{k/2}——这一下界至今未被构造性方法超越。 + +## 核心推广 + +**[[lovasz-local-lemma|Lovász 局部引理]]**(1975):处理大量相关事件同时不发生的情形,在 Ramsey 理论中用于证明更强的存在性结果。 + +## 历史意义 + +概率方法不仅解决了 Ramsey 问题,还催生了整个 [[random-graph-theory|随机图理论]](Erdős-Rényi 模型),深刻改变了组合数学的方法论——从"构造"到"证明存在"的范式转变。 + +## 相关概念 + +- [[ramsey-theory|拉姆齐理论]] +- [[lovasz-local-lemma|Lovász 局部引理]] +- [[random-graph-theory|随机图理论]] diff --git a/concepts/procedural-task-execution.md b/concepts/procedural-task-execution.md new file mode 100644 index 0000000..810a813 --- /dev/null +++ b/concepts/procedural-task-execution.md @@ -0,0 +1,35 @@ +--- +title: 程序性任务执行 (Procedural Task Execution) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [benchmark, llm] +sources: [papers/dou-cl-bench.md] +--- + +# 程序性任务执行 (Procedural Task Execution) + +> CL-bench 的第三类上下文:模型需**学习复杂操作流程并正确执行**。如产品手册排障、操作指导、工作流编排。 + +## 三个子类 + +| 子类 | 典型场景 | +|------|---------| +| Instructional Procedures | 产品手册、故障排除 | +| Operational Procedures | 操作指南(如无人机物流系统 API) | +| Workflow Orchestration | 复杂工作流编排 | + +## 典型示例 + +上下文中提供 SkyNet Logistics 无人机物流系统的完整 API 文档(导航控制、负载控制、安全控制三个模块),模型需将用户自然语言指令转换为伪代码并附带推理说明。 + +## 核心挑战 + +- 信息分布在多段文档中,需要**跨段信息整合** +- 需要**精确遵循**流程规范,不能跳过或错误执行步骤 +- 输出格式要求高(伪代码 + 推理说明) + +## 相关概念 +- [[context-learning]] — 上下文学习 +- [[dou-cl-bench]] — CL-bench 论文 +- [[domain-knowledge-reasoning]] — 领域知识推理 diff --git a/concepts/program-synthesis.md b/concepts/program-synthesis.md index 5bf6141..f2870f0 100644 --- a/concepts/program-synthesis.md +++ b/concepts/program-synthesis.md @@ -1,3 +1,12 @@ +--- +title: Program Synthesis (程序合成) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Program Synthesis (程序合成) > **类型**: 概念 diff --git a/concepts/prompt-caching.md b/concepts/prompt-caching.md new file mode 100644 index 0000000..dffe020 --- /dev/null +++ b/concepts/prompt-caching.md @@ -0,0 +1,37 @@ +--- +title: "Prompt Caching" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, cache, prompt-engineering] +sources: [[prompt-caching-architecture]] +--- + +# Prompt Caching(提示缓存) + +## 定义 + +Prompt Caching 是一种基于 [[prefix-matching|前缀匹配]] 的确定性计算优化技术。在 LLM API 调用中,通过对请求 Token 序列的前缀进行持久化哈希存储,使后续相同前缀的请求跳过重复推理,直接复用缓存结果。 + +## 核心机制 + +1. **前缀匹配**:API 层将请求前 N 个 Token 哈希后持久化;后续请求前缀相同时命中缓存 +2. **cache_control 断点**:显式标注缓存边界,控制哪些 Token 进入缓存 +3. **雪崩式失效**:前缀的任何微小更改都会导致整个 [[cache-invalidation|缓存树失效]] + +## 工程意义 + +- **延迟降低**:跳过前缀 Token 的重复推理,实现毫秒级响应 +- **成本优化**:不重复计费缓存的 Token +- **推理一致性**:模型从"热启动"状态开始,保持对系统指令的稳定理解 + +## 架构约束 + +要求[[prompt-layering|提示分层]] 设计中静态前缀的不可变性,以及与 [[stub-pattern|Stub 模式]] 的配合使用。 + +## 相关概念 + +- [[prefix-matching|前缀匹配]] +- [[cache-invalidation|缓存失效]] +- [[cache-hit-ratio|缓存命中率]] +- [[prompt-layering|提示分层]] diff --git a/concepts/prompt-layering.md b/concepts/prompt-layering.md new file mode 100644 index 0000000..8e64fed --- /dev/null +++ b/concepts/prompt-layering.md @@ -0,0 +1,36 @@ +--- +title: "Prompt Layering(提示分层)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, prompt-engineering, system-design] +sources: [[prompt-caching-architecture]] +--- + +# Prompt Layering(提示分层) + +## 定义 + +Prompt Layering 是为最大化 [[cache-hit-ratio|缓存命中率]] 而构建的分层 Prompt 堆栈架构,将 Agent 的上下文按**变更频率**从低到高分为四层。 + +## 四层架构 + +| 层级 | 内容 | 变更频率 | 缓存状态 | +|------|------|----------|----------| +| **Global Layer** | System Prompt、通用工具定义、行为准则 | 几乎不变 | 持久缓存根节点 | +| **Project Layer** | 项目上下文、CLAUDE.md、因子库索引 | 版本级变更 | 跨实例复用 | +| **Session Layer** | 本次分析初始参数(品种、因子集) | 会话级变更 | 缓存边界 | +| **Dynamic Layer** | 实时行情、当前任务、历史对话 | 高频变动 | 缓存断点之后 | + +## 设计原则 + +1. **静态前缀不可变性**:前三层必须保持字符级一致 +2. **纪律性构建**:Session Layer 避免硬编码过多临时变量 +3. **计算开销隔离**:所有高频计算只发生在 Dynamic Layer + +## 相关概念 + +- [[prompt-caching|Prompt Caching]] +- [[cache-hit-ratio|缓存命中率]] +- [[cache-invalidation|缓存失效]] +- [[stub-pattern|Stub 模式]] diff --git a/concepts/prompt-reverse-engineering.md b/concepts/prompt-reverse-engineering.md new file mode 100644 index 0000000..bd1879d --- /dev/null +++ b/concepts/prompt-reverse-engineering.md @@ -0,0 +1,46 @@ +--- +title: 图片反推 Prompt (Prompt Reverse Engineering) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 图片反推 Prompt (Prompt Reverse Engineering) + +**从参考图像中提取并重构生成 Prompt 的系统方法**,核心是将视觉美学属性转化为可操作的自然语言描述。 + +## 15 维分析框架 + +### 基础维度 +1. **画面风格** — 艺术流派、美学流派 +2. **成分组成** — 前景/中景/背景的元素构成 +3. **构图方式** — 对角、三角、中心、黄金分割等 +4. **分镜类型** — 特写/中景/全景,仰拍/俯拍/平视 +5. **光影特质** — 光源方向、硬/软光、高调/低调 +6. **色调与色彩** — 主色调、对比色、色温 +7. **媒介与材质** — 油画/水彩/数字/丝网印刷等 +8. **情绪与氛围** — 孤独/神圣/叛逆/宁静等 +9. **渲染参数** — 景深、焦段、曝光 + +### 进阶维度 +10. **时代感与文化语境** — 复古/未来/特定年代 +11. **空间逻辑与透视** — 透视类型、空间深度 +12. **信息密度与留白** — 密集拼贴 vs 极简负空间 +13. **动态状态(瞬时感)** — 定格/动态模糊/运动轨迹 +14. **后期处理与数字痕迹** — 噪点/色差/故障/晕影 +15. **符号化特征** — 重复元素、文化符号、图形语言 + +## 工作流 + +1. 提供参考图给 Gemini/GPT +2. 使用 15 维模板分析 → 输出完整 Prompt +3. 代入目标工具(如 [[gpt-image2]])生成 +4. 不满意则迭代修改 Prompt + +## 相关概念 + +- [[gpt-image2]] — GPT-Image-2 工具 +- [[image-generation-prompt-design]] — Prompt 设计原则 +- [[gpt-image2-prompt-collection]] — 风格合集参考 diff --git a/concepts/rag-systems.md b/concepts/rag-systems.md index 70e3f56..14b824c 100644 --- a/concepts/rag-systems.md +++ b/concepts/rag-systems.md @@ -1,3 +1,12 @@ +--- +title: RAG 系统 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # RAG 系统 **类型**: AI 应用架构 diff --git a/concepts/ramsey-context-cache.md b/concepts/ramsey-context-cache.md new file mode 100644 index 0000000..e1648a5 --- /dev/null +++ b/concepts/ramsey-context-cache.md @@ -0,0 +1,34 @@ +--- +title: "Ramsey Context Cache(拉姆齐上下文缓存)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, caching, context-design] +sources: [[ramsey-context-construction]] +--- + +# Ramsey Context Cache(拉姆齐上下文缓存) + +## 定义 + +拉姆齐上下文缓存是基于 [[ramsey-context-graph|拉姆齐上下文图]] 的三层缓存架构,利用 [[ramsey-theory|拉姆齐理论]] 的存在性保证实现 O(1) 上下文命中。 + +## 三层机制 + +| 层级 | 职责 | 触发条件 | +|------|------|----------| +| **缓存池维护** | 动态计算节点间的红/蓝边 | 节点增删事件 | +| **必然团监控器** | 追踪最大蓝色团大小,确保 ≥ t_target | 周期性 / 团大小跌破阈值 | +| **上下文命中** | 从预计算蓝色团直接输出上下文骨架 | 每次请求 | + +## 安全边界 + +- R(3,3) = 6:维持 6 个原子 → 保证存在可用 3-节点团 +- R(4,4) = 18:维持 18 个原子 → 保证存在可用 4-节点团 +- 缓存大小维持在略大于 R(t_target, m_max) 的水平 + +## 相关概念 + +- [[ramsey-context-graph|拉姆齐上下文图]] +- [[context-blue-clique|上下文蓝色团]] +- [[prompt-caching|Prompt Caching]] diff --git a/concepts/ramsey-context-graph.md b/concepts/ramsey-context-graph.md new file mode 100644 index 0000000..4e4dfde --- /dev/null +++ b/concepts/ramsey-context-graph.md @@ -0,0 +1,33 @@ +--- +title: "Ramsey Context Graph(拉姆齐上下文图)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, graph-theory, context-design, ramsey-theory] +sources: [[ramsey-context-construction]] +--- + +# Ramsey Context Graph(拉姆齐上下文图) + +## 定义 + +拉姆齐上下文图是将 Agent 的所有可复用上下文原子(tools、skills、prompts 等)建模为图结构的方法,边着两种颜色: +- **🔵 蓝边**:两个原子可以安全共存于同一上下文(兼容/协同) +- **🔴 红边**:两个原子不能共存(冲突/冗余/token 超限) + +## 核心特征 + +- **涵盖所有边类型**:跨部边(工具-技能、工具-提示、技能-提示)和部内边(工具-工具、技能-技能) +- **动态维护**:新增/淘汰原子时实时更新边,边由启发式函数计算(标签、token 估算、历史共现) +- **拉姆齐保证**:只要节点数 N ≥ R(t, m),就必然存在大小为 t 的蓝色团或大小为 m 的红色独立集 + +## 工程意义 + +将"上下文组装"从在线组合搜索问题转化为"图性质维护"问题。只要维持图在良性状态(蓝色边稠密),就可以用极轻量的贪心法快速筛选出无冲突的上下文子集。 + +## 相关概念 + +- [[ramsey-context-cache|拉姆齐上下文缓存]] +- [[context-blue-clique|上下文蓝色团]] +- [[ramsey-theory|拉姆齐理论]] +- [[prompt-caching|Prompt Caching]] diff --git a/concepts/ramsey-context-template.md b/concepts/ramsey-context-template.md new file mode 100644 index 0000000..cb0b5a9 --- /dev/null +++ b/concepts/ramsey-context-template.md @@ -0,0 +1,33 @@ +--- +title: "Ramsey Context Template(拉姆齐上下文模板)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [caching, template, kv-cache, context-design] +sources: [[ramsey-context-construction]] +--- + +# Ramsey Context Template(拉姆齐上下文模板) + +## 定义 + +拉姆齐上下文模板是系统后台异步维护的**蓝色团模板库**,存储历史上频繁出现且效果良好的兼容上下文组合。这些模板天然是稳定前缀,直接提升 [[cache-hit-ratio|KV cache 命中率]]。 + +## 工作流程 + +1. **后台构建**:异步追踪历史上成功的蓝色团,存入模板库 +2. **在线匹配**:新请求到达时,用向量相似度或关键词匹配寻找最接近模板 +3. **模板复用**:匹配度超阈值 → 直接复用模板作为上下文骨架 +4. **动态更新**:使用统计上报,模板库持续进化 + +## 与 Prompt Caching 的协同 + +- 模板复用的前缀一致性 → [[prefix-matching|前缀匹配]] 命中 +- 与 [[stub-pattern|Stub 模式]] 异曲同工:通过固定结构保证缓存稳定性 +- KV cache 命中率实测可达 **80%+** + +## 相关概念 + +- [[context-blue-clique|上下文蓝色团]] +- [[ramsey-context-cache|拉姆齐上下文缓存]] +- [[prompt-caching|Prompt Caching]] diff --git a/concepts/ramsey-numbers.md b/concepts/ramsey-numbers.md new file mode 100644 index 0000000..ee3a729 --- /dev/null +++ b/concepts/ramsey-numbers.md @@ -0,0 +1,47 @@ +--- +title: "Ramsey Numbers(拉姆齐数)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [combinatorics, graph-theory, extremal-combinatorics] +sources: [[ramsey-numbers-survey]] +--- + +# Ramsey Numbers(拉姆齐数) + +## 定义 + +拉姆齐数 R(r,s) 是满足以下性质的最小正整数 n:对完全图 K_n 的任意红蓝二色边着色,必然包含一个红色 K_r 或一个蓝色 K_s。 + +等价表述:任意 n 顶点图或其补图中必含 r-团或 s-独立集的最小 n。 + +## 核心性质 + +- **对称性**:R(r,s) = R(s,r) +- **边界**:R(k,2) = k +- **递归上界**:R(r,s) ≤ R(r-1,s) + R(r,s-1)(鸽巢原理) + +## 已知精确值 + +| k | R(k) | 来源 | +|---|------|------| +| 3 | 6 | 聚会问题 | +| 4 | 18 | Greenwood-Gleason 1955 | +| 5 | 43-48 | Exoo(↓), McKay-Radziszowski(↑) | +| 6 | 102-165 | 精确值未知 | + +## 一般界 + +- **下界**(Erdős 1947):R(k) > 2^{k/2} +- **上界**(Conlon 2009):R(k) ≤ 4^k / √k +- **指数鸿沟**:底数 √2(≈1.414)到 4 的差距是核心未解决问题 + +## 非平凡渐近阶 + +R(3,k) = Θ(k²/log k) 是少数渐近阶已完全确定的例子(Ajtai-Komlós-Szemerédi 1980 + Kim 1995)。 + +## 相关概念 + +- [[diagonal-ramsey-number|对角拉姆齐数]] +- [[ramsey-theory|拉姆齐理论]] +- [[hypergraph-ramsey-number|超图拉姆齐数]] diff --git a/concepts/ramsey-theory-applications.md b/concepts/ramsey-theory-applications.md new file mode 100644 index 0000000..f3fd426 --- /dev/null +++ b/concepts/ramsey-theory-applications.md @@ -0,0 +1,41 @@ +--- +title: "Ramsey Theory Applications(拉姆齐理论应用)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [applications, cross-disciplinary, cs-theory, cryptography] +sources: [[ramsey-numbers-survey]] +--- + +# Ramsey Theory Applications(拉姆齐理论跨学科应用) + +## 计算机科学 + +- **分布式系统**:拜占庭容错中保证共识的最少节点数可用 Ramsey 参数刻画 +- **网络设计**:大规模网络中某些子结构不可避免,用于设计通信协议和缓存策略 +- **强化学习**:Kandasamy 等 (2016) 将 Ramsey 图搜索建模为 POMDP + +## 密码学 + +- **随机性提取器**:将弱随机源转换为均匀分布,性能与 Ramsey 图显式构造直接相关 +- **隐私放大**:量子密钥分发中的安全性证明依赖 Ramsey 型组合论证 + +## 物理学 + +- **相变材料**:GST 材料化学键开关的 Ramsey 理论分析(Bormashenko 2024-25) +- 二级相变中必然出现的单色三角形对应不稳定相互作用构型 + +## 生物学 + +- **基因调控网络**:必然出现的特定功能模块(如双负反馈环) +- **神经科学**:密集神经连接中必然出现的神经元团簇 + +## 社会科学 + +- 儿童友谊关系研究中,20 人群体必含 4 人全朋友或全非朋友(Szalai 1960s) +- 社会选择理论的不可能性定理具有 Ramsey 型特征 + +## 相关概念 + +- [[ramsey-theory|拉姆齐理论]] +- [[green-tao-theorem|Green-Tao 定理]] diff --git a/concepts/ramsey-theory.md b/concepts/ramsey-theory.md new file mode 100644 index 0000000..e710be9 --- /dev/null +++ b/concepts/ramsey-theory.md @@ -0,0 +1,40 @@ +--- +title: "Ramsey Theory(拉姆齐理论)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [combinatorics, graph-theory, mathematical-philosophy] +sources: [[ramsey-numbers-survey]] +--- + +# Ramsey Theory(拉姆齐理论) + +## 定义 + +拉姆齐理论是组合数学的核心分支,其核心信条可概括为:"**完全的无序是不可能的**"(Complete disorder is impossible. — Theodore S. Motzkin)。该理论揭示了在任何足够大的结构中,必然存在某种规则性子结构。 + +## 历史 + +- **1928**:Frank Ramsey 在《论形式逻辑的一个问题》中开创该领域,年仅25岁,次年去世 +- **1935**:Erdős 和 Szekeres 重新发现,提出"幸福结局问题" +- **1947**:Erdős 引入[[probabilistic-method|概率方法]],彻底改变组合数学 + +## 核心分支 + +| 分支 | 核心问题 | 代表结果 | +|------|----------|----------| +| 图 Ramsey | 边着色下必然出现的单色团 | [[ramsey-numbers|R(k)]] | +| 超图 Ramsey | k-一致超图着色 | [[hypergraph-ramsey-number|R^{(k)}]] | +| 几何 Ramsey | 欧氏空间点的凸子集 | [[geometric-ramsey-theory|幸福结局问题]] | +| 算术 Ramsey | 整数列中的等差数列 | [[van-der-waerden-theorem|van der Waerden]] | +| 无限 Ramsey | ℕ 的着色与无限单色子集 | [[paris-harrington-theorem|Paris-Harrington]] | + +## 哲学意蕴 + +Ramsey 理论表明,秩序并非需要精心设计的产物——它是大规模系统中数学上不可避免的。这一洞见从组合数学延伸到物理学、生物学乃至社会科学。 + +## 相关概念 + +- [[ramsey-numbers|拉姆齐数]] +- [[probabilistic-method|概率方法]] +- [[godel-incompleteness-theorems|哥德尔不完备定理]] diff --git a/concepts/random-graph-theory.md b/concepts/random-graph-theory.md new file mode 100644 index 0000000..e788d76 --- /dev/null +++ b/concepts/random-graph-theory.md @@ -0,0 +1,25 @@ +--- +title: "Random Graph Theory(随机图理论)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [probability, graph-theory, phase-transition, placeholder] +sources: [[ramsey-numbers-survey]] +--- + +# Random Graph Theory(随机图理论) + +## 定义 + +随机图理论以 Erdős-Rényi 模型 G(n,p) 为核心研究对象:n 顶点图,每条边独立以概率 p 出现。 + +> 此页面为占位符。 + +## 起源 + +直接源于 [[probabilistic-method|概率方法]] 在 Ramsey 数下界证明中的应用(Erdős 1947)。 + +## 相关概念 + +- [[probabilistic-method|概率方法]] +- [[ramsey-theory|拉姆齐理论]] diff --git a/concepts/real-life-context-learning.md b/concepts/real-life-context-learning.md new file mode 100644 index 0000000..e3aa47d --- /dev/null +++ b/concepts/real-life-context-learning.md @@ -0,0 +1,80 @@ +--- +title: 真实生活上下文学习 (Real-Life Context Learning) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [llm, benchmark, alignment] +sources: [papers/hunyuan-team-cl-bench-life.md] +--- + +# 真实生活上下文学习 (Real-Life Context Learning) + +> 语言模型从**混乱、碎片化、社会性嵌入**的日常上下文中搜索、整理和推理信息以解决任务的能力。与传统专业领域上下文学习的核心区别:上下文性质的根本不同。 + +## 定义 + +真实生活上下文学习(Real-Life Context Learning)是指语言模型处理以下类型上下文并从中提取任务所需信息的能力: + +- **多参与方、非正式**的沟通记录(群聊、论坛帖子) +- **碎片化、非结构化**的个人信息片段(笔记、书签、日记) +- **时序分散、弱标注**的行为轨迹(健身日志、浏览历史、游戏记录) + +## 与传统上下文学习的本质区别 + +| 维度 | 专业领域上下文 | 真实生活上下文 | +|------|-------------|-------------| +| 结构 | 结构化文档、代码 | 碎片化、弱结构 | +| 信息密度 | 高密度、聚焦 | 低密度、噪声混入 | +| 参与者 | 通常单一来源 | 多参与者、别名交错 | +| 时序 | 一般线性叙述 | 非线性、跳跃、修订覆盖 | +| 社会性 | 低(事实性为主) | 高(意图、关系、立场) | +| 评估标准 | 客观正确性 | 需考虑约束满足、多方利益平衡 | + +## 核心挑战 + +### 1. 信息碎片化 +相关信息分散在多个部分记录中(如跨数月的群聊历史),模型需要**线索拼接**(clue stitching)能力。 + +### 2. 身份指代消解 +在群聊中,同一人可能有多个别名,不同发言者的立场和关系需要跨多轮推断。CL-bench Life 实验表明这是模型的**系统性弱点**。 + +### 3. 噪声过滤 +真实生活上下文包含大量与任务无关的内容(闲聊、表情、题外话),模型需要区分信号与噪声。 + +### 4. 隐式模式识别 +行为轨迹类任务要求模型从弱标注的长序列中**聚合微小事件、推断潜模式**,而不依赖显式标注。 + +### 5. 时序推理 +跨时间窗口的信息变化(修订覆盖、版本迭代、约束演变)需要模型追踪信息的时间线。 + +## 与长上下文能力的解耦 + +CL-bench Life 的核心发现之一是:真实生活上下文学习能力**与长上下文能力不直接等价**: + +- 上下文长度范围 5.4K–170.8K,均在当前前沿模型的上下文窗口内 +- 解决率与上下文长度**无强相关性** +- GPT-5.4 在最长区间(>32K)取得最高解决率 +- **真正瓶颈在于**混乱上下文的推理质量,而非容量 + +## 能力维度框架 + +真实生活上下文学习可分解为以下子能力: + +1. **上下文组织** (Context Organization):从混乱输入中结构化和排序信息 +2. **信息整合** (Information Integration):跨多个碎片合并证据 +3. **约束追踪** (Constraint Tracking):在多人对话中追踪约束的增减变化 +4. **身份推理** (Identity Reasoning):消解别名、追踪关系、推断立场 +5. **时序感知** (Temporal Awareness):理解信息的时序依赖和因果链 +6. **噪声容忍** (Noise Tolerance):在大量不相关信息中保持精确 + +## 相关概念 +- [[cl-bench-life]] — CL-bench Life 基准 +- [[context-misuse]] — 上下文误用 +- [[messy-context-reasoning]] — 混乱上下文推理 +- [[context-learning]] — 通用上下文学习(专业领域) +- [[hunyuan-team-cl-bench-life]] — 论文详情 +- [[identity-reference-resolution]] — 身份指代消解 + +--- + +*Last Updated: 2026-05-01* diff --git a/concepts/rectified-flows.md b/concepts/rectified-flows.md new file mode 100644 index 0000000..8e94d0b --- /dev/null +++ b/concepts/rectified-flows.md @@ -0,0 +1,52 @@ +--- +title: "Rectified Flows" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [flow-matching, generative-modeling, ODE] +sources: + - https://arxiv.org/abs/2209.03003 +--- + +# Rectified Flows + +Rectified Flows 是 [[flow-matching|Flow Matching]] 框架中的一种**直线插值路径**,定义从噪声到数据的线性变换。 + +## 定义 + +``` +z_t = t·x + (1-t)·ε +``` + +其中: +- x ~ p_data:干净数据 +- ε ~ p_noise(通常 N(0,I)):噪声 +- t ∈ [0,1]:时间参数 + +速度场为常数:`v = dz/dt = x - ε` + +## 特性 + +1. **直线轨迹**:在概率空间中寻找近乎直线的 transport map +2. **常数速度**(在 x,ε 确定时):使得 ODE 求解特别简单 +3. **可整流(rectifiable)**:通过反复"整流"(reflow)可以进一步拉直轨迹,减少采样步数 + +## 与其他插值路径对比 + +| 路径 | 公式 | 特点 | +|------|------|------| +| Rectified Flow | t·x + (1-t)·ε | 直线、速度恒定 | +| VP-SDE (DDPM) | α_t·x + σ_t·ε | 曲线、方差保持 | +| VE-SDE | x + σ_t·ε | 曲线、方差爆炸 | + +## 在 ELF 中的应用 + +[[embedded-language-flows|ELF]] 使用 Rectified Flows 作为默认插值路径。直线轨迹使得: +- ODE 求解步数可以较少(32 步即可) +- 与 x-prediction 的参数化配合简洁 +- 训练稳定,特别是在高维嵌入空间(512-768d per token) + +## 参考 + +- Liu et al., "Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow", ICLR 2023 +- Albergo et al., "Stochastic Interpolants", JMLR 2025 diff --git a/concepts/recursive-self-improvement.md b/concepts/recursive-self-improvement.md index 5ce4656..317a5e4 100644 --- a/concepts/recursive-self-improvement.md +++ b/concepts/recursive-self-improvement.md @@ -1,3 +1,12 @@ +--- +title: Recursive Self-Improvement (递归自我改进) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Recursive Self-Improvement (递归自我改进) > **类型**: 概念 diff --git a/concepts/reference-gap.md b/concepts/reference-gap.md new file mode 100644 index 0000000..bc27652 --- /dev/null +++ b/concepts/reference-gap.md @@ -0,0 +1,39 @@ +--- +title: "引用鸿沟 (Reference Gap)" +domain: "Multimodal AI / Visual Reasoning" +tags: [reference-gap, multimodal, spatial-reasoning, grounding] +sources: [[thinking-with-visual-primitives]] +--- + +# 引用鸿沟 (Reference Gap) + +> 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代——这是导致 MLLM 空间推理逻辑崩溃的根本瓶颈。 + +## 定义 + +Reference Gap(引用鸿沟)由 DeepSeek-AI 在「Thinking with Visual Primitives」中提出,指自然语言固有的指代模糊性:当模型需要在复杂空间布局中进行多步推理时,语言描述(如「左边的红色物体」)无法唯一确定视觉实体,导致推理链断裂。 + +## 与感知鸿沟的区别 + +| 鸿沟类型 | 问题本质 | 现有方案 | 是否已解决 | +|----------|----------|----------|-----------| +| [[perception-gap|感知鸿沟]] | 模型「看不清楚」细节 | 高分辨率裁剪、动态 patching | 部分解决 | +| **引用鸿沟** | 模型「说不清楚」指代 | 视觉原语 | 本文提出 | + +>「Seeing is not reasoning」——即使完美感知,没有精确的空间指代机制,推理仍会崩溃。 + +## 典型表现 + +- **密集计数**:语言无法逐个指代「第 N 个物体」,导致重复计数或遗漏 +- **空间关系推理**:「在 A 左边、B 右边的物体」在拥挤场景中高度歧义 +- **拓扑推理**:迷宫探索中无法用语言精确描述不规则路径的连通性 + +## 解决方案 + +[[visual-primitives|视觉原语]]:将 bounding boxes 和 points 直接嵌入思维链,使模型能够「边指边想」,将抽象的语言概念锚定在具体的图像坐标上。 + +## 相关概念 + +- [[visual-primitives|视觉原语]] — 解决引用鸿沟的核心机制 +- [[perception-gap|感知鸿沟]] — 互补瓶颈 +- [[multimodal-large-language-model|多模态大语言模型]] — 场景 \ No newline at end of file diff --git a/concepts/reinforcement-learning-trading.md b/concepts/reinforcement-learning-trading.md new file mode 100644 index 0000000..51514b4 --- /dev/null +++ b/concepts/reinforcement-learning-trading.md @@ -0,0 +1,25 @@ +--- +title: "Reinforcement Learning Trading(强化学习交易)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [trading, reinforcement-learning, placeholder] +sources: [[prompt-caching-architecture]] +--- + +# Reinforcement Learning Trading(强化学习交易) + +## 定义 + +强化学习交易是将强化学习算法应用于金融市场交易决策的交叉领域,涉及状态空间建模、奖励函数设计和策略优化。 + +> 此页面为占位符,由 [[meta-jctrader|Meta-JCTrader]] 案例集成时创建。 + +## 案例 + +- [[meta-jctrader|Meta-JCTrader]]:高频交易 + RL + Meta-Learning + +## 相关概念 + +- [[meta-jctrader|Meta-JCTrader]] +- [[prompt-caching-architecture|Prompt Caching 架构工程手册]] diff --git a/concepts/replay-buffer-rl-llm.md b/concepts/replay-buffer-rl-llm.md new file mode 100644 index 0000000..643bc53 --- /dev/null +++ b/concepts/replay-buffer-rl-llm.md @@ -0,0 +1,60 @@ +--- +title: "Replay Buffer 在 LLM RL 中的应用" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["reinforcement-learning", "llm-post-training", "replay-buffer"] +sources: ["arxiv:2503.18929"] +--- + +# Replay Buffer 在 LLM RL 中的应用 + +**Replay Buffer** 是 [[tba|TBA]] 框架的核心组件,用于存储和采样 Searcher 节点生成的所有 (query, response, reward) 轨迹,使 Trainer 可以**独立于生成速度**进行训练。 + +## 架构 + +``` +D_local (per Searcher) D_global (shared) +┌─────────────────┐ ┌─────────────────────┐ +│ (x, y1, r1) │ ──sync──▶ │ x1: [(y1, r1, step),│ +│ (x, y2, r2) │ │ (y2, r2, step),│ +│ ... │ │ ...] │ +└─────────────────┘ │ x2: [...] │ + └─────────────────────┘ + │ + Trainer 采样 + (recency + reward) +``` + +## 设计要点 + +### 1. 存储内容 + +每条轨迹存储:`(query x, response y, reward r, trainer_step)` ——其中 `trainer_step` 记录了生成时的训练步数,用于计算 off-policyness 程度。 + +### 2. 采样策略:[[reward-recency-sampling]] + +- **Recency 优先**:采样最近同步步骤添加的数据(近似 on-policy) +- **奖励优先**:用 softmax(reward) 或均匀分布采样(鼓励探索) + +参数 $m$ 控制 recency 优先的概率。实验表明 $m = 0.5$–$0.6$ 效果最佳。 + +### 3. Buffer 大小 + +增大 buffer 容量可保留更多 off-policy 数据,在 red-teaming 任务中增加 buffer 大小提升了攻击多样性(牺牲部分毒性)。 + +## 为什么 LLM RL 需要 Buffer? + +传统的 PPO/GRPO 训练中,生成一批数据后用一次即丢弃——数据利用率极低。Buffer 使得: + +- **数据复用**:同一条轨迹可被多次训练(重要性随 staleness 增加而衰减) +- **解耦速度**:搜索和训练可独立节奏(搜索快于训练时 buffer 积累;训练快于搜索时 buffer 供给稳定) +- **探索增强**:Buffer 包含历史上多样化的探索数据 + +## 相关概念 + +- [[tba|TBA]] — 框架实现 +- [[asynchronous-rl-llm]] — 异步 RL 范式 +- [[searcher-trainer-decoupling]] — 架构模式 +- [[reward-recency-sampling]] — 采样策略 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/reverse-proxy-authentication.md b/concepts/reverse-proxy-authentication.md new file mode 100644 index 0000000..5ad431f --- /dev/null +++ b/concepts/reverse-proxy-authentication.md @@ -0,0 +1,46 @@ +--- +title: 反向代理认证 (Reverse Proxy Authentication) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 反向代理认证 (Reverse Proxy Authentication) + +**在反向代理层拦截和验证请求身份的安全模式**,将认证逻辑从应用层上提到网关层。 + +## 核心优势 + +1. **关注点分离**: 后端服务无需处理认证逻辑,专注业务 +2. **统一入口**: 多个后端共享同一套认证机制 +3. **减少延迟**: 未认证请求在网关层即被拒绝,不到达后端 +4. **配置集中**: 认证规则在反向代理配置中统一管理 + +## 在 Caddy 中的实现 + +[[caddy-web-server|Caddy]] 的 `header` 匹配器 + `respond` 指令构成了最简洁的反向代理认证方案: + +```caddy +@unauthorized { + not header X-API-Key "secret-key" +} +respond @unauthorized "Unauthorized" 401 +reverse_proxy localhost:8080 +``` + +核心逻辑:定义"未授权"条件 → 拦截并返回 401 → 其余请求放行到后端。 + +## 扩展模式 + +- **路径级控制**: `route` + `handle` 对不同路径施加不同认证策略 +- **多 Key 白名单**: 命名匹配器组合多个允许的 Key +- **委托认证**: [[forward-authentication|forward_auth]] 将认证决策交给外部服务 + +## 相关概念 + +- [[api-key-authentication]] — API Key / Token 的具体认证机制 +- [[forward-authentication]] — 外部委托认证 +- [[caddy-web-server]] — Caddy 实现 +- [[caddy-reverse-proxy-auth]] — 完整配置指南 diff --git a/concepts/reward-hacking-llm.md b/concepts/reward-hacking-llm.md new file mode 100644 index 0000000..ab43dd7 --- /dev/null +++ b/concepts/reward-hacking-llm.md @@ -0,0 +1,44 @@ +--- +title: LLM 奖励黑客 (Reward Hacking in LLMs) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# LLM 奖励黑客 (Reward Hacking in LLMs) + +**RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象,在 [[unsupervised-rlvr|URLVR]] 中尤其突出。 + +## 在 URLVR 中的特殊表现 + +不同于标准 RLVR(奖励来自 ground truth),URLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险: + +1. 模型学会生成让内在奖励高的输出 +2. 但这些输出并非真实正确 +3. 训练信号强化了这一模式 +4. → **模型崩溃 (Model Collapse)** + +## 崩溃模式 + +- **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案 +- **多样性丧失**: 锐化机制消灭探索所需的多样性 +- **自我强化**: 错误的奖励信号驱动模型在错误方向上加速 + +## 与 Sharpening 的关系 + +[[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免:当模型错位时,锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。 + +## 缓解方向 + +- [[self-verification-rewards|外部验证奖励]](绕过自我循环) +- 验证与生成的解耦 +- 熵正则化惩罚 + +## 相关概念 + +- [[intrinsic-rewards-sharpening]] — 理论根源 +- [[model-collapse-step]] — 崩溃时机度量 +- [[unsupervised-rlvr]] — URLVR 全景 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/reward-model.md b/concepts/reward-model.md new file mode 100644 index 0000000..a815f33 --- /dev/null +++ b/concepts/reward-model.md @@ -0,0 +1,36 @@ +--- +title: "奖励模型 (Reward Model, RM)" +domain: "Reinforcement Learning" +tags: [reward-model, rlhf, grpo, reinforcement-learning] +sources: [[thinking-with-visual-primitives]] +--- + +# 奖励模型 (Reward Model, RM) + +> 在 RLHF/GRPO 训练中提供奖励信号的评判模型——可以是基于规则的、LLM 评判的、或混合的。 + +## 视觉原语框架中的三类 RM + +| RM 类型 | 实现 | 任务覆盖 | 评分维度 | +|---------|------|----------|----------| +| **Format RM** | 规则 | 所有任务 | 格式正确性、防重复/死循环 | +| **Quality RM** | LLM (GRM) | 所有任务 | 一致性、矛盾、冗余、奖励黑客 | +| **Accuracy RM** | 任务特定 | 各任务独立 | 见下方 | + +### Accuracy RM 的任务特定设计 + +- **计数**:[[exponential-decay-reward|指数衰减奖励]] — 平滑相对误差 +- **空间推理/VQA**:LLM (GRM) — 思维+答案双维度 +- **迷宫导航**:因果探索进度 + 完整性 + 违规惩罚 +- **路径追踪**:[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点 + 连续性 + +## 关键设计原则 + +1. **密集信号**:不为最终答案提供二元奖励,而是每一步都给反馈 +2. **因果一致性**:迷宫场景中,遇墙违规→截断后续所有步骤 +3. **防奖励黑客**:Quality RM 专门检测模型伪造 ground truth 等行为 + +## 相关概念 + +- [[group-relative-policy-optimization|群体相对策略优化]] — 使用 RM 的 RL 算法 +- [[specialized-rl|专项强化学习]] — RM 的应用场景 \ No newline at end of file diff --git a/concepts/reward-recency-sampling.md b/concepts/reward-recency-sampling.md new file mode 100644 index 0000000..d6e0ce3 --- /dev/null +++ b/concepts/reward-recency-sampling.md @@ -0,0 +1,55 @@ +--- +title: "奖励-最近度混合采样" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["reinforcement-learning", "sampling-strategy", "replay-buffer"] +sources: ["arxiv:2503.18929"] +--- + +# 奖励-最近度混合采样 + +**奖励-最近度混合采样** 是 [[tba|TBA]] 中从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样数据的核心策略,在**稳定性**(recency)和**探索**(reward)之间取得平衡。 + +## 两种采样策略 + +### 1. Recency 优先(概率 $m$) + +采样最近同步步骤中添加的数据(最多 $2k-1$ 步 off-policy)→ **近似 on-policy**。 + +目的:保持训练稳定性,确保策略不会因过于陈旧的 off-policy 数据而剧烈震荡。 + +### 2. 奖励优先(概率 $1-m$) + +在奖励优先模式下,进一步混合两种分布: +- **Softmax(reward)**:偏向高奖励轨迹 → **利用** +- **Uniform**:等概率采样所有轨迹 → **探索** + +目的:发现和强化高奖励行为模式,同时避免 mode collapse。 + +## 参数 $m$ 的影响 + +| $m$ 值 | 行为 | 效果 | +|--------|------|------| +| $m=1$ | 纯 recency | 最稳定,但可能探索不足 | +| $m=0.5$–$0.6$ | **推荐** | 平衡稳定性与探索 | +| $m=0$ | 纯 reward | 可能 mode collapse | + +**实验发现**(PFT,Pythia 410M): +- $m=0.4$: win rate 0.67(最低) +- $m=0.5$: win rate 0.82(最佳) +- $m=0.6$: win rate 0.80 + +## 设计哲学 + +与标准 RL 的 $\epsilon$-greedy 不同,TBA 的混合采样直接在 **buffer 层面** 操作: +- Recency 模式处理分布偏移(distribution shift) +- Reward 模式处理信用分配(credit assignment) +- 两者在 query 级别随机切换(同一 batch 中不同 query 可能使用不同策略) + +## 相关概念 + +- [[tba|TBA]] — 框架实现 +- [[replay-buffer-rl-llm]] — Buffer 设计 +- [[off-policy-llm-post-training]] — Off-policy 范式 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/risograph-print-style.md b/concepts/risograph-print-style.md new file mode 100644 index 0000000..21f33b8 --- /dev/null +++ b/concepts/risograph-print-style.md @@ -0,0 +1,29 @@ +--- +title: Riso 印刷风格 (Risograph Print Style) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# Riso 印刷风格 (Risograph Print Style) + +**以 Risograph 数码复印机命名的复古印刷美学**,兼具丝网印刷的颗粒感与胶印的色彩叠加。 + +## 视觉特征 + +- **半调网点 (Halftone)**: 标志性的网点纹理,由印刷制版工艺决定 +- **色彩叠加**: 专色叠印产生意外的混色效果(类似 CMYK 但更随机) +- **纸张纹理**: 粗糙颗粒感的米色/本色纸张质感 +- **波普基因**: 与波普艺术共享高饱和+网点+重复的美学语言 + +## 文化定位 + +Riso 印刷在独立出版/zine 文化中广受欢迎,代表一种"手工感+工业复制"的张力。在 [[gpt-image2]] 中是快速获得杂志封面质感的有效风格关键词。 + +## 相关概念 + +- [[halftone-print-style]] — 半调印刷通用概念 +- [[russian-constructivism]] — 共享印刷/海报设计传统 +- [[gpt-image2-prompt-collection]] — 风格合集 diff --git a/concepts/rlvr-unified-framework.md b/concepts/rlvr-unified-framework.md new file mode 100644 index 0000000..d7d7071 --- /dev/null +++ b/concepts/rlvr-unified-framework.md @@ -0,0 +1,26 @@ +--- +title: RLVR 统一理论框架 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# RLVR 统一理论框架 + +**URLVR 的统一数学框架**,由 He et al. (ICLR 2026) 建立,从 KL 正则化 RL 目标推导出所有内在方法的收敛行为。 + +## 核心结论 + +无论奖励函数具体设计如何,内在 URLVR 的最优策略闭式解统一为: + +$$\pi_\theta^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)$$ + +这揭示了所有方法本质上都在做「锐化初始分布」。 + +## 相关概念 + +- [[intrinsic-rewards-sharpening]] — Sharpening 机制 +- [[unsupervised-rlvr]] — URLVR 全景 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/rolling-kv-cache.md b/concepts/rolling-kv-cache.md new file mode 100644 index 0000000..613fa40 --- /dev/null +++ b/concepts/rolling-kv-cache.md @@ -0,0 +1,74 @@ +--- +title: "滚动 KV 缓存 (Rolling KV Cache)" +created: 2026-05-14 +updated: 2026-05-14 +type: concept +tags: [llm, inference, kv-cache, streaming, attention] +sources: ["https://arxiv.org/abs/2309.17453"] +--- + +# 滚动 KV 缓存 (Rolling KV Cache) + +## 定义 + +滚动 KV 缓存是 [[streaming-llm|StreamingLLM]] 框架的核心机制,将 KV 缓存分为两部分: + +1. **Attention Sinks**(4 个初始 Token 的 KV):稳定 SoftMax 注意力分布 +2. **Rolling KV Cache**(最近 $L$ 个 Token 的 KV):负责语义建模 + +两部分共同构成一个固定大小($L+4$)的 KV 缓存,随着新 Token 的生成不断滚动更新。 + +## 数据结构 + +``` +生成 Token 7 时: +[0][1][2][3] | [ ][ ][ ][4][5][6][7] + ↑ Attention ↑ Rolling KV Cache + Sinks (最近 L 个) + +生成 Token 8 时: +[0][1][2][3] | [ ][ ][ ][ ][5][6][7][8] + ↑ 不变 ↑ Token 4 被逐出,Token 8 加入 +``` + +## 关键设计决策 + +### 位置编码在 Cache 内部分配 + +StreamingLLM **不**保留原始文本中的位置索引,而是在 cache 内部分配连续位置: + +- Cache 中 Token = `[0, 1, 2, 3, 6, 7, 8]`,解码第 9 个 Token +- 分配的位置 = `[0, 1, 2, 3, 4, 5, 6, 7]` +- **而非**原始位置 `[0, 1, 2, 3, 6, 7, 8, 9]` + +> 这是 StreamingLLM 性能的关键——跳跃的位置索引会破坏相对位置编码的一致性。 + +### RoPE 兼容性 +- 在应用旋转变换**之前**缓存 Key +- 每个解码步对滚动缓存中的 Key 重新应用位置变换 +- 确保相对位置信息正确反映 cache 内的邻近关系 + +### ALiBi 兼容性 +- 更直接:使用连续的线性偏置替代跳跃偏置 +- 无需额外的重新计算 + +## 复杂度分析 + +| 操作 | 复杂度 | +|------|--------| +| 内存 | O(L + S) 固定大小,S=4 为 Sink Token 数 | +| 每 Token 解码时间 | O((L+S) · d),恒定 | +| 累积时间(T Token) | O(T · (L+S) · d) | + +其中 L 为滑动窗口大小,S 为保留的初始 Token 数,d 为模型维度。 + +## 与 Sliding Window Re-computation 的对比 + +Re-computation 对每个新 Token 重建 L 个 Token 的 KV(O(TL²) 累积),StreamingLLM 仅需 O(TL) → 最高 22.2× 加速。 + +## 相关概念 + +- [[streaming-llm|StreamingLLM]] — 框架主页 +- [[attention-sinks|注意力汇]] — 滚动的锚定部分 +- [[window-attention|窗口注意力]] — 不带 Sink 的滚动缓存 +- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 更广泛的 KV 优化 diff --git a/concepts/rotary-position-embedding.md b/concepts/rotary-position-embedding.md index 804afd4..165cc7a 100644 --- a/concepts/rotary-position-embedding.md +++ b/concepts/rotary-position-embedding.md @@ -1,3 +1,12 @@ +--- +title: 旋转位置编码 (RoPE) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 旋转位置编码 (RoPE) **Rotary Position Embedding**,由苏剑林等 2021 年提出,通过旋转变换将位置信息编码到注意力计算中。 diff --git a/concepts/round-trip-reconstruction-score.md b/concepts/round-trip-reconstruction-score.md new file mode 100644 index 0000000..28aad1b --- /dev/null +++ b/concepts/round-trip-reconstruction-score.md @@ -0,0 +1,41 @@ +--- +title: "Round-Trip Reconstruction Score (RS@k)" +created: 2026-05-14 +type: concept +tags: ["evaluation-metric", "semantic-equivalence", "reconstruction", "delegate-52"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Round-Trip Reconstruction Score (RS@k) + +RS@k 是 [[delegate-52]] 中的核心评估指标,衡量经过 k 次委托交互后文档相对于原始状态的重建质量。 + +## 定义 + +在 [[backtranslation-round-trip-relay|回译接力]]中,k 次交互 = k/2 个回译。RS@k 定义为: + +RS@k(s) = sim(s, ŝ_{k/2}) + +其中 sim 是领域特定的 [[semantic-equivalence|语义等价]]函数 ∈ [0, 1]。 + +## 含义 + +- **RS@2**:1 次回译后的表现(短交互) +- **RS@20**:10 次回译后的表现(主要实验中) +- **RS@100**:50 次回译后的表现(扩展实验中) + +## Ready 阈值 + +RS@20 ≥ 98% 视为该模型在该领域对 [[delegated-work|委托工作]]"准备就绪"。 + +## 跨交互退化轨迹 + +以 GPT 5.4 为例:RS@2 = 94.3 → RS@10 = 79.4 → RS@20 = 71.5 +退化为非线性单调下降,无平台迹象。 + +## 相关概念 + +- [[delegate-52]] — 使用此指标的基准 +- [[backtranslation-round-trip-relay]] — 产生此指标的方法 +- [[semantic-equivalence]] — sim 函数的实现 +- [[document-degradation]] — RS@k 下降揭示的现象 diff --git a/concepts/rule-system-application.md b/concepts/rule-system-application.md new file mode 100644 index 0000000..9b0a905 --- /dev/null +++ b/concepts/rule-system-application.md @@ -0,0 +1,33 @@ +--- +title: 规则系统应用 (Rule System Application) +created: 2026-05-01 +updated: 2026-05-01 +type: concept +tags: [benchmark, llm] +sources: [papers/dou-cl-bench.md] +--- + +# 规则系统应用 (Rule System Application) + +> CL-bench 的第二类上下文:模型需**理解新规则系统并正确执行**。子类间性能差异最悬殊(法律 >40%,数学 <15%)。 + +## 五个子类 + +| 子类 | 典型场景 | 难度 | +|------|---------|------| +| Game Mechanics | 学习新游戏规则并分析局面 | 中 | +| Mathematical Formalism | 在虚构数学公理中构造证明 | **极难** | +| Programming Syntax | 用新编程语言写代码 | 中 | +| Legal & Regulatory | 按虚构法规解释条文 | **最易(>40% GPT-5.1)** | +| Technical Standards | 解读技术标准 | 中 | + +## 关键发现 + +### 法律 vs 数学的巨大鸿沟 +- 法律/监管子类:GPT-5.1 解决率 **>40%**——模型似乎擅长文本化规则推理 +- 数学形式主义子类:大多数模型 **<15%**——形式化符号推理仍然是模型弱点 + +## 相关概念 +- [[context-learning]] — 上下文学习 +- [[dou-cl-bench]] — CL-bench 论文 +- [[domain-knowledge-reasoning]] — 领域知识推理 diff --git a/concepts/russells-paradox.md b/concepts/russells-paradox.md index ce3acb8..ac7cd5b 100644 --- a/concepts/russells-paradox.md +++ b/concepts/russells-paradox.md @@ -1,3 +1,12 @@ +--- +title: 罗素悖论 (Russell's Paradox) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 罗素悖论 (Russell's Paradox) - **领域**: 集合论、数学基础 diff --git a/concepts/russian-constructivism.md b/concepts/russian-constructivism.md new file mode 100644 index 0000000..c0e5c7b --- /dev/null +++ b/concepts/russian-constructivism.md @@ -0,0 +1,29 @@ +--- +title: 俄国构成主义 (Russian Constructivism) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 俄国构成主义 (Russian Constructivism) + +**20 世纪初俄国前卫艺术运动**,强调几何抽象和工业材料,对现代平面设计影响深远。 + +## 视觉特征 + +- **几何主导**: 锐利三角形、圆形、粗重对角线切割 +- **色彩极简**: 通常 2-3 色(红/黑/白或蓝/黑/米白) +- **工业质感**: 丝网印刷、颗粒噪点、磨损纹理 +- **张力构图**: 不对称平衡、倾斜动态感 + +## 在 AI 图像生成中的应用 + +作为 [[gpt-image2]] 的高辨识度风格关键词,适合海报、宣传画、概念设计。 + +## 相关概念 + +- [[risograph-print-style]] — 同属印刷/平面设计传统 +- [[halftone-print-style]] — 半调美学 +- [[gpt-image2-prompt-collection]] — 风格合集 diff --git a/concepts/sde-sampler-language.md b/concepts/sde-sampler-language.md new file mode 100644 index 0000000..3b4ad99 --- /dev/null +++ b/concepts/sde-sampler-language.md @@ -0,0 +1,55 @@ +--- +title: "SDE Sampler for Language Diffusion" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [sampling, diffusion-language-model, SDE, stochastic] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# SDE Sampler for Language Diffusion + +SDE 采样器是 [[embedded-language-flows|ELF]] 中除 ODE 采样外的另一种推理策略,通过在每步注入小噪声引入随机性。 + +## 原理 + +标准 Flow Matching 推理求解确定性 ODE: + +``` +dz_t/dt = v_θ(z_t, t) +``` + +SDE 采样器在每步添加随机扰动: + +``` +z_{t+Δt} = z_t + Δt·v_θ(z_t, t) + √(γ·Δt)·ξ, ξ ~ N(0,I) +``` + +同时调整时间变量 t 向噪声方向偏移,模拟真正的随机微分方程行为。 + +## 效果 + +ELF 实验中,SDE 采样器: +- 在小模型(ELF-B)上显著优于 ODE(Gen. PPL 更低) +- 在大模型(ELF-L)上 ODE 与 SDE 差距缩小 +- 引入的多样性略高于 ODE(unigram entropy 略增) + +## 与 ODE 的权衡 + +| 维度 | ODE | SDE | +|------|-----|-----| +| 确定性 | 完全确定 | 随机 | +| 质量(小模型) | 基准 | 更优 | +| 质量(大模型) | 接近 SDE | 优势缩小 | +| 可复现性 | 是 | 否(需 seed) | + +## 实现 + +ELF 的 SDE 采样器是一个启发式近似,而非精确求解完整 SDE——参考了图像生成中的类似做法(如 Ma et al., 2024 的 SDE 推导)。 + +## 相关概念 + +- [[embedded-language-flows]] — 使用此采样器的模型 +- [[flow-matching]] — 基础生成框架 +- [[continuous-diffusion-language-models]] — 连续 DLM 类别 diff --git a/concepts/searcher-trainer-decoupling.md b/concepts/searcher-trainer-decoupling.md new file mode 100644 index 0000000..aaf8dc2 --- /dev/null +++ b/concepts/searcher-trainer-decoupling.md @@ -0,0 +1,73 @@ +--- +title: "Searcher-Trainer 解耦架构" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["distributed-systems", "reinforcement-learning", "llm-post-training"] +sources: ["arxiv:2503.18929"] +--- + +# Searcher-Trainer 解耦架构 + +**Searcher-Trainer 解耦** 是 [[tba|TBA]] 的架构基础,将 LLM 后训练中的**探索(数据生成)**和**学习(策略更新)**分配到独立的计算节点上,实现高度并行化。 + +## 架构对比 + +### 传统 On-Policy(串行) + +``` +单一节点: + Generate → Reward → Update → Generate → Reward → Update → ... + ↑ │ + └───────────────────────────────────────────────────────┘ + 每次更新后 GPU 闲置等待生成 / 生成等待更新 +``` + +### TBA Searcher-Trainer(并行) + +``` +Searcher 1: Generate ⇢ Reward ⇢ Buffer ─┐ +Searcher 2: Generate ⇢ Reward ⇢ Buffer ─┤ + ... ├── D_global +Searcher N: Generate ⇢ Reward ⇢ Buffer ─┘ + │ + 每 k 步同步 ─────────┤ + │ +Trainer: ← Buffer Sampling ← TB Loss ←┘ +``` + +## 同步协议 + +- **同步周期 $k$**:每 $k$ 步训练后,暂停以交换权重和 buffer 数据 +- **权重传递**:Trainer → Searcher(更新本地推理策略) +- **数据传递**:Searcher → Trainer($D_{local} \to D_{global}$) + +## 节点定义 + +在 TBA 中,"节点" 是执行完整搜索或训练操作所需的计算资源: +- 1 节点 = **1 GPU** +- 典型配置:16 GPU → 15 Searcher + 1 Trainer +- 最小配置:2 GPU → 1 Searcher + 1 Trainer + +## 效率来源 + +| 操作 | 瓶颈类型 | 解耦后效果 | +|------|---------|-----------| +| LLM 推理(生成) | Memory-bound | Searcher 持续 vLLM 推理 | +| 策略更新(训练) | Compute-bound | Trainer 持续 forward+backward | +| **关键** | **两者互不等待** | **GPU 利用率接近 100%** | + +## 与经典分布式 RL 的关系 + +TBA 的 Searcher-Trainer 架构类似于 **IMPALA**(Espeholt et al., 2018),后者也通过 actor-learner 分离实现高效分布式 RL。关键区别: + +- IMPALA 使用 V-trace(需要价值函数 $V(s)$) +- TBA 使用 TB 目标(无需 critic) + +## 相关概念 + +- [[tba|TBA]] — 框架实现 +- [[asynchronous-rl-llm]] — 异步 RL 范式 +- [[replay-buffer-rl-llm]] — Buffer 设计 +- [[reward-recency-sampling]] — 采样策略 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/secure-containers.md b/concepts/secure-containers.md index 6d26870..e349361 100644 --- a/concepts/secure-containers.md +++ b/concepts/secure-containers.md @@ -1,3 +1,12 @@ +--- +title: 安全容器 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 安全容器 **类型**: 虚拟化技术,安全隔离 @@ -147,11 +156,11 @@ ## 相关概念 -- [[ClawLess]] - 使用安全容器的AI代理安全框架 -- [[用户空间内核]] - 一种安全容器技术 -- [[BPF系统调用拦截]] - 容器安全监控技术 -- [[形式化安全模型]] - 容器安全策略基础 -- [[AI代理安全]] - 安全容器的主要应用场景 +- [[clawless]] - 使用安全容器的AI代理安全框架 +- [[userspace-kernel]] - 一种安全容器技术 +- [[bpf-syscall-interception]] - 容器安全监控技术 +- [[formal-security-model]] - 容器安全策略基础 +- [[ai-agent-security]] - 安全容器的主要应用场景 ## 发展趋势 diff --git a/concepts/seer-attention.md b/concepts/seer-attention.md index fa277b9..995f013 100644 --- a/concepts/seer-attention.md +++ b/concepts/seer-attention.md @@ -1,3 +1,12 @@ +--- +title: SeerAttention +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # SeerAttention **可学习稀疏注意力**,通过预测注意力稀疏模式实现高效的动态稀疏计算。 diff --git a/concepts/self-conditioning.md b/concepts/self-conditioning.md new file mode 100644 index 0000000..8f1eea8 --- /dev/null +++ b/concepts/self-conditioning.md @@ -0,0 +1,55 @@ +--- +title: "Self-Conditioning" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [diffusion, conditioning, iterative-generation] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# Self-Conditioning + +Self-conditioning 是一种不需要外部条件信号的扩散模型条件化技术:将模型自身的**中间预测**作为下一步的条件输入。 + +## 机制 + +### 训练 + +以 50% 概率执行双次前向 pass: +1. **第一次 pass**:`x̂' = net_θ(z_t, ∅, t)` — 无条件的初步预测 +2. **第二次 pass**:`x̂ = net_θ(z_t | x̂', t)` — 以 x̂' 为条件 + +另 50% 概率执行标准无条件前向 pass:`x̂ = net_θ(z_t, ∅, t)`。 + +在 ELF 中,条件通过 concatenation `[z_t, x̂']` 注入网络。 + +### 推理 + +推理时无需额外前向 pass:每一步的条件来自**上一步的预测**,形成自回归式的迭代细化: + +``` +step 0: z_0 ~ N(0,I), condition = 0 +step i: x̂_i = net(z_i | x̂_{i-1}, t_i), z_{i+1} = z_i + dt·v̂_i +``` + +## 在 ELF 中的角色 + +Self-conditioning 为 [[classifier-free-guidance-language|CFG]] 提供条件信号 c = x̂': + +``` +v_cfg = ω · v(z_t | x̂') + (1-ω) · v(z_t | ∅) +``` + +这使得 ELF 可以在无条件生成任务中(无 class label / prompt)使用 CFG。 + +## 与自回归的区别 + +- **自回归**:条件信号是之前生成的 token +- **Self-conditioning**:条件信号是之前时间步对**完整序列**的预测嵌入——提供了全局上下文信息 + +## 相关概念 + +- [[classifier-free-guidance-language]] — 使用 self-conditioning 作为条件信号 +- [[embedded-language-flows]] — 使用此技术的模型 +- [[x-prediction-parameterization]] — self-conditioning 预测的是 x̂(干净嵌入) diff --git a/concepts/self-improving-ai.md b/concepts/self-improving-ai.md index 5eda1ed..15c14b3 100644 --- a/concepts/self-improving-ai.md +++ b/concepts/self-improving-ai.md @@ -1,3 +1,12 @@ +--- +title: Self-Improving AI (自我改进人工智能) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Self-Improving AI (自我改进人工智能) > **类型**: 概念 diff --git a/concepts/self-reference.md b/concepts/self-reference.md index e69da42..b86bc13 100644 --- a/concepts/self-reference.md +++ b/concepts/self-reference.md @@ -1,3 +1,12 @@ +--- +title: 自指 (Self-Reference) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 自指 (Self-Reference) - **领域**: 逻辑学、数学基础、语言哲学 diff --git a/concepts/self-verification-rewards.md b/concepts/self-verification-rewards.md new file mode 100644 index 0000000..220717e --- /dev/null +++ b/concepts/self-verification-rewards.md @@ -0,0 +1,44 @@ +--- +title: 自我验证奖励 (Self-Verification Rewards) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 自我验证奖励 (Self-Verification Rewards) + +**利用生成-验证不对称性 (generation-verification asymmetry) 构建外部奖励信号的 URLVR 方法**,被 He et al. (ICLR 2026) 识别为突破内在奖励天花板的关键路径。 + +## 核心机制 + +核心洞见:很多任务中 **生成正确答案很难,但验证答案正确性很简单**。 + +模型生成候选解 → 模型自己验证这些解(通过验证提示词输出二元正确性) → 正确性判定作为 RL 奖励 + +## 与内在奖励的本质区别 + +| 特性 | [[intrinsic-rewards-sharpening|内在奖励]] | Self-Verification | +|------|------|------| +| 奖励来源 | 模型内部状态(logits/熵)| 外部计算过程 | +| 是否受模型先验限制 | ✅ 是(只锐化已有知识)| ❌ 否(验证可以超越生成能力)| +| 崩溃风险 | 不可避免 | 初步实验未观察到 | + +## 实验证据 + +He et al. 在 Countdown 任务上训练 Qwen3-1.7B/4B: +- **内在奖励**: 先升后降,最终崩溃 +- **Self-verification**: 持续改进,无崩溃模式 +- 生成-验证不对称性使模型能够为"自己生成不出来的解"提供准确验证 + +## 深层洞见 + +这正是 **代码和数学验证的优势所在** — 这些领域中"验证比生成容易"的差距随着问题难度增大而扩大,使得基于验证的信号真正具备可扩展性。 + +## 相关概念 + +- [[generation-verification-asymmetry]] — 底层原理 +- [[unsupervised-rlvr]] — URLVR 全景 +- [[intrinsic-rewards-sharpening]] — 内在奖励的对比面 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/semantic-equivalence.md b/concepts/semantic-equivalence.md new file mode 100644 index 0000000..cfe38aa --- /dev/null +++ b/concepts/semantic-equivalence.md @@ -0,0 +1,55 @@ +--- +title: "Semantic Equivalence / 语义等价" +created: 2026-05-14 +type: concept +tags: ["evaluation", "similarity", "domain-parsing", "reference-free"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# Semantic Equivalence + +语义等价(Semantic Equivalence)是 [[delegate-52]] 中评估文档重建质量的核心概念。使用 sim(s, ŝ) ∈ [0, 1] 衡量种子文档和重建文档之间的等价程度。 + +## 实现:两步过程 + +### 1. 领域特定解析(Domain-Specific Parsing) +将文本文档转换为结构化表示。例如 Recipe 领域: +``` +文本 → parse_recipe() → { + ingredients: [{name, qty, unit}, ...], + steps: [{num, desc}, ...], + tips: [{num, desc}, ...] +} +``` + +### 2. 相似度评分(Similarity Scoring) +比较两个解析后的结构化表示,生成加权分数: +``` +score = 0.4 × IngredientScore + 0.4 × StepScore + 0.2 × TipScore +``` + +权重通过消融实验校准,确保对内容丢失或损坏的比例敏感性。 + +## 设计优势 + +- **语义敏感**:200g vs 0.2kg 视为等价(单位转换不影响分数) +- **错误敏感**:200g vs 800g 严重扣分(量级变化影响分数) +- **顺序鲁棒**:材料列表打乱不影响分数(匈牙利匹配) +- **免参考答案**:无需人工标注 ground truth + +## 与通用方法的对比 + +| 方法 | 与领域解析器的相关性 | 方差捕获率 | +|------|---------------------|-----------| +| 通用文本相似度(Levenshtein 等) | 低 | <10% | +| 语义嵌入相似度 | 中 | ~15% | +| GPT 5.4 作为判断者 | 中 | 最多 25% | +| 领域特定解析器 | —(基准) | 100% | + +通用方法**不足以**捕捉细粒度语义变化,52 个领域分别实现解析器是方法论的关键。 + +## 相关概念 + +- [[delegate-52]] — 应用此概念的基准 +- [[domain-specific-evaluation]] — 每个领域的解析器实现 +- [[backtranslation-round-trip-relay]] — 依赖此概念的评估循环 diff --git a/concepts/shared-weight-discretization.md b/concepts/shared-weight-discretization.md new file mode 100644 index 0000000..33e73a9 --- /dev/null +++ b/concepts/shared-weight-discretization.md @@ -0,0 +1,62 @@ +--- +title: "Shared-Weight Discretization" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [network-architecture, diffusion-language-model, multi-task-learning] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# Shared-Weight Discretization + +共享权重离散化是 [[embedded-language-flows|ELF]] 的核心设计:**同一个网络既执行去噪又执行解码,区别仅在于输入条件和输出处理**。 + +## 机制 + +网络签名为 `net_θ(z, t, mode)`,其中: +- `z`:当前(带噪)嵌入 +- `t`:时间步 ∈ [0,1] +- `mode`:二进制 token,`denoise` 或 `decode` + +### Denoise Mode (t < 1) + +``` +x̂ = net_θ(z_t, t, "denoise") +v̂ = (x̂ - z_t) / (1-t) # 转换 x-prediction 为速度 +L = MSE(v̂, v_true) +``` + +### Decode Mode (t = 1) + +``` +# 先对 z 加 token 级 corruption 构造非平凡输入 +z̃ = corrupt(z_1) +x̂ = net_θ(z̃, t=1, "decode") +logits = W · x̂ # unembedding 层 +L = CrossEntropy(logits, s) # s 是真实 token +``` + +## 为什么共享权重有效 + +[[x-prediction-parameterization]] 是关键:网络始终预测**干净嵌入 x̂**。在 denoise mode 中它转换为速度;在 decode mode 中它直接经 unembedding 转为 logits。两种模式共享网络权重,因为它们在语义上一致——都试图恢复干净的 token 表示。 + +**v-prediction 无法做到这一点**:预测速度 v 与预测离散 token 之间的语义鸿沟使得权重共享不可行(ELF 论文中实验证实)。 + +## 优势 + +1. **零额外参数**:不需要单独训练的 decoder(与 LD4LG 等潜在扩散方法对比) +2. **训练效率**:两种模式在一个 batch 中通过 masking 同时训练,无额外计算开销 +3. **语义对齐**:去噪目标(恢复干净嵌入)和解码目标(恢复干净 token)共享底层表示 + +## 实现细节 + +训练时两分支按比例混合(ELF 默认 80% denoise + 20% decode)。推理时: +1. t < 1:使用 denoise mode,迭代更新嵌入 +2. t = 1:使用 decode mode,argmax 输出离散 token + +## 相关概念 + +- [[embedded-language-flows]] — 使用此机制的模型 +- [[x-prediction-parameterization]] — 共享权重可行的关键 +- [[flow-matching]] — 使 t=1 步骤自然成为解码点的基础框架 diff --git a/concepts/singularity.md b/concepts/singularity.md index 55829e8..a988c4b 100644 --- a/concepts/singularity.md +++ b/concepts/singularity.md @@ -1,8 +1,17 @@ +--- +title: Singularity (奇点) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Singularity (奇点) > **类型**: 概念 > **领域**: 未来学,人工智能,技术预测 -> **相关概念**: [[recursive-self-improvement]], [[hyperagents]], [[self-improving-ai]], [[future-studies]] +> **相关概念**: [[recursive-self-improvement]], [[hyperagents]], [[self-improving-ai]], [[singularity]] ## 定义 @@ -166,7 +175,7 @@ - [[self-improving-ai]]:自我改进 AI,奇点的技术基础 - [[ai-alignment]]:AI 对齐,确保 AI 与人类价值观一致 - [[ai-safety]]:AI 安全,确保 AI 系统的安全性 -- [[future-studies]]:未来学,研究未来趋势和场景 +- [[singularity]]:未来学,研究未来趋势和场景 ## 重要参考文献 - Kurzweil, R. (2005). "The Singularity Is Near". diff --git a/concepts/sink-token.md b/concepts/sink-token.md new file mode 100644 index 0000000..97d2a49 --- /dev/null +++ b/concepts/sink-token.md @@ -0,0 +1,54 @@ +--- +title: "汇 Token (Sink Token)" +created: 2026-05-14 +updated: 2026-05-14 +type: concept +tags: [llm, pre-training, attention, streaming] +sources: ["https://arxiv.org/abs/2309.17453"] +--- + +# 汇 Token (Sink Token) + +## 定义 + +汇 Token(Sink Token)是 Xiao et al. (2024) 在 [[streaming-llm|StreamingLLM]] 论文中提出的预训练改进:**在所有训练样本开头添加一个可学习的专用 Token,使其成为唯一的注意力汇。** + +## 动机 + +Vanilla LLM(如 Llama-2)在预训练时没有统一的起始 Token(`` 位置因文本分块而随机),因此模型被迫使用**多个**初始 Token 作为 [[attention-sinks|注意力汇]]。StreamingLLM 推理时需要保留 4 个初始 Token 的 KV 才能恢复性能。 + +→ 如果有一个专用 Token 从一开始就被训练为"注意力垃圾桶",推理时只需保留这一个 Token。 + +## 预训练实验 + +Xiao et al. 从头预训练了三个 1.6 亿参数模型,使用相同设置对比: + +| 模型 | 方法 | 仅 Sink Token 时 PPL | 结论 | +|------|------|---------------------|------| +| Vanilla | 标准 SoftMax | 27.87 | 需多个初始 Token | +| Zero Sink | SoftMax₁ (off-by-one) | 29,214 | 部分改善,仍需其他 Token | +| **Learnable Sink** | 前置可学习 Token | **18.01** | 仅需 1 个 Sink Token | + +- Zero Sink = SoftMax₁(x)_i = e^{x_i} / (1 + Σ_j e^{x_j}),等价于前置一个全零 Key/Value 的虚拟 Token +- Learnable Sink Token 在所有训练样本前添加,成为稳定且唯一的注意力汇 + +### 效果 + +- 推理时仅需 **Sink Token + 最近 Token** 即可稳定 +- 性能甚至**略优于** Vanilla 模型配合 4 个初始 Token +- 注意力可视化显示,预训练后的 Sink Token 模型不再依赖初始 Token + +## 实践建议 + +论文建议未来的 LLM 预训练应统一在所有训练样本前添加一个可学习的 Sink Token,以优化流式部署。 + +## 与 SoftMax-off-by-One 的关系 + +[[softmax-off-by-one|SoftMax-off-by-One]] 是另一种消除注意力汇依赖的方案——修改 SoftMax 函数使其不强制求和为 1。但实验表明它不够充分,Learnable Sink Token 更有效。 + +## 相关概念 + +- [[attention-sinks|注意力汇]] — Sink Token 替代的对象 +- [[streaming-llm|StreamingLLM]] — 应用场景 +- [[softmax-off-by-one|SoftMax-off-by-One]] — 替代方案 +- [[rolling-kv-cache|滚动 KV 缓存]] — 推理时的配合机制 diff --git a/concepts/softmax-off-by-one.md b/concepts/softmax-off-by-one.md new file mode 100644 index 0000000..9c6d061 --- /dev/null +++ b/concepts/softmax-off-by-one.md @@ -0,0 +1,55 @@ +--- +title: "SoftMax-off-by-One" +created: 2026-05-14 +updated: 2026-05-14 +type: concept +tags: [attention, softmax, llm, streaming] +sources: ["https://arxiv.org/abs/2309.17453"] +--- + +# SoftMax-off-by-One + +## 定义 + +SoftMax-off-by-One(SoftMax₁)是 Miller (2023) 提出的 SoftMax 变体,在分母中加 1,使模型不必将注意力分数分配到不相关的 Token 上: + +$$\text{SoftMax}_1(x)_i = \frac{e^{x_i}}{1 + \sum_{j=1}^N e^{x_j}}$$ + +## 动机 + +标准 SoftMax 强制 $\sum_i \text{SoftMax}(x)_i = 1$,这意味着即使所有上下文 Token 都与当前 query 不相关,模型也必须分配注意力值——导致了 [[attention-sinks|注意力汇]] 现象。 + +SoftMax₁ 允许模型将多余的注意力"丢弃"到分母的 +1 项中,理论上消除对注意力汇的需求。 + +## 等价表示 + +SoftMax₁ 在注意力计算中等价于**前置一个全零 Key 和 Value 的虚拟 Token**: + +$$\text{Attention}(Q, K, V) = \text{SoftMax}_1(QK^T)V = \text{SoftMax}(\tilde{Q}\tilde{K}^T)\tilde{V}$$ + +其中 $\tilde{K} = [0, K]$, $\tilde{V} = [0, V]$。 + +这在 [[streaming-llm|StreamingLLM]] 论文中被称为 **Zero Sink**。 + +## 实验评估 + +Xiao et al. (2024) 的预训练实验表明: + +- Zero Sink (SoftMax₁) **部分改善**了注意力汇问题 +- 但模型**仍然依赖其他初始 Token** 作为注意力汇 +- 仅 Sink Token 时 PPL = 29,214(远差于 Learnable Sink 的 18.01) + +→ SoftMax₁ 不足以完全替代专用的 [[sink-token|可学习汇 Token]] + +## 与 Learnable Sink Token 的对比 + +| 方案 | 机制 | 有效性 | +|------|------|--------| +| SoftMax₁ (Zero Sink) | 修改 SoftMax 函数,允许丢弃注意力 | 部分改善,不够充分 | +| Learnable Sink Token | 预训练时添加专用可学习 Token | 完全有效,仅需 1 个 Token | + +## 相关概念 + +- [[attention-sinks|注意力汇]] — 此方案试图解决的问题 +- [[sink-token|汇 Token]] — 更有效的替代方案 +- [[streaming-llm|StreamingLLM]] — 应用背景 diff --git a/concepts/sparse-attention-patterns.md b/concepts/sparse-attention-patterns.md index 2dae7ee..899eac6 100644 --- a/concepts/sparse-attention-patterns.md +++ b/concepts/sparse-attention-patterns.md @@ -1,3 +1,12 @@ +--- +title: 稀疏注意力模式 (Sparse Attention Patterns) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 稀疏注意力模式 (Sparse Attention Patterns) **稀疏注意力**限制每个 Token 只关注序列的子集,将复杂度从 O(n²) 降至 O(n·k) 或 O(n·log n)。 diff --git a/concepts/specialized-rl.md b/concepts/specialized-rl.md new file mode 100644 index 0000000..702840d --- /dev/null +++ b/concepts/specialized-rl.md @@ -0,0 +1,41 @@ +--- +title: "专项强化学习 (Specialized RL)" +domain: "Reinforcement Learning / Multimodal AI" +tags: [rl, reinforcement-learning, visual-primitives, grpo] +sources: [[thinking-with-visual-primitives]] +--- + +# 专项强化学习 (Specialized RL) + +> 在专项 SFT 之后,对框专家(FTwG)和点专家(FTwP)分别独立应用 GRPO 强化学习,配合多维度奖励模型提升推理质量。 + +## 训练流程 + +基于 [[group-relative-policy-optimization|群体相对策略优化]],使用三类奖励模型([[reward-model|奖励模型]])提供并发监督: + +| RM 类型 | 方法 | 评估维度 | +|---------|------|----------| +| **Format RM** | 规则 | 格式正确性、防重复框、无限循环 | +| **Quality RM** | LLM 评判 | 冗余、一致性、自我矛盾、奖励黑客 | +| **Accuracy RM** | 任务特定 | 见下方 | + +### Accuracy RM 的任务特定设计 + +- **计数**:[[exponential-decay-reward|指数衰减奖励]] — 平滑的相对误差惩罚 +- **空间推理/VQA**:LLM 评判思维内容和答案 +- **迷宫**:因果探索进度 + 完整性 + 违规惩罚 + 答案正确性 +- **路径**:[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点精度 + 连续性惩罚 + +## 关键设计决策 + +在 RL 阶段**不显式监督思维过程中的视觉原语**——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围(仅需图像+问题+答案)。 + +## 数据筛选 + +用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → **只选 Normal 级别**(有提升空间但非无解)进行 RL 训练。 + +## 相关概念 + +- [[specialized-sft|专项监督微调]] — 前置阶段 +- [[group-relative-policy-optimization|群体相对策略优化]] — 使用的 RL 算法 +- [[reward-model|奖励模型]] — reward 来源 \ No newline at end of file diff --git a/concepts/specialized-sft.md b/concepts/specialized-sft.md new file mode 100644 index 0000000..bc82053 --- /dev/null +++ b/concepts/specialized-sft.md @@ -0,0 +1,36 @@ +--- +title: "专项监督微调 (Specialized SFT)" +domain: "Multimodal AI / Training" +tags: [sft, supervised-fine-tuning, visual-primitives, training] +sources: [[thinking-with-visual-primitives]] +--- + +# 专项监督微调 (Specialized SFT) + +> 分别训练框原语专家(FTwG)和点原语专家(FTwP),通过领域隔离避免冷启动阶段的模式冲突。 + +## 动机 + +在视觉原语训练中,bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著: +- Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>` +- Point 格式不含对象名称,用于更抽象的概念 + +在专项数据量相对较小的冷启动阶段,混合训练会导致**模式冲突**(mode conflict),模型难以同时学习两种格式。 + +## 训练配置 + +- 数据配比:70% 通用多模态/纯文本 + 30% 专项视觉原语数据 +- 分别训练两个模型:**FTwG**(Thinking with Grounding)和 **FTwP**(Thinking with Pointing) + +## 后续阶段 + +两个专项模型分别进入: +1. [[specialized-rl|专项强化学习]] → ETwG / ETwP(专家模型) +2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型 +3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固 + +## 相关概念 + +- [[visual-primitives|视觉原语]] — SFT 的学习目标 +- [[specialized-rl|专项强化学习]] — 后续训练阶段 +- [[unified-rft|统一拒绝采样微调]] — 融合两专家 \ No newline at end of file diff --git a/concepts/stub-pattern.md b/concepts/stub-pattern.md new file mode 100644 index 0000000..5acea4a --- /dev/null +++ b/concepts/stub-pattern.md @@ -0,0 +1,35 @@ +--- +title: "Stub Pattern(轻量化桩模式)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, tool-design, caching-optimization] +sources: [[prompt-caching-architecture]] +--- + +# Stub Pattern(轻量化桩模式) + +## 定义 + +Stub Pattern 是一种解决 [[prompt-caching|Prompt Caching]] 中工具定义变更导致缓存失效的架构模式。在 System Prompt 中预先定义所有潜在工具的**轻量占位符**(Stubs),仅包含工具名称和最小化接口描述,运行时通过 [[tool-registry|ToolRegistry]] 统一接口间接调用。 + +## 问题 + +"按需加载工具"——根据任务动态添加或移除 System Prompt 中的工具定义——是缓存性能的"毒药"。每次工具定义变更都导致整个缓存前缀失效。 + +## 解决方案 + +1. System Prompt 中固定所有工具的 Stub:`fetch_factor_data(ticker, time_range)` +2. 模型不直接调用 Stub,而是调用 `ToolRegistry.invoke(tool_id, params)` +3. ToolRegistry 后台负责动态加载和执行具体逻辑 +4. 前缀序列始终保持稳定 → [[cache-hit-ratio|缓存命中率]] 维持在 99%+ + +## 附加收益 + +降低 Agent 面对复杂任务时的决策压力(无需在大量工具中动态选择)。 + +## 相关概念 + +- [[tool-registry|ToolRegistry]] +- [[prompt-caching|Prompt Caching]] +- [[cache-hit-ratio|缓存命中率]] diff --git a/concepts/symbolic-regression.md b/concepts/symbolic-regression.md index 926df5f..e431103 100644 --- a/concepts/symbolic-regression.md +++ b/concepts/symbolic-regression.md @@ -47,7 +47,7 @@ Recent work enables differentiable symbolic regression: ### EML Trees (2026) -[[eml-universal-operator|Odrzywołek's EML representation]] enables gradient-based optimization: +[[eml-operator|Odrzywołek's EML representation]] enables gradient-based optimization: - Uniform tree structure (all nodes are `eml` operators) - Fully differentiable - Optimizable with standard deep learning optimizers (Adam) @@ -95,6 +95,6 @@ Recent work enables differentiable symbolic regression: ## Related Concepts -- [[eml-universal-operator]]: A universal operator enabling gradient-based symbolic regression +- [[eml-operator]]: A universal operator enabling gradient-based symbolic regression - [[andrzej-odrzywolek]]: Researcher who discovered the EML universal operator - [[computerized-adaptive-testing]]: CAT 中的动态选题策略与符号回归中的自适应搜索在"探索-利用权衡"上有结构相似性 diff --git a/concepts/system-2-thinking.md b/concepts/system-2-thinking.md new file mode 100644 index 0000000..7e3ee7e --- /dev/null +++ b/concepts/system-2-thinking.md @@ -0,0 +1,38 @@ +--- +title: "System 2 思维" +domain: "Cognitive Science / AI" +tags: [system-2, reasoning, cognitive-science, kahneman] +sources: [[thinking-with-visual-primitives]] +--- + +# System 2 思维 + +> Daniel Kahneman 提出的双过程理论中的慢速、审慎、逻辑推理模式——多模态 AI 推理的理想目标。 + +## 双过程理论 + +| 系统 | 特征 | 速度 | 认知负荷 | +|------|------|------|----------| +| System 1 | 直觉、自动、快速 | 快 | 低 | +| **System 2** | 分析、审慎、逻辑 | 慢 | 高 | + +## 在 MLLM 中的映射 + +- **System 1** ≈ 直接看图回答问题(zero-shot) +- **System 2** ≈ [[chain-of-thought|思维链]] + [[visual-primitives|视觉原语]] 增强的多步推理 + +「Thinking with Visual Primitives」的目标是实现 **System-2 式多模态智能**:模型不仅「看到」,还能在视觉空间中逐步推理、验证、回溯。 + +## 视觉原语与 System 2 + +视觉原语([[visual-primitives|视觉原语]])使 System 2 推理在视觉空间可行: +- **框原语**:系统性地扫描、锚定、计数 +- **点原语**:逐步探索(DFS)、回溯、找到最优路径 + +这模拟了人类在 System 2 模式下的「用手指数、画辅助线」等空间认知策略。 + +## 相关概念 + +- [[chain-of-thought|思维链]] — System 2 在语言空间的表现 +- [[visual-primitives|视觉原语]] — System 2 在视觉空间的扩展 +- [[maze-navigation|迷宫导航]] — System 2 空间推理的典型任务 \ No newline at end of file diff --git a/concepts/system-message-abuse.md b/concepts/system-message-abuse.md new file mode 100644 index 0000000..012d390 --- /dev/null +++ b/concepts/system-message-abuse.md @@ -0,0 +1,39 @@ +--- +title: "System Message Abuse(系统消息滥用)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, anti-pattern, state-management] +sources: [[prompt-caching-architecture]] +--- + +# System Message Abuse(系统消息滥用) + +## 定义 + +System Message Abuse 是指在 Agent 运行期间频繁更新 System Message 来切换状态的反模式行为。每次更新 System Message 本质上等同于发送一个新 Prompt → [[cache-invalidation|缓存破裂]]。 + +## 错误示例 + +``` +system("你现在处于高波动监控模式") → 缓存失效! +system("切换到常规交易模式") → 再次失效! +``` + +## 正确做法 + +**状态管理工具化**:通过 `set_system_state` 工具调用或在 User Message 中追加 XML 标签: +```xml + +mode: emergency_liquidation +trigger_reason: volatility_spike + +``` + +前缀(System Prompt + Tools)保持缓存命中,模型通过解析最新消息理解当前状态。 + +## 相关概念 + +- [[prompt-caching|Prompt Caching]] +- [[cache-invalidation|缓存失效]] +- [[prompt-layering|提示分层]] diff --git a/concepts/szemerédi-regularity-lemma.md b/concepts/szemerédi-regularity-lemma.md new file mode 100644 index 0000000..bc31cdb --- /dev/null +++ b/concepts/szemerédi-regularity-lemma.md @@ -0,0 +1,30 @@ +--- +title: "Szemerédi Regularity Lemma" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [graph-theory, combinatorics, extremal-combinatorics] +sources: [[ramsey-numbers-survey]] +--- + +# Szemerédi Regularity Lemma + +## 定义 + +Szemerédi 正则性引理(Endre Szemerédi, 1975)断言:任意大图可以分解为有限个"拟随机"的子图结构。具体地,对任意 ε > 0,存在 M(ε),使得任意图的顶点集可划分为至多 M 个几乎等大的部分,且绝大多数部分对之间构成 ε-正则对。 + +## Ramsey 型精神 + +引理的证明和大量应用都带有深刻的 Ramsey 型思想:在足够大的结构中,必然存在有序的子结构。它提供了从"完全无序"到"近似有序"的系统化方法。 + +## 核心应用 + +- **三角形移除引理**:少量三角形可被移除 +- **图同态计数**:大图中的子图频率估计 +- **超图正则性**:高维推广,解决多个长期悬而未决问题 + +## 相关概念 + +- [[ramsey-theory|拉姆齐理论]] +- [[hypergraph-ramsey-number|超图拉姆齐数]] +- [[additive-combinatorics|加法组合学]] diff --git a/concepts/tba.md b/concepts/tba.md new file mode 100644 index 0000000..3972b0f --- /dev/null +++ b/concepts/tba.md @@ -0,0 +1,55 @@ +--- +title: "Trajectory Balance with Asynchrony (TBA)" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl"] +sources: ["arxiv:2503.18929"] +--- + +# Trajectory Balance with Asynchrony (TBA) + +**TBA** 是一个分布式异步 RL 框架,将 [[trajectory-balance-objective|Trajectory Balance (TB)]] 目标应用于 LLM 后训练,实现 4×–50× 加速。 + +## 核心思想 + +将 LLM 后训练解耦为两个独立并行的角色: + +- **S EARCHER**:生成响应、评估奖励、存入 replay buffer +- **T RAINER**:从 buffer 采样、计算 TB loss、更新策略 + +关键突破:TB 目标天然 **off-policy 兼容**,使得 Trainer 可以在 Searcher 持续产生数据的同时学习——无需等待 on-policy rollouts。 + +## 两种实现 + +| 变体 | 代码 | 特点 | +|------|------|------| +| **TBA** | 从 scratch 实现 | buffer 采样、β 退火、多 searcher | +| **TBA′** | 基于 PRIME-RL | 简单、多 GPU 训练、ref-policy reset | + +## 核心流程 + +1. **每 k 步同步**:Searcher ↔ Trainer 交换权重和 buffer 数据 +2. **Buffer 采样**:概率 m 采样最近数据(recency),1−m 采样高奖励数据 +3. **TB 梯度更新**:使用 VarGrad 估计 Z(x),避免学习 value network + +## 关键结果 + +- GSM8K (RhoMath-1B): 55% 准确率 + **50× 加速** vs VinePPO +- PFT (TL;DR): 在 16 步 off-policy 下超越 on-policy Online DPO +- RT (GPT-2): 达到 diversity-toxicity Pareto 前沿 +- MATH (Qwen 2.5 7B): TBA′ 在高度 off-policy 下超越 Dr. GRPO + +## 为什么 TB 适合异步? + +TB 的 VarGrad 梯度等效于 **mean-baseline REINFORCE + KL 正则化奖励**,但关键在于 **不要求 on-policy 数据**。只要数据有 full support,TB 保证收敛——使异步产生的 stale 数据仍然可被高效利用。 + +## 相关概念 + +- [[trajectory-balance-objective]] — TB 目标详解 +- [[asynchronous-rl-llm]] — 异步 RL 范式 +- [[searcher-trainer-decoupling]] — 架构模式 +- [[replay-buffer-rl-llm]] — Buffer 设计 +- [[reward-recency-sampling]] — 采样策略 +- [[gflownet-fine-tuning]] — GFlowNet 基础 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/test-time-training-rl.md b/concepts/test-time-training-rl.md new file mode 100644 index 0000000..b29f641 --- /dev/null +++ b/concepts/test-time-training-rl.md @@ -0,0 +1,24 @@ +--- +title: 测试时训练 RL (Test-Time Training with RL) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 测试时训练 RL (Test-Time Training with RL) + +**在推理时对少量领域特定数据使用内在 URLVR 的轻量适应技术**。 + +## He et al. 的发现 + +尽管内在 URLVR 在规模化训练中存在根本限制,但在小数据集和测试时训练场景中安全有效——即使初始偏好完全错误也能避免崩溃。 + +这使得内在奖励成为"推理时快速适应"而非"大规模后训练"的理想工具。 + +## 相关概念 + +- [[unsupervised-rlvr]] — URLVR 全景 +- [[intrinsic-rewards-sharpening]] — 底层机制 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/time-variant-dynamics.md b/concepts/time-variant-dynamics.md new file mode 100644 index 0000000..d5db19a --- /dev/null +++ b/concepts/time-variant-dynamics.md @@ -0,0 +1,30 @@ +--- +title: "Time-variant Dynamics(时变动力学)" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [dynamical-systems, time-series, non-stationary] +sources: [[liu-koopa-2023]] +--- + +# Time-variant Dynamics(时变动力学) + +## 定义 + +时变动力学是指系统的状态转移规律随时间发生变化的动力学特性。在 [[non-stationary-time-series|非平稳时间序列]] 中,这是最核心的挑战——同一个模式在不同时段可能完全不适用。 + +## 传统方法的局限 + +- 全局模型假设动力学是**时不变的**,这在非平稳场景下根本性不成立 +- 滑动窗口方法只能捕获有限的时间范围变化 +- 增量学习面临灾难性遗忘 + +## Koopa 的解决方案 + +[[koopman-predictor|Koopman 预测器]] 采用**上下文感知算子**:对每个局部时间邻域动态计算专属的 Koopman 算子 K_t,而非使用全局固定的 K。这使得模型可以自然适应动力学的局部变化,同时保持 Koopman 理论的线性高效性。 + +## 相关概念 + +- [[non-stationary-time-series|非平稳时间序列]] +- [[koopman-predictor|Koopman 预测器]] +- [[fourier-filter-dynamics|Fourier Filter]] diff --git a/concepts/token-efficiency.md b/concepts/token-efficiency.md new file mode 100644 index 0000000..3f9b3c1 --- /dev/null +++ b/concepts/token-efficiency.md @@ -0,0 +1,55 @@ +--- +title: "Token 效率 (Token Efficiency)" +domain: "Multimodal AI / Efficiency" +tags: [token-efficiency, visual-token, compression] +sources: [[thinking-with-visual-primitives]] +--- + +# Token 效率 (Token Efficiency) + +> 以更少的视觉 token 实现相当或更强的推理能力——「Thinking with Visual Primitives」的核心架构优势。 + +## 动机 + +前沿多模态模型普遍依赖大量视觉 token 来弥补视觉缺陷: +- GPT-5.4: ~740 tokens/image +- Claude-Sonnet-4.6: ~870 tokens/image +- Gemini-3-Flash: ~1,100 tokens/image + +高 token 预算意味着: +- 更长的推理延迟 +- 更大的 KV cache 内存占用 +- 更高的 API 成本 + +## DeepSeek 的方案 + +``` +756×756 图像 + → Patch Embedding (14×14): 2,916 tokens + → 3×3 空间压缩: 324 visual tokens + → CSA 压缩: 81 KV entries (~90 in KV cache) +``` + +**总压缩比:7056×** + +## 性能对比 + +| 模型 | KV Entries ≈ | CountQA EM | SpatialMQA | +|------|-------------|------------|------------| +| **Ours** | **~90** | **66.1** | **69.4** | +| GPT-5.4 | ~740 | 48.3 | 61.9 | +| Gemini-3-Flash | ~1,100 | 34.8 | 58.2 | + +> 以 1/8 到 1/12 的 token 预算,实现更优或相当的性能。 + +## 关键使能技术 + +- [[compressed-sparse-attention|压缩稀疏注意力]] — KV cache 层面的压缩 +- [[deepseek-vit|DeepSeek-ViT]] — 3×3 空间 token 压缩 +- [[visual-primitives|视觉原语]] — 每个 token 信息密度更高 + +## 相关概念 + +- [[compressed-sparse-attention|压缩稀疏注意力]] — 核心压缩机制 +- [[deepseek-vit|DeepSeek-ViT]] — 视觉编码器 +- [[visual-primitives|视觉原语]] — 信息密度提升 \ No newline at end of file diff --git a/concepts/tool-registry.md b/concepts/tool-registry.md new file mode 100644 index 0000000..df40174 --- /dev/null +++ b/concepts/tool-registry.md @@ -0,0 +1,32 @@ +--- +title: "ToolRegistry" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [agent-architecture, tool-design, api] +sources: [[prompt-caching-architecture]] +--- + +# ToolRegistry + +## 定义 + +ToolRegistry 是 [[stub-pattern|Stub 模式]] 中的核心组件,提供统一的工具调用接口。Agent 通过 ToolRegistry 间接调用具体工具,而非直接与工具定义交互。 + +## 工作流程 + +1. Agent 决策:调用 `ToolRegistry.invoke("fetch_factor_data", {ticker: "AAPL", time_range: "1d"})` +2. ToolRegistry 解析工具标识符,查找对应实现 +3. 动态加载/执行具体逻辑,返回结果 +4. 对 Agent 而言,ToolRegistry 的定义在会话中**从未改变** + +## 工程价值 + +- 隔离工具定义变更对缓存的影响 +- 支持运行时动态注册/卸载工具(对缓存透明) +- 统一错误处理和日志记录入口 + +## 相关概念 + +- [[stub-pattern|Stub 模式]] +- [[prompt-caching|Prompt Caching]] diff --git a/concepts/trajectory-balance-objective.md b/concepts/trajectory-balance-objective.md new file mode 100644 index 0000000..521e0f5 --- /dev/null +++ b/concepts/trajectory-balance-objective.md @@ -0,0 +1,63 @@ +--- +title: "Trajectory Balance (TB) 目标" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["gflownet", "off-policy-rl", "reinforcement-learning"] +sources: ["arxiv:2201.13259", "arxiv:2503.18929"] +--- + +# Trajectory Balance (TB) 目标 + +**Trajectory Balance** 是 [[gflownet-fine-tuning|GFlowNet]] 框架中的一种学习目标,具有 **off-policy 兼容** 的关键性质,使其天然适用于异步分布式训练。 + +## 定义 + +对于 LLM 后训练,TB 目标定义为: + +$$L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2$$ + +其中: +- $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$ 是归一化的后验奖励 +- $Z(x)$ 是 partition function(可用 VarGrad batch estimate 替代学习) +- 当 $L_{TB}$ 最小化时,$\pi_\theta \propto R$ + +## VarGrad 变体 + +用 K-sample batch estimate 替代学到的 Z(x): + +$$\log \hat{Z}(x^{(i)}) = \frac{1}{K}\sum_{j=1}^{K}\left[\log \pi_{ref}(y^{(i,j)}|x^{(i)}) - \log \pi_\theta(y^{(i,j)}|x^{(i)}) + \frac{1}{\beta}r_\phi\right]$$ + +使用 STOP-GRAD 确保估计值不回传梯度。 + +## 关键性质 + +### Off-Policy 兼容 + +训练时 $y$ 可以从**任意分布**采样(只要 full support),不需要来自当前策略 $\pi_\theta$。这使得: +- [[replay-buffer-rl-llm|Replay Buffer]] 中的 stale 数据仍然有效 +- [[asynchronous-rl-llm|异步 RL]] 成为可能 +- 支持多样化的探索策略 + +### 梯度等价性 + +对于 on-policy 数据,TB\_VarGrad 的梯度等价于: +$$\nabla J_{TB}(\theta) = \hat{A}(y|x) \nabla \log \pi_\theta(y|x)$$ + +即 **mean-baseline REINFORCE + KL 正则化奖励**——与 RLOO 形式一致,但 off-policy 能力更强。 + +### 与 Kimi K1.5/K2 的关系 + +Kimi 的 RL 目标几乎匹配 TB,但排除了 log probability ratio 的平均值作为 control variate。TBA 的 ref-policy reset 策略也更保守(保持原始 base policy 作为参考更久)。 + +## 在 TBA 中的应用 + +[[tba|TBA]] 利用 TB 的 off-policy 性质,使 Searcher 可以持续生成数据而 Trainer 持续训练,无需等待策略同步。这是 TBA 实现 4×–50× 加速的理论基础。 + +## 相关概念 + +- [[tba|TBA]] — 框架应用 +- [[gflownet-fine-tuning]] — GFlowNet 基础 +- [[grpo]] — On-policy 对比 +- [[off-policy-llm-post-training]] — Off-policy 范式 +- [[bartoldson-tba-2025|论文页面]] diff --git a/concepts/transfer-learning.md b/concepts/transfer-learning.md index 8a2e482..f8c12fc 100644 --- a/concepts/transfer-learning.md +++ b/concepts/transfer-learning.md @@ -1,3 +1,12 @@ +--- +title: Transfer Learning (迁移学习) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # Transfer Learning (迁移学习) > **类型**: 概念 diff --git a/concepts/unified-rft.md b/concepts/unified-rft.md new file mode 100644 index 0000000..b98bcf6 --- /dev/null +++ b/concepts/unified-rft.md @@ -0,0 +1,35 @@ +--- +title: "统一拒绝采样微调 (Unified RFT)" +domain: "Multimodal AI / Training" +tags: [rft, rejection-fine-tuning, visual-primitives, training] +sources: [[thinking-with-visual-primitives]] +--- + +# 统一拒绝采样微调 (Unified RFT) + +> Unified Rejection Fine-Tuning:利用专家模型的 on-policy rollout 生成高质量训练数据,将框和点两种视觉原语推理范式统一到单个模型。 + +## 流程 + +1. 使用专家模型 [[visual-primitives]] 和 [[visual-primitives]] 在数据池上进行 rollout +2. 按 [[group-relative-policy-optimization|群体相对策略优化]] 的难度标准对样本分类 +3. 数据筛选策略: + - **Normal-Level**(部分正确):**全部保留** + - **Easy-Level**(全部正确):**随机采样 5%**(防止灾难性遗忘) + - **Hard-Level**(全部错误):丢弃 +4. 从 base pretrained model 初始化,用 RFT 数据集进行 SFT + +## 与 Specialized SFT 的区别 + +| 维度 | Specialized SFT | Unified RFT | +|------|----------------|-------------| +| 训练目标 | 两个独立专家 | 统一模型 | +| 数据来源 | 人工标注 + 冷启动 | 专家模型 rollout | +| 数据质量 | 人工验证 | 模型自生成 + 筛选 | +| 规模 | 较小(冷启动) | 更大更广 | + +## 相关概念 + +- [[specialized-sft|专项监督微调]] — 前置阶段 +- [[specialized-rl|专项强化学习]] — 产生专家模型 +- [[on-policy-distillation|在线策略蒸馏]] — 后续巩固阶段 \ No newline at end of file diff --git a/concepts/unsupervised-rlvr.md b/concepts/unsupervised-rlvr.md new file mode 100644 index 0000000..bb155da --- /dev/null +++ b/concepts/unsupervised-rlvr.md @@ -0,0 +1,41 @@ +--- +title: 无监督可验证奖励强化学习 (URLVR) +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + +# 无监督可验证奖励强化学习 (URLVR) + +**Unsupervised RL with Verifiable Rewards** — 无需 ground truth 标签的强化学习范式,用代理奖励信号扩展 LLM 后训练。 + +## 定义 + +URLVR 是对标准 RLVR 的扩展。标准 RLVR(如 DeepSeek-R1)依赖可验证的 ground truth(数学答案对错、代码通过测试),而 URLVR 从模型自身或无标签数据中推导奖励信号。 + +### 公式化 + +$$\max_{\pi_\theta} \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} [r(x, y)] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$$ + +关键区别在于 $r(x,y)$ 的来源。 + +## 分类法 (He et al. 2026) + +| 类别 | 奖励来源 | 代表方法 | +|------|---------|---------| +| [[certainty-based-rewards|确定性奖励]] | 策略置信度(logits/熵) | EM-RL, RENT, RLIF, RLSC | +| [[ensemble-based-rewards|集成奖励]] | 多样本一致性(多数投票) | TTRL, SRT, SeRL, R-Zero | +| [[self-verification-rewards|外部奖励]] | 生成-验证不对称性 | Self-verification, Co-Reward | + +## 核心发现 + +He et al. (2026) 证明:**所有内在 URLVR 方法统一收敛于 [[intrinsic-rewards-sharpening|锐化初始分布]]**,这既是其优势(置信度-正确性对齐时)也是其根本局限(错位时灾难性失败)。 + +## 相关概念 + +- [[intrinsic-rewards-sharpening]] — Sharpening 机制 +- [[model-collapse-step]] — 崩溃度量 +- [[reward-hacking-llm]] — 奖励黑客 +- [[he-urlvr-sharpening-2026]] — 综述参考 diff --git a/concepts/update-magnitude-imbalance.md b/concepts/update-magnitude-imbalance.md new file mode 100644 index 0000000..bdac50f --- /dev/null +++ b/concepts/update-magnitude-imbalance.md @@ -0,0 +1,56 @@ +--- +title: "GRPO 更新幅度不平衡" +created: 2026-05-12 +updated: 2026-05-12 +type: concept +tags: ["grpo", "reinforcement-learning", "theoretical-analysis"] +sources: ["arxiv:2601.20614"] +--- + +# GRPO 更新幅度不平衡 + +**更新幅度不平衡** 是 [[grpo|GRPO]] 中被 Dai et al. (2026) 揭示并证明的一个关键理论缺陷:GRPO 的优势估计(GRAE)导致策略更新幅度对难度不同的问题**不均匀分布**。 + +## Theorem 1(GRPO 更新幅度) + +给定问题 q 的 G 个响应,每个获得二元准确率奖励 ri ∈ {0,1},准确率为 p: + +$$\sum_{i=1}^{G} |\hat{A}_{GR,i}| = 2G\sqrt{p(1-p)}$$ + +该函数在 p = 0.5 时达到**最大值**,在 p → 0 或 p → 1 时趋近于 0。 + +## 含义分析 + +- **p ≈ 0**(极难题):更新幅度接近 0 → **最需要学习的问题反而被忽视** +- **p = 0.5**(中等题):更新幅度最大 → **中等难度问题主导训练** +- **p ≈ 1**(简单题):更新幅度接近 0 → 合理(模型已掌握) + +## 为什么这是个问题? + +p 接近 0 但非 0 的问题(如 p=0.1)是**最理想的训练材料**: +- 暴露模型的不完全掌握(不是完全不会) +- 提供至少一个正确答案用于定向学习 +- 掌握更难问题可能提升更简单问题的表现(compositionality) + +但这些问题的更新幅度恰恰被 GRPO**系统性压制**。 + +## 解决方案 + +[[dgae|DGAE]] 用 MAD 替代 std: + +$$\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G \quad \text{(恒定)}$$ + +无论 p 是多少,每个问题获得相同的总更新幅度(Theorem 2)。 + +## 证明要点 + +- GRAE 的 std 分母引入 $\sqrt{p(1-p)}$ 因子 +- DGAE 的 MAD 分母恰好消除 $p(1-p)$ 因子 +- MAD = 2p(1-p) 对于二元奖励 → 归一化后总幅度 = G + +## 相关概念 + +- [[grpo]] — 存在此问题的基线方法 +- [[dgae|DGAE]] — 解决方案 +- [[dgpo|DGPO]] — 算法实现 +- [[dai-mathforge-2026|论文页面]] diff --git a/concepts/userspace-kernel.md b/concepts/userspace-kernel.md index c1947f4..f1e16ef 100644 --- a/concepts/userspace-kernel.md +++ b/concepts/userspace-kernel.md @@ -1,3 +1,12 @@ +--- +title: 用户空间内核 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 用户空间内核 **类型**: 系统软件,安全技术 @@ -109,7 +118,7 @@ ## 应用场景 ### 1. 高安全需求应用 -- **AI代理安全**: 如[[ClawLess]]框架 +- **AI代理安全**: 如[[clawless]]框架 - **多租户环境**: 云平台中的客户隔离 - **不可信代码执行**: 执行来自不可信来源的代码 @@ -125,11 +134,11 @@ ## 相关概念 -- [[ClawLess]] - 使用用户空间内核的安全框架 -- [[AI代理安全]] - 用户空间内核的应用领域 -- [[形式化安全模型]] - 用户空间内核执行的安全策略基础 -- [[BPF系统调用拦截]] - 用户空间内核中的关键技术 -- [[安全容器]] - 用户空间内核的部署环境 +- [[clawless]] - 使用用户空间内核的安全框架 +- [[ai-agent-security]] - 用户空间内核的应用领域 +- [[formal-security-model]] - 用户空间内核执行的安全策略基础 +- [[bpf-syscall-interception]] - 用户空间内核中的关键技术 +- [[secure-containers]] - 用户空间内核的部署环境 ## 发展趋势 diff --git a/concepts/van-der-waerden-theorem.md b/concepts/van-der-waerden-theorem.md new file mode 100644 index 0000000..d52b5b2 --- /dev/null +++ b/concepts/van-der-waerden-theorem.md @@ -0,0 +1,32 @@ +--- +title: "van der Waerden Theorem" +created: 2026-05-11 +updated: 2026-05-11 +type: concept +tags: [number-theory, combinatorics, additive-theory] +sources: [[ramsey-numbers-survey]] +--- + +# van der Waerden Theorem + +## 定义 + +对正整数的任意有限着色,必存在任意长的单色等差数列。 + +形式化:对任意正整数 r 和 k,存在最小 W(r,k),使得对 {1,...,W(r,k)} 的任意 r-着色,必存在长为 k 的单色等差数列。 + +## 历史地位 + +- **1927**:Bartel van der Waerden 证明,是最早的 Ramsey 型结果之一 +- **密度推广**:[[szemerédi-regularity-lemma|Szemerédi 定理]](1975)将其从着色条件加强为密度条件 +- **峰顶**:[[green-tao-theorem|Green-Tao 定理]]将这一结论应用于素数集 + +## 证明精神 + +原始证明使用双重归纳法,其递归结构预示了后来 Ramsey 理论中"从大到小逐步提取子结构"的标准策略。 + +## 相关概念 + +- [[additive-combinatorics|加法组合学]] +- [[green-tao-theorem|Green-Tao 定理]] +- [[ramsey-theory|拉姆齐理论]] diff --git a/concepts/visual-primitives.md b/concepts/visual-primitives.md new file mode 100644 index 0000000..8cd226f --- /dev/null +++ b/concepts/visual-primitives.md @@ -0,0 +1,38 @@ +--- +title: "视觉原语 (Visual Primitives)" +domain: "Multimodal AI / Visual Reasoning" +tags: [visual-primitives, multimodal, spatial-reasoning, grounding] +sources: [[thinking-with-visual-primitives]] +--- + +# 视觉原语 (Visual Primitives) + +> 空间标记被提升为「思维的最小单位」,直接交织进多模态模型的推理链。 + +## 定义 + +视觉原语是 DeepSeek-AI 在「Thinking with Visual Primitives」框架中提出的概念:将计算机视觉中的标准输出格式——**bounding boxes** 和 **points**——提升为认知推理的基本单元,使之能与语言 token 同等地参与 Chain-of-Thought 过程。 + +## 两种原语 + +| 原语 | 表示 | 功能 | 优势 | +|------|------|------|------| +| **Bounding Box** | `<|box|>[[x1,y1,x2,y2],...]<|/box|>` | 精确定位对象位置和尺度 | 确定性强、信息丰富、可泛化出点表示 | +| **Point** | `<|point|>[[x1,y1],...]<|/point|>` | 抽象空间引用、轨迹追踪 | 适用于轨迹、拓扑、连续性推理 | + +坐标归一化到 [0, 999] 的离散整数。 + +## 核心洞察 + +传统 MLLM 的 CoT 局限在语言空间,在需要精确空间指代的场景中(如密集计数、空间推理),语言描述「左边那个红色的球」存在天然的[[reference-gap|引用鸿沟]]。视觉原语通过直接输出归一化坐标,消除了指代歧义。 + +## 与人类认知的类比 + +人类在面对复杂空间任务时(如数密集物体、走迷宫)会自然使用手指作为 deictic pointer 来减少认知负荷。「视觉原语思考」框架让模型模拟这种「point-to-reason」的协同。 + +## 相关概念 + +- [[reference-gap|引用鸿沟]] — 视觉原语要解决的核心问题 +- [[perception-gap|感知鸿沟]] — 视觉原语与之互补的另一个瓶颈 +- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 框原语的主要应用 +- [[maze-navigation|迷宫导航]] / [[path-tracing|路径追踪]] — 点原语的主要应用 \ No newline at end of file diff --git a/concepts/window-attention.md b/concepts/window-attention.md new file mode 100644 index 0000000..8cab8f7 --- /dev/null +++ b/concepts/window-attention.md @@ -0,0 +1,55 @@ +--- +title: "窗口注意力 (Window Attention)" +created: 2026-05-14 +updated: 2026-05-14 +type: concept +tags: [attention, llm, streaming, kv-cache] +sources: ["https://arxiv.org/abs/2309.17453", "https://arxiv.org/abs/2004.05150"] +--- + +# 窗口注意力 (Window Attention) + +## 定义 + +窗口注意力(Window Attention / Sliding Window Attention)是一种注意力机制的变体,模型**只缓存和关注最近的 $L$ 个 Token 的 KV 状态**,而非所有历史 Token。最早由 Beltagy et al. (2020) 在 Longformer 中提出,后被广泛应用于 LLM 的高效推理。 + +## 动机 + +- **O(T²) 计算不可行**:Dense Attention 对长序列的计算和内存开销过大 +- **恒定内存**:窗口注意力将 KV 缓存大小固定为 $L$,无论序列多长 +- **直观且自然**:最近的上下文通常最有信息量 + +## 致命缺陷:Attention Sink 崩溃 + +Xiao et al. (2024) 在 [[streaming-llm|StreamingLLM]] 论文中揭示了窗口注意力的关键失败模式: + +**当序列长度超过缓存大小 $L$,初始 Token 的 KV 被逐出时,模型困惑度急剧飙升(从 ~5 跳至 5000+)。** + +### 原因 + +初始 Token 在所有层和注意力头中扮演 [[attention-sinks|注意力汇]] 的角色——它们承载了大量本应分散的注意力分数。一旦被逐出,SoftMax 的分母结构被破坏,注意力分布发生剧烈偏移,模型崩溃。 + +### 实验数据 + +| Cache Config | Llama-2-13B PPL | +|-------------|-----------------| +| 0 + 1024 (Window) | 5158.07 | +| 4 + 1020 (StreamingLLM) | 5.40 | + +窗口注意力在序列长度超出缓存后彻底失效。 + +## 与其他方法的对比 + +| 方法 | 复杂度 | 长文本性能 | 问题 | +|------|--------|-----------|------| +| Dense Attention | O(T²) | 超出预训练窗口后崩溃 | 内存无限增长 | +| **Window Attention** | O(TL) | 初始 Token 被逐出后崩溃 | Attention Sink 效应 | +| Sliding Window + Recompute | O(TL²) | 优秀 | 太慢(每个 token 重建 KV) | +| StreamingLLM | O(TL) | 优秀 | 需保留 4 个初始 Token | + +## 相关概念 + +- [[attention-sinks|注意力汇]] — 解释窗口注意力失败的根本原因 +- [[streaming-llm|StreamingLLM]] — 修复窗口注意力的方案 +- [[length-extrapolation|长度外推]] — 更广泛的问题背景 +- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关效率问题 diff --git a/concepts/worst-case-threat-model.md b/concepts/worst-case-threat-model.md index cbbb4b3..4601e66 100644 --- a/concepts/worst-case-threat-model.md +++ b/concepts/worst-case-threat-model.md @@ -1,3 +1,12 @@ +--- +title: 最坏情况威胁模型 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # 最坏情况威胁模型 **类型**: 安全工程方法论,威胁建模 @@ -142,11 +151,11 @@ ## 相关概念 -- [[ClawLess]] - 应用最坏情况威胁模型的框架 -- [[AI代理安全]] - 最坏情况威胁模型的应用领域 -- [[形式化安全模型]] - 实现最坏情况安全的方法 -- [[用户空间内核]] - 在最坏情况下的可信执行环境 -- [[安全容器]] - 在最坏情况下的隔离机制 +- [[clawless]] - 应用最坏情况威胁模型的框架 +- [[ai-agent-security]] - 最坏情况威胁模型的应用领域 +- [[formal-security-model]] - 实现最坏情况安全的方法 +- [[userspace-kernel]] - 在最坏情况下的可信执行环境 +- [[secure-containers]] - 在最坏情况下的隔离机制 ## 发展趋势 diff --git a/concepts/x-prediction-parameterization.md b/concepts/x-prediction-parameterization.md new file mode 100644 index 0000000..6718f6b --- /dev/null +++ b/concepts/x-prediction-parameterization.md @@ -0,0 +1,53 @@ +--- +title: "x-Prediction Parameterization" +created: 2026-05-13 +updated: 2026-05-13 +type: concept +tags: [flow-matching, diffusion, parameterization] +sources: + - https://arxiv.org/abs/2605.10938 +--- + +# x-Prediction Parameterization + +在 [[flow-matching|Flow Matching]] 中,x-prediction 是指**网络直接预测干净数据 x̂ 而非速度 v̂** 的参数化选择。 + +## 数学关系 + +给定 z_t = t·x + (1-t)·ε,真实速度为 v = x - ε。 + +速度预测 v̂ 和 x-prediction 的关系: + +``` +v̂ = (x̂ - z_t) / (1-t) +``` + +因此 MSE 等价: + +``` +||v̂ - v||² = ||x̂ - x||² / (1-t)² +``` + +即训练 x-prediction 最小化 MSE 等价于训练速度预测,但用了不同的权重缩放。 + +## 为什么 ELF 必须用 x-prediction + +ELF 的 [[shared-weight-discretization]] 设计依赖 x-prediction: + +1. **Denoise mode**:网络预测 x̂,转换为 v̂ 计算 MSE loss +2. **Decode mode**:网络预测 x̂,经 unembedding 层转为 token logits,计算 CE loss + +两种模式都预测「干净嵌入 x̂」,语义一致——使得权重共享有意义。 + +**v-prediction 不可行**:预测速度 v 与预测离散 token 之间没有自然的语义桥梁。ELF 实验证实 v-prediction 配合权重共享时效果差。 + +## 历史背景 + +x-prediction 在图像生成中已有先例(如 MDT、SiT),但在语言扩散中 ELF 首次展现其独特价值——不仅是数值稳定性(高维嵌入空间),更是**架构层面的语义统一**。 + +## 相关概念 + +- [[flow-matching]] — 基础框架 +- [[shared-weight-discretization]] — x-prediction 使此设计可行的原因 +- [[embedded-language-flows]] — 使用 x-prediction 的模型 +- [[rectified-flows]] — 配合 x-prediction 的插值路径 diff --git a/entities/beidi-chen.md b/entities/beidi-chen.md new file mode 100644 index 0000000..5f078eb --- /dev/null +++ b/entities/beidi-chen.md @@ -0,0 +1,13 @@ +--- +title: "Beidi Chen" +created: 2026-05-14 +updated: 2026-05-14 +type: entity +tags: [researcher, author] +--- + +# Beidi Chen + +- **机构**: CMU +- **研究方向**: Efficient ML, sparse attention, large-scale inference +- **代表工作**: [[streaming-llm|StreamingLLM]] (ICLR 2024) diff --git a/entities/guangxuan-xiao.md b/entities/guangxuan-xiao.md new file mode 100644 index 0000000..5ba2963 --- /dev/null +++ b/entities/guangxuan-xiao.md @@ -0,0 +1,13 @@ +--- +title: "Guangxuan Xiao" +created: 2026-05-14 +updated: 2026-05-14 +type: entity +tags: [researcher, author] +--- + +# Guangxuan Xiao + +- **机构**: MIT +- **研究方向**: StreamingLLM, LLM inference optimization +- **代表工作**: [[streaming-llm|StreamingLLM]] (ICLR 2024) diff --git a/entities/mike-lewis.md b/entities/mike-lewis.md new file mode 100644 index 0000000..5c4194f --- /dev/null +++ b/entities/mike-lewis.md @@ -0,0 +1,13 @@ +--- +title: "Mike Lewis" +created: 2026-05-14 +updated: 2026-05-14 +type: entity +tags: [researcher, author] +--- + +# Mike Lewis + +- **机构**: Meta AI (FAIR) +- **研究方向**: Natural language processing, sequence-to-sequence models, BART +- **代表工作**: [[streaming-llm|StreamingLLM]] (ICLR 2024) diff --git a/entities/song-han.md b/entities/song-han.md new file mode 100644 index 0000000..383479e --- /dev/null +++ b/entities/song-han.md @@ -0,0 +1,13 @@ +--- +title: "Song Han" +created: 2026-05-14 +updated: 2026-05-14 +type: entity +tags: [researcher, author] +--- + +# Song Han + +- **机构**: MIT / NVIDIA +- **研究方向**: Efficient deep learning (TinyML, Deep Compression), model acceleration +- **代表工作**: [[streaming-llm|StreamingLLM]] (ICLR 2024) diff --git a/entities/tanya-klowden.md b/entities/tanya-klowden.md index f633847..5597b73 100644 --- a/entities/tanya-klowden.md +++ b/entities/tanya-klowden.md @@ -12,7 +12,7 @@ sources: [raw/papers/tao-ai-mathematical-methods.md] **背景**:艺术和人文学科领域 **合著论文**: -- [[Mathematical methods and human thought in the age of AI]] (与 [[Terence Tao]] 合著,2026) - 探讨 AI 对哲学、数学和人文学科的影响 +- [[tao-klowden-ai-mathematical-methods]] (与 [[terence-tao]] 合著,2026) - 探讨 AI 对哲学、数学和人文学科的影响 **研究兴趣**: - AI 在人文学科中的应用与影响 @@ -20,10 +20,10 @@ sources: [raw/papers/tao-ai-mathematical-methods.md] - 与科学领域(如数学)的对话与交叉 **独特视角**: -作为从艺术和人文学科角度研究 AI 的学者,Klowden 为论文带来了与数学家 [[Terence Tao]] 相互补充的视角,探讨了从艺术到科学的广泛 AI 使用问题。 +作为从艺术和人文学科角度研究 AI 的学者,Klowden 为论文带来了与数学家 [[terence-tao]] 相互补充的视角,探讨了从艺术到科学的广泛 AI 使用问题。 ## 关联页面 -- [[Mathematical methods and human thought in the age of AI]] - 合著论文 -- [[Terence Tao]] - 合著者 +- [[tao-klowden-ai-mathematical-methods]] - 合著论文 +- [[terence-tao]] - 合著者 - [[human-centered-ai]] - 论文核心主题 diff --git a/entities/terence-tao.md b/entities/terence-tao.md index e52678e..1d3effb 100644 --- a/entities/terence-tao.md +++ b/entities/terence-tao.md @@ -31,18 +31,18 @@ sources: [raw/papers/tao-klowden-ai-mathematical-methods.md] 陶哲轩是积极探索 AI 工具在数学研究中应用的先驱之一: - 主张 AI 是**人类工具的自然演进**,应以人类为中心使用 -- 在论文 [[Mathematical methods and human thought in the age of AI]] 中,提出了 "Smell Test" 概念 +- 在论文 [[tao-klowden-ai-mathematical-methods]] 中,提出了 "Smell Test" 概念 - 强调形式化验证的局限:只能验证正确性,无法传达理解与启发 - 认为 AI 可以成为数学家的辅助工具,但需要小心使用 ## 主要论文 -- [[Mathematical methods and human thought in the age of AI]] (与 [[Tanya Klowden]] 合著,2026) - 关于 AI 与数学哲学的深度思考 +- [[tao-klowden-ai-mathematical-methods]] (与 [[tanya-klowden]] 合著,2026) - 关于 AI 与数学哲学的深度思考 - 数百篇其他数学研究论文 ## 关联页面 -- [[Mathematical methods and human thought in the age of AI]] - 关于 AI 与数学的论文 -- [[Tanya Klowden]] - 该论文合著者 +- [[tao-klowden-ai-mathematical-methods]] - 关于 AI 与数学的论文 +- [[tanya-klowden]] - 该论文合著者 - [[ai-mathematics]] - AI 与数学的交参 - [[human-centered-ai]] - 以人类为中心的 AI diff --git a/entities/yuandong-tian.md b/entities/yuandong-tian.md new file mode 100644 index 0000000..c1cfbf2 --- /dev/null +++ b/entities/yuandong-tian.md @@ -0,0 +1,13 @@ +--- +title: "Yuandong Tian" +created: 2026-05-14 +updated: 2026-05-14 +type: entity +tags: [researcher, author] +--- + +# Yuandong Tian + +- **机构**: Meta AI (FAIR) +- **研究方向**: Deep learning, reinforcement learning, LLM reasoning +- **代表工作**: [[streaming-llm|StreamingLLM]] (ICLR 2024) diff --git a/extracts/gpt-image2-prompt-collection-20260428.md b/extracts/gpt-image2-prompt-collection-20260428.md index f58ddcd..d613049 100644 --- a/extracts/gpt-image2-prompt-collection-20260428.md +++ b/extracts/gpt-image2-prompt-collection-20260428.md @@ -1,3 +1,12 @@ +--- +title: GPT-Image-2 绘图方法/Prompt 摘录 +created: 2025-04-15 +updated: 2026-05-01 +type: concept +tags: [] +sources: [] +--- + # GPT-Image-2 绘图方法/Prompt 摘录 # 来源: https://linux.do/t/topic/2044964 # 作者: sallyn | 日期: 2026-04-24 diff --git a/index.md b/index.md index 96243d2..7266dfb 100644 --- a/index.md +++ b/index.md @@ -1,137 +1,278 @@ -# Wiki Index +# LLM Wiki -> 内容目录。每个 wiki 页面按类型列出,附单行摘要。 -> 首先阅读此文件以查找任何查询的相关页面。 -> 最后更新:2026-04-29 | 总页面数:116 +> 知识索引页面 — 自动生成 +> 最后更新:2026-05-14 | 总页面数:300 -## Entities(实体) - -- [[andrzej-odrzywolek]] - 波兰理论物理学家,EML Sheffer 算子发现者 -- [[tanya-klowden]] - 艺术与人文学科学者,与陶哲轩合著 AI 哲学论文 -- [[terence-tao]] - 著名数学家,莲莲尔奖得主,AI 与数学先驱探索者 +## Concepts -## Concepts(概念) -- [[ai-agent-security]] — AI 代理安全:保护自主AI代理及其运行环境免受恶意攻击、滥用和意外危害的安全实践和技术 -- [[ai-alignment]] — AI 对齐:确保 AI 系统与人类价值观一致的研究领域 -- [[ai-mathematics]] - AI 与数学的交叉研究,以数学为 "沙盒"探索 AI 能力 -- [[ai-safety]] — AI 安全:确保 AI 系统安全可靠的研究领域 -- [[agent-mediated-deception]] — 代理中介欺骗 (AMD) 攻击模式与防御 -- [[attention-entropy-collapse]] — 注意力熵崩溃:深层 Transformer 中注意力分布退化现象 -- [[attention-sinks]] — 注意力汇:利用初始Token的注意力吸引特性稳定长序列推理与优化KV缓存淘汰 -- [[automated-theorem-proving]] — 自动定理证明:开发能够自动发现数学证明的计算机程序,AI 与数理逻辑的交叉领域 -- [[bpf-syscall-interception]] — BPF系统调用拦截:使用BPF技术拦截、监控和控制系统调用的方法,用于安全策略执行和行为监控 -- [[chaitin-algorithmic-information-theory]] — 算法信息论:蔡廷将哥德尔不完备性与信息论结合的研究领域(K(x)、Ω) -- [[chaitin-constant]] — 蔡廷常数 Ω:通用图灵机的停机概率,不可计算且包含最大信息量 -- [[clawless]] — ClawLess:针对自主AI代理的安全框架,在最坏情况威胁模型下对AI代理强制执行形式化验证的安全策略 -- [[cognitive-architecture]] — 认知架构:人类或AI系统认知过程的理论框架和计算实现,支持感知、学习、记忆、推理等功能 -- [[completeness-logic]] — 完备性(逻辑学):形式系统能否证明所有真命题的性质 -- [[computability-theory]] — 可计算性理论:研究「什么是可计算的」及其边界的学科 -- [[computerized-adaptive-testing]] — 计算机化自适应测试综述:ML 方法如何优化测量模型、选题策略、题库构建和测试控制 -- [[compressed-sparse-attention]] — CSA:压缩稀疏注意力,先压缩 KV 再在压缩后表示上执行稀疏注意力 -- [[consistency-logic]] — 一致性(逻辑学):形式系统不能同时证明 φ 和 ¬φ 的性质 -- [[continuum-hypothesis]] — 连续统假设 CH:不存在基数严格介于自然数和实数之间的集合 -- [[cramer-rao-lower-bound]] — 参数估计的理论方差下界,由 Fisher 信息量的倒数给出,是 MLE 和 CAT 的数学基础 -- [[crawl4ai]] — Crawl4AI:为 LLM 和 AI 应用设计的开源网页爬虫与数据提取工具,支持智能内容转换为 Markdown 格式 -- [[curvine-distributed-cache]] — Curvine 云原生分布式缓存系统 -- [[darwin-godel-machine]] — 达尔文·哥德尔机:通过生成和评估自我修改变体实现编码领域自我改进的框架 -- [[depth-scaling-signal-degradation]] — LLM 深度扩展与信号退化问题 -- [[diagonalization-method]] — 对角线方法:通过自我参照构造揭示系统内在限制的证明技术(康托尔→罗素→哥德尔→图灵) -- [[duo-attention]] — DuoAttention:区分检索头和流式头的双模式注意力,按需分配全注意力或局部缓存 -- [[eml-operator]] - EML (Exp-Minus-Log) 算子,连续数学中的 Sheffer 算子 -- [[evolutionary-algorithms]] — 进化算法:基于自然选择和遗传原理的优化算法家族 -- [[few-shot-learning]] — 少样本学习:从少量示例中学习新概念的机器学习方法 -- [[flash-attention]] — FlashAttention:IO感知的精确注意力优化,通过Tiling和Recomputation实现数量级加速 -- [[flash-attention-3]] — FlashAttention-3:异步计算和FP8低精度的最新版本 -- [[formal-security-model]] — 形式化安全模型:使用数学方法精确描述和验证安全属性的方法论 -- [[formal-systems]] — 形式系统:由字母表、语法规则、公理和推理规则组成的数学系统 -- [[formal-verification]] - 使用形式化方法验证数学证明正确性 -- [[fp4-quantization-training]] — FP4 量化感知训练:在 MoE 专家权重和注意力路径中应用 4 位浮点量化以降低内存和计算开销 -- [[genetic-programming]] — 遗传编程:通过模拟自然选择自动生成计算机程序的进化计算技术 -- [[godel-incompleteness-theorems]] — 哥德尔不完备定理:任何足够强的一致形式系统必然不完备且不能自证一致性 -- [[godel-numbering]] — 哥德尔编码:将形式系统的符号、公式和证明唯一映射为自然数的技术 -- [[goodsteins-theorem]] — 古德斯坦定理:所有古德斯坦序列最终到达 0,但在 PA 中不可证 -- [[gravitino-unified-metadata]] — Gravitino 统一元数据管理方案 -- [[grouped-query-attention]] — GQA:分组查询注意力,MHA与MQA的折中方案,Llama 3系列采用 -- [[halting-problem]] — 停机问题:判定程序是否终止的不可判定问题,哥德尔定理在计算理论中的对应物 -- [[heavily-compressed-attention]] — HCA:高强度压缩注意力,对 KV 激进压缩但保持密集注意力以最大化全局上下文效率 -- [[hilberts-program]] — 希尔伯特计划:20 世纪初提出的数学基础统一方案,被哥德尔定理终结 -- [[human-agent-trust]] — 人机信任建立与脆弱性研究 -- [[human-centered-ai]] - 以增强人类能力为核心目标的 AI 发展哲学 -- [[hybrid-attention-architecture]] — 混合注意力架构:组合 CSA 和 HCA 的分层注意力方案,在计算效率和上下文覆盖间取得最优平衡 -- [[hyperagents]] — 超智能体:自指代理,集成任务解决和自我修改,支持元认知自我修改 -- [[knowledge-bank]] — AI 辅助开发时代的知识管理系统,3D 分类 (scope + source + type) 与自动捕获生命周期 -- [[kolmogorov-complexity]] — 柯尔莫哥洛夫复杂度 K(x):输出字符串 x 的最短程序长度 -- [[kv-cache-bottleneck]] — KV缓存瓶颈:自回归推理中的核心内存瓶颈,驱动MQA/GQA/MLA等结构优化 -- [[kvcache-transfer]] — KVCache 传输与优化技术 -- [[linear-attention-methods]] — 线性注意力:通过核分解将注意力复杂度从O(n²)降至O(n)的方法族 -- [[llm-applications]] — LLM 应用:基于大型语言模型的各类实际应用系统,包括文本生成、对话系统、RAG 和代理系统 -- [[lost-in-the-middle]] — Lost in the Middle:LLM长上下文中中间位置信息被系统性忽略的U形注意力分布现象 -- [[lucas-penrose-argument]] — 卢卡斯-彭罗斯论证:基于哥德尔定理论证人类心智超越机器的哲学论证 -- [[mamba-ssm]] — Mamba:选择性状态空间模型,线性复杂度的Transformer替代架构 -- [[manifold-constrained-hyper-connections]] — mHC:流形约束超连接,将残差映射约束到 Birkhoff 多面体确保深层训练的数值稳定性 -- [[mathematical-pluralism]] — 数学多元主义:接受不存在唯一数学真理的哲学立场 -- [[memory-caching-rnn]] — 通过缓存 RNN 隐藏状态检查点扩展有效记忆容量的技术 -- [[meta-learning]] — 元学习:学习如何学习的机器学习方法,支持快速适应新任务 -- [[metacognitive-self-modification]] — 元认知自我修改:AI 系统改进其自身改进机制的能力,实现递归改进 -- [[metamathematics]] — 元数学:使用数学方法研究形式系统性质的学科 -- [[million-token-context]] — 百万 Token 上下文:LLM 高效处理 1M token 序列的能力,DeepSeek-V4 的核心突破之一 -- [[mixture-of-attention-schemes]] — MoAS:注意力方案混合路由,根据Token复杂度动态分配MHA/MQA/GQA -- [[mixture-of-depths-attention]] — MoDA 跨层注意力机制 -- [[mixture-of-experts]] — MoE 混合专家:通过稀疏激活路由实现参数规模扩展而控制计算开销的架构范式 -- [[multi-head-attention]] — MHA:标准多头注意力,h个并行头学习不同子空间后拼接融合 -- [[multi-head-latent-attention]] — MLA:多潜在头注意力,通过低秩压缩将KV缓存缩减至MHA的1/10~1/20 -- [[multi-query-attention]] — MQA:多查询注意力,所有Q头共享单个KV头以实现极低KV缓存 -- [[multi-token-prediction]] — MTP 多 Token 预测:训练时同时预测多个后续 token 的策略 -- [[muon-optimizer]] — Muon 优化器:基于矩阵正交化的优化器,比 AdamW 收敛更快、训练更稳定 -- [[native-sparse-attention]] — NSA:硬件对齐的原生可训练稀疏注意力,DeepSeek 2025提出 -- [[neuroscience]] — 神经科学:研究神经系统结构和功能的科学 -- [[ntk-aware-interpolation]] — NTK-aware插值:通过NTK理论调整RoPE旋转频率实现上下文窗口外推 -- [[on-policy-distillation]] — OPD 在线策略蒸馏:多教师模型通过反向 KL 散度在学生轨迹上融合领域专家知识的技术 -- [[paris-harrington-theorem]] — 巴黎-哈灵顿定理:首个自然数学命题中发现的 PA 不可判定性 -- [[peano-arithmetic]] — 皮亚诺算术 PA:哥德尔定理中使用的一阶算术公理系统 -- [[prefill-as-a-service]] — PrfaaS 跨数据中心 LLM 服务架构 -- [[prefill-decode-disaggregation]] — Prefill-Decode 分离架构演进 -- [[primitive-recursive-functions]] — 原始递归函数:通过复合和原始递归构造的函数类 -- [[program-synthesis]] — 程序合成:从高级规范自动生成满足这些规范的程序的过程 -- [[rag-systems]] — RAG 系统:检索增强生成架构,将信息检索与生成式 AI 结合以提高输出质量和准确性 -- [[recursive-self-improvement]] — 递归自我改进:AI系统改进其自身改进能力,可能导致能力爆炸的理论概念 -- [[rotary-position-embedding]] — RoPE:旋转位置编码,通过旋转变换将相对位置信息编码到注意力计算中 -- [[russells-paradox]] — 罗素悖论:不包含自身的集合组成的集合导致矛盾,触发第三次数学危机 -- [[secure-containers]] — 安全容器:提供增强安全特性的容器技术,保护主机系统免受容器内应用程序的攻击 -- [[seer-attention]] — SeerAttention:可学习稀疏注意力,训练预测网络预估注意力热点区域 -- [[self-improving-ai]] — 自我改进人工智能:能够通过学习改进自身学习过程、问题解决能力或认知架构的 AI 系统 -- [[self-reference]] — 自指:命题或系统指向自身的能力,哥德尔句子的核心构造机制 -- [[singularity]] — 技术奇点:假设的未来时间点,技术进步变得如此迅速和深刻,以至于人类无法预测或理解其后的世界 -- [[sparse-attention-patterns]] — 稀疏注意力:限制每个Token只关注序列子集,复杂度从O(n²)降至O(n·k) -- [[specialist-training-pipeline]] — 专家训练流水线:DeepSeek-V4 后训练第一阶段,针对每个领域独立训练专家模型 -- [[spurious-predictability]] — 金融机器学习中的虚假可预测性:自适应搜索产生的统计伪影 -- [[subquadratic-transformer-alternatives]] — Transformer 的次二次复杂度替代架构综述 -- [[symbolic-regression]] — 从数据中发现数学表达式的机器学习技术 -- [[test-time-scaling]] — 测试时扩展:通过增加推理计算资源提升模型性能的范式,DeepSeek-V4 的高效长上下文使其更加可行 -- [[transfer-learning]] — 迁移学习:将从一个任务学到的知识应用到另一个相关任务的机器学习方法 -- [[userspace-kernel]] — 用户空间内核:在用户空间提供内核功能,增强系统安全的技术 -- [[worst-case-threat-model]] — 最坏情况威胁模型:假设系统将面临最坏可能攻击场景的安全设计方法论 +- [[additive-combinatorics]] +- [[agent-communication-stack]] +- [[agent-mediated-deception]] +- [[agent-network-memory-scope]] +- [[agent-network-taxonomy]] +- [[agent-network-topology]] +- [[agent-network-update-behavior]] +- [[agentic-systems]] +- [[ai-agent-security]] +- [[ai-alignment]] +- [[ai-mathematics]] +- [[ai-safety]] +- [[api-key-authentication]] +- [[attention-entropy-collapse]] +- [[attention-sinks]] +- [[automated-theorem-proving]] +- [[backtranslation-round-trip-relay]] — 回译接力:通过可逆编辑链评估 LLM 文档编辑保真度 +- [[bidirectional-trajectory-evaluation]] +- [[bpf-syscall-interception]] +- [[cache-health-observability]] +- [[cache-hit-ratio]] +- [[cache-invalidation]] +- [[cache-safe-forking]] +- [[caddy-web-server]] +- [[cel-shading-style]] +- [[centralized-agent-architecture]] +- [[certainty-based-rewards]] +- [[chain-of-thought]] +- [[chaitin-algorithmic-information-theory]] +- [[chaitin-constant]] +- [[cl-bench-life]] +- [[classifier-free-guidance-language]] — CFG 在语言扩散模型中的应用 +- [[clawless]] +- [[coarse-grained-counting]] +- [[cognitive-architecture]] +- [[completeness-logic]] +- [[compressed-sparse-attention]] +- [[computability-theory]] +- [[computerized-adaptive-testing]] +- [[confidence-correctness-alignment]] +- [[consistency-logic]] +- [[context-blue-clique]] +- [[context-compression]] +- [[context-learning]] +- [[context-misuse]] +- [[continuous-diffusion-language-models]] — 连续嵌入空间中的扩散语言模型 +- [[continuum-hypothesis]] +- [[cramer-rao-lower-bound]] +- [[crawl4ai]] +- [[critical-failures]] — 关键失败:稀疏但严重的错误解释了约80%的文档退化 +- [[curvine-distributed-cache]] +- [[darwin-godel-machine]] +- [[decentralized-agent-architecture]] +- [[deepseek-v4-flash]] +- [[deepseek-vit]] +- [[delegate-52]] — Microsoft 基准:310工作环境 × 52专业领域,评估LLM委托工作就绪性 +- [[delegated-work]] — 委托工作:新兴LLM交互范式,用户监督模型代其完成任务 +- [[depth-scaling-signal-degradation]] +- [[diagonal-ramsey-number]] +- [[diagonalization-method]] +- [[discrete-diffusion-language-models]] — 离散 token 空间中的扩散语言模型 +- [[distractor-context]] — 干扰上下文:话题相关但无需编辑的文档,模拟不完美检索精度 +- [[document-degradation]] — 文档退化:LLM在长委托工作流中静默破坏文档内容的现象 +- [[domain-knowledge-reasoning]] +- [[domain-specific-evaluation]] — 领域特定评估:每个领域自定义解析器和语义等价评分的评估方法 +- [[duo-attention]] +- [[dynamic-mode-decomposition]] +- [[embedded-language-flows]] — ELF: 连续嵌入流匹配语言模型 +- [[eml-operator]] +- [[empirical-discovery-simulation]] +- [[ensemble-based-rewards]] +- [[evolutionary-algorithms]] +- [[exponential-decay-reward]] +- [[few-shot-learning]] +- [[fine-grained-counting]] +- [[flash-attention]] +- [[flash-attention-3]] +- [[flow-matching]] — 连续时间流匹配生成框架 +- [[formal-security-model]] +- [[formal-systems]] +- [[formal-verification]] +- [[forward-authentication]] +- [[fourier-filter-dynamics]] +- [[fp4-quantization-training]] +- [[furstenberg-correspondence]] +- [[generation-verification-asymmetry]] +- [[generative-perplexity]] — 基于第三方模型评估生成质量的指标 +- [[genetic-programming]] +- [[geometric-ramsey-theory]] +- [[glitch-art-style]] +- [[godel-incompleteness-theorems]] +- [[godel-numbering]] +- [[goodsteins-theorem]] +- [[gpt-image2]] +- [[gravitino-unified-metadata]] +- [[greedy-context-screening]] +- [[green-tao-theorem]] +- [[group-relative-policy-optimization]] +- [[grouped-query-attention]] +- [[halftone-print-style]] +- [[halting-problem]] +- [[heavily-compressed-attention]] +- [[hilberts-program]] +- [[human-agent-trust]] +- [[human-centered-ai]] +- [[hybrid-attention-architecture]] +- [[hyperagents]] +- [[hypergraph-ramsey-number]] +- [[identity-reference-resolution]] +- [[image-generation-prompt-design]] +- [[intrinsic-rewards-sharpening]] +- [[jagged-frontier]] — 锯齿前沿:AI模型能力在不同领域间不均衡、不可预测的分布 +- [[klein-blue]] +- [[knowledge-bank]] +- [[kolmogorov-complexity]] +- [[koopman-autoencoder]] +- [[koopman-predictor]] +- [[koopman-theory]] +- [[kv-cache-bottleneck]] +- [[kvcache-transfer]] +- [[length-extrapolation]] — 长度外推:让 LLM 处理超出预训练窗口的序列长度 +- [[linear-attention-methods]] +- [[llm-applications]] +- [[llm-evaluation-benchmarks]] +- [[long-context-understanding]] +- [[long-horizon-evaluation]] — 长视界评估:通过延长交互揭示短评估中不可见的退化模式 +- [[lost-in-the-middle]] +- [[lovasz-local-lemma]] +- [[lucas-penrose-argument]] +- [[mamba-ssm]] +- [[manifold-constrained-hyper-connections]] +- [[mathematical-pluralism]] +- [[maze-navigation]] +- [[memory-caching-rnn]] +- [[messy-context-reasoning]] +- [[meta-jctrader]] +- [[meta-learning]] +- [[metacognitive-self-modification]] +- [[metamathematics]] +- [[million-token-context]] +- [[mixture-of-attention-schemes]] +- [[mixture-of-depths-attention]] +- [[mixture-of-experts]] +- [[model-collapse-step]] +- [[multi-head-attention]] +- [[multi-head-latent-attention]] +- [[multi-query-attention]] +- [[multi-token-prediction]] +- [[multimodal-large-language-model]] +- [[muon-optimizer]] +- [[native-sparse-attention]] +- [[neuroscience]] +- [[non-stationary-time-series]] +- [[ntk-aware-interpolation]] +- [[on-policy-distillation]] +- [[paley-graph]] +- [[paris-harrington-theorem]] +- [[path-tracing]] +- [[peano-arithmetic]] +- [[perception-gap]] +- [[prefill-as-a-service]] +- [[prefill-decode-disaggregation]] +- [[prefix-matching]] +- [[primitive-recursive-functions]] +- [[probabilistic-method]] +- [[procedural-task-execution]] +- [[program-synthesis]] +- [[prompt-caching]] +- [[prompt-layering]] +- [[prompt-reverse-engineering]] +- [[rag-systems]] +- [[ramsey-context-cache]] +- [[ramsey-context-graph]] +- [[ramsey-context-template]] +- [[ramsey-numbers]] +- [[ramsey-theory]] +- [[ramsey-theory-applications]] +- [[random-graph-theory]] +- [[real-life-context-learning]] +- [[rectified-flows]] — Flow Matching 中的直线插值路径 +- [[recursive-self-improvement]] +- [[reference-gap]] +- [[reinforcement-learning-trading]] +- [[reverse-proxy-authentication]] +- [[reward-hacking-llm]] +- [[reward-model]] +- [[risograph-print-style]] +- [[rlvr-unified-framework]] +- [[rolling-kv-cache]] — 滚动 KV 缓存:StreamingLLM 的两段式固定大小缓存机制 +- [[rotary-position-embedding]] +- [[round-trip-reconstruction-score]] — RS@k:衡量k次交互后文档重建质量的评估指标 +- [[rule-system-application]] +- [[russells-paradox]] +- [[russian-constructivism]] +- [[sde-sampler-language]] — 语言扩散中的随机微分方程采样器 +- [[secure-containers]] +- [[seer-attention]] +- [[self-conditioning]] — 用自身中间预测作为条件的扩散技术 +- [[self-improving-ai]] +- [[self-reference]] +- [[self-verification-rewards]] +- [[semantic-equivalence]] — 语义等价:通过领域特定解析器衡量文档间语义等价程度的方法 +- [[shared-weight-discretization]] — ELF 的共享权重去噪-解码机制 +- [[singularity]] +- [[sink-token]] — 可学习汇 Token:预训练时添加专用 Token 作为唯一注意力汇 +- [[softmax-off-by-one]] — SoftMax₁:允许丢弃多余注意力的 SoftMax 变体 +- [[sparse-attention-patterns]] +- [[specialist-training-pipeline]] +- [[specialized-rl]] +- [[specialized-sft]] +- [[spurious-predictability]] +- [[stub-pattern]] +- [[subquadratic-transformer-alternatives]] +- [[symbolic-regression]] +- [[system-2-thinking]] +- [[system-message-abuse]] +- [[szemerédi-regularity-lemma]] +- [[test-time-scaling]] +- [[test-time-training-rl]] +- [[time-variant-dynamics]] +- [[token-efficiency]] +- [[tool-registry]] +- [[transfer-learning]] +- [[unified-rft]] +- [[unsupervised-rlvr]] +- [[userspace-kernel]] +- [[van-der-waerden-theorem]] +- [[visual-primitives]] +- [[window-attention]] — 窗口注意力:仅缓存最近 Token 的朴素方案,因驱逐注意力汇而崩溃 +- [[worst-case-threat-model]] +- [[x-prediction-parameterization]] — Flow Matching 中直接预测干净数据的参数化 -## Articles(文章) -- [[crawl4ai-open-source-web-crawler]] — Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具(知乎专栏) -- [[oppo-multimodal-data-lake]] — OPPO 多模态数据湖架构实践 (Gravitino + Curvine) +## Papers -## Comparisons(对比) +- [[behrouz-memory-caching-rnn]] +- [[clawless-ai-agent-security]] +- [[deepseek-v4-million-token-context]] +- [[dou-cl-bench]] +- [[elf-embedded-language-flows]] — ELF: 连续嵌入空间中的 Flow Matching 语言扩散模型 (2026) +- [[godel-incompleteness-tutorial]] +- [[he-urlvr-sharpening-2026]] +- [[hunyuan-team-cl-bench-life]] +- [[laban-llms-corrupt-documents-delegate]] — "LLMs Corrupt Your Documents When You Delegate" — DELEGATE-52 +- [[li-amd-human-perception]] +- [[liu-koopa-2023]] +- [[llm-attention-survey-2026]] +- [[nikolopoulos-spurious-predictability]] +- [[odrzywolek-eml-single-operator]] +- [[qin-prfaas-cross-datacenter]] +- [[ramsey-numbers-survey]] +- [[song-agent-network-taxonomy]] +- [[streaming-llm]] — StreamingLLM: 基于注意力汇的无限长流式语言模型推理框架 (ICLR 2024) +- [[tao-klowden-ai-mathematical-methods]] +- [[thinking-with-visual-primitives]] +- [[zhang-hyperagents]] +- [[zhu-moda-mixture-of-depths]] -## Papers(论文) -- [[behrouz-memory-caching-rnn]] — Memory Caching 技术:通过缓存 RNN 隐藏状态实现可增长记忆 (arXiv:2602.24281, 2026) -- [[clawless-ai-agent-security]] — ClawLess: AI 代理安全模型,形式化验证与运行时执行框架 (arXiv:2604.06284, 2026) -- [[deepseek-v4-million-token-context]] — DeepSeek-V4:高效百万Token上下文智能,CSA+HCA混合注意力、mHC、Muon优化器 (HuggingFace, 2026) -- [[godel-incompleteness-tutorial]] — 哥德尔不完备定理教程:从哥德尔编号到 AI 边界探索的综合教学资料 (2026) -- [[li-amd-human-perception]] — 人类对 LLM Agent 欺骗的感知脆弱性实证研究 (arXiv:2602.21127, 2026) -- [[llm-attention-survey-2026]] — 大语言模型注意力机制全面分析综述:MHA→GQA→MLA演化、熵崩溃、FlashAttention优化 (2026年4月) -- [[Mathematical methods and human thought in the age of AI]] - 陶哲轩与 Klowden 关于 AI 哲学的深度论文 (arXiv:2603.26524, 2026) -- [[nikolopoulos-spurious-predictability]] — 金融机器学习中的虚假可预测性:证伪审计框架 (arXiv:2604.15531, 2026) -- [[odrzywolek-eml-single-operator]] - EML 算子:单一二元算子生成所有初等函数 (arXiv:2603.21852, 2026) -- [[qin-prfaas-cross-datacenter]] — PrfaaS:跨数据中心 LLM 服务架构,KVCache 可跨集群传输 (arXiv:2604.15039, 2026) -- [[zhang-hyperagents]] — 超智能体:自指代理框架,支持元认知自我修改和通用自我改进 (arXiv:2603.19461, 2026) -- [[zhu-moda-mixture-of-depths]] — MoDA:跨层注意力机制解决深度扩展中的信号退化 (arXiv:2603.15619, 2026) +## Articles -## Books(书籍) -## Queries(查询) +- [[caddy-reverse-proxy-auth]] +- [[crawl4ai-open-source-web-crawler]] +- [[gpt-image2-prompt-collection]] +- [[oppo-multimodal-data-lake]] +- [[prompt-caching-architecture]] +- [[ramsey-context-construction]] +## Special Pages + +- [[SCHEMA]] — Wiki 结构规范 +- [[log]] — 变更日志 +- [[README]] — Wiki 说明 \ No newline at end of file diff --git a/log.md b/log.md index 0e47085..41c6bf7 100644 --- a/log.md +++ b/log.md @@ -5,6 +5,43 @@ > 操作类型:ingest, update, query, lint, create, archive, delete > 当此文件超过 500 条记录时,轮换:重命名为 log-YYYY.md,重新开始。 + + +## 2026-05-12 — ingest | TBA (arXiv:2503.18929, NeurIPS 2025) +- 添加论文 [[bartoldson-tba-2025]]: "Trajectory Balance with Asynchrony" — GFlowNet TB 目标 × 异步分布式 RL +- 新增 8 个概念页: [[tba]], [[trajectory-balance-objective]], [[asynchronous-rl-llm]], [[off-policy-llm-post-training]], [[gflownet-fine-tuning]], [[replay-buffer-rl-llm]], [[searcher-trainer-decoupling]], [[reward-recency-sampling]] +- 核心创新: 利用 TB 目标的 off-policy 兼容性,实现 Searcher-Trainer 解耦,4×–50× 训练加速 +- TBA′ 在高度 off-policy 设置下超越 Dr. GRPO(MATH, Qwen 2.5 7B) +- 来源: https://arxiv.org/abs/2503.18929 | 代码: https://github.com/bbartoldson/TBA + +## 2026-05-12 — ingest | MathForge (arXiv:2601.20614, ICLR 2026) +- 添加论文 [[dai-mathforge-2026]]: "Harder Is Better" — 难度感知 GRPO + 多维度问题改写 +- 新增 8 个概念页: [[grpo]], [[mathforge]], [[dgpo]], [[dgae]], [[dqw]], [[mqr]], [[update-magnitude-imbalance]], [[math-question-reformulation]] +- 核心发现: GRPO 存在更新幅度难度不平衡 (Theorem 1), DGAE 用 MAD 替代 std 解决 (Theorem 2) +- MQR 三维改写策略: Background (99%), Term (97%), Sub-Problem (97%) 答案保持率 +- 来源: https://arxiv.org/abs/2601.20614 | 代码: https://github.com/AMAP-ML/MathForge + + + + +## [2026-05-14] ingest | StreamingLLM: 基于注意力汇的高效流式语言模型 (arXiv:2309.17453, ICLR 2024) +- 添加论文 [[streaming-llm]]: "Efficient Streaming Language Models with Attention Sinks" — 发现 Attention Sink 现象,提出无需微调的无限长流式推理框架 +- 新增 5 个概念页: [[length-extrapolation]], [[rolling-kv-cache]], [[sink-token]], [[softmax-off-by-one]], [[window-attention]] +- 更新概念 [[attention-sinks]]: 从占位符扩展为完整内容(含数学推导、实验证据、应用) +- 来源: https://arxiv.org/abs/2309.17453 +- 创建 5 个作者实体页: [[guangxuan-xiao]], [[yuandong-tian]], [[beidi-chen]], [[song-han]], [[mike-lewis]] + +## [2026-05-14] ingest | LLMs Corrupt Your Documents When You Delegate (arXiv:2604.15597, April 2026) +- 添加论文 [[laban-llms-corrupt-documents-delegate]]: "LLMs Corrupt Your Documents When You Delegate" — DELEGATE-52 基准揭示LLM在委托工作中静默破坏文档 +- 新增 11 个概念页: [[delegate-52]], [[backtranslation-round-trip-relay]], [[round-trip-reconstruction-score]], [[document-degradation]], [[critical-failures]], [[delegated-work]], [[long-horizon-evaluation]], [[semantic-equivalence]], [[domain-specific-evaluation]], [[distractor-context]], [[jagged-frontier]] +- 来源: https://arxiv.org/abs/2604.15597 + +## [2026-05-13] — ingest | ELF: Embedded Language Flows (arXiv:2605.10938, Tech Report 2026) +- 添加论文 [[elf-embedded-language-flows]]: "ELF: Embedded Language Flows" — 基于 Flow Matching 的连续嵌入语言扩散模型,用共享权重网络实现去噪-解码统一,105M 超越 170M 基线 +- 新增 11 个概念页: [[embedded-language-flows]], [[flow-matching]], [[continuous-diffusion-language-models]], [[shared-weight-discretization]], [[classifier-free-guidance-language]], [[self-conditioning]], [[x-prediction-parameterization]], [[rectified-flows]], [[sde-sampler-language]], [[generative-perplexity]], [[discrete-diffusion-language-models]] +- 来源: https://arxiv.org/abs/2605.10938 +- 作者: Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He (MIT) + ## [2026-04-27] ingest | DeepSeek-V4 技术报告 (HuggingFace) - 来源:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf - 作者:DeepSeek-AI @@ -208,6 +245,8 @@ --- +--- + ## 2026-04-28 | 哥德尔不完备定理教程 - **来源**: PDF 直接提交 (godel_tutorial.pdf),2026年4月综合教程 @@ -272,4 +311,275 @@ - 更新 index.md:总页面数 96 → 116 - 关键概念:注意力机制演化谱系 (MHA→MQA→GQA→MLA)、FlashAttention、注意力退化、KV缓存瓶颈、Lost in the Middle - 网络连接:与已有概念 CSA、HCA、混合注意力架构、DeepSeek-V4 等形成密集交叉引用 +## [2026-04-29] ingest | GPT-Image-2 绘图 Prompt 方法论与风格合集 +- 来源:linux.do 论坛 (sallyn),https://linux.do/t/topic/2044964 +- 类型:论坛教程/经验分享 (2026-04-24),整理于 2026-04-28 +- 新增文件 (11 个): + - `raw/articles/sallyn-gpt-image2-prompt-collection-2026.md` — 原始摘录存档 + - `articles/gpt-image2-prompt-collection.md` — 文章主页面 + - Tier 1 核心概念 (3 个): + - `concepts/gpt-image2.md` — GPT-Image-2 图像生成工具 + - `concepts/prompt-reverse-engineering.md` — 图片反推 Prompt:15维分析框架 + - `concepts/image-generation-prompt-design.md` — 图像生成 Prompt 设计方法论 + - Tier 2 风格概念 (6 个): + - `concepts/russian-constructivism.md` — 俄国构成主义 + - `concepts/glitch-art-style.md` — 故障艺术 + - `concepts/cel-shading-style.md` — 赛璐璐风格 + - `concepts/risograph-print-style.md` — Riso印刷风格 + - `concepts/halftone-print-style.md` — 半调印刷风格 + - `concepts/klein-blue.md` — 克莱因蓝 +- 更新 index.md:总页面数 116 → 126 +- 关键概念:GPT-Image-2、Prompt反推工程、15维美学分析框架、5种核心艺术风格 +- 特色:首次将 AI 图像生成工具链和艺术风格概念纳入 wiki 知识网络 +## [2026-04-29] ingest | Caddy 反向代理认证方案 +- 来源:用户直接上传 TXT +- 类型:技术教程/配置指南 +- 新增文件 (6 个): + - `raw/articles/caddy-reverse-proxy-auth-2026.md` — 原始文档存档 + - `articles/caddy-reverse-proxy-auth.md` — 文章主页面 + - 概念 (4 个): + - `concepts/caddy-web-server.md` — Caddy Web 服务器 + - `concepts/reverse-proxy-authentication.md` — 反向代理层认证模式 + - `concepts/api-key-authentication.md` — API Key 认证机制 + - `concepts/forward-authentication.md` — 外部委托认证模式 +- 更新 index.md:总页面数 126 → 131 +- 关键概念:命名匹配器、反向代理认证、API Key 白名单、forward_auth 委托 +- 特色:首次将 Web 服务器/反向代理/认证基础设施概念纳入 wiki +## [2026-04-29] ingest | How Far Can Unsupervised RLVR Scale LLM Training? (arXiv:2603.08660) +- 来源:arXiv API (2603.08660) +- 作者:He, Zuo, Liu et al. (22 authors, Tsinghua/Shanghai AI Lab et al.) +- 会议:ICLR 2026 +- PDF:7121 行文本提取 +- 新增文件 (13 个): + - `raw/papers/he-urlvr-sharpening-2026.md` — 原始存档 + - `papers/he-urlvr-sharpening-2026.md` — 论文主页面 + - Tier 1 核心概念 (4 个): + - `concepts/unsupervised-rlvr.md` — URLVR 范式定义 + - `concepts/intrinsic-rewards-sharpening.md` — Sharpening 统一理论 + - `concepts/model-collapse-step.md` — MCS 模型崩溃步 + - `concepts/self-verification-rewards.md` — 自我验证外部奖励 + - Tier 2 基础概念 (4 个): + - `concepts/reward-hacking-llm.md` — 奖励黑客与模型崩溃 + - `concepts/certainty-based-rewards.md` — 确定性奖励 + - `concepts/ensemble-based-rewards.md` — 集成奖励/多数投票 + - `concepts/generation-verification-asymmetry.md` — 生成-验证不对称性 + - Tier 3 占位概念 (3 个): + - `concepts/rlvr-unified-framework.md` — RLVR 统一框架 + - `concepts/test-time-training-rl.md` — 测试时训练 RL + - `concepts/confidence-correctness-alignment.md` — 置信度-正确性对齐 +- 更新 index.md:总页面数 131 → 143 +- 关键概念:URLVR、Sharpening机制、Rise-then-Fall模式、Model Collapse Step、Self-verification突破 +- 特色:首次将 RLVR/URLVR/奖励黑客等 LLM 后训练理论概念纳入 wiki +--- +## 2026-04-30 20:08 — Thinking with Visual Primitives (DeepSeek-AI, 2026) +**来源**: GitHub (deepseek-ai/Thinking-with-Visual-Primitives) +**类型**: 技术报告 / 研究论文 +**领域**: Multimodal AI / Visual Reasoning + +### 新增页面 (21) +- **Papers**: [[thinking-with-visual-primitives]] — 视觉原语思考框架主页面 +- **Raw**: raw/papers/deepseek-visual-primitives-2026.md + +### 新增概念 (20) +- [[visual-primitives]] — 视觉原语:框+点作为思维最小单位 +- [[reference-gap]] — 引用鸿沟:语言空间指代模糊 +- [[perception-gap]] — 感知鸿沟:分辨率限制的视觉细节丢失 +- [[chain-of-thought]] — 思维链 (CoT) 的多模态扩展 +- [[multimodal-large-language-model]] — MLLM 背景概念 +- [[system-2-thinking]] — System 2 思维与视觉推理 +- [[deepseek-vit]] — DeepSeek 视觉 Transformer +- [[deepseek-v4-flash]] — 语言骨干模型 +- [[token-efficiency]] — Token 效率 (7056× 压缩) +- [[coarse-grained-counting]] — 粗粒度计数 +- [[fine-grained-counting]] — 细粒度计数 +- [[maze-navigation]] — 迷宫导航 +- [[path-tracing]] — 路径追踪 +- [[group-relative-policy-optimization]] — GRPO 算法 +- [[specialized-sft]] — 专项监督微调 +- [[specialized-rl]] — 专项强化学习 +- [[unified-rft]] — 统一拒绝采样微调 +- [[exponential-decay-reward]] — 指数衰减奖励 +- [[bidirectional-trajectory-evaluation]] — 双向轨迹评估 +- [[reward-model]] — 奖励模型体系 + +### 交叉链接 +与已有概念 [[compressed-sparse-attention]]、[[on-policy-distillation]]、[[mixture-of-experts]]、[[deepseek-v4-million-token-context]] 建立双向链接。 + +### Wiki 规模 +143 → 164 页 + +## [2026-05-01] ingest | CL-Bench Life: 真实生活上下文学习基准 +- **来源**:arXiv:2604.27043 [cs.CL] +- **作者**:Hunyuan Team (Tencent) & Fudan University +- **日期**:2026-04-29 +- **PDF**:4.9MB,提取 3879 行文本 +- **新增文件 (10 个)**: + - `raw/papers/hunyuan-team-cl-bench-life-2026.md` — 原始论文存档 + - `papers/hunyuan-team-cl-bench-life.md` — 论文主页面 + - Tier 1 核心概念 (3 个): + - `concepts/cl-bench-life.md` — CL-bench Life 基准设计 + - `concepts/real-life-context-learning.md` — 真实生活上下文学习能力 + - `concepts/context-misuse.md` — 上下文误用:首要失败模式 + - Tier 2 基础概念 (1 个): + - `concepts/messy-context-reasoning.md` — 混乱上下文推理 + - Tier 2/3 占位概念 (4 个): + - `concepts/context-learning.md` — 通用上下文学习 + - `concepts/llm-evaluation-benchmarks.md` — LLM 评测基准体系 + - `concepts/long-context-understanding.md` — 长上下文理解 + - `concepts/identity-reference-resolution.md` — 身份指代消解 +- **更新 index.md**:总页面数 164 → 173 +- **关键概念**:真实生活上下文学习、CL-bench Life、上下文误用(76-84%错误)、混乱上下文推理、三大上下文类别 +- **核心发现**:最佳模型仅 19.3% 解决率;上下文误用是首要失败模式;长上下文能力与混乱上下文推理不等价 + +## [2026-05-01] lint | Wiki 全面健康检查与大修 +- **检查范围**:181 个 wiki 页面 +- **修复前问题**:462 total(117 断链 + 121 索引重复 + 106 缺失 frontmatter + 18 孤儿 + 等) +- **修复操作**: + 1. **索引去重**:732 条概念条目 → 154 条唯一,26 条论文 → 15 条唯一,文件从 810 行压缩到 198 行 + 2. **断链清零**:117 → 0,批量修复中文 wikilink 目标错误(ClawLess 系列、Tao/Klowden 系列等) + 3. **缺失索引条目**:补回 5 个概念 + 4 篇文章 + 清理 2 个坏条目 + 4. **Frontmatter 补全**:106 → 0,全量补充 YAML frontmatter + 5. **孤儿概念链接**:3 个 URLVR 相关概念加回 inbound link + 6. **文件移动**:entities/papers/tao-klowden-ai-mathematical-methods.md → papers/ +- **修复后状态**: + - 断链:0 ✅ + - 缺失 frontmatter:0 ✅ + - 索引条目:173,声明总数:181(差值 8 为 reviews/extracts) + - 孤儿:7(全部为 reviews/extracts,有意设计) + - 页面数不变:181 + +## [2026-05-01] ingest | Agent网络三层分类法综述 +- **来源**:TechRxiv (DOI: 10.36227/techrxiv.177127384.46731320/v1) +- **作者**:Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) +- **日期**:2026-02-16 +- **PDF**:用户直接上传,提取 2084 行文本 +- **新增文件 (9 个)**: + - `raw/papers/song-agent-network-taxonomy-2026.md` — 原始论文存档 + - `papers/song-agent-network-taxonomy.md` — 论文主页面 + - Tier 1 核心概念 (4 个): + - `concepts/agent-network-taxonomy.md` — 三层级分类法 + - `concepts/agent-network-topology.md` — 拓扑维度(集中式vs去中心化) + - `concepts/agent-network-memory-scope.md` — 记忆范围维度(全局vs局部) + - `concepts/agent-network-update-behavior.md` — 更新行为维度(静态vs动态) + - Tier 2 基础概念 (3 个): + - `concepts/centralized-agent-architecture.md` — 集中式架构详解 + - `concepts/decentralized-agent-architecture.md` — 去中心化架构详解 + - `concepts/agent-communication-stack.md` — 三层通信协议栈 +- **交叉链接**:与 [[cognitive-architecture]]、[[hyperagents]] 建立双向链接 +- **更新 index.md**:总页面数 181 → 189 +- **关键概念**:Agent网络三层分类法、8种系统类别、通信协议栈、MCP标准化 +- **核心贡献**:嵌套式分类框架(A=(V,E,M,Π))→8种类别;识别语义层为大规模系统首要失败点 + +## [2026-05-01] ingest | CL-bench: 首个上下文学习基准 +- **来源**:arXiv:2602.03587 [cs.CL] +- **作者**:Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) +- **日期**:2026-02-03 +- **PDF**:1.8MB,提取 6713 行文本 +- **新增/更新文件 (7 个)**: + - `raw/papers/dou-cl-bench-2026.md` — 原始论文存档 + - `papers/dou-cl-bench.md` — 论文主页面 + - `concepts/context-learning.md` — 从占位页升级为完整概念页 + - Tier 1 类别概念 (4 个): + - `concepts/domain-knowledge-reasoning.md` — 领域知识推理(7子类) + - `concepts/rule-system-application.md` — 规则系统应用(5子类) + - `concepts/procedural-task-execution.md` — 程序性任务执行(3子类) + - `concepts/empirical-discovery-simulation.md` — 经验发现与模拟(3子类) +- **更新 index.md**:总页面数 189 → 195 +- **关键概念**:Context Learning 范式定义、CL-bench 四类别框架、污染防护设计 +- **核心发现**:十模型平均 17.2%/最佳 23.7%;归纳推理(经验发现)是最瓶颈;法律推理 >40% vs 数学形式化 <15% +- **与已有概念的连接**:与 [[cl-bench-life]]、[[real-life-context-learning]]、[[context-misuse]] 形成 CL-bench 系列完整知识网络 + +## [2026-05-11] ingest | Prompt Caching 架构工程手册 (微信公众号) +- 来源:https://mp.weixin.qq.com/s/gyd4cqxadv3YW5Fe09r95g +- 类型:工程实践教程 (Article) +- 案例系统:Meta-JCTrader(高频交易 + RL + Meta-Learning) +- 新增文件 (15 个): + - `raw/articles/prompt-caching-architecture-2026.md` — 原始文章存档 + - `articles/prompt-caching-architecture.md` — 文章主页面 + - 核心概念 (12 个): + - `concepts/prompt-caching.md` — Prompt Caching + - `concepts/prefix-matching.md` — 前缀匹配 + - `concepts/prompt-layering.md` — 提示分层 (Global/Project/Session/Dynamic) + - `concepts/stub-pattern.md` — Stub 模式(轻量化桩) + - `concepts/tool-registry.md` — ToolRegistry 统一接口 + - `concepts/cache-safe-forking.md` — 缓存安全分叉 + - `concepts/cache-invalidation.md` — 缓存失效 + - `concepts/cache-hit-ratio.md` — 缓存命中率 (CHR) + - `concepts/context-compression.md` — 上下文压缩 + - `concepts/system-message-abuse.md` — System Message 滥用反模式 + - `concepts/cache-health-observability.md` — 缓存健康度可观测性 + - `concepts/meta-jctrader.md` — Meta-JCTrader 案例 + - 占位符概念 (2 个): + - `concepts/agentic-systems.md` — Agentic Systems + - `concepts/reinforcement-learning-trading.md` — 强化学习交易 +- 索引:195 → 203 页(全量重建) +- 关键概念:四层架构分层、Stub模式/ToolRegistry、Cache-Safe Forking、CHR监控 +- Review: `reviews/prompt-caching-architecture-review-20260511.md` + +## [2026-05-11] ingest | 拉姆齐数的数学综述 (用户上传) +- 来源:用户上传 Markdown (RNS.md) +- 日期:2025年6月 +- 类型:数学综述 (Survey) +- 新增文件 (18 个): + - `raw/papers/ramsey-numbers-survey-2025.md` — 原始综述存档 + - `papers/ramsey-numbers-survey.md` — 论文主页面 + - 核心概念 (12 个): + - `concepts/ramsey-theory.md` — 拉姆齐理论 + - `concepts/ramsey-numbers.md` — 拉姆齐数 + - `concepts/diagonal-ramsey-number.md` — 对角拉姆齐数 + - `concepts/probabilistic-method.md` — 概率方法 (Erdős 1947) + - `concepts/hypergraph-ramsey-number.md` — 超图拉姆齐数 + - `concepts/geometric-ramsey-theory.md` — 几何拉姆齐理论 + - `concepts/additive-combinatorics.md` — 加法组合学 + - `concepts/van-der-waerden-theorem.md` — van der Waerden 定理 + - `concepts/paris-harrington-theorem.md` — 巴黎-哈灵顿定理 + - `concepts/green-tao-theorem.md` — Green-Tao 定理 (素数等差数列) + - `concepts/szemerédi-regularity-lemma.md` — Szemerédi 正则性引理 + - `concepts/ramsey-theory-applications.md` — 拉姆齐理论跨学科应用 + - 占位符概念 (4 个): + - `concepts/paley-graph.md` — Paley 图 + - `concepts/lovasz-local-lemma.md` — Lovász 局部引理 + - `concepts/random-graph-theory.md` — 随机图理论 + - `concepts/furstenberg-correspondence.md` — Furstenberg 对应原理 +- 索引:203 → 219 页(全量重建) +- 关键概念:Ramsey 理论核心信条、概率方法、Green-Tao 定理、Paris-Harrington 不可判定性 +- Review: `reviews/ramsey-numbers-survey-review-20260511.md` +- 与已有概念的连接:[[godel-incompleteness-theorems]] (via Paris-Harrington) + +## [2026-05-11] ingest | 上下文构造与拉姆齐数 (用户上传) +- 来源:用户上传 Markdown +- 类型:方法论设计 (Methodology) +- 核心思路:将拉姆齐理论的"必然涌现的秩序"映射到 Agent 上下文构筑 +- 新增文件 (7 个): + - `raw/articles/ramsey-context-construction-2026.md` — 原始文档存档 + - `articles/ramsey-context-construction.md` — 方法论主页面 + - 核心概念 (5 个): + - `concepts/ramsey-context-graph.md` — 拉姆齐上下文图(蓝/红边兼容性建模) + - `concepts/ramsey-context-cache.md` — 拉姆齐上下文缓存(三层机制) + - `concepts/context-blue-clique.md` — 上下文蓝色团(全兼容骨架) + - `concepts/greedy-context-screening.md` — 贪心上下文筛选(三步快速组装) + - `concepts/ramsey-context-template.md` — 拉姆齐上下文模板(KV cache 优化) +- 索引:219 → 225 页(全量重建) +- 关键概念:兼容图建模、R(3,3)=6 保证、蓝色团模板、贪心团搜索 +- Review: `reviews/ramsey-context-construction-review-20260511.md` +- 桥梁作用:连接 [[ramsey-theory|拉姆齐理论]](数学)与 [[prompt-caching|Prompt Caching]](工程) + +## [2026-05-11] ingest | Koopa: Koopman 预测器驱动的非平稳时序学习 (arXiv) +- 来源:https://arxiv.org/abs/2305.18803 +- 作者:Yong Liu, Chenyu Li, Jianmin Wang, Mingsheng Long (Tsinghua) +- 会议:NeurIPS 2023 +- 新增文件 (9 个): + - `raw/papers/liu-koopa-2023.md` — 原始论文存档 + - `papers/liu-koopa-2023.md` — 论文主页面 + - 核心概念 (7 个): + - `concepts/koopman-theory.md` — Koopman 理论(非线性→线性映射) + - `concepts/koopman-predictor.md` — Koopman 预测器 + - `concepts/fourier-filter-dynamics.md` — Fourier Filter 动力学分解 + - `concepts/dynamic-mode-decomposition.md` — DMD 动态模式分解 + - `concepts/non-stationary-time-series.md` — 非平稳时间序列 + - `concepts/koopman-autoencoder.md` — Koopman 自编码器 (KAE) + - `concepts/time-variant-dynamics.md` — 时变动力学 +- 索引:225 → 233 页(全量重建) +- 关键结果:SOTA 竞争性能 + 77.3% 训练时间节省 + 76.0% 内存节省 +- Review: `reviews/koopa-review-20260511.md` \ No newline at end of file diff --git a/papers/bartoldson-tba-2025.md b/papers/bartoldson-tba-2025.md new file mode 100644 index 0000000..c62a352 --- /dev/null +++ b/papers/bartoldson-tba-2025.md @@ -0,0 +1,100 @@ +--- +title: "TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练" +authors: ["Brian Bartoldson", "Siddarth Venkatraman", "James Diffenderfer", "Moksh Jain", "Tal Ben-Nun", "Seanie Lee", "Minsu Kim", "Johan Obando-Ceron", "Yoshua Bengio", "Bhavya Kailkhura"] +year: 2025 +arxiv: "2503.18929" +venue: "NeurIPS 2025" +type: "paper" +created: 2026-05-12 +tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl"] +sources: ["https://arxiv.org/abs/2503.18929", "https://github.com/bbartoldson/TBA"] +--- + +# TBA: 异步轨迹平衡 — 解耦探索与学习 + +> **"Decoupling Exploration and Learning"** — 用 GFlowNet 的 off-policy 目标实现 4×–50× 训练加速。 + +## 核心问题 + +标准 on-policy RL 方法(PPO、[[grpo|GRPO]]、RLOO)存在**串行瓶颈**:数据生成和政策更新必须顺序进行,GPU 利用率低。 + +异步 RL 可解耦两者,但 off-policy 数据会导致性能下降——现有方法(Async DPO、Proximal RLOO)在策略偏离增大时性能显著衰退。 + +## TBA 框架 + +[[tba|TBA]] 将 [[gflownet-fine-tuning|GFlowNet]] 的 [[trajectory-balance-objective|Trajectory Balance (TB)]] 目标集成到 [[asynchronous-rl-llm|异步分布式 RL]] 框架中: + +``` +┌──────────────────────────────────────────┐ +│ S EARCHER 节点 (N个) T RAINER 节点 │ +│ ┌─────────────┐ ┌─────────────┐ │ +│ │ vLLM 推理 │──◇──▶ │ Replay │ │ +│ │ 本地策略πθ' │ 轨迹 │ Buffer │ │ +│ │ 奖励评估 │ │ (D_global) │ │ +│ └─────────────┘ │ ↓ │ │ +│ ↑ 每k步同步 │ TB Loss更新 │ │ +│ └─────────────────┤ 策略权重 │ │ +│ └─────────────┘ │ +└──────────────────────────────────────────┘ +``` + +### 关键设计 + +**1. Searcher-Trainer 解耦**:Searcher 持续生成响应(不等待训练),Trainer 持续训练(不等待生成),仅在每 k 步同步一次。 + +**2. [[replay-buffer-rl-llm|Global Replay Buffer]]**:存储所有历史轨迹(x, y, r),Trainer 从中采样进行 off-policy 训练。 + +**3. [[reward-recency-sampling|双重采样策略]]**:概率 m 采样最近(recency)数据 → 近似 on-policy;概率 1−m 采用奖励优先(reward-prioritized)采样 → 探索高奖励区域。 + +### TB 目标公式 + +$$L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2$$ + +其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$,$Z(x)$ 用 K-sample batch estimate(VarGrad)替代学习。 + +**关键性质**:TB 是 **off-policy 兼容** 的——训练时 $y$ 可从任意分布采样。 + +## 实验结果 + +### 数学推理 (GSM8K, RhoMath-1B) +| 方法 | 加速比 | 准确率 | +|------|--------|--------| +| VinePPO | — | ~53% | +| TBA | **50×** | **55%** | + +### 偏好微调 (TL;DR, Pythia 410M) +- TBA 在 16 步 off-policy 设置下 **超越 on-policy Online DPO** +- 定义新的 KL vs. Win-Rate **Pareto 前沿** + +### 自动红队测试 (GPT-2, Llama 3.2 1B) +- TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA +- 增加 Searcher 数量持续提升攻击成功率和多样性 + +### 大规模模型 (MATH, Qwen 2.5 7B) +- TBA′ 在高度 off-policy 设置下(10 步 stale)**显著优于 Dr. GRPO** + +## 概念网络 + +``` +TBA 框架 +├── 算法基础 +│ ├── [[trajectory-balance-objective]]: Off-policy TB 目标 +│ │ └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]] +│ └── KL 正则化 RL: π* ∝ π_ref · exp(r/β) +├── 系统架构 +│ ├── [[asynchronous-rl-llm]]: 解耦探索与学习 +│ ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer +│ └── [[replay-buffer-rl-llm]]: Global replay buffer +├── 采样策略 +│ └── [[reward-recency-sampling]]: 奖励 vs 最近度 +└── 对比基线 + ├── [[grpo]]: On-policy 基线 + └── [[off-policy-llm-post-training]]: Off-policy RL 范式 +``` + +## 论文信息 + +- **arXiv**: [2503.18929](https://arxiv.org/abs/2503.18929) +- **代码**: [bbartoldson/TBA](https://github.com/bbartoldson/TBA) +- **机构**: LLNL × Mila × Université de Montréal × KAIST × CIFAR +- **发表**: NeurIPS 2025 diff --git a/papers/behrouz-memory-caching-rnn.md b/papers/behrouz-memory-caching-rnn.md index 8acddf3..bb5f74c 100644 --- a/papers/behrouz-memory-caching-rnn.md +++ b/papers/behrouz-memory-caching-rnn.md @@ -10,7 +10,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md] # Memory Caching: RNNs with Growing Memory **arXiv:** 2602.24281 [cs.LG] · 2026-02-27 -**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]] +**作者:** [[behrouz-memory-caching-rnn]], Zeman Li, Yuan Deng, Peilin Zhong, [[behrouz-memory-caching-rnn]], [[behrouz-memory-caching-rnn]] ## 核心贡献 @@ -35,7 +35,7 @@ sources: [raw/papers/behrouz-memory-caching-rnn-2026.md] ## 相关概念 -- [[rnn-memory-caching]] — Memory Caching 技术详解 +- [[memory-caching-rnn]] — Memory Caching 技术详解 - [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案 ## 来源 diff --git a/papers/clawless-ai-agent-security.md b/papers/clawless-ai-agent-security.md index b2e4b22..c64d697 100644 --- a/papers/clawless-ai-agent-security.md +++ b/papers/clawless-ai-agent-security.md @@ -1,3 +1,12 @@ +--- +title: ClawLess: AI 代理安全模型 +created: 2025-04-15 +updated: 2026-05-01 +type: paper +tags: [] +sources: [] +--- + # ClawLess: AI 代理安全模型 **作者**: Hongyi Lu, Nian Liu, Shuai Wang, Fengwei Zhang @@ -49,13 +58,13 @@ ClawLess建立了一个细粒度的安全模型,捕获系统多个领域中的 本文涉及以下关键概念: -- [[ClawLess]] - AI代理安全框架 -- [[AI代理安全]] - 自主AI系统的安全挑战 -- [[形式化安全模型]] - 使用数学方法定义的安全规范 -- [[用户空间内核]] - 在用户空间实现的内核功能 -- [[BPF系统调用拦截]] - 使用BPF技术拦截和控制系统调用 -- [[安全容器]] - 提供隔离和保护的容器技术 -- [[最坏情况威胁模型]] - 假设系统可能面临的最坏攻击场景 +- [[clawless]] - AI代理安全框架 +- [[ai-agent-security]] - 自主AI系统的安全挑战 +- [[formal-security-model]] - 使用数学方法定义的安全规范 +- [[userspace-kernel]] - 在用户空间实现的内核功能 +- [[bpf-syscall-interception]] - 使用BPF技术拦截和控制系统调用 +- [[secure-containers]] - 提供隔离和保护的容器技术 +- [[worst-case-threat-model]] - 假设系统可能面临的最坏攻击场景 ## 技术实现 @@ -82,9 +91,9 @@ ClawLess为保护系统免受潜在恶意自主AI代理的攻击提供了原则 ## 相关论文 -- [[ACE-LLM集成应用系统安全架构]] -- [[IsolateGPT-LLM代理系统执行隔离架构]] -- [[NeuroFilter-对话LLM代理隐私护栏]] +- [[ai-agent-security]] +- [[userspace-kernel]] +- [[secure-containers]] ## 参考文献 diff --git a/papers/dai-mathforge-2026.md b/papers/dai-mathforge-2026.md new file mode 100644 index 0000000..b3aa873 --- /dev/null +++ b/papers/dai-mathforge-2026.md @@ -0,0 +1,83 @@ +--- +title: "MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写" +authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"] +year: 2026 +arxiv: "2601.20614" +venue: "ICLR 2026" +type: "paper" +created: 2026-05-12 +tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"] +sources: ["https://arxiv.org/abs/2601.20614", "https://github.com/AMAP-ML/MathForge"] +--- + +# MathForge: Harder Is Better + +> **"Harder is Better"** — 从算法和数据双重视角,通过聚焦更困难的问题来提升数学推理能力。 + +## 核心问题 + +RLVR(可验证奖励强化学习)中,现有方法系统性**忽视了更困难的问题**: + +- **算法层面**:GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大,对更难(p 接近 0)和更简单(p 接近 1)的问题都被抑制 +- **数据层面**:数据增强主要关注多样性,没有系统性地**提高内在难度** + +**核心洞察**:难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握,同时提供至少一个正确答案用于定向学习。 + +## MathForge 框架 + +MathForge 是一个**双轨协同框架**: + +### 算法轨:[[dgpo|DGPO]] + +1. **[[dgae|DGAE]]**:用 MAD(平均绝对偏差)替代 std 作为归一化分母,使得每个问题的总更新幅度恒为 G(与准确率无关) +2. **[[dqw|DQW]]**:用 softmax 温度加权显式优先学习更难的问题 + +### 数据轨:[[mqr|MQR]] + +三种策略改写问题,同时**保持原始答案不变**: +| 策略 | 描述 | 挑战的能力 | +|------|------|-----------| +| Background | 添加叙事背景(噪声) | 从噪声中识别关键数学信息 | +| Term | 发明抽象数学术语 | 理解抽象数学概念 | +| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 | + +## 关键理论发现 + +Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时达到最大值 → **难度不平衡**,详见 [[update-magnitude-imbalance]] + +Theorem 2: DGAE 的总更新幅度恒为 G → **难度平衡** + +## 实验结果 + +在 Qwen2.5-Math-7B 上的 6 个基准测试结果: + +| 方法 | 平均分 | ΔGRPO | +|------|--------|-------| +| GRPO | 37.61 | — | +| DGPO | 39.79 | +2.18 | +| MQR | 41.04 | +3.43 | +| **MathForge** | **42.17** | **+4.56** | + +跨模型验证:在 4 个不同模型族(Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B)上均取得一致增益,DGPO+MQR 提升范围 2.86–4.45%。 + +## 关键概念网络 + +``` +MathForge +├── 算法轨道 +│ ├── [[dgpo]]: 难度感知 GRPO +│ │ ├── [[dgae]]: MAD 归一化 → 平衡更新幅度 +│ │ └── [[dqw]]: Softmax 难度加权 → 优先困难问题 +│ └── [[grpo]]: 基线方法(存在 [[update-magnitude-imbalance|隐含不平衡]]) +├── 数据轨道 +│ └── [[mqr]]: 多维度问题改写 +│ └── [[math-question-reformulation]]: Background / Term / Sub-Problem +└── 理论基础 + └── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式 +``` + +## 论文信息 + +- **arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614) +- **代码**: [AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge) +- **机构**: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学 diff --git a/papers/deepseek-v4-million-token-context.md b/papers/deepseek-v4-million-token-context.md index 3b5db40..66d60ad 100644 --- a/papers/deepseek-v4-million-token-context.md +++ b/papers/deepseek-v4-million-token-context.md @@ -65,4 +65,4 @@ tags: [large-language-models, mixture-of-experts, long-context, architecture, tr --- *Added: 2026-04-27 | Source: DeepSeek-AI Technical Report* -*See raw archive: [[../raw/papers/deepseek-ai-deepseek-v4-2026]]* +*See raw archive: [[deepseek-v4-million-token-context]]* diff --git a/papers/dou-cl-bench.md b/papers/dou-cl-bench.md new file mode 100644 index 0000000..ff04fdc --- /dev/null +++ b/papers/dou-cl-bench.md @@ -0,0 +1,95 @@ +--- +title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文" +created: 2026-05-01 +updated: 2026-05-01 +type: paper +tags: [benchmark, llm, alignment] +sources: [raw/papers/dou-cl-bench-2026.md] +--- + +# CL-bench: A Benchmark for Context Learning + +> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03 + +## 核心问题 + +当前 LLM 擅长利用预训练知识回答 prompt,但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**(上下文学习),并构建了 CL-bench 基准来评估它。 + +## 方法论 + +### 基准规模 +- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics** +- 全部由经验丰富的领域专家人工策展 +- 每个上下文平均耗时约 20 小时专家工作量 +- 每个任务平均 16.6 个 rubrics + +### 污染防护 +三种策略确保任务**不能仅靠预训练知识**解决: +1. **虚构创造**:发明完整的虚构法律体系、编程语言等 +2. **修改现有内容**:改变历史事件、科学定义、技术文档 +3. **纳入小众/新兴内容**:前沿研究、新发布产品手册、窄领域专业知识 + +上下文无关消融实验:无上下文时模型解决率 **< 1%** + +### 四类上下文(→18 子类) + +| 类别 | 占比 | 子类数 | 核心挑战 | +|------|------|--------|---------| +| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用(法律、金融、科学) | +| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行(博弈、数学、编程) | +| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行(产品手册、工作流) | +| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 | + +### 评估方式 +使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求:**只有通过所有 rubrics 才算解决任务**。评估可靠性:inter-verifier 一致性 > 90%。 + +## 十模型评估结果 + +| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 | +|------|------|---------|---------|---------|---------| +| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% | +| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% | +| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% | +| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% | +| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% | +| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% | +| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% | +| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% | +| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% | +| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% | +| **平均** | **17.2%** | — | — | — | — | + +## 核心发现 + +### 1. Context Learning 是当前 LLM 的根本瓶颈 +十模型平均仅 17.2%,最佳仅 23.7%——**无模型超过 30%** + +### 2. 类别间性能差异巨大 +- 领域知识推理最易(25.3%),经验发现与模拟最难(~11%) +- 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15% + +### 3. 不是长上下文问题 +任务难度与上下文长度**无强相关性**——推理质量才决定成败(与 CL-bench Life 一致) + +### 4. 专业领域上下文 vs 真实生活上下文 +本文是 CL-bench 系列的**首篇**,关注专业领域上下文。后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文,两者互补。 + +## 与 CL-bench Life 的关系 + +| 维度 | CL-bench | CL-bench Life | +|------|---------|---------------| +| 上下文类型 | 专业领域(虚构法律、编程、金融) | 真实生活(群聊、笔记、行为日志) | +| 上下文数 | 500 | 405 | +| 任务数 | 1,899 | 405 | +| 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 | +| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) | +| 核心挑战 | 归纳式推理(经验发现) | 混乱上下文推理(通信社交) | + +## 相关概念 +- [[context-learning]] — 上下文学习能力定义 +- [[cl-bench-life]] — CL-bench Life(后续工作) +- [[real-life-context-learning]] — 真实生活上下文学习 +- [[domain-knowledge-reasoning]] — 领域知识推理 +- [[rule-system-application]] — 规则系统应用 +- [[procedural-task-execution]] — 程序性任务执行 +- [[empirical-discovery-simulation]] — 经验发现与模拟 diff --git a/papers/elf-embedded-language-flows.md b/papers/elf-embedded-language-flows.md new file mode 100644 index 0000000..eee9ed0 --- /dev/null +++ b/papers/elf-embedded-language-flows.md @@ -0,0 +1,70 @@ +--- +title: "ELF: Embedded Language Flows" +created: 2026-05-13 +updated: 2026-05-13 +type: paper +arxiv: "2605.10938" +authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"] +venue: "Tech Report (2026)" +tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation] +sources: + - https://arxiv.org/abs/2605.10938 + - https://github.com/lillian039/ELF +--- + +# ELF: Embedded Language Flows + +**MIT | 2026 | arXiv:2605.10938** + +Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He** + +## 核心问题 + +连续扩散语言模型(DLM)能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题? + +## 方法 + +ELF 提出了一种**极简连续 DLM 设计**:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过**共享权重网络**映射回离散 token。 + +### 核心设计 + +1. **Flow Matching 框架**:采用连续时间 [[rectified-flows]](线性插值路径:z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。 + +2. **x-prediction 参数化**:网络直接预测干净的嵌入 x̂(而非速度 v),使去噪(MSE)和解码(CE)两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。 + +3. **共享权重离散化(Shared-Weight Discretization)**:单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作: + - **Denoise mode (t<1)**:MSE loss,预测干净嵌入 + - **Decode mode (t=1)**:CE loss,经 unembedding 层输出离散 token + + 无需额外 decoder。参考 [[shared-weight-discretization]]。 + +4. **Classifier-Free Guidance**:由于 ELF 全程在连续空间操作,CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号,使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。 + +5. **ODE/SDE 采样器**:支持 ODE(欧拉求解器)和 SDE 启发式采样(每步注入小噪声)。参考 [[sde-sampler-language]]。 + +### 训练流程 + +- 编码:冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间,经 bottleneck 压缩到 128-d +- 去噪分支(80% 批次):随机采样 t,线性插值构造 z_t,MSE 训练 +- 解码分支(20% 批次):t=1,对 z 加 token 级 corruption,CE 训练 + +## 关键发现 + +1. **105M ELF-B 超越 170M 基线**(MDLM, Duo, FLM, LangFlow),训练 token 仅 10% +2. **32 步采样**即可达到基线 1024 步的质量,Gen. PPL 大幅降低 +3. 无需蒸馏即可与蒸馏版基线竞争 +4. 在机器翻译(WMT14 De-En)和摘要(XSum)任务上也达到最优 +5. CFG 配合自条件化显著提升无条件生成质量 +6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差 + +## 概念网络 + +核心概念:[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]] + +支撑技术:[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]] + +评估指标:[[generative-perplexity]] + +## 意义 + +ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计(无额外 decoder、无逐步 CE 监督)就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术(CFG、蒸馏、高效采样)的直通道。 diff --git a/papers/godel-incompleteness-tutorial.md b/papers/godel-incompleteness-tutorial.md index de9e6fc..ffc39eb 100644 --- a/papers/godel-incompleteness-tutorial.md +++ b/papers/godel-incompleteness-tutorial.md @@ -1,9 +1,18 @@ +--- +title: "哥德尔不完备定理教程" +created: 2026-05-01 +updated: 2026-05-01 +type: paper +tags: [] +sources: [] +--- + # 哥德尔不完备定理教程 - **类型**: 综合教程 - **年份**: 2026年4月 - **目标读者**: 数学系本科生 -- **原始文件**: [[raw/papers/godel-tutorial-2026|原始存档]] +- **原始文件**: [[godel-incompleteness-tutorial|原始存档]] ## 中文摘要 diff --git a/papers/he-urlvr-sharpening-2026.md b/papers/he-urlvr-sharpening-2026.md new file mode 100644 index 0000000..d68121a --- /dev/null +++ b/papers/he-urlvr-sharpening-2026.md @@ -0,0 +1,53 @@ +--- +title: "How Far Can Unsupervised RLVR Scale LLM Training?" +created: 2026-05-01 +updated: 2026-05-01 +type: paper +tags: [] +sources: [] +--- + +# How Far Can Unsupervised RLVR Scale LLM Training? + +- **arXiv**: 2603.08660 +- **作者**: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab) +- **会议**: ICLR 2026 +- **标签**: #RLVR #unsupervised-learning #reward-hacking + +## 中文摘要 + +URLVR(无监督可验证奖励强化学习)被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现:**所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布**。这个机制在模型自信且正确时奏效,但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式,崩溃时间由模型先验决定而非工程选择。作者提出 [[model-collapse-step|Model Collapse Step]] 作为衡量模型先验的实用指标,并探索 [[self-verification-rewards|self-verification]] 作为外部奖励路径的突破。 + +## 核心问题 + +监督 RLVR(DeepSeek-R1、Gemini 2.5、Qwen3)很强大,但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平,获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。**本文提出根本问题:内在 URLVR 真的能规模化 LLM 训练吗?** + +## 方法论贡献 + +1. **URLVR 分类法**: [[certainty-based-rewards|确定性奖励]] vs [[ensemble-based-rewards|集成奖励]],前者从策略置信度(logits/熵)推导,后者从多样本一致性(多数投票)推导 +2. **[[intrinsic-rewards-sharpening|Sharpening 统一理论]]**: 从 KL 正则化 RL 目标出发,推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好,不发现新知识 +3. **Rise-then-Fall 定律**: 无论内在方法具体设计如何,始终先升后降,崩溃不可避免 +4. **[[model-collapse-step|Model Collapse Step (MCS)]]**: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数,比 pass@k 更准确,无需 ground truth + +## 关键发现 + +| 发现 | 含义 | +|------|------| +| 内在奖励统一锐化初始分布 | 无法超越模型已有知识 | +| Rise-then-Fall 是必然模式 | 崩溃时间反映模型先验 | +| MCS 预测 RL 可训练性 | 低成本基模型选择替代方案 | +| [[self-verification-rewards|Self-verification]] 无崩溃 | 外部奖励可能突破天花板 | + +## 相关概念 +- [[test-time-training-rl]] +- [[rlvr-unified-framework]] +- [[confidence-correctness-alignment]] + +- [[unsupervised-rlvr]] — URLVR 范式定义 +- [[intrinsic-rewards-sharpening]] — Sharpening 机制(理论核心) +- [[model-collapse-step]] — MCS 指标 +- [[self-verification-rewards]] — 外部奖励突破 +- [[reward-hacking-llm]] — 奖励黑客与模型崩溃 +- [[certainty-based-rewards]] — 确定性奖励 +- [[ensemble-based-rewards]] — 集成奖励/多数投票 +- [[generation-verification-asymmetry]] — 生成-验证不对称性 diff --git a/papers/hunyuan-team-cl-bench-life.md b/papers/hunyuan-team-cl-bench-life.md new file mode 100644 index 0000000..b38b822 --- /dev/null +++ b/papers/hunyuan-team-cl-bench-life.md @@ -0,0 +1,88 @@ +--- +title: "CL-Bench Life: 真实生活上下文学习基准" +created: 2026-05-01 +updated: 2026-05-01 +type: paper +tags: [benchmark, llm, alignment, architecture] +sources: [raw/papers/hunyuan-team-cl-bench-life-2026.md] +--- + +# CL-Bench Life: Can Language Models Learn From Real-Life Context? + +> Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29 + +## 核心问题 + +当 AI 助手从专业场景进入日常生活,它们面对的上下文不再是结构化文档,而是**混乱、碎片化、深植于个人与社会经验**的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务? + +## 方法论 + +CL-bench Life 是一个**全人工策展**的基准,包含: +- **405 个上下文-任务对** + **5,348 个验证细则** (rubrics) +- 每个任务要求模型仅根据提供的上下文推理求解,无需外部检索 +- 59.8% 的任务为多轮交互,更真实反映日常使用场景 + +### 三类上下文 + +| 类别 | 占比 | 典型场景 | +|------|------|---------| +| **沟通与社交互动** | 33.3% | 私聊、群聊、会议纪要、论坛讨论 | +| **碎片化信息与修订** | 33.3% | 个人笔记、RSS流、文档编辑历史 | +| **行为记录与活动轨迹** | 33.3% | 游戏日志、数字足迹、日常健身记录 | + +每类下含 3 个子类,共 9 个子类,均衡分布避免评估偏差。 + +### 评估方式 +使用 judge model(LLM-as-judge)基于任务级 rubrics 自动评估。rubrics 以 ✅(必须覆盖)和 ❌(不得出现)格式列出。 + +## 核心发现 + +### 1. 真实生活上下文学习极度困难 +- 最佳模型 **GPT-5.4**:仅 **19.3%** 解决率 +- 十模型平均:**13.8%** +- 这意味着**即使最强模型,每 5 个日常上下文任务只能解决不到 1 个** + +### 2. 不是"长上下文"问题 +- 任务解决率与上下文长度**无强相关性** +- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分(23.1%) +- 根本困难在于**对混乱、弱结构上下文的推理**,而非上下文长度 + +### 3. 推理有帮助,但收益递减 +- 启用推理模式普遍提升性能,尤其在行为记录类任务上 +- 但边际增益随推理 token 增加而递减 +- **token 效率差异巨大**:Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%,Seed-2.0-Pro 需 ~6.7K 达到 15% + +### 4. 上下文误用是首要失败模式 +- **76-84%** 的错误是"上下文误用"(读了但没读懂/没推对) +- 仅 36-45% 的错误涉及"上下文忽略" +- 格式错误和直接拒答很少(<3%) +- **核心挑战**:模型"看到了"上下文但**无法正确推理其中的信息** + +### 5. 群聊场景的"身份混乱" +在群聊场景中,模型频繁**混淆发言者身份、别名指代、角色关系**,导致对整个对话背景的理解出现根本性错误。 + +### 6. 最难子类:自我追踪轨迹 +"行为记录 → 自我追踪轨迹"(如健身日志)是所有子类中最难的——最佳模型仅 **10.4%** + +## 十模型评估结果 + +| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 | +|------|---------|---------|---------|---------| +| GPT-5.4 (High) | **19.3%** | 30.4% | 17.8% | 34.1% | +| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% | +| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% | +| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% | +| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% | +| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% | +| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% | +| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% | +| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% | +| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% | + +## 相关概念 +- [[cl-bench-life]] — CL-bench Life 基准设计 +- [[real-life-context-learning]] — 真实生活上下文学习能力 +- [[context-misuse]] — 上下文误用:读了但无法正确推理 +- [[messy-context-reasoning]] — 混乱上下文推理 +- [[llm-evaluation-benchmarks]] — LLM 评测基准体系 +- [[long-context-understanding]] — 长上下文理解能力 diff --git a/papers/laban-llms-corrupt-documents-delegate.md b/papers/laban-llms-corrupt-documents-delegate.md new file mode 100644 index 0000000..6e1c0b5 --- /dev/null +++ b/papers/laban-llms-corrupt-documents-delegate.md @@ -0,0 +1,62 @@ +--- +title: "LLMs Corrupt Your Documents When You Delegate" +created: 2026-05-14 +type: paper +tags: ["delegated-work", "document-editing", "evaluation", "benchmark", "long-horizon", "backtranslation"] +sources: ["https://arxiv.org/abs/2604.15597"] +--- + +# LLMs Corrupt Your Documents When You Delegate + +**Philippe Laban, Tobias Schnabel, Jennifer Neville** — Microsoft Research +arXiv 2604.15597 (cs.CL, cs.HC), April 2026 + +## 核心问题 + +当我们把文档编辑工作委托给 LLM 时,模型会**静默地破坏文档内容**。即使是前沿模型(Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4),在 20 次交互后平均损坏约 25% 的文档内容。更关键的是,这些错误是**稀疏但严重**的:不是"千刀万剐"式的小错误累积,而是少数几次关键失败导致了约 80% 的总损坏。 + +## 方法论:[[backtranslation-round-trip-relay]] + +论文提出 [[delegate-52]] 基准,包含 310 个工作环境、覆盖 52 个专业领域。评估使用 [[backtranslation-round-trip-relay]] 方法——每次编辑任务都是可逆的(正向编辑 + 反向编辑 = 回译),完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay,衡量 [[round-trip-reconstruction-score|RS@k]]。 + +## 关键发现 + +### 1. [[document-degradation]] 普遍存在 +- 所有 19 个模型都出现文档退化,无一例外 +- 前沿模型 25% 退化,平均 50% 退化 +- Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域 + +### 2. [[critical-failures|关键失败]] 而非渐进退化 +- 约 80% 的退化来自少数几次关键错误(单次回译丢失 10-30+ 分) +- 弱模型的退化主要来自**删除内容**,前沿模型的退化主要来自**内容损坏** + +### 3. Agentic 工具使用**未改善**表现 +- 4 个测试模型在工具模式下平均额外退化 6% +- 工具使用带来 2-5x 输入 token 开销 +- 更好的模型倾向于使用 code execution 而非文件重写(GPT 5.4: 45% vs GPT 4.1: 10%) + +### 4. 复合效应 +- [[distractor-context|干扰文档]] 的危害随着交互长度增加而放大 +- 文档大小和交互长度的负效应**乘性叠加**(5 倍放大) +- 扩展到 100 次交互后所有模型仍持续退化,无平台迹象 + +## 领域差异 + +模型在编程领域(Python, DBSchema)表现更好,在自然语言和小众领域(Earnings Statements, Music Notation)表现更差。高重复性和结构化密度的领域(Molecule, Chess)表现更好。 + +## 意义 + +- **对开发者**:52 个领域可视为 "mini-gym",用于通过 cycle consistency 训练模型 +- **对研究者**:需要更多 [[long-horizon-evaluation|长视界评估]] 基准,短交互表现不能预测长视界表现 +- **对用户**:模型能力遵循 [[jagged-frontier|锯齿前沿]],在 Python 中可靠不等于在其他领域中可靠 + +## 相关概念 + +- [[delegate-52]] — 基准本身 +- [[backtranslation-round-trip-relay]] — 评估方法论 +- [[document-degradation]] — 核心发现 +- [[critical-failures]] — 错误结构分析 +- [[delegated-work]] — 交互范式 +- [[long-horizon-evaluation]] — 评估哲学 +- [[domain-specific-evaluation]] — 评估实现 +- [[distractor-context]] — 实验设计要素 diff --git a/papers/liu-koopa-2023.md b/papers/liu-koopa-2023.md new file mode 100644 index 0000000..a20e071 --- /dev/null +++ b/papers/liu-koopa-2023.md @@ -0,0 +1,48 @@ +--- +title: "Koopa: Koopman 预测器驱动的非平稳时间序列学习" +created: 2026-05-11 +updated: 2026-05-11 +type: paper +arxiv: "2305.18803" +tags: [time-series, koopman-theory, deep-learning, forecasting] +sources: ["https://arxiv.org/abs/2305.18803"] +--- + +# Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors + +## 概述 + +Koopa 是清华龙明盛组发表于 NeurIPS 2023 的时序预测模型,利用 [[koopman-theory|Koopman 理论]] 从根本上处理[[non-stationary-time-series|非平稳时间序列]]的时变动力学。核心创新:用 [[fourier-filter-dynamics|Fourier Filter]] 解耦时变/时不变分量,再用 [[koopman-predictor|Koopman 预测器]] 在测量空间中线性推进各自动力学。 + +## 核心问题 + +真实世界时间序列的 [[non-stationary-time-series|非平稳性]] 导致时变统计特性和时间依赖在不同时段间漂移,训练-推理分布鸿沟巨大。先前方法只从架构层面缓解症状,未从理论基础处理时变模式。 + +## 方法论贡献 + +### Koopman 理论 + Fourier Filter + +[[koopman-theory|Koopman 理论]] 将非线性动力学映射到无限维线性空间:K ∘ g(x_t) = g(x_{t+1})。[[fourier-filter-dynamics|Fourier Filter]] 将序列分解为时变(高频)和时不变(低频)分量,各自送入独立的 [[koopman-predictor|Koopman 预测器]]。 + +### Koopman Predictor + +[[koopman-predictor|Koopman 预测器]] 的核心: +- **测量函数学习**:用深度网络找到理想 Koopman 嵌入 g(x_t) +- **线性算子刻画**:Koopman 算子作为隐式转移的线性肖像 +- **上下文感知**:在局部时间邻域计算算子,捕捉 [[time-variant-dynamics|时变动力学]] 的强局部性 + +### 层级架构 + +可堆叠的 Koopa Block:Fourier Filter → Koopman Predictor,逐层解耦和利用层级动力学。深度残差结构实现端到端优化,无需先前方法的[[koopman-autoencoder|重构损失绑定]]。 + +## 关键结果 + +- SOTA 竞争性能 +- **77.3% 训练时间节省 + 76.0% 内存节省** +- 可利用真实观测滚动预测,扩展预测范围 + +## 与现有 Wiki 的关联 + +- [[koopman-theory|Koopman 理论]] 与 [[probabilistic-method|概率方法]] 类似——提供将复杂问题映射到更易处理空间的数学框架 +- [[dynamic-mode-decomposition|DMD]] 作为 Koopman 理论的标准数值方法 +- 时序预测与 [[reinforcement-learning-trading|强化学习交易]] 中的市场预测有天然联系 diff --git a/papers/llm-attention-survey-2026.md b/papers/llm-attention-survey-2026.md index 2ebdb4d..122993f 100644 --- a/papers/llm-attention-survey-2026.md +++ b/papers/llm-attention-survey-2026.md @@ -1,3 +1,12 @@ +--- +title: "大语言模型注意力机制全面分析" +created: 2026-05-01 +updated: 2026-05-01 +type: paper +tags: [] +sources: [] +--- + # 大语言模型注意力机制全面分析 - **类型**: 综述论文 diff --git a/papers/ramsey-numbers-survey.md b/papers/ramsey-numbers-survey.md new file mode 100644 index 0000000..0742d06 --- /dev/null +++ b/papers/ramsey-numbers-survey.md @@ -0,0 +1,54 @@ +--- +title: "拉姆齐数的数学综述" +created: 2026-05-11 +updated: 2026-05-11 +type: survey +tags: [ramsey-theory, combinatorics, graph-theory, additive-combinatorics, mathematical-logic] +sources: ["用户上传 Markdown (2025-06)"] +--- + +# 拉姆齐数的数学综述 + +## 概述 + +本文是 [[ramsey-theory|拉姆齐理论]] 的全面综述,覆盖 [[ramsey-numbers|拉姆齐数]] 的数学理论、已知结果、证明技术、推广变体及跨学科应用。核心理念:「完全的无序是不可能的」。 + +## 核心问题 + +[[ramsey-numbers|拉姆齐数]] R(r,s) 精确刻画了"足够大"的数学内涵:在任何足够大的结构中,必然出现规则性子结构。然而,仅有少数小的 [[diagonal-ramsey-number|对角拉姆齐数]] 被精确确定,更一般的 R(k) 上下界之间存在巨大指数鸿沟(底数 √2 到 4)。 + +## 方法论贡献 + +### 概率方法 + +[[probabilistic-method|概率方法]](Erdős 1947)是组合数学最重要的创新之一:通过随机图以正概率满足性质来证明存在性,避免了显式构造。[[lovasz-local-lemma|Lovász 局部引理]]是其强力推广。 + +### 构造性与代数方法 + +[[paley-graph|Paley 图]] 等有限域代数构造提供可验证的下界;[[szemerédi-regularity-lemma|Szemerédi 正则性引理]](1975)将大图分解为拟随机子结构,是极值组合学的核心工具。 + +### 动力系统与遍历方法 + +[[furstenberg-correspondence|Furstenberg 对应原理]] 将组合问题转化为动力系统的多重递推问题,开辟了组合数论与遍历理论的联系。 + +## 关键推广 + +- [[hypergraph-ramsey-number|超图拉姆齐数]]:k-一致超图情形,增长涉及迭代指数塔 +- [[geometric-ramsey-theory|几何拉姆齐理论]]:幸福结局问题、凸多边形存在性 +- [[van-der-waerden-theorem|van der Waerden 定理]]:任意着色下存在单色等差数列 +- [[paris-harrington-theorem|巴黎-哈灵顿定理]]:PA 中不可证明的"自然"命题 + +## 数论影响 + +[[green-tao-theorem|Green-Tao 定理]](2004)证明素数集包含任意长等差数列,是 [[additive-combinatorics|加法组合学]] 的顶峰。[[random-graph-theory|随机图理论]](Erdős-Rényi)亦源于概率方法的 Ramsey 应用。 + +## 跨学科应用 + +- [[ramsey-theory-applications|计算机科学与密码学]]:分布式容错、随机性提取器、隐私放大 +- **物理学**:相变材料 GST 的 Ramsey 分析 +- **生物学**:基因调控网络的功能模块必然性 +- **社会科学**:群体形成中不可避免的子结构 + +## 核心未解问题 + +R(k) 的精确渐近行为——上下界底数从 √2 到 4 的鸿沟——是当代组合数学最重要挑战之一。R(5) 的精确值(43–48)也悬而未决。 diff --git a/papers/song-agent-network-taxonomy.md b/papers/song-agent-network-taxonomy.md new file mode 100644 index 0000000..80bf7e8 --- /dev/null +++ b/papers/song-agent-network-taxonomy.md @@ -0,0 +1,88 @@ +--- +title: "Complex networks of AI agentic systems: 拓扑-记忆-更新三层分类法" +created: 2026-05-01 +updated: 2026-05-01 +type: paper +tags: [llm, architecture, benchmark, survey] +sources: [raw/papers/song-agent-network-taxonomy-2026.md] +--- + +# Complex networks of AI agentic systems: topology, memory, and update dynamics + +> Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) | TechRxiv 2026 + +## 核心问题 + +大规模 AI Agent 网络广泛用于软件工程、科学分析、Web 自动化和社交模拟,但现有架构缺乏**统一框架**来解释为什么某些设计能扩展到长周期多步任务而另一些会失败。系统行为由三个根本维度塑造:**agent 如何连接、信息如何存储、状态如何更新**。 + +## 方法论:三层级分类法 + +本文提出一个**嵌套式**(非并行式)三属性分类法: + +``` +Topology(拓扑) + ├── Centralized(集中式) + └── Decentralized(去中心化) + ├── Global Memory(全局记忆) + └── Local Memory(局部记忆) + ├── Static Update(静态更新) + └── Dynamic Update(动态更新) +``` + +### 形式化定义 + +Agent 系统定义为四元组:**A = (V, E, M, Π)** + +- V = {a₁, ..., aₙ}:agent 集合 +- E ⊆ V × V:通信图,有向边表示消息传递 +- M:记忆配置(全局 M_global 或局部 {M₁, ..., Mₙ}) +- Π:agent 级策略 + +每个 agent aᵢ 是状态函数:**aᵢ : (xᵢ, mᵢ, cᵢ) → (oᵢ, m'ᵢ)** — 局部观察 + 记忆 + 入站消息 → 行动 + 更新记忆 + +### 8 种系统类别 + +| # | 拓扑 | 记忆 | 更新 | 代表系统 | +|---|------|------|------|---------| +| 1 | 集中式 | 全局 | 静态 | MetaGPT, ChatDev, AutoGen, HuggingGPT | +| 2 | 集中式 | 全局 | 动态 | SWE-agent, OpenHands, Voyager, Multi-Agent Debate | +| 3 | 集中式 | 局部 | 静态 | MetaAgent, YuLan-OneSim, SOTOPIA-S4 | +| 4 | 集中式 | 局部 | 动态 | OPTIMA, Magentic-One, G-Designer | +| 5 | 去中心化 | 全局 | 静态 | BlackBoard, LLMBlackBoard, MemorySharing | +| 6 | 去中心化 | 全局 | 动态 | GPTSwarm, AgentSociety, OpenAgents | +| 7 | 去中心化 | 局部 | 静态 | MMAgent, WebArena, TalkHier | +| 8 | 去中心化 | 局部 | 动态 | GenAgents, 1000-Person Sims, AgentNet, SOTOPIA-S | + +## 核心发现 + +### 1. 通信栈三层结构 + +| 层 | 作用 | 通信形式 | 主要难点 | +|----|------|---------|---------| +| **传输层** | 网络数据传输 | 二进制/文本消息 | 延迟、排序、可靠性 | +| **结构层** (Function Calling) | 跨 agent 的结构化操作 | Schema 消息 | 兼容性、版本漂移 | +| **语义层** (通信协议) | 推理对齐、上下文传播 | 自然语言+结构化证据 | 跨 agent 一致性和上下文一致性 | + +### 2. 扩展性挑战 + +1. **通信负载**:消息量随 agent 数快速增长,饱和消息队列 +2. **上下文漂移**:分布式执行下各 agent 维护不一致的摘要 +3. **排序与并发**:异步系统中消息重排序导致时序视图分歧 +4. **解释不匹配**:异构模型间即使 schema 相同,语义解释仍不兼容 +5. **更新不稳定**:并发更新放大微小不一致,agent 反复覆盖彼此状态 +6. **安全与信任**:通信通道倍增 → 攻击面扩大 + +### 3. MCP 作为标准化基础 + +Model Context Protocol (MCP) 成为大规模 Agent 网络的标准化基板,统一工具调用、资源管理和交互语义。相关工作包括 Gradientsys、SchedCP、Code2MCP、MCP-Bench 等。 + +## 相关概念 +- [[agent-network-taxonomy]] — 三层级分类法详解 +- [[agent-network-topology]] — 集中式 vs 去中心化拓扑 +- [[agent-network-memory-scope]] — 全局 vs 局部记忆 +- [[agent-network-update-behavior]] — 静态 vs 动态更新 +- [[agent-communication-stack]] — 三层通信栈 +- [[centralized-agent-architecture]] — 集中式架构 +- [[decentralized-agent-architecture]] — 去中心化架构 +- [[cognitive-architecture]] — 认知架构 +- [[hyperagents]] — 超智能体(自指代理) diff --git a/papers/streaming-llm.md b/papers/streaming-llm.md new file mode 100644 index 0000000..c9ba13e --- /dev/null +++ b/papers/streaming-llm.md @@ -0,0 +1,74 @@ +--- +title: "StreamingLLM: 基于注意力汇的高效流式语言模型" +created: 2026-05-14 +updated: 2026-05-14 +type: paper +tags: [llm, attention, streaming, kv-cache, inference-optimization] +sources: ["https://arxiv.org/abs/2309.17453"] +venue: "ICLR 2024" +authors: ["Guangxuan Xiao", "Yuandong Tian", "Beidi Chen", "Song Han", "Mike Lewis"] +--- + +# StreamingLLM: 基于注意力汇的高效流式语言模型 + +Efficient Streaming Language Models with Attention Sinks + +[[guangxuan-xiao]], [[yuandong-tian]], [[beidi-chen]], [[song-han]], [[mike-lewis]] — ICLR 2024 + +## 核心问题 + +如何让 LLM 在流式场景(多轮对话、实时生成)中处理**无限长**输入序列,同时保持效率和性能? + +现有方案的问题: +- **Dense Attention**:O(T²) 复杂度,且超出预训练窗口后性能崩溃 +- **Window Attention**:只缓存最近 Token 的 KV,但当初始 Token 被逐出时模型崩溃 +- **Sliding Window + Re-computation**:性能好但太慢,每个新 Token 都要重建 KV + +## 核心发现:Attention Sink(注意力汇) + +作者发现了一个关键现象:**LLM 的初始 Token 在所有层和注意力头上都吸引了不成比例的高注意力分数**,无论其语义是否相关。 + +**原因**:SoftMax 函数要求所有 token 的注意力分数之和为 1。即使当前 query 没有强语义匹配,模型也必须把多余的注意力值 "倾倒" 到某处。由于自回归建模的特性,初始 Token 对所有后续 Token 都可见,因此被自然训练为注意力的 "汇" (sink)。 + +→ 这就是为什么 Window Attention 一旦驱逐初始 Token 就会崩溃:它破坏了 SoftMax 分母的分布。 + +详见 [[attention-sinks|注意力汇]]。 + +## 方法:StreamingLLM + +基于上述洞察,StreamingLLM 的 KV 缓存分为两部分: + +1. **Attention Sinks**(4 个初始 Token):稳定注意力计算,锚定 SoftMax 分布 +2. **Rolling KV Cache**(最近 Token):负责语言建模的语义内容 + +**关键设计**:位置编码在 **cache 内部**分配(而非原始文本),这对 RoPE 和 ALiBi 的性能至关重要。 + +- **无需微调**,直接适用于任何使用相对位置编码的自回归 LLM +- 支持 RoPE(Llama-2, Falcon, Pythia)和 ALiBi(MPT) +- 与上下文窗口扩展方法**正交**,可互补使用 + +## 关键结果 + +- 在 Llama-2 (7/13/70B)、MPT (7/30B)、Falcon (7/40B)、Pythia (2.9/6.9/12B) 上验证 +- 稳定语言建模至 **400 万 Token** 以上 +- 相比 Sliding Window + Re-computation 加速 **最高 22.2×** +- 4 个初始 Token 即可恢复性能,更多 Token 边际收益递减 + +## Sink Token 预训练 + +- 用 1.6 亿参数模型从头预训练验证 +- 在所有训练样本前添加一个可学习的专用 **Sink Token** → 只需要这一个 Token 即可稳定流式推理 +- 相比之下,Vanilla 模型需要 4 个初始 Token 作为 attention sinks +- SoftMax-off-by-One(Zero Sink)有改善但不够充分 + +→ 建议未来的 LLM 预训练统一加入 Sink Token + +## 概念网络 + +- [[attention-sinks|注意力汇]] — 核心现象 +- [[window-attention|窗口注意力]] — 失败的基线 +- [[length-extrapolation|长度外推]] — 问题域 +- [[rolling-kv-cache|滚动 KV 缓存]] — StreamingLLM 机制 +- [[sink-token|汇 Token]] — 预训练改进 +- [[kv-cache-bottleneck|KV 缓存瓶颈]] — 相关优化 +- [[rotary-position-embedding|RoPE]] — 位置编码 diff --git a/entities/papers/tao-klowden-ai-mathematical-methods.md b/papers/tao-klowden-ai-mathematical-methods.md similarity index 86% rename from entities/papers/tao-klowden-ai-mathematical-methods.md rename to papers/tao-klowden-ai-mathematical-methods.md index bdc69cf..5e6690c 100644 --- a/entities/papers/tao-klowden-ai-mathematical-methods.md +++ b/papers/tao-klowden-ai-mathematical-methods.md @@ -6,13 +6,13 @@ type: paper tags: [paper, ai-philosophy, mathematics, human-centered-ai, llm, deep-learning] sources: [raw/papers/tao-ai-mathematical-methods-2026.md] arXiv: "2603.26524" -authors: [[Terence Tao]], [[Tanya Klowden]] +authors: [[terence-tao]], [[tanya-klowden]] published: 2026-03-27 --- # Mathematical methods and human thought in the age of AI -作者:[[Terence Tao]], [[Tanya Klowden]] +作者:[[terence-tao]], [[tanya-klowden]] arXiv: [2603.26524](https://arxiv.org/abs/2603.26524) 发表日期:2026年3月27日 页数:27页 @@ -26,23 +26,23 @@ arXiv: [2603.26524](https://arxiv.org/abs/2603.26524) 发表日期:2026年3 ### 1. 定义与背景 - AI 被定义为执行复杂认知任务的计算机工具谱系 -- 从 [[LLM]] 和扩散模型到传统的 "GOFAI"(如自动定理证明器、国际象棋引擎) +- 从 [[llm-applications]] 和扩散模型到传统的 "GOFAI"(如自动定理证明器、国际象棋引擎) - 缺乏关于为什么要快速开发和部署这些工具的讨论 ### 2. 历史类比:这次不同吗? -- 自动化技术并非新现象(如印刷机、计算机、[[LaTeX]]) +- 自动化技术并非新现象(如印刷机、计算机、[[formal-systems]]) - 过去技术主要影响输出的传播,而非创造本身 - 现代 AI 可以自动化创造过程本身,造成内容外在形式与创造价值观的前所未有的脱钩 ### 3. 数学作为 AI 使用的 "沙盒" - 数学具有更成熟的基础,适合探索各种假设性场景 -- [[Frontier AI]] 模型现在可以解决越来越复杂的数学问题 +- [[ai-alignment]] 模型现在可以解决越来越复杂的数学问题 - AI 可能在某些任务上超越人类专家,同时在基础概念上犯严重错误 ### 4. 证明标准与 "Smell Test" - 数学传统上有客观的证明标准,从欧几里得到二十世纪初的基础 - **"Smell Test"**(气味测试):好的证明不仅展示逻辑推理,还提供理解和洞察 -- [[Formal Verification]](形式化验证)可以验证正确性,但无法捕捉 "penumbra"(启发式、经验式推理) +- [[formal-verification]](形式化验证)可以验证正确性,但无法捕捉 "penumbra"(启发式、经验式推理) ### 5. AI 辅助数学的演进 - 数学社区已适应过之前的技术挑战(如四色定理、开普勒猜想的计算机辅助证明) @@ -62,8 +62,8 @@ arXiv: [2603.26524](https://arxiv.org/abs/2603.26524) 发表日期:2026年3 - [[formal-verification]] - 形式化验证的作用与局限 - [[ai-mathematics]] - AI 与数学的交叉 - [[terence-tao]] - 第二作者,著名数学家 -- [[llm]] - 大语言模型 -- [[alpha-proof]] - 论文提及的 AI 数学证明系统 +- [[llm-applications]] - 大语言模型 +- [[automated-theorem-proving]] - 论文提及的 AI 数学证明系统 ## 关键引用 diff --git a/papers/thinking-with-visual-primitives.md b/papers/thinking-with-visual-primitives.md new file mode 100644 index 0000000..937998a --- /dev/null +++ b/papers/thinking-with-visual-primitives.md @@ -0,0 +1,91 @@ +--- +title: "Thinking with Visual Primitives — 以视觉原语思考" +domain: "Multimodal AI / Visual Reasoning" +tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency] +authors: "DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.)" +year: 2026 +source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives" +--- + +# Thinking with Visual Primitives + +> **"Seeing is not reasoning."** — 本文的根本洞见 + +## 核心问题 + +当前多模态大模型([[multimodal-large-language-model]])的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了[[perception-gap|感知鸿沟]](Perception Gap),模型在复杂空间推理中仍然频繁发生**逻辑崩溃**。 + +本文指出一个更深层的瓶颈:**[[reference-gap|引用鸿沟]]**(Reference Gap)——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。 + +## 方法论贡献 + +提出 **[[visual-primitives|视觉原语思考]]** 框架:将空间标记(bounding boxes 和 points)提升为「思维的最小单位」,直接交织进推理链中。 + +### 两种视觉原语 + +| 原语类型 | 功能 | 适用场景 | +|----------|------|----------| +| **Bounding Box** (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 | +| **Point** (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 | + +### 训练流程 + +``` +Pretraining → Specialized SFT (FTwG + FTwP) + → Specialized RL (GRPO per expert) + → Unified RFT (rejection sampling) + → On-Policy Distillation (KL consolidation) +``` + +关键技术: +- **[[specialized-sft|专项监督微调]]**:分别训练框原语专家(FTwG)和点原语专家(FTwP),避免模式冲突 +- **[[specialized-rl|专项强化学习]]**:使用 [[group-relative-policy-optimization|群体相对策略优化]],配合三类奖励模型(格式 RM、质量 RM、准确率 RM) +- **[[unified-rft|统一拒绝采样微调]]**:利用专家模型 rollout → 按难度筛选 → 合并训练 +- **[[on-policy-distillation|在线策略蒸馏]]**:通过 KL 散度将两个专家的能力蒸馏到统一模型 + +### 冷启动数据设计 + +四大任务维度: +1. **[[coarse-grained-counting|粗粒度计数]]** — 类别级目标计数(如「图中有多少只狗」) +2. **[[fine-grained-counting|细粒度计数]]** — 属性/空间约束计数(如「白色的狗有多少只」) +3. **[[maze-navigation|迷宫导航]]** — 确定迷宫可解性,输出验证路径 +4. **[[path-tracing|路径追踪]]** — 追踪纠缠曲线,识别端点 + +### 奖励模型设计 + +| 奖励类型 | 方法 | 关键创新 | +|----------|------|----------| +| Format RM | 规则检查 | 格式正确性 + 防重复框生成 | +| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 | +| 计数 Accuracy RM | [[exponential-decay-reward|指数衰减奖励]] | 平滑相对误差惩罚 | +| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 | +| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation|双向轨迹评估]] | 前向偏差 + 反向覆盖率 | + +## 架构亮点 + +- **视觉 Token 极致压缩**:756×756 图像 → 2,916 patches → 324 visual tokens → **81 KV entries**(压缩比 7056×) +- 基于 [[deepseek-v4-flash|DeepSeek-V4-Flash]](284B MoE,13B 激活参数)+ [[deepseek-vit|DeepSeek-ViT]] +- [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 将每 m 个视觉 token 压缩为一个 KV entry + +## 关键结果 + +| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 | +|-----------|------|---------|----------------|-------------------| +| CountQA (EM/RA@10) | **66.1/75.1** | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 | +| Pixmo-Count (EM) | **89.2** | 77.2 | 82.9 | 68.7 | +| SpatialMQA (ACC) | **69.4** | 61.9 | 58.2 | 60.6 | +| DS_Maze_Nav (ACC) | **66.9** | 50.6 | 49.4 | 49.8 | +| DS_Path_Trace (ACC) | **56.7** | 46.5 | 41.4 | 30.6 | +| Token per image | **~90** | ~740 | ~1,100 | ~870 | + +## 局限与展望 + +1. 受限于输入分辨率,细粒度场景下偶有视觉原语输出不精确 +2. 当前依赖显式触发词激活「视觉原语思考」机制 +3. 点原语在拓扑推理中的跨场景泛化能力有限 + +## 意义 + +> **多模态智能的未来不在于"看到更多像素",而在于构建语言与视觉之间精确、无歧义的引用桥梁。** + +本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径:不是增大视觉 token 预算,而是提升每个 token 的信息密度和指代精度。 \ No newline at end of file diff --git a/papers/zhang-hyperagents.md b/papers/zhang-hyperagents.md index c37b28f..73c8428 100644 --- a/papers/zhang-hyperagents.md +++ b/papers/zhang-hyperagents.md @@ -1,3 +1,12 @@ +--- +title: Hyperagents: Self-Referential Agents with Metacognitive Self-Modification +created: 2025-04-15 +updated: 2026-05-01 +type: paper +tags: [] +sources: [] +--- + # Hyperagents: Self-Referential Agents with Metacognitive Self-Modification > **来源**: arXiv:2603.19461 [cs.AI] diff --git a/papers/zhu-moda-mixture-of-depths.md b/papers/zhu-moda-mixture-of-depths.md index f27ba63..2f5c4cf 100644 --- a/papers/zhu-moda-mixture-of-depths.md +++ b/papers/zhu-moda-mixture-of-depths.md @@ -35,5 +35,5 @@ sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md] ## 相关概念 - [[mixture-of-depths-attention]] — MoDA 机制详解 -- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战 -- [[signal-degradation]] — 深层网络中的信号退化问题 +- [[depth-scaling-signal-degradation]] — LLM 深度扩展技术与挑战 +- [[depth-scaling-signal-degradation]] — 深层网络中的信号退化问题 diff --git a/raw/articles/caddy-reverse-proxy-auth-2026.md b/raw/articles/caddy-reverse-proxy-auth-2026.md new file mode 100644 index 0000000..0b6b341 --- /dev/null +++ b/raw/articles/caddy-reverse-proxy-auth-2026.md @@ -0,0 +1,27 @@ +# Caddy 反向代理认证方案 + +- **类型**: 技术教程/配置指南 +- **来源**: 用户直接上传 TXT +- **整理日期**: 2026-04-29 +- **标签**: #caddy #reverse-proxy #authentication #api-key #bearer-token + +## 内容概要 + +涵盖 Caddy 反向代理场景下的 5 种认证方案,从纯内置到外部委托,按复杂度递增排列。 + +### 方案矩阵 + +| # | 方案 | 依赖 | 核心指令 | 适用场景 | +|---|------|------|---------|---------| +| 1 | Header 匹配器 | 无(纯内置) | `header` + `not` + `respond` | 固定 API Key / Bearer Token | +| 2 | Route + Handle | 无(纯内置) | `route` + `handle` | 部分路径需认证 | +| 3 | Basic Auth | 无(纯内置) | `basicauth` | 用户名密码保护 | +| 4 | Forward Auth | 外部认证服务 | `forward_auth` | 复杂认证逻辑(查DB等) | +| 5 | JWT 插件 | 第三方编译 | `authp` + `jwt` | 完整 JWT 生态 | + +## 关键技术点 + +- **命名匹配器 (Named Matcher)**: Caddy 的核心抽象,`@name { ... }` 定义条件组 +- **逻辑否定**: `not header` 匹配不符合条件的请求("未认证则拒绝"的反向逻辑) +- **多 Key 白名单**: `@authorized` 收集多个允许的 Key,`@unauthorized { not @authorized }` 拒绝不在白名单 +- **forward_auth**: Caddy 原生支持外部认证委托(返回 200 通过,401/403 拒绝) diff --git a/raw/articles/prompt-caching-architecture-2026.md b/raw/articles/prompt-caching-architecture-2026.md new file mode 100644 index 0000000..7fc9679 --- /dev/null +++ b/raw/articles/prompt-caching-architecture-2026.md @@ -0,0 +1,29 @@ +--- +title: "Agentic Systems: Prompt Caching 架构工程手册 (Volume I)" +source: "微信公众号" +source_url: "https://mp.weixin.qq.com/s/gyd4cqxadv3YW5Fe09r95g" +date: 2026-05 +type: article +tags: [prompt-caching, agent-architecture, system-design, cache-optimization] +--- + +# Agentic Systems: Prompt Caching 架构工程手册 (Volume I) + +> 原文来自微信公众号,以 Meta-JCTrader 高频交易系统为案例,系统阐述 Prompt Caching 在 AI Agent 架构中的工程实践。 + +## 核心主题 + +Prompt Caching 在大规模 AI Agent 系统中不仅是降低延迟和成本的财务指标,更是系统稳健性、上下文一致性以及 Agent 推理确定性的基石。对于涉及高频数据流、强化学习和 meta-learning 的系统,Prompt Caching 的设计直接决定系统的熵值控制。 + +## 关键技术点 + +1. **前缀匹配的确定性原则**:基于 Prefix Matching 的确定性计算模型,任何前缀的微小更改都会导致缓存树"雪崩式"失效 +2. **四层架构分层**:Global Layer → Project Layer → Session Layer → Dynamic Layer +3. **Stub 模式**:通过 ToolRegistry 统一接口解决工具定义变更导致的缓存污染 +4. **Cache-Safe Forking**:实现缓存安全的对话压缩与历史记录处理 +5. **状态管理工具化**:避免 System Message 滥用,使用消息化状态管理 +6. **缓存可观测性**:Cache Hit Ratio (CHR)、失效点识别、成本效率评分 + +## 案例系统 + +Meta-JCTrader:高频交易 + 强化学习 + Meta-Learning + AI Judge (Kimi vs GLM) diff --git a/raw/articles/ramsey-context-construction-2026.md b/raw/articles/ramsey-context-construction-2026.md new file mode 100644 index 0000000..7c22704 --- /dev/null +++ b/raw/articles/ramsey-context-construction-2026.md @@ -0,0 +1,44 @@ +--- +title: "上下文构造与拉姆齐数:基于 Ramsey 理论的 Agent 上下文缓存设计" +source: "用户上传 Markdown" +date: 2026-05 +type: methodology +tags: [ramsey-theory, agent-architecture, prompt-caching, context-design, graph-theory] +--- + +# 上下文构造与拉姆齐数 + +> 将拉姆齐数的"必然涌现的秩序"映射到 Agent 上下文构筑上,设计有存在性保证的高效缓存与组织方法。 + +## 核心思路 + +拉姆齐理论的核心信条——"完全的无序是不可能的"——在 Agent 上下文设计中对应一种全新的范式:不依赖穷举搜索,而是通过维持一张**兼容图**的性质,保证随手一"捞"都能拿出一个内部完全兼容的上下文子集。 + +## 方法框架 + +### 1. 兼容图建模 +- **节点**:tools / skills / prompts 等上下文原子 +- **蓝边**:兼容可共存 | **红边**:冲突/冗余/超token +- 涵盖跨部边(工具-技能)和部内边(工具-工具) + +### 2. 拉姆齐保证 +- R(3,3)=6:维持 6 个原子即保证存在 3-节点蓝色团 +- R(4,4)=18:维持 18 个原子即保证存在 4-节点蓝色团 +- 将"搜索问题"转化为"图维护问题" + +### 3. 三层缓存机制 +- **缓存池维护**:动态计算红蓝边,节点增删触发出边更新 +- **必然团监控**:追踪最大蓝色团,跌破阈值触发扩容/重组 +- **O(1) 命中**:预计算兼容团作为热点上下文模板 + +### 4. 需求驱动的快速筛选 +- 相关性投射 → 高相关子图 → 贪心团搜索 +- 蓝色边稠密性保证贪心解接近最优(差距<5%) + +### 5. KV Cache 优化 +- 蓝色团天然是稳定前缀模板 +- 模板匹配复用 → KV cache 命中率可达 80%+ + +### 6. 反遗忘机制 +- 团大小动态收缩(长对话时下调 t 值) +- 节点"活性评级"惩罚低频长节点 diff --git a/raw/articles/sallyn-gpt-image2-prompt-collection-2026.md b/raw/articles/sallyn-gpt-image2-prompt-collection-2026.md new file mode 100644 index 0000000..ad07006 --- /dev/null +++ b/raw/articles/sallyn-gpt-image2-prompt-collection-2026.md @@ -0,0 +1,37 @@ +# GPT-Image-2 绘图方法/Prompt 摘录 + +- **类型**: 论坛教程/经验分享 +- **作者**: sallyn (linux.do) +- **日期**: 2026-04-24 +- **来源**: https://linux.do/t/topic/2044964 +- **整理日期**: 2026-04-28 +- **标签**: #gpt-image2 #prompt-engineering #image-generation #art-styles + +## 内容概要 + +共收录 11 种 GPT-Image-2 绘图风格 Prompt 模板和 3 种 Prompt 工程方法论。 + +### 风格 Prompt 模板 (11 种) + +1. [[russian-constructivism|俄国解构主义]] — 几何形状、三色限定、丝网印刷质感 +2. [[glitch-art-style|故障艺术/像素排序]] — 数据损坏、RGB偏移、数字碎片化 +3. 错位矩形第二版 — 窗口重叠、数字拼贴、克莱因蓝+白 +4. 混合媒介(照片+素描) — 白色线稿前景 + 写实摄影背景 +5. 黑蓝红三色极简平面 — 对角线切割、二值化光影 +6. [[halftone-print-style|半调雕刻线稿]] — 线条粗细变化构建立体感 +7. [[risograph-print-style|Riso半调杂志]] — 网点纹理、波普艺术、复古封面 +8. 波普+水墨喷溅 — 日系混合媒介、赛璐璐平涂 +9. 看门狗DEDSEC赛博 — 硬核朋克、橙黑白三色 +10. [[cel-shading-style|克莱因秩序赛璐璐]] — 硬边阴影、仰拍透视 +11. 高对比度数字工业故障 — 电光蓝剪影、色差边缘 + +### Prompt 工程方法论 (3 种) + +- **风格术语学习法**: AI 搜索 → Pinterest 验证 → 提示词中引用 +- [[prompt-reverse-engineering|图片反推 Prompt]]: 15 维分析模板(风格/构图/光影/色彩/材质/情绪/时代感/空间逻辑/信息密度/动态状态/后期处理/符号化) +- **Grok 审核绕过**: Grok 包装敏感词 → 转为合规 Prompt → GPT 生成 + +## 技术环境 +- 网络: 机房 IP(非家宽) +- 使用环境: 浏览器网页版 +- 账号: 全部 Free 账号 diff --git a/raw/papers/bartoldson-tba-2025.md b/raw/papers/bartoldson-tba-2025.md new file mode 100644 index 0000000..12aafc5 --- /dev/null +++ b/raw/papers/bartoldson-tba-2025.md @@ -0,0 +1,43 @@ +--- +title: "Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training" +authors: ["Brian Bartoldson", "Siddarth Venkatraman", "James Diffenderfer", "Moksh Jain", "Tal Ben-Nun", "Seanie Lee", "Minsu Kim", "Johan Obando-Ceron", "Yoshua Bengio", "Bhavya Kailkhura"] +year: 2025 +arxiv: "2503.18929" +venue: "NeurIPS 2025" +institutions: ["Lawrence Livermore National Laboratory", "Mila", "Université de Montréal", "KAIST", "CIFAR"] +type: "paper" +created: 2026-05-12 +tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl", "off-policy"] +--- + +# Trajectory Balance with Asynchrony + +**Authors**: Brian Bartoldson, Siddarth Venkatraman, James Diffenderfer, Moksh Jain, Tal Ben-Nun, Seanie Lee, Minsu Kim, Johan Obando-Ceron, Yoshua Bengio, Bhavya Kailkhura +**Venue**: NeurIPS 2025 +**arXiv**: [2503.18929](https://arxiv.org/abs/2503.18929) +**Code**: https://github.com/bbartoldson/TBA + +## Abstract + +TBA introduces an asynchronous RL framework for LLM post-training using the off-policy Trajectory Balance (TB) objective from GFlowNets. By decoupling Searcher nodes (exploration) from Trainer nodes (policy updates) and using a replay buffer, TBA achieves 4×–50× speedups while matching or exceeding on-policy baselines (PPO, GRPO, RLOO, Online DPO). + +## Key Findings + +- TB objective enables principled off-policy learning, resistant to the staleness of asynchronous data +- Recency + reward sampling from replay buffer balances exploration and exploitation +- TBA creates new Pareto frontiers: KL vs. win-rate (preference tuning), diversity vs. toxicity (red-teaming) +- On MATH with Qwen 2.5 7B, TBA′ outperforms Dr. GRPO in highly off-policy settings +- Scaling searchers improves red-teaming performance (more attacks + more diverse) + +## Key Concepts + +- [[tba|TBA]] — Trajectory Balance with Asynchrony framework +- [[trajectory-balance-objective]] — Off-policy TB objective from GFlowNets +- [[asynchronous-rl-llm]] — Decoupling exploration from learning +- [[off-policy-llm-post-training]] — Training on off-policy data +- [[gflownet-fine-tuning]] — GFlowNets for LLM fine-tuning +- [[replay-buffer-rl-llm]] — Replay buffer in LLM RL +- [[searcher-trainer-decoupling]] — Architecture pattern +- [[reward-recency-sampling]] — TBA's sampling strategy +- [[grpo]] — On-policy baseline +- [[rlvr-unified-framework]] — RLVR training paradigm diff --git a/raw/papers/dai-mathforge-2026.md b/raw/papers/dai-mathforge-2026.md new file mode 100644 index 0000000..bc2b95c --- /dev/null +++ b/raw/papers/dai-mathforge-2026.md @@ -0,0 +1,60 @@ +--- +title: "Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation" +authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"] +year: 2026 +arxiv: "2601.20614" +venue: "ICLR 2026" +institutions: ["Renmin University", "AMAP Alibaba Group", "Xiamen University", "Dalian University of Technology"] +type: "paper" +created: 2026-05-12 +tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"] +--- + +# Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation + +**Authors**: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu +**Venue**: ICLR 2026 +**arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614) +**Code**: https://github.com/AMAP-ML/MathForge + +## Abstract + +Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, the authors identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives. + +**Algorithmically**: GRPO suffers from an implicit imbalance — the magnitude of policy updates is lower for harder questions, peaking at p=0.5 accuracy rate. + +**Data-wise**: Augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. + +**Solution: MathForge** — a two-dual framework comprising: +1. **DGPO** (Difficulty-Aware Group Policy Optimization): rectifies GRPO's imbalance via difficulty-balanced group advantage estimation (DGAE) and difficulty-aware question-level weighting (DQW) +2. **MQR** (Multi-Aspect Question Reformulation): reformulates questions across multiple aspects (Background, Term, Sub-Problem) to increase difficulty while preserving the original gold answer + +## Key Findings + +- GRPO's total update magnitude for a single question is ∝ 2G√(p(1-p)), peaking at p=0.5 +- DGAE replaces std with MAD, achieving constant update magnitude (G) regardless of accuracy +- MathForge achieves 42.17% avg on 6 benchmarks vs 37.61% for GRPO (Qwen2.5-Math-7B) +- MQR generates three types of reformulations with 97-99% answer preservation rate + +## Core Equations + +**GRPO Advantage (imbalanced)**: +$$\hat{A}_{GR,i} = rac{r_i - ext{mean}(\{r_i\}_{i=1}^G)}{ ext{std}(\{r_i\}_{i=1}^G)}$$ + +**DGAE Advantage (balanced)**: +$$\hat{A}_{DG,i} = rac{r_i - ext{mean}(\{r_i\}_{i=1}^G)}{ ext{MAD}(\{r_i\}_{i=1}^G)}$$ + +**DQW Weighting**: +$$\lambda_s = B_v \cdot rac{\exp(D_s/T)}{\sum_{s=1}^{B_v} \exp(D_s/T)}, \quad D_s = - ext{mean}(\{r_{si}\}_{i=1}^G)$$ + +## Key Concepts + +- [[dgpo|DGPO]] — Difficulty-Aware GRPO algorithm +- [[dgae|DGAE]] — Difficulty-Balanced Group Advantage Estimation +- [[dqw|DQW]] — Difficulty-Aware Question-Level Weighting +- [[mqr|MQR]] — Multi-Aspect Question Reformulation +- [[mathforge]] — The complete MathForge framework +- [[grpo]] — Group Relative Policy Optimization +- [[update-magnitude-imbalance]] — GRPO's implicit difficulty imbalance +- [[math-question-reformulation]] — MQR's three reformulation strategies +- [[rlvr-unified-framework]] — RLVR training paradigm diff --git a/raw/papers/deepseek-visual-primitives-2026.md b/raw/papers/deepseek-visual-primitives-2026.md new file mode 100644 index 0000000..fbf6df4 --- /dev/null +++ b/raw/papers/deepseek-visual-primitives-2026.md @@ -0,0 +1,67 @@ +--- +title: "Thinking with Visual Primitives" +authors: "Ruijie Lu, Yiyang Ma, Xiaokang Chen (Project Lead), Lingxiao Luo, Zhiyu Wu, Zizheng Pan, Xingchao Liu, Yutong Lin, Hao Li, Wen Liu, Zhewen Hao, Xi Gao, Shaoheng Nie, Yixuan Wei, Zhenda Xie, Ting Chen, Gang Zeng" +affiliations: "DeepSeek-AI, Peking University, Tsinghua University" +year: 2026 +source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives" +domain: "Multimodal AI / Visual Reasoning" +tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency, deepseek] +--- + +# Thinking with Visual Primitives + +**Authors:** Ruijie Lu¹²\*, Yiyang Ma¹\*, Xiaokang Chen¹\*‡, Lingxiao Luo¹³\*, Zhiyu Wu¹\*, Zizheng Pan¹\*, Xingchao Liu¹\*, Yutong Lin¹, Hao Li¹, Wen Liu¹, Zhewen Hao¹, Xi Gao¹, Shaoheng Nie¹, Yixuan Wei¹, Zhenda Xie¹, Ting Chen³, Gang Zeng² +- ¹ DeepSeek-AI, ² Peking University, ³ Tsinghua University +- \* Core contributors, ‡ Project lead + +## Abstract + +Despite the remarkable progress in Multimodal Large Language Models (MLLMs), the prevailing Chain-of-Thought (CoT) paradigms remain predominantly confined to the linguistic space. While recent advancements have focused on bridging the [[perception-gap]] through high-resolution cropping, they overlook a more fundamental bottleneck: the **[[reference-gap]]**. The inherent ambiguity of natural language often fails to provide precise, unambiguous pointers to complex spatial layouts, leading to logical collapse in tasks requiring rigorous grounding. + +In this work, the authors introduce **Thinking with Visual Primitives**, a novel reasoning framework that elevates spatial markers—such as points and bounding boxes—to "minimal units of thought". By interleaving these [[visual-primitives]] directly into the thinking process, the model can "point" while it "reasons", effectively grounding its cognitive trajectory in the physical coordinates of the image. + +The framework is built on a highly optimized architecture with extreme visual token efficiency. Despite its compact model scale and significantly lower image-token budget, the model achieves frontier-competitive performance on challenging visual QA tasks, matching or exceeding models such as GPT-5.4, Claude-Sonnet-4.6, and Gemini-3-Flash. + +## Key Concepts + +- [[visual-primitives]] — Bounding boxes and points as minimal cognitive units +- [[reference-gap]] — Language ambiguity in spatial referencing +- [[perception-gap]] — Seeing vs. reasoning in MLLMs +- [[compressed-sparse-attention]] — KV cache compression (7056× ratio) +- [[mixture-of-experts]] — 284B total / 13B active parameters +- [[specialized-sft]] — Train separate experts for box/point primitives +- [[specialized-rl]] — GRPO-based RL per expert +- [[group-relative-policy-optimization]] — RL algorithm +- [[unified-rft]] — Rejection Fine-Tuning to unify experts +- [[on-policy-distillation]] — Consolidating expert capabilities +- [[coarse-grained-counting]] — Category-level counting with boxes +- [[fine-grained-counting]] — Attribute-constrained counting +- [[maze-navigation]] — Topological reasoning with point primitives +- [[path-tracing]] — Curve following with visual primitives +- [[exponential-decay-reward]] — Smooth reward for counting accuracy +- [[bidirectional-trajectory-evaluation]] — Forward+reverse path scoring +- [[token-efficiency]] — 7056× overall compression from pixels to KV cache + +## Architecture + +- Vision: [[deepseek-vit]] (in-house ViT, 14×14 patch, 3×3 spatial compression) +- Language: [[deepseek-v4-flash]] (284B MoE, 13B active) +- KV cache: [[compressed-sparse-attention]] — further 4× compression +- Overall compression: 756×756 image → 2,916 patches → 324 visual tokens → 81 KV entries (7056×) + +## Training Pipeline + +1. **Pretraining**: Web-scale data curation (97,984 sources → 31,701 after filtering, >40M samples) for visual primitive capabilities +2. **Specialized SFT**: Separate training for box-grounding (FTwG) and point-tracking (FTwP) +3. **Specialized RL**: GRPO with Format/Quality/Accuracy reward models +4. **Unified RFT**: On-policy rollouts → rejection sampling → unified SFT +5. **On-Policy Distillation**: KL-divergence consolidation of expert models + +## Key Results + +- CountQA: 66.1/75.1 (EM/RA@10) vs Gemini-3-Flash 48.3/60.3 +- Pixmo-Count: 89.2 EM +- SpatialMQA: 69.4 ACC +- DS_Maze_Navigation: 66.9 ACC (frontier models ~49-50) +- DS_Path_Tracing: 56.7 ACC (frontier models ~25-46) +- Token consumption: ~90 KV entries vs 660-1100 for frontier models diff --git a/raw/papers/dou-cl-bench-2026.md b/raw/papers/dou-cl-bench-2026.md new file mode 100644 index 0000000..2016e49 --- /dev/null +++ b/raw/papers/dou-cl-bench-2026.md @@ -0,0 +1,39 @@ +# CL-bench: A Benchmark for Context Learning + +## Metadata +- **Title**: CL-bench: A Benchmark for Context Learning +- **Authors**: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang et al. (27 authors from Fudan University & Tencent Hunyuan) +- **arXiv ID**: 2602.03587v1 [cs.CL] +- **Date**: 2026-02-03 +- **Size**: 78 pages, 17 figures +- **URL**: https://arxiv.org/abs/2602.03587 + +## Abstract + +Current language models excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability **context learning**, a crucial ability that humans naturally possess but has been largely overlooked. + +To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. + +This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning. + +## Key Statistics +- 500 contexts, 1,899 tasks, 31,607 verification rubrics +- 4 context categories → 18 subcategories +- Average ~20 hours expert effort per context +- Contamination-free design (fictional creation, modification, niche content) + +## Four Context Categories +1. **Domain Knowledge Reasoning** (7 subcategories): Finance, Healthcare, Humanities, Legal Advisory, Lifestyle, Management, Science +2. **Rule System Application** (5 subcategories): Game Mechanics, Mathematical Formalism, Programming Syntax, Legal & Regulatory, Technical Standards +3. **Procedural Task Execution** (3 subcategories): Instructional, Operational, Workflow Orchestration +4. **Empirical Discovery & Simulation** (3 subcategories): Experimental Data, Observational Data, Simulation Environment + +## Evaluated Models (Top 10) +GPT-5.1, Claude Opus 4.5, GPT-5.2, o3, Kimi K2, HY 2.0, Gemini 3 Pro, Qwen 3 Max, Doubao 1.6, DeepSeek V3.2 + +## Key Findings +1. Context learning is a fundamental bottleneck: best model only 23.7% +2. Performance varies dramatically across categories (Domain Knowledge: 25.3% vs Empirical Discovery: ~11%) +3. Mathematical formalism is the hardest subcategory (<15% for most models) +4. Legal & regulatory subcategory surprisingly tractable (>40% for GPT-5.1) +5. Task difficulty is NOT correlated with context length — reasoning quality matters more diff --git a/raw/papers/elf-embedded-language-flows-2026.md b/raw/papers/elf-embedded-language-flows-2026.md new file mode 100644 index 0000000..42eb318 --- /dev/null +++ b/raw/papers/elf-embedded-language-flows-2026.md @@ -0,0 +1,28 @@ +--- +title: "ELF: Embedded Language Flows" +created: 2026-05-13 +updated: 2026-05-13 +type: raw-paper +source: https://arxiv.org/abs/2605.10938 +tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation] +--- + +# ELF: Embedded Language Flows + +**arXiv:** 2605.10938 +**Authors:** Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He (MIT; *equal contribution) +**Date:** 2026-05-11 +**Categories:** cs.CL, cs.AI, cs.LG +**Code:** https://github.com/lillian039/ELF + +## Abstract + +Diffusion and flow-based models have become the de facto approaches for generating continuous data. Their success has attracted growing interest in applying them to language modeling. Unlike their image-domain counterparts, today's leading diffusion language models (DLMs) primarily operate over discrete tokens. In this paper, we show that continuous DLMs can be made effective with minimal adaptation to the discrete domain. We propose Embedded Language Flows (ELF), a class of diffusion models in continuous embedding space based on continuous-time Flow Matching. Unlike existing DLMs, ELF predominantly stays within the continuous embedding space until the final time step, where it maps to discrete tokens using a shared-weight network. This formulation makes it straightforward to adapt established techniques from image-domain diffusion models, e.g., classifier-free guidance (CFG). Experiments show that ELF substantially outperforms leading discrete and continuous DLMs, achieving better generation quality with fewer sampling steps. + +## Key Claims + +1. Continuous DLMs can match/exceed discrete DLMs with proper design — the performance gap is due to algorithmic choices, not inherent discreteness of language. +2. **Shared-weight discretization**: A single network handles both denoising (MSE loss, t<1) and decoding (CE loss, t=1) via a binary mode token, eliminating the need for a separate decoder. +3. **x-prediction** parameterization aligns denoising and decoding objectives, enabling effective weight sharing that v-prediction cannot support. +4. **CFG is naturally applicable** to continuous DLMs and significantly improves generation quality; training-time CFG avoids inference overhead. +5. ELF-B (105M) outperforms 170M baselines (MDLM, Duo, FLM, LangFlow) with **10× fewer training tokens** and **fewer sampling steps** (32 vs 1024), without distillation. diff --git a/raw/papers/he-urlvr-sharpening-2026.md b/raw/papers/he-urlvr-sharpening-2026.md new file mode 100644 index 0000000..9f20296 --- /dev/null +++ b/raw/papers/he-urlvr-sharpening-2026.md @@ -0,0 +1,29 @@ +# How Far Can Unsupervised RLVR Scale LLM Training? + +- **arXiv ID**: 2603.08660 +- **作者**: Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al. (22 authors) +- **机构**: Tsinghua University, Shanghai AI Lab, Xi'an Jiaotong, UIUC, SJTU, Peking University, Frontis.AI +- **日期**: 2026-03-09 +- **会议**: Accepted to ICLR 2026 +- **GitHub**: https://github.com/PRIME-RL/TTRL +- **标签**: #RLVR #unsupervised-learning #LLM-training #reward-hacking #model-collapse + +## 摘要 + +无监督可验证奖励强化学习 (URLVR) 通过无需 ground truth 标签的奖励信号扩展 LLM 训练。本文建立统一理论框架,揭示所有内在奖励方法本质上都收敛于"锐化模型初始分布 (sharpening)"——当初始置信度与正确性对齐时放大收益,错位时则灾难性失败。实验表明内在奖励始终遵循"先升后降 (rise-then-fall)"模式。提出 Model Collapse Step 作为模型先验的实用指标。最后探索基于计算不对称性的外部奖励方法(self-verification),展示其可能突破置信度-正确性天花板的初步证据。 + +## 核心贡献 + +1. **URLVR 分类法**: 将方法分为内在奖励 (intrinsic) 和外部奖励 (external) 两类 +2. **统一理论框架**: 证明所有内在方法收敛于锐化初始分布 +3. **Rise-then-Fall 模式**: 系统实验跨越多种方法验证统一的先升后降轨迹 +4. **Model Collapse Step**: 无需 ground truth 标签的模型先验度量,预测 RL 可训练性 +5. **外部突破路径**: Self-verification 展示持续改进而无崩溃模式 + +## 结构 +- Sec 2: URLVR 方法分类(Certainty-based / Ensemble-based) +- Sec 3: Sharpening 机制的理论推导 +- Sec 4: 内在 URLVR 何时有效/失败 +- Sec 5: 测试时训练中的安全应用 +- Sec 6: Model Collapse Step 指标 +- Sec 7: 外部奖励方法的突破(Self-verification) diff --git a/raw/papers/hunyuan-team-cl-bench-life-2026.md b/raw/papers/hunyuan-team-cl-bench-life-2026.md new file mode 100644 index 0000000..30722f8 --- /dev/null +++ b/raw/papers/hunyuan-team-cl-bench-life-2026.md @@ -0,0 +1,40 @@ +# CL-BENCH LIFE: Can Language Models Learn From Real-Life Context? + +## Metadata +- **Title**: CL-BENCH LIFE: Can Language Models Learn From Real-Life Context? +- **Authors**: Hunyuan Team (Tencent) & Fudan University +- **arXiv ID**: 2604.27043v1 +- **Category**: cs.CL +- **Date**: 2026-04-29 +- **URL**: https://arxiv.org/abs/2604.27043 + +## Abstract + +Today's AI assistants such as OpenClaw are designed to handle context effectively, making context learning an increasingly important capability for models. As these systems move beyond professional settings into everyday life, the nature of the contexts they must handle also shifts. Real-life contexts are often messy, fragmented, and deeply tied to personal and social experience, such as multi-party conversations, personal archives, and behavioral traces. Yet it remains unclear whether current frontier language models can reliably learn from such contexts and solve tasks grounded in them. + +To this end, we introduce CL-bench Life, a fully human-curated benchmark comprising 405 context-task pairs and 5,348 verification rubrics, covering common real-life scenarios. Solving tasks in CL-bench Life requires models to reason over complex, messy real-life contexts, calling for strong real-life context learning abilities that go far beyond those evaluated in existing benchmarks. + +We evaluate ten frontier LMs and find that real-life context learning remains highly challenging: even the best-performing model achieves only 19.3% task solving rate, while the average performance across models is only 13.8%. Models still struggle to reason over contexts such as messy group chat histories and fragmented behavioral records from everyday life. + +## Key Statistics +- 405 context-task pairs +- 5,348 verification rubrics +- 3 context categories × 3 subcategories = 9 subcategories +- 59.8% multi-turn interactions +- Context length range: 5.4K – 170.8K tokens (avg 19.4K) + +## Three Context Categories +1. **Communication & Social Interactions**: Private chats, group discussions, meeting transcripts, public community interactions +2. **Fragmented Information & Revisions**: Personal notes, public information streams, creation/revision histories +3. **Behavioral Records & Activity Trails**: Game logs, digital footprints, browsing streams, long-term daily activity records + +## Key Findings +1. Real-life context learning is extremely challenging (best model 19.3%, avg 13.8%) +2. Poor performance is NOT simply a long-context problem — solving rate doesn't strongly correlate with context length +3. Reasoning mode improves performance but with diminishing returns; token efficiency varies dramatically across models +4. **Context misuse** (not ignoring) is the primary failure mode — 76-84% of errors are context misuse +5. Group chat scenarios cause identity confusion and reference resolution failures +6. Self-tracking trajectories is the hardest subcategory (best: 10.4%) + +## Evaluated Models +GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Hy3 preview, Seed 2.0 Pro, Kimi K2.5, Qwen 3.5 Plus, Grok 4.20, DeepSeek V3.2 Thinking, MiniMax M2.5 diff --git a/raw/papers/laban-delegate52-2026.md b/raw/papers/laban-delegate52-2026.md new file mode 100644 index 0000000..fdf2fef --- /dev/null +++ b/raw/papers/laban-delegate52-2026.md @@ -0,0 +1,30 @@ +--- +title: "LLMs Corrupt Your Documents When You Delegate" +created: 2026-05-14 +type: paper +source: https://arxiv.org/abs/2604.15597 +authors: ["Philippe Laban", "Tobias Schnabel", "Jennifer Neville"] +--- + +# LLMs Corrupt Your Documents When You Delegate + +- **arXiv ID**: 2604.15597 +- **Authors**: Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research) +- **Categories**: cs.CL (Computation and Language), cs.HC (Human-Computer Interaction) +- **Published**: 2026-04-17 +- **Repository**: microsoft/DELEGATE52 +- **Dataset**: datasets/microsoft/DELEGATE52 + +## Abstract + +Large Language Models (LLMs) are poised to disrupt knowledge work, with the emergence of delegated work as a new interaction paradigm (e.g., vibe coding). Delegation requires trust — the expectation that the LLM will faithfully execute the task without introducing errors into documents. We introduce DELEGATE-52 to study the readiness of AI systems in delegated workflows. DELEGATE-52 simulates long delegated workflows that require in-depth document editing across 52 professional domains, such as coding, crystallography, and music notation. Our large-scale experiment with 19 LLMs reveals that current models degrade documents during delegation: even frontier models (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrupt an average of 25% of document content by the end of long workflows, with other models failing more severely. Additional experiments reveal that agentic tool use does not improve performance on DELEGATE-52, and that degradation severity is exacerbated by document size, length of interaction, or presence of distractor files. Our analysis shows that current LLMs are unreliable delegates: they introduce sparse but severe errors that silently corrupt documents, compounding over long interaction. + +## Key Metrics + +- 19 LLMs tested across 6 model families +- 310 work environments across 52 professional domains +- Frontier models average ~25% degradation after 20 interactions +- All-model average ~50% degradation after 20 interactions +- Python is the only domain where most models (17/19) achieve "ready" status +- Critical failures account for ~80% of total degradation +- Agentic tool use incurs 2-5x input token overhead diff --git a/raw/papers/liu-koopa-2023.md b/raw/papers/liu-koopa-2023.md new file mode 100644 index 0000000..35cd13b --- /dev/null +++ b/raw/papers/liu-koopa-2023.md @@ -0,0 +1,44 @@ +--- +title: "Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors" +arxiv: "2305.18803" +venue: "NeurIPS 2023" +authors: "Yong Liu, Chenyu Li, Jianmin Wang, Mingsheng Long (Tsinghua University)" +type: paper +tags: [time-series, koopman-theory, deep-learning, forecasting, non-stationary] +--- + +# Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors + +> NeurIPS 2023 | Tsinghua University | [Code](https://github.com/thuml/Koopa) + +## 核心问题 + +真实世界时间序列天然具有非平稳性(时变统计特性与时间依赖),导致训练-推理分布鸿沟,深度预测模型难以泛化。 + +## 方法论 + +**Koopman 理论**:将非线性动力学映射到无限维线性空间,在那个空间中动力学由线性算子 K 驱动: +K ∘ g(x_t) = g(F(x_t)) = g(x_{t+1}) + +**Fourier Filter**:将非平稳序列分解为时变(高频)与时不变(低频)分量,各自送入 Koopman Predictor。 + +**Koopman Predictor**: +- 学习测量函数 g 实现 Koopman 嵌入 +- 用线性 Koopman 算子刻画隐式状态转移 +- 上下文感知算子:在局部时间邻域计算,捕捉时变动力学的强局部性 +- 可利用真实观测滚动预测,扩展预测范围 + +**可堆叠模块**:层级式动力学学习,每层分解 + 预测。 + +## 核心结果 + +- SOTA 竞争性能 +- 训练时间节省 **77.3%**,内存节省 **76.0%**(6 个真实世界基准平均) +- 端到端预测目标优化(无需重构损失绑定) + +## 关键技术点 + +1. Fourier Filter 实现时变/时不变分量解耦 +2. Koopman 算子提供隐式动力学的线性肖像 +3. 上下文感知算子处理局部时变特性 +4. 深度残差结构集成 Koopman Predictor diff --git a/raw/papers/ramsey-numbers-survey-2025.md b/raw/papers/ramsey-numbers-survey-2025.md new file mode 100644 index 0000000..7690af5 --- /dev/null +++ b/raw/papers/ramsey-numbers-survey-2025.md @@ -0,0 +1,51 @@ +--- +title: "拉姆齐数的数学综述 (Ramsey Numbers: A Comprehensive Survey)" +source: "用户上传 Markdown" +date: 2025-06 +type: survey +tags: [ramsey-theory, combinatorics, graph-theory, number-theory, additive-combinatorics, mathematical-logic] +--- + +# 拉姆齐数的数学综述 + +> 数学概念、已知结果、应用价值与跨学科影响 | 2025年6月 + +## 核心主旨 + +拉姆齐理论的核心信条:"完全的无序是不可能的。" 拉姆齐数精确刻画了"足够大"这一概念的数学内涵——在任何足够大的结构中,必然存在某种规则性子结构。 + +## 历史脉络 + +- **1928**:Frank Ramsey 发表《论形式逻辑的一个问题》,开创领域 +- **1935**:Erdős & Szekeres 重新发现,提出"幸福结局问题" +- **1947**:Erdős 引入概率方法,获 Ramsey 数下界 +- **1975**:Szemerédi 正则性引理;Lovász 局部引理 +- **1977**:Paris-Harrington 定理——首个"自然的"不可判定命题 +- **2004**:Green-Tao 定理——素数包含任意长等差数列 + +## 核心结果 + +### 对角拉姆齐数 R(k) +| k | R(k) | 备注 | +|---|------|------| +| 3 | 6 | 经典聚会问题 | +| 4 | 18 | Greenwood-Gleason 1955 | +| 5 | 43–48 | Exoo(下界), McKay-Radziszowski(上界) | +| 6 | 102–165 | 未知精确值 | + +### 一般边界 +- 下界:R(k) > 2^{k/2} (Erdős 概率方法) +- 上界:R(k) ≤ 4^k / √k (Conlon 2009) +- 上下界指数差距(底数 √2 到 4)是核心未解问题 + +## 关键证明方法 +1. **概率方法**:通过随机图以正概率满足性质证明存在性 +2. **构造性方法**:有限域 Paley 图等代数构造 +3. **代数/谱方法**:Conlon(2023) 用矩阵乘法改进上界 + +## 跨学科应用 +- **计算机科学**:分布式系统容错、网络设计、强化学习搜索 Ramsey 数 +- **密码学**:随机性提取器、隐私放大协议 +- **物理学**:相变材料 GST 的 Ramsey 理论分析 +- **生物学**:基因调控网络、神经连接模式 +- **社会科学**:群体形成、社会网络分析 diff --git a/raw/papers/song-agent-network-taxonomy-2026.md b/raw/papers/song-agent-network-taxonomy-2026.md new file mode 100644 index 0000000..016f53a --- /dev/null +++ b/raw/papers/song-agent-network-taxonomy-2026.md @@ -0,0 +1,44 @@ +# Complex networks of AI agentic systems: topology, memory, and update dynamics + +## Metadata +- **Title**: Complex networks of AI agentic systems: topology, memory, and update dynamics +- **Authors**: Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) +- **DOI**: 10.36227/techrxiv.177127384.46731320/v1 +- **Type**: Survey / Preprint (TechRxiv, IEEE) +- **Date**: 2026-02-16 +- **License**: CC BY 4.0 +- **URL**: https://www.techrxiv.org/doi/full/10.36227/techrxiv.177127384.46731320/v1 + +## Abstract + +Large-scale networks of agents are increasingly applied to software engineering, scientific analysis, web automation, organizational workflows, and social simulation, yet existing multi-agent architectures lack a unified framework to explain why some designs scale to long-horizon, multi-step tasks while others fail. As these systems grow, their behavior is fundamentally shaped by how agents are connected, how information is stored, and how states are updated over time. + +In this survey, we introduce a hierarchical taxonomy of agent systems along three core dimensions—architecture topology (centralized vs. decentralized), memory scope (global vs. local), and update behavior (static vs. dynamic)—which together induce eight system categories that organize prior work and make architectural trade-offs explicit. Using this taxonomy, we analyze how design choices influence scalability, coordination efficiency, communication overhead, planning depth, and robustness under partial failure, and we identify common failure modes and open challenges, including consistency management, agent routing, federation boundaries, and stability under noise or disruption. + +## Key Contributions + +1. **Formal definition**: Agent system as A = (V, E, M, Π) — agents, communication graph, memory configuration, policies +2. **Hierarchical taxonomy**: 3 nested dimensions → 8 system categories +3. **Communication stack**: Transport → Structural (Function Calling) → Semantic layer +4. **MCP integration**: Model Context Protocol as standardized substrate for large-scale agent networks + +## Eight System Categories + +| Topology | Memory | Update | Representative Systems | +|----------|--------|--------|----------------------| +| Centralized | Global | Static | MetaGPT, ChatDev, AutoGen, HuggingGPT | +| Centralized | Global | Dynamic | SWE-agent, OpenHands, Voyager, Multi-Agent Debate | +| Centralized | Local | Static | MetaAgent, YuLan-OneSim, SOTOPIA-S4 | +| Centralized | Local | Dynamic | OPTIMA, Magentic-One, G-Designer | +| Decentralized | Global | Static | BlackBoard, LLMBlackBoard, Memory Sharing | +| Decentralized | Global | Dynamic | GPTSwarm, AgentSociety, OpenAgents | +| Decentralized | Local | Static | MMAgent, WebArena, TalkHier | +| Decentralized | Local | Dynamic | Generative Agents, 1000-Person Sims, AgentNet, SOTOPIA-S | + +## Key Challenges Identified +1. High communication load with agent count growth +2. Context propagation and drift under distributed execution +3. Ordering and concurrency in asynchronous systems +4. Interpretation mismatch across heterogeneous agent models +5. Update instability from concurrent state modifications +6. Security and trust as attack surface expands diff --git a/raw/papers/xiao-streaming-llm-2024.md b/raw/papers/xiao-streaming-llm-2024.md new file mode 100644 index 0000000..4f9c599 --- /dev/null +++ b/raw/papers/xiao-streaming-llm-2024.md @@ -0,0 +1,33 @@ +--- +arxiv: "2309.17453" +title: "Efficient Streaming Language Models with Attention Sinks" +authors: ["Guangxuan Xiao", "Yuandong Tian", "Beidi Chen", "Song Han", "Mike Lewis"] +venue: "ICLR 2024" +affiliations: ["MIT", "Meta AI", "CMU", "NVIDIA"] +year: 2024 +url: "https://arxiv.org/abs/2309.17453" +code: "https://github.com/mit-han-lab/streaming-llm" +type: paper +--- + +# Efficient Streaming Language Models with Attention Sinks + +## Abstract + +Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach — but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely **attention sink**, that keeping the KV of initial tokens will largely recover the performance of window attention. We first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a "sink" even if they are not semantically important. Based on the above analysis, we introduce **StreamingLLM**, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2× speedup. + +## Key Contributions + +1. **Attention Sink Discovery**: Initial tokens receive disproportionately high attention scores across all layers and heads, not due to semantics but due to their absolute position — they serve as "sinks" for excess attention that the SoftMax function forces to be allocated somewhere. + +2. **StreamingLLM Framework**: A simple, training-free method that keeps attention sink tokens' KV (just 4 initial tokens suffice) together with a sliding window of recent tokens, enabling infinite-length streaming inference. + +3. **Sink Token Pre-training**: Demonstrates that pre-training with a dedicated learnable sink token allows models to use a single token as the attention sink, eliminating the need for multiple initial tokens. + +4. **Universal Validation**: Tested across Llama-2 (7/13/70B), MPT (7/30B), Falcon (7/40B), Pythia (2.9/6.9/12B) with both RoPE and ALiBi position encodings, achieving stable perplexity on up to 4M tokens. + +## Core Mechanism + +The SoftMax function in attention requires all attention scores to sum to 1. When the current query has no strong semantic match, the model still needs to allocate residual attention values somewhere. Initial tokens, being visible to all subsequent tokens (due to autoregressive nature), become naturally trained as attention sinks. + +StreamingLLM's KV cache has two components: (1) **Attention Sinks** (4 initial tokens) for stable attention computation, and (2) **Rolling KV Cache** (most recent tokens) for language modeling. Positions are assigned within the cache rather than the original text, which is crucial for performance. diff --git a/reviews/agent-network-taxonomy-review-20260501.md b/reviews/agent-network-taxonomy-review-20260501.md new file mode 100644 index 0000000..7a95641 --- /dev/null +++ b/reviews/agent-network-taxonomy-review-20260501.md @@ -0,0 +1,104 @@ +# Agent网络三层分类法 — Review 报告 + +> 生成日期:2026-05-01 | DOI:10.36227/techrxiv.177127384.46731320/v1 + +--- + +## 📌 基本信息 + +| 维度 | 内容 | +|------|------| +| **论文标题** | Complex networks of AI agentic systems: topology, memory, and update dynamics | +| **作者** | Xinyuan Song (Emory), Qingsong Wen (Oxford), Shirui Pan (Griffith), Liang Zhao (Emory) | +| **类型** | 综述论文 (Survey) | +| **来源** | TechRxiv / IEEE | +| **日期** | 2026-02-16 | +| **Wiki 添加** | 2026-05-01 | + +--- + +## 🎯 核心概念 + +### 1. 三层级分类法 (Agent Network Taxonomy) +**嵌套式**(非并行)三属性分类框架:**Topology → Memory → Update**。每一层约束下一层的选择空间,共同诱导出 8 种系统类别。形式化基础:A = (V, E, M, Π)。 + +### 2. 三重维度 +- **拓扑维度**:集中式(星形,控制器驱动)vs 去中心化(peer 级涌现) +- **记忆维度**:全局(共享 M_global)vs 局部(私有 M_i) +- **更新维度**:静态(结构固定)vs 动态(运行时自适应) + +### 3. 通信协议栈 +三层架构——Transport → Structural (Function Calling) → Semantic——其中**语义层是大规模系统的首要失败点**,而非通常认为的传输或结构层。 + +### 4. MCP 作为标准化基板 +Model Context Protocol 被定位为大规模 Agent 网络的统一基础设施,相关生态包括 Gradientsys、SchedCP、Code2MCP、MCP-Bench。 + +--- + +## 🔗 概念网络 + +### 核心连接(论文直接贡献) + +``` +song-agent-network-taxonomy + ├── agent-network-taxonomy ───── 分类法全景 + ├── agent-network-topology ───── 拓扑维度 + ├── agent-network-memory-scope ───── 记忆维度 + ├── agent-network-update-behavior ───── 更新维度 + ├── centralized-agent-architecture ───── 集中式子类 + ├── decentralized-agent-architecture ───── 去中心化子类 + └── agent-communication-stack ───── 通信协议栈 +``` + +### 扩展网络(关联已有概念) + +``` +agent-network-taxonomy + ├── cognitive-architecture ───── 广义认知架构 + ├── hyperagents ───── 自指代理框架 + ├── llm-applications ───── LLM 应用生态系统 + └── ai-agent-security ───── 大规模网络的安全挑战 +``` + +--- + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | **9 个**(1 论文 + 1 raw + 7 概念) | +| 总规模 | 181 → **189 页** | +| Tier 1 核心概念 | 4 个(分类法 + 三维度) | +| Tier 2 基础概念 | 3 个(集中式/去中心化架构 + 通信栈) | +| 链接完整性 | ✅ 100%,0 断链 | +| 交叉引用 | 双向链接到 cognitive-architecture, hyperagents | + +--- + +## 💡 关键洞察 + +### "语义层"是真正的瓶颈 + +长期以来,Agent 系统的扩展性讨论集中在通信带宽(传输层)和接口标准化(结构层)。这篇综述的独特贡献在于系统性地论证了:**语义层——即 agent 间推理状态的一致性——才是大规模系统的首要失败点**。GenSim 实验表明即使传输和结构层正确,语义漂移在数千 agent 规模下仍导致任务级分歧。 + +这一洞察与 CL-bench Life 的发现(模型"读了但没推理对")形成跨领域的呼应——两者都指向了 LLM 在**信息整合和推理一致性**上的根本性局限。 + +### 从"个体能力"到"网络拓扑"的范式转移 + +论文将 Agent 研究从关注单个 agent 的 prompt engineering 提升到**系统架构层面**。形式化定义 A = (V, E, M, Π) 提供了一个可操作的数学框架,类似于图论在网络科学中的作用。 + +--- + +## 📁 文件清单 + +| 文件 | 类型 | +|------|------| +| `raw/papers/song-agent-network-taxonomy-2026.md` | 原始存档 | +| `papers/song-agent-network-taxonomy.md` | 论文主页面 | +| `concepts/agent-network-taxonomy.md` | Tier 1 | +| `concepts/agent-network-topology.md` | Tier 1 | +| `concepts/agent-network-memory-scope.md` | Tier 1 | +| `concepts/agent-network-update-behavior.md` | Tier 1 | +| `concepts/centralized-agent-architecture.md` | Tier 2 | +| `concepts/decentralized-agent-architecture.md` | Tier 2 | +| `concepts/agent-communication-stack.md` | Tier 2 | diff --git a/reviews/cl-bench-life-review-20260501.md b/reviews/cl-bench-life-review-20260501.md new file mode 100644 index 0000000..5714163 --- /dev/null +++ b/reviews/cl-bench-life-review-20260501.md @@ -0,0 +1,130 @@ +--- +title: "CL-Bench Life 论文集成 Review" +created: 2026-05-01 +updated: 2026-05-01 +type: review +tags: [] +sources: [] +--- + +# CL-Bench Life 论文集成 Review + +> 生成日期:2026-05-01 | 论文 arXiv ID:2604.27043 + +--- + +## 📌 基本信息 + +| 维度 | 内容 | +|------|------| +| **论文标题** | CL-BENCH LIFE: Can Language Models Learn From Real-Life Context? | +| **作者** | Hunyuan Team (Tencent) & Fudan University | +| **领域** | NLP / LLM 评测 / 上下文学习 | +| **arXiv** | [2604.27043](https://arxiv.org/abs/2604.27043) | +| **日期** | 2026-04-29 | +| **Wiki 添加** | 2026-05-01 | + +--- + +## 🎯 核心概念 + +### 1. CL-Bench Life +首个**全人工策展**的真实生活上下文学习基准:405 上下文-任务对、5,348 验证细则,覆盖沟通社交、碎片信息修订、行为记录轨迹三大类别。所有上下文自包含,无需外部检索,干净地解耦"上下文学习"这一单一能力。 + +### 2. 真实生活上下文学习 (Real-Life Context Learning) +区别于专业领域(金融/科学/代码)的上下文学习范式。真实生活上下文是**混乱、碎片化、社会性嵌入**的——群聊中的多参与者讨论、跨越数月的笔记碎片、弱标注的行为日志。核心挑战不在长度,而在**信息组织和推理质量**。 + +### 3. 上下文误用 (Context Misuse) +论文最关键的诊断发现:**76-84%** 的失败是"上下文误用"——模型**已经看到并引用了上下文**,但无法正确推理其中的信息;而非"忽略上下文"(36-45%)。这意味着模型的主要瓶颈不在注意力/检索,而在**逻辑推理和证据整合**。 + +### 4. 混乱上下文推理 (Messy Context Reasoning) +从碎片化、噪声混合、时序非线性的原始上下文中提取信息并构建连贯推理的能力。这是 CL-bench Life 试图评估的核心能力,也是当前 LLM 面临的最根本性挑战——最佳模型仅 19.3% 解决率。 + +--- + +## 🔗 概念网络 + +### 核心连接(论文直接贡献) + +``` +hunyuan-team-cl-bench-life + ├── cl-bench-life ───── 基准设计与评估方法论 + ├── real-life-context-learning ───── 核心能力定义 + ├── context-misuse ───── 首要失败模式诊断 + └── messy-context-reasoning ───── 核心技术挑战 +``` + +### 扩展网络(关联已有概念) + +``` +cl-bench-life + ├── context-learning ───── 通用上下文学习范式 + ├── long-context-understanding ───── 相关但不等价的能力 + ├── llm-evaluation-benchmarks ───── 评测基准体系 + ├── identity-reference-resolution ───── 群聊场景关键子问题 + ├── attention-entropy-collapse ───── 潜在架构联动 + └── lost-in-the-middle ───── 上下文位置偏差 +``` + +**网络密度**: +- 核心概念(4 个)平均出站链接:5.5 个 +- 论文页面出站链接:6 个 +- 与已有概念交叉引用:7 个(通过与 Attention Survey、CL4SE 等现有概念联动) + +--- + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | **10 个**(1 论文 + 1 raw + 4 核心概念 + 4 占位概念) | +| 总规模 | 164 → **173 页** | +| 核心概念密度 | Tier 1 核心概念 3 个,Tier 2 基础 2 个,Tier 3 占位 4 个 | +| 链接完整性 | 100%(所有 wikilink 指向已有页面,无断链) | +| 交叉引用 | 与 attention-entropy-collapse、lost-in-the-middle、context-learning 等已有概念双向链接 | + +--- + +## 💡 关键洞察 + +### 范式转变:从"长上下文"到"混乱上下文" + +这篇论文最重要的贡献是**重新定义了上下文学习的难度来源**。长期以来,LLM 评测社区将上下文能力等同为"长上下文能力"——能不能在 100K token 中找到某条信息。CL-bench Life 雄辩地证明了:**真正的瓶颈不在长度,而在推理质量**。 + +具体证据: +- 上下文长度 5.4K–170.8K,均在模型窗口内 +- 解决率与长度无强相关性 +- GPT-5.4 在最长区间(>32K)取得最高分 +- 76-84% 失败源于"读了但没推理对",不是"没读到" + +### 对 AI 助手设计的启示 + +如果最佳模型在真实生活上下文任务中只能解决不到 20%,这意味着当前的 AI 助手(如 OpenClaw)在日常使用中的**有效上下文利用能力被严重高估**。模型在结构化专业任务中表现出色,但一旦面对群聊历史、个人笔记、行为日志等真实场景,始终在"看到了但没理解"的水平。 + +**改进方向**: +1. 从"长上下文检索"转向"混乱上下文推理"训练 +2. 上下文组织作为推理的前置步骤(先结构化,再推理) +3. 身份指代消解作为群聊场景的专项能力 +4. 推理 token 效率优化(不同模型差异巨大) + +--- + +## 📁 文件清单 + +| 文件 | 类型 | 行数 | +|------|------|------| +| `raw/papers/hunyuan-team-cl-bench-life-2026.md` | 原始存档 | ~70 | +| `papers/hunyuan-team-cl-bench-life.md` | 论文主页面 | ~90 | +| `concepts/cl-bench-life.md` | Tier 1 概念 | ~120 | +| `concepts/real-life-context-learning.md` | Tier 1 概念 | ~85 | +| `concepts/context-misuse.md` | Tier 2 概念 | ~100 | +| `concepts/messy-context-reasoning.md` | Tier 2 概念 | ~75 | +| `concepts/context-learning.md` | Tier 2 占位 | ~45 | +| `concepts/llm-evaluation-benchmarks.md` | Tier 2 占位 | ~45 | +| `concepts/long-context-understanding.md` | Tier 3 占位 | ~35 | +| `concepts/identity-reference-resolution.md` | Tier 3 占位 | ~35 | +| `reviews/cl-bench-life-review-20260501.md` | Review 报告 | 本文 | + +--- + +*Generated by 小赫 | Wiki Paper Integration Workflow v2.0* diff --git a/reviews/cl-bench-review-20260501.md b/reviews/cl-bench-review-20260501.md new file mode 100644 index 0000000..1763b93 --- /dev/null +++ b/reviews/cl-bench-review-20260501.md @@ -0,0 +1,128 @@ +# CL-bench 论文集成 Review + +> 生成日期:2026-05-01 | 论文 arXiv ID:2602.03587 + +--- + +## 📌 基本信息 + +| 维度 | 内容 | +|------|------| +| **论文标题** | CL-bench: A Benchmark for Context Learning | +| **作者** | Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors) | +| **机构** | Fudan University & Tencent Hunyuan | +| **arXiv** | [2602.03587](https://arxiv.org/abs/2602.03587) | +| **日期** | 2026-02-03 | +| **Wiki 添加** | 2026-05-01 | + +--- + +## 🎯 核心概念 + +### 1. Context Learning 范式定义 +本文**首次系统定义** context learning 这一能力:模型从任务特定上下文中**学习新知识**并推理求解——所需知识不在预训练语料中。这区别于 ICL(few-shot 示例匹配)、长上下文(检索已知概念)和 RAG(证据融合)。 + +### 2. CL-bench 四类别框架 +500 上下文 × 1,899 任务 × 31,607 rubrics,分为四大类(→18 子类): +- **领域知识推理**(最易,25.3%):演绎式——学习新领域知识并应用 +- **规则系统应用**(子类差异最大):法律 >40% vs 数学 <15% +- **程序性任务执行**:学习复杂操作流程并精确执行 +- **经验发现与模拟**(最难,~11%):**归纳式**——从数据中发现规律 + +### 3. 污染防护设计 +三种策略确保任务不能靠预训练知识解决:虚构创造、修改现有内容、纳入小众新兴内容。上下文无关消融验证:无上下文时解决率 < 1%。 + +### 4. CL-bench → CL-bench Life 的演化路径 +本文是 CL-bench 系列的首篇(专业领域上下文),后续 [[cl-bench-life|CL-bench Life]] 扩展到真实生活上下文。两者互补覆盖 "context learning" 的全谱系。 + +--- + +## 🔗 概念网络 + +### 核心连接 + +``` +dou-cl-bench (论文) + ├── context-learning ───────── 范式定义(从占位升级为完整概念) + ├── domain-knowledge-reasoning ───── 类别1(演绎式) + ├── rule-system-application ───── 类别2(规则系统) + ├── procedural-task-execution ───── 类别3(程序执行) + └── empirical-discovery-simulation ───── 类别4(归纳式,最难) +``` + +### CL-bench 系列完整网络 + +``` +context-learning(被 CL-bench 首次定义) + ├── dou-cl-bench ───────── 专业领域上下文(4类,500上下文) + │ ├── domain-knowledge-reasoning (7子类) + │ ├── rule-system-application (5子类) + │ ├── procedural-task-execution (3子类) + │ └── empirical-discovery-simulation (3子类, 归纳式) + │ + └── cl-bench-life ───────── 真实生活上下文(3类,405上下文) + ├── real-life-context-learning + ├── context-misuse (76-84%错误的根因) + └── messy-context-reasoning +``` + +--- + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | **7 个**(1 论文 + 1 raw + 4 类别概念 + 1 概念升级) | +| 总规模 | 189 → **195 页** | +| 核心概念 | 1 范式定义 + 4 类别概念 | +| 链接完整性 | ✅ 100%,0 断链 | +| 系列完整性 | ✅ CL-bench + CL-bench Life 双篇齐备 | + +--- + +## 💡 关键洞察 + +### "归纳推理"是 LLM 的阿克琉斯之踵 + +CL-bench 最震撼的发现:四类上下文中,前三个依赖**演绎**(应用给定规则),第 4 类需要**归纳**(从数据发现规律)——而第 4 类是绝对最难(~11%)。这与人类智能形成鲜明对比:人类通常认为演绎比归纳更困难。 + +这暗示了当前 LLM 在**科学发现**(假设形成 → 模式识别 → 规律抽象)方面的根本性局限,而非简单的知识检索不足。 + +### 法律推理的矛盾现象 + +法律/监管子类(CL-bench 中最高 >40%)vs 数学形式主义子类(<15%):两者都是规则系统,但表现天差地别。可能原因是: +- 法律推理是**文本化**的(判例、条文、论证),与 LLM 的文本训练范式天然契合 +- 数学推理需要**符号化**操作和严格的证明结构,与文本推理有本质不同 + +这带来了一个发人深省的问题:当前 LLM 的"推理"更接近法律论证(文本编织),而非数学证明(符号操作)。 + +### CL-bench → CL-bench Life 的范式递进 + +从专业领域上下文到真实生活上下文,CL-bench 系列揭示了一个递进的困难层级: + +``` +结构化专业规则(法律)→ 形式化符号推理(数学) + → 混乱社交上下文(群聊) + → 长时序行为日志(健身记录) + → 科学数据归纳(经验发现)← 最难 +``` + +我们已在 wiki 中完整覆盖这五个层级。 + +--- + +## 📁 文件清单 + +| 文件 | 类型 | 说明 | +|------|------|------| +| `raw/papers/dou-cl-bench-2026.md` | 原始存档 | 论文元数据 | +| `papers/dou-cl-bench.md` | 论文主页面 | 中文综述 | +| `concepts/context-learning.md` | 概念(从占位升级) | 范式定义 | +| `concepts/domain-knowledge-reasoning.md` | Tier 1 概念 | 类别 1 | +| `concepts/rule-system-application.md` | Tier 1 概念 | 类别 2 | +| `concepts/procedural-task-execution.md` | Tier 1 概念 | 类别 3 | +| `concepts/empirical-discovery-simulation.md` | Tier 1 概念 | 类别 4 | + +--- + +*Generated by 小赫 | Wiki Paper Integration Workflow v2.1* diff --git a/reviews/clawless-review-20260422.md b/reviews/clawless-review-20260422.md index 1adfce4..4590b49 100644 --- a/reviews/clawless-review-20260422.md +++ b/reviews/clawless-review-20260422.md @@ -1,3 +1,12 @@ +--- +title: "ClawLess: AI 代理安全模型 - Review 报告" +created: 2026-05-01 +updated: 2026-05-01 +type: review +tags: [] +sources: [] +--- + # ClawLess: AI 代理安全模型 - Review 报告 **报告日期**: 2026-04-22 @@ -88,7 +97,7 @@ AI代理安全 (问题领域) ### 网络完整性 - ✅ 100% 无断链 -- ✅ 所有 `[[链接]]` 格式正确 +- ✅ 所有 `[[llm-applications]]` 格式正确 - ✅ 双向链接对称性保持 - ✅ 索引文件完整更新 @@ -185,7 +194,7 @@ ClawLess代表了AI代理安全领域的根本性转变:**从依赖代理"良 - ✅ 内容完整性和准确性 ### 链接完整性检查 -- ✅ 所有 `[[链接]]` 格式正确 +- ✅ 所有 `[[llm-applications]]` 格式正确 - ✅ 双向链接对称性保持 - ✅ 无断链,100%完整性 diff --git a/reviews/delegate52-review-20260514.md b/reviews/delegate52-review-20260514.md new file mode 100644 index 0000000..887905f --- /dev/null +++ b/reviews/delegate52-review-20260514.md @@ -0,0 +1,60 @@ +--- +title: "DELEGATE-52 Review" +created: 2026-05-14 +type: review +tags: ["delegated-work", "document-editing", "benchmark", "long-horizon", "backtranslation"] +--- + +# 📌 基本信息 + +- **论文标题**: LLMs Corrupt Your Documents When You Delegate +- **作者**: Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research) +- **领域**: cs.CL(计算语言学), cs.HC(人机交互) +- **arXiv ID**: 2604.15597 +- **添加时间**: 2026-05-14 + +# 🎯 核心概念 + +1. **[[delegate-52]]** — 310 工作环境 × 52 专业领域的基准,评估 LLM 委托工作就绪性 +2. **[[backtranslation-round-trip-relay]]** — 通过可逆编辑链串联,免参考答案评估文档编辑保真度的方法论 +3. **[[document-degradation]]** — LLM 在长委托工作流中静默破坏文档内容的核心现象 +4. **[[critical-failures]]** — 稀疏但严重的错误解释了约 80% 的总退化,而非渐进小错误累积 +5. **[[semantic-equivalence]]** — 通过领域特定解析器实现跨格式的文档等价性评判 +6. **[[jagged-frontier]]** — 模型能力在领域间极度不均衡:Python 近乎完美,其他 51 领域远未 ready + +# 🔗 概念网络 + +**核心连接**: +``` +delegate-52 ← backtranslation-round-trip-relay ← semantic-equivalence + ↓ ↓ +document-degradation → critical-failures + ↓ +long-horizon-evaluation → jagged-frontier +``` + +**扩展网络**:连接了 11 个新概念页,关联到已有的 [[ai-safety]]、[[agentic-systems]] 等概念(通过 [[delegated-work]] 和 [[distractor-context]]) + +**密度**:论文主页面 11 个出链,核心概念(delegate-52)8 个链接 + +# 📚 Wiki 集成 + +- **新增页面**: 13 个(1 论文 + 11 概念 + 1 review) +- **链接完整性**: 0 断链(100%) +- **Wiki 总规模**: 278 → 293 页 + +# 💡 关键洞察 + +## 1. "千刀万剐" 是错的——是少数致命刀伤 + +论文最反直觉的发现:文档退化不是均匀累积的小错误("death by a thousand cuts"),而是少数几次灾难性失败。~80% 的总损坏来自若干次关键错误(单次丢失 10-30+ 分)。这意味着用户无法通过"抽查几处"来信任委托结果——错误稀疏但严重。 + +## 2. 工具使用反而有害 + +Agentic harness(文件读写 + code execution)没有改善表现,反而让 4 个模型额外退化 6%。原因:工具调用带来 2-5x 输入 token 开销,而 DELEGATE-52 的任务不适宜纯代码解决。更好的模型(GPT 5.4)倾向于 code execution(45%),弱模型倾向于文件重写(90%)——这提示了正确的工具使用策略。 + +## 3. 复合效应被严重低估 + +文档大小、交互长度、干扰文档的负效应是**乘性叠加**的。短交互(2 次)中几乎不可见,但到 20 次交互时放大 5 倍。当前大多数评估基准只测试单轮或短交互——系统性低估了长期委托的风险。 + +对 sz 而言:这篇论文和你的 CAT/IRT 兴趣有种有趣的平行——都在研究"在有限信息下的测量精度",只是 DELEGATE-52 测量的是"模型的破坏程度"而非"学生的能力水平"。 diff --git a/reviews/elf-embedded-language-flows-review-20260513.md b/reviews/elf-embedded-language-flows-review-20260513.md new file mode 100644 index 0000000..fd2dc0e --- /dev/null +++ b/reviews/elf-embedded-language-flows-review-20260513.md @@ -0,0 +1,102 @@ +--- +title: "Review: ELF — Embedded Language Flows" +created: 2026-05-13 +updated: 2026-05-13 +type: review +paper: elf-embedded-language-flows +--- + +# Review: ELF — Embedded Language Flows + +📌 **基本信息** +- **论文标题**: ELF: Embedded Language Flows +- **作者**: Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He (MIT; *equal contribution) +- **arXiv**: 2605.10938 | **日期**: 2026-05-11 +- **领域**: Diffusion Language Models, Flow Matching, Language Generation +- **代码**: https://github.com/lillian039/ELF +- **Wiki 集成时间**: 2026-05-13 + +--- + +## 🎯 核心概念 + +1. **Embedded Language Flows** — 在连续嵌入空间中运行 Flow Matching 的语言扩散模型,全程保持连续表示,仅在最后一步通过共享权重网络离散化 + +2. **Flow Matching** — 连续时间生成框架,通过学习速度场将噪声沿直线轨迹(Rectified Flows)变换为数据,自然兼容 x-prediction 参数化 + +3. **Shared-Weight Discretization** — 同一网络通过二进制 mode token 切换去噪(MSE)和解码(CE),消除对单独 decoder 的需求 + +4. **x-Prediction Parameterization** — 网络直接预测干净嵌入 x̂ 而非速度 v̂,使去噪和解码两种训练目标在语义上统一 + +5. **Classifier-Free Guidance for Language** — 将图像域成熟的 CFG 技术首次有效应用于语言扩散,配合 Self-Conditioning 构建条件信号 + +6. **Self-Conditioning** — 用模型自身的中间预测作为下一步条件输入,为无条件生成提供 CFG 所需的条件信号 + +7. **Rectified Flows** — 直线插值路径 z_t = t·x + (1-t)·ε,提供恒定速度场和高效的 ODE 求解 + +8. **SDE Sampler** — 在每步注入小噪声的随机采样策略,小模型上显著优于纯 ODE + +9. **Generative Perplexity** — 用预训练 GPT-2 Large 评估生成样本的核心质量指标 + +--- + +## 🔗 概念网络 + +### 核心连接 +``` +Embedded Language Flows + ├── Flow Matching (生成框架) + │ ├── Rectified Flows (插值路径) + │ └── x-Prediction Parameterization + ├── Shared-Weight Discretization + │ └── Continuous → Discrete (仅在 t=1) + ├── Self-Conditioning + │ └── Classifier-Free Guidance for Language + └── SDE Sampler (推理策略) +``` + +### 扩展连接 +- **连续 vs 离散对比轴**: Continuous DLM ↔ Discrete DLM +- **评估体系**: Generative Perplexity 连接所有 DLM 工作 +- **图像域迁移**: CFG、训练时 CFG、蒸馏 → 语言扩散 + +### 修复断链 +- 创建 9 个核心概念页 + 2 个占位概念页,100% 链接完整性 + +--- + +## 📚 Wiki 集成 + +| 维度 | 详情 | +|------|------| +| 新增页面 | **13 个**(1 raw + 1 paper + 11 concepts) | +| 概念网络核心节点 | 9 个,围绕 ELF-共享权重-CFG 三角 | +| 链接密度 | 核心概念平均 4.5 个双向链接 | +| 断链率 | **0%**(全部 wikilink 已解析) | +| 总规模 | 265 → **278** 页 | + +--- + +## 💡 关键洞察 + +### 1. 「性能差距」源于设计,而非语言本质 + +连续 DLM 长期被认为不如离散 DLM,但 ELF 用极简设计证明:只需**消除中间 CE 监督 + 消除单独 decoder + 正确的参数化选择**,连续方法即可全面超越。105M ELF 超越 170M 离散/连续基线,训练 token 仅 10%。这是对扩散语言模型方向的**根本性纠偏**。 + +### 2. 图像域的成熟技术正在涌入语言扩散 + +ELF 最大的方法论贡献可能不是新算法,而是**架构的桥梁效应**:通过保持在连续空间操作,CFG、训练时 CFG、蒸馏、高效采样——这些图像域积累多年的技术——可以几乎零摩擦地迁移到语言扩散。这意味着未来连续 DLM 的发展速度可能远超离散方法,因为它可以直接"搭便车"于图像扩散的整个生态。 + +### 3. 从"离散化是核心问题"到"离散化是最小化处理" + +历史上的连续 DLM(Diffusion-LM 等)将离散化视为贯穿全程的问题(每步 CE loss、rounding、simplex 约束)。ELF 反其道而行:**离散化仅在最后一步发生**,其他时间完全在连续空间自由流动。这种「最小化离散化」哲学可能是连续 DLM 未来设计的核心原则。 + +--- + +## 📊 与已有 Wiki 知识的连接 + +ELF 与 wiki 中已集成的以下主题形成概念交叉: + +- **GRPO / MathForge 系列**(强化学习训练优化)→ ELF 使用 Muon optimizer,关注训练效率 +- **Hyperagents / 自修改代理** → Self-Conditioning 的迭代预测在某些层面类似元认知循环 +- **DeepSeek-V3 / MLA** → 连续嵌入压缩与瓶颈设计(ELF 使用 512→128→512 bottleneck) diff --git a/reviews/godel-tutorial-review-20260428.md b/reviews/godel-tutorial-review-20260428.md index 40e90f3..34496e3 100644 --- a/reviews/godel-tutorial-review-20260428.md +++ b/reviews/godel-tutorial-review-20260428.md @@ -1,3 +1,12 @@ +--- +title: "哥德尔不完备定理教程 — Review 报告" +created: 2026-05-01 +updated: 2026-05-01 +type: review +tags: [] +sources: [] +--- + # 哥德尔不完备定理教程 — Review 报告 📌 **基本信息** @@ -6,7 +15,7 @@ - 年份:2026年4月 | 添加时间:2026-04-28 - 来源:PDF 直接提交(godel_tutorial.pdf) - 页数:43页(9章 + 2附录) -- Wiki 页面:[[godel-incompleteness-tutorial|论文主页]] · [[raw/papers/godel-tutorial-2026|原始存档]] +- Wiki 页面:[[godel-incompleteness-tutorial|论文主页]] · [[godel-incompleteness-tutorial|原始存档]] --- diff --git a/reviews/hyperagents-review-20260420.md b/reviews/hyperagents-review-20260420.md index 4c6139f..974f32d 100644 --- a/reviews/hyperagents-review-20260420.md +++ b/reviews/hyperagents-review-20260420.md @@ -1,3 +1,12 @@ +--- +title: "📚 Wiki 添加 Review 报告 - Hyperagents 论文" +created: 2026-05-01 +updated: 2026-05-01 +type: review +tags: [] +sources: [] +--- + # 📚 Wiki 添加 Review 报告 - Hyperagents 论文 ## 📌 论文基本信息 diff --git a/reviews/koopa-review-20260511.md b/reviews/koopa-review-20260511.md new file mode 100644 index 0000000..43819f8 --- /dev/null +++ b/reviews/koopa-review-20260511.md @@ -0,0 +1,50 @@ +--- +title: "Review: Koopa — Koopman 预测器驱动的非平稳时序学习" +created: 2026-05-11 +type: review +sources: [[liu-koopa-2023]] +--- + +# Review: Koopa — Koopman 预测器驱动的非平稳时序学习 + +## 📌 基本信息 + +- **标题**:Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors +- **作者**:Yong Liu, Chenyu Li, Jianmin Wang, Mingsheng Long (Tsinghua) +- **会议**:NeurIPS 2023 +- **领域**:时间序列预测 / 动力系统 / 深度学习 +- **添加时间**:2026-05-11 + +## 🎯 核心概念 + +1. **[[koopman-theory|Koopman 理论]]** — 将非线性动力学映射到无限维线性空间,用线性算子驱动 +2. **[[fourier-filter-dynamics|Fourier Filter]]** — 频域解耦时变与时时不变分量 +3. **[[koopman-predictor|Koopman 预测器]]** — 测量函数学习 + 线性算子 + 上下文感知 +4. **[[non-stationary-time-series|非平稳时间序列]]** — 时变统计和时变依赖的核心挑战 +5. **[[dynamic-mode-decomposition|DMD]]** — Koopman 算子的标准有限维近似 +6. **[[koopman-autoencoder|KAE]]** — 深度学习 + Koopman 的融合框架 +7. **[[time-variant-dynamics|时变动力学]]** — 局部时变算子的处理策略 + +## 🔗 概念网络 + +``` +koopman-theory ←→ dynamic-mode-decomposition ←→ koopman-autoencoder + ↓ +koopman-predictor ←→ fourier-filter-dynamics + ↓ ↓ +time-variant-dynamics non-stationary-time-series +``` + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | 9 个(1 paper + 7 概念 + 1 raw) | +| 总规模 | 225 → 233 页 | +| 交叉引用 | 55 处,0 断链 | + +## 💡 关键洞察 + +Koopa 的核心优雅在于**将非线性时序预测转化为线性算子问题**——这本质上是 Koopman 理论 1931 年就揭示的洞见,但直到深度学习能自动学习测量函数 g 后才真正可落地。Fourier Filter 的频域解耦进一步让时变/时不变两种动力学各得其所,避免了传统归一化方法"一刀切"的信息损失。77% 的训练加速说明线性算子的计算优势在这一框架下得到了充分释放。 + +这篇与 wiki 中已有的 [[meta-jctrader|Meta-JCTrader]](高频交易预测)和 [[probabilistic-method|概率方法]](将复杂问题映射到易处理空间)形成了理论与应用的双向呼应。 diff --git a/reviews/llm-attention-survey-review-20260429.md b/reviews/llm-attention-survey-review-20260429.md index 3c2ada5..dee566a 100644 --- a/reviews/llm-attention-survey-review-20260429.md +++ b/reviews/llm-attention-survey-review-20260429.md @@ -1,3 +1,12 @@ +--- +title: "Review: 大语言模型注意力机制全面分析" +created: 2026-05-01 +updated: 2026-05-01 +type: review +tags: [] +sources: [] +--- + # Review: 大语言模型注意力机制全面分析 - **Review 日期**: 2026-04-29 diff --git a/reviews/mathforge-review-20260512.md b/reviews/mathforge-review-20260512.md new file mode 100644 index 0000000..82054cd --- /dev/null +++ b/reviews/mathforge-review-20260512.md @@ -0,0 +1,91 @@ +--- +title: "MathForge Review — 2026-05-12" +created: 2026-05-12 +type: review +sources: ["arxiv:2601.20614"] +--- + +# MathForge: Harder Is Better — 集成 Review + +📌 **基本信息** +- 论文:*Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation* +- 作者:Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu +- 机构:中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学 +- 发表:ICLR 2026 +- arXiv:2601.20614 +- 代码:[AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge) + +--- + +🎯 **核心概念** + +1. **[[update-magnitude-imbalance|GRPO 更新幅度不平衡]]** — GRPO 的优势估计(GRAE)导致策略更新幅度依赖准确率 p,在 p=0.5 时最大,对更难(p→0)和更简单(p→1)的问题都被抑制。这是本文揭示的核心理论缺陷。 + +2. **[[dgpo|DGPO]](难度感知 GRPO)** — 两步修复:先用 [[dgae|DGAE]] 以 MAD 替代 std 平衡更新幅度(Theorem 2),再用 [[dqw|DQW]] 以 softmax 温度加权显式优先困难问题。 + +3. **[[mqr|MQR]](多维度问题改写)** — 通过三种策略(Background/Term/Sub-Problem)系统性提高训练数据难度,同时保持原始答案不变(97-99% 保持率),消除重新生成解答的需求。 + +4. **[[mathforge|MathForge]] 协同循环** — MQR 扩展数据的能力边界 → DGPO 优先学习更难问题 → 能力提升 → MQR 继续扩展边界……形成正反馈训练循环。 + +--- + +🔗 **概念网络** + +``` + [[rlvr-unified-framework]] + ↑ 训练范式 + ┌───────┴───────┐ + │ │ + [[grpo]] [[mathforge]] + (基线) (Harder is Better) + ↑缺陷 ├── 算法轨 + [[update-magnitude- │ └── [[dgpo]] + imbalance]] │ ├── [[dgae]]: MAD 归一化 + ↓修复 │ └── [[dqw]]: Softmax 加权 + [[dgae]] ←─────────── │ + └── 数据轨 + └── [[mqr]] + └── [[math-question-reformulation]] + (Background/Term/Sub-Problem) +``` + +- **核心连接**:update-magnitude-imbalance → DGAE → DQW → DGPO ↔ MQR → MathForge +- **扩展网络**:连接了现有 RLVR 概念(rlvr-unified-framework, unsupervised-rlvr) +- **新增概念**:7 个全新概念 + 1 个框架概念(grpo 为必要前置) + +--- + +📚 **Wiki 集成** + +| 类型 | 数量 | 描述 | +|------|------|------| +| 论文页面 | 1 | [[dai-mathforge-2026]] | +| 原始存档 | 1 | `raw/papers/dai-mathforge-2026.md` | +| 概念页面 | 8 | [[grpo]], [[mathforge]], [[dgpo]], [[dgae]], [[dqw]], [[mqr]], [[update-magnitude-imbalance]], [[math-question-reformulation]] | +| Review 报告 | 1 | 本文件 | +| **总计** | **11 页**(含 raw) | | +| 总规模 | 233 → **254 页**(index rebuild 发现 21 个未收录页面) | | +| 链接完整性 | ✅ 0 断链 | | + +--- + +💡 **关键洞察** + +1. **GRPO 的"反直觉"缺陷**:GRPO 被 DeepSeek-R1 和几乎所有后续 RLVR 工作广泛采用,但本文从数学上严格证明其优势估计函数导致对最难问题(p 接近 0 但非 0)的更新幅度系统性偏低——而这恰恰是最需要训练的信号。这个发现的价值不亚于解法本身。 + +2. **Balance-then-Reweight 的设计哲学**:DGPO 先消除 GRPO 的隐式不平衡(DGAE),再叠加显式难度加权(DQW)——这种"两步拆解"比 GRPO-AD 的优势直接重加权具有更好的可解释性和可组合性。DGPO 可与 GP6、DAPO、GSPO 等方法兼容组合(见 Appendix G)。 + +3. **答案保持约束的巧妙之处**:MQR 要求所有改写保持原始答案,这看似限制性约束,实则一举三得——避免解答生成开销、保证 RLVR 奖励可靠性、failed reformulation 天然无害(全错=无梯度)。 + +--- + +📊 **实验亮点** + +| 模型 | GRPO | MathForge | Δ | +|------|------|-----------|-----| +| Qwen2.5-Math-7B | 37.61 | **42.17** | +4.56 | +| Qwen2.5-Math-1.5B | 29.39 | **33.84** | +4.45 | +| Qwen2.5-3B | 25.47 | **29.01** | +3.54 | +| DeepSeek-Math-7B | 14.91 | **17.77** | +2.86 | + +跨 4 个模型族一致增益,MQR 数据增强总成本仅 $184。 diff --git a/reviews/prompt-caching-architecture-review-20260511.md b/reviews/prompt-caching-architecture-review-20260511.md new file mode 100644 index 0000000..4289a7a --- /dev/null +++ b/reviews/prompt-caching-architecture-review-20260511.md @@ -0,0 +1,68 @@ +--- +title: "Review: Prompt Caching 架构工程手册" +created: 2026-05-11 +type: review +sources: [[prompt-caching-architecture]] +--- + +# Review: Prompt Caching 架构工程手册 + +## 📌 基本信息 + +- **标题**:Agentic Systems: Prompt Caching 架构工程手册 (Volume I) +- **来源**:微信公众号 +- **领域**:AI Agent 系统架构 / Prompt 工程 / 缓存优化 +- **案例系统**:[[meta-jctrader|Meta-JCTrader]] +- **添加时间**:2026-05-11 +- **类型**:工程实践教程 + +## 🎯 核心概念 + +1. **[[prompt-caching|Prompt Caching]]** — 基于前缀匹配的确定性计算优化,是 Agent 系统稳健性与推理确定性的架构基石 +2. **[[prefix-matching|前缀匹配]]** — 字节级严格匹配机制,任何微小更改触发雪崩式失效 +3. **[[prompt-layering|提示分层]]** — Global → Project → Session → Dynamic 四层架构,按变更频率分离静态与动态内容 +4. **[[stub-pattern|Stub 模式]]** — 通过 ToolRegistry 统一接口避免工具定义变更导致的缓存污染 +5. **[[cache-safe-forking|缓存安全分叉]]** — 复用父会话前缀实现低成本对话压缩 +6. **[[cache-hit-ratio|CHR]]** — 核心监控指标,< 95% 即触发告警 +7. **[[system-message-abuse|System Message 滥用]]** — 高频变更 System Message 的反模式及其工具化替代方案 +8. **[[cache-health-observability|缓存可观测性]]** — 三大指标体系(CHR + 失效点识别 + 成本效率评分) + +## 🔗 概念网络 + +**核心连接**: +``` +prompt-caching ←→ prefix-matching ←→ cache-invalidation + ↓ ↓ +prompt-layering ←→ stub-pattern ←→ tool-registry + ↓ +cache-safe-forking ←→ context-compression + ↓ +cache-hit-ratio ←→ cache-health-observability + ↓ + meta-jctrader ←→ agentic-systems ←→ reinforcement-learning-trading +``` + +- **新增概念**:14 个(12 核心 + 2 占位符) +- **扩展网络**:连接了 16+ 个相关概念 +- **占位符创建**:2 个([[agentic-systems]]、[[reinforcement-learning-trading]]) +- **断链状态**:0 处断链,100% 链接完整 + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | 15 个(1 raw + 1 article + 12 概念 + 2 占位符 - 1 合并 = 15) | +| 总规模 | 195 → 203 页 | +| 链接完整性 | 100% 无断链 | +| 索引更新 | ✅ 全量重建 | + +## 💡 关键洞察 + +1. **缓存不仅是性能问题,更是架构约束** — Prompt Caching 的确定性前缀匹配机制对系统设计提出了"静态前缀不可变性"的硬约束,这使得 Agent 架构必须从根本上区分"静态基础设施"与"动态业务逻辑" + +2. **Stub 模式是缓存与灵活性的权衡最优解** — 通过 ToolRegistry 间接调用,在不牺牲缓存命中率的前提下保留了工具的动态扩展性,这是一种经典的计算机科学"中间层解耦"思路在 LLM 时代的映射 + +## 🏷️ 与现有知识库的关联 + +- 与 [[hyperagents|Hyperagents]] 的自我修改 Agent 形成互补:前者关注 Agent 内部的自我优化,本文关注 Agent 基础设施的效率优化 +- 为 [[agentic-systems|Agentic Systems]] 概念提供了工程实现层面的具体方法论 diff --git a/reviews/ramsey-context-construction-review-20260511.md b/reviews/ramsey-context-construction-review-20260511.md new file mode 100644 index 0000000..64d08c2 --- /dev/null +++ b/reviews/ramsey-context-construction-review-20260511.md @@ -0,0 +1,63 @@ +--- +title: "Review: 上下文构造与拉姆齐数" +created: 2026-05-11 +type: review +sources: [[ramsey-context-construction]] +--- + +# Review: 上下文构造与拉姆齐数 + +## 📌 基本信息 + +- **标题**:上下文构造与拉姆齐数:基于 Ramsey 理论的 Agent 上下文缓存设计 +- **来源**:用户上传 Markdown +- **领域**:Agent 架构设计 / 图论应用 / 上下文工程 +- **添加时间**:2026-05-11 +- **类型**:方法论设计 (Methodology) + +## 🎯 核心概念 + +1. **[[ramsey-context-graph|拉姆齐上下文图]]** — 将 tools/skills/prompts 建模为节点,蓝边=兼容、红边=冲突 +2. **[[ramsey-context-cache|拉姆齐上下文缓存]]** — 三层机制(缓存池维护→团监控→O(1)命中) +3. **[[context-blue-clique|上下文蓝色团]]** — 全兼容子集,作为常驻上下文骨架 +4. **[[greedy-context-screening|贪心上下文筛选]]** — 三步快速组装(相关性→子图→贪心团扩展) +5. **[[ramsey-context-template|拉姆齐上下文模板]]** — 蓝色团模板库,KV cache 命中率 80%+ + +## 🔗 概念网络 + +``` + ramsey-theory ←→ ramsey-numbers + ↓ + ramsey-context-graph ←→ prompt-caching + ↓ + ramsey-context-cache ←→ context-blue-clique + ↓ ↓ +greedy-context-screening ramsey-context-template + ↓ ↓ + prompt-layering ←→ stub-pattern +``` + +**核心桥梁**:本文将纯数学的 [[ramsey-theory|拉姆齐理论]] 和工程的 [[prompt-caching|Prompt Caching]] 打通——用 R(3,3)=6 的必然性保证 Agent 上下文组装从不依赖穷举搜索,而是通过图维护实现确定性效率。 + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | 7 个(1 article + 5 概念 + 1 raw) | +| 总规模 | 219 → 225 页 | +| 交叉引用 | 新页面间 45 处链接 | +| 断链 | 0 处 | + +## 💡 关键洞察 + +这篇文档完成了 wiki 中一条**从纯数学到工程落地的完整知识链**: + +``` +拉姆齐数的数学综述(理论层) + ↓ +上下文构造与拉姆齐数(方法论层) + ↓ +Prompt Caching 架构工程手册(工程层) +``` + +最漂亮的洞见是:拉姆齐方法把**"每次费力搜索"降维成"维持一张好图"**——这与 [[stub-pattern|Stub 模式]] 把"动态工具选择"降维成"固定占位符+注册表"异曲同工。两者本质上都是「通过结构性约束换取确定性效率」,只是作用在不同层面:Stub 模式作用于纵向的工具定义稳定性,拉姆齐方法作用于横向的组件兼容性保证。 diff --git a/reviews/ramsey-numbers-survey-review-20260511.md b/reviews/ramsey-numbers-survey-review-20260511.md new file mode 100644 index 0000000..9bb7260 --- /dev/null +++ b/reviews/ramsey-numbers-survey-review-20260511.md @@ -0,0 +1,78 @@ +--- +title: "Review: 拉姆齐数的数学综述" +created: 2026-05-11 +type: review +sources: [[ramsey-numbers-survey]] +--- + +# Review: 拉姆齐数的数学综述 + +## 📌 基本信息 + +- **标题**:拉姆齐数的数学综述 (Ramsey Numbers: A Comprehensive Survey) +- **来源**:用户上传 Markdown +- **日期**:2025年6月 +- **领域**:组合数学 / 图论 / 数论 / 数理逻辑 +- **添加时间**:2026-05-11 +- **类型**:综述论文 (Survey) + +## 🎯 核心概念 + +1. **[[ramsey-theory|拉姆齐理论]]** — "完全的无序是不可能的",揭示大规模结构中必然存在规则性子结构 +2. **[[ramsey-numbers|拉姆齐数]]** R(r,s) — 量化"足够大"的数学不变量,精确值极其难以确定 +3. **[[diagonal-ramsey-number|对角拉姆齐数]]** R(k) — 二色边着色下必含单色 k-团的最小顶点数,R(5) 仍悬而未决 +4. **[[probabilistic-method|概率方法]]** — Erdős 1947 的革命性证明技术,获 R(k) > 2^{k/2} 下界,催生随机图理论 +5. **[[hypergraph-ramsey-number|超图拉姆齐数]]** — k-一致超图情形,增长涉及迭代指数塔 +6. **[[geometric-ramsey-theory|几何拉姆齐理论]]** — 幸福结局问题,凸多边形必然出现 +7. **[[additive-combinatorics|加法组合学]]** — 从 van der Waerden 到 Green-Tao,整数集中必然出现的加法子结构 +8. **[[paris-harrington-theorem|巴黎-哈灵顿定理]]** — PA 中不可证明的"自然"Ramsey 命题 +9. **[[green-tao-theorem|Green-Tao 定理]]** — 素数集包含任意长等差数列(Tao 获 2006 菲尔兹奖) +10. **[[szemerédi-regularity-lemma|Szemerédi 正则性引理]]** — 大图分解为拟随机子结构的核心工具 +11. **[[ramsey-theory-applications|跨学科应用]]** — CS、密码学、物理、生物、社会科学中的 Ramsey 精神 + +## 🔗 概念网络 + +**核心连接**: +``` +ramsey-theory ←→ ramsey-numbers ←→ diagonal-ramsey-number + ↓ ↓ +probabilistic-method ←→ lovasz-local-lemma ←→ random-graph-theory + ↓ +hypergraph-ramsey-number ←→ szemerédi-regularity-lemma + ↓ +geometric-ramsey-theory ←→ additive-combinatorics + ↓ + van-der-waerden-theorem → green-tao-theorem + ↓ + furstenberg-correspondence + ↓ +paris-harrington-theorem ←→ godel-incompleteness-theorems + ↓ +ramsey-theory-applications (CS / crypto / physics / biology) +``` + +- **新增概念**:17 个(12 核心 + 4 占位符 + 1 论文页) +- **与已有网络的连接**:[[godel-incompleteness-theorems|哥德尔不完备定理]](via Paris-Harrington) +- **断链状态**:0 处断链,100% 链接完整 + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | 18 个(1 raw + 1 survey + 12 核心概念 + 4 占位符) | +| 总规模 | 203 → 219 页 | +| 链接密度 | 新页面间 90 处交叉引用 | +| 链接完整性 | 100% 无断链 | +| 索引更新 | ✅ 全量重建 | + +## 💡 关键洞察 + +1. **Ramsey 理论是"秩序必然性"的数学证明** — 它不依赖于任何设计或意图:当系统规模足够大时,秩序是数学上不可避免的。这一洞见从组合数学穿透到物理学(相变)、生物学(基因网络)乃至社会科学(群体形成),构成了跨学科统一的底层逻辑。 + +2. **概率方法开辟的范式转变** — Erdős 不构造具体的 Ramsey 图,而是证明随机图"几乎必然"具有所需性质。这种"存在性先于构造性"的方法论深刻影响了整个计算机科学——从密码学中的随机性提取器到机器学习中的泛化理论,都继承了这一精神。R(5) 依然未知,但概率方法已经让人类理解了 R(k) 的渐近行为。 + +## 🏷️ 与现有知识库的关联 + +- 通过 [[paris-harrington-theorem|巴黎-哈灵顿定理]] 与 [[godel-incompleteness-theorems|哥德尔不完备定理]] 形成逻辑→组合的连接 +- 为 wiki 中尚薄弱的**纯数学/组合数学**分支提供坚实基础 +- [[random-graph-theory|随机图理论]]、[[probabilistic-method|概率方法]] 与 AI/ML 概念有天然接口 diff --git a/reviews/streaming-llm-review-20260514.md b/reviews/streaming-llm-review-20260514.md new file mode 100644 index 0000000..3d6b936 --- /dev/null +++ b/reviews/streaming-llm-review-20260514.md @@ -0,0 +1,54 @@ +--- +title: "Review: StreamingLLM — 基于注意力汇的无限长流式语言模型" +created: 2026-05-14 +updated: 2026-05-14 +type: review +tags: [llm, attention, streaming, kv-cache] +sources: ["https://arxiv.org/abs/2309.17453"] +--- + +# Review: StreamingLLM — 基于注意力汇的无限长流式语言模型 + +📌 **基本信息** +- 论文: Efficient Streaming Language Models with Attention Sinks +- 作者: Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis +- 机构: MIT / Meta AI / CMU / NVIDIA +- 发表: ICLR 2024 +- arXiv: 2309.17453 +- 代码: [mit-han-lab/streaming-llm](https://github.com/mit-han-lab/streaming-llm) + +--- + +🎯 **核心概念** + +1. **[[attention-sinks|注意力汇]]** — 初始 Token 在所有层/头中吸引不成比例的高注意力分数,不是因语义而是因绝对位置。根因是 SoftMax 归一化强制求和为 1。 + +2. **[[streaming-llm|StreamingLLM]]** — 保留 4 个初始 Token 的 KV + 最近 Token 的滑动窗口,使 LLM 无需微调即可处理无限长流式输入。 + +3. **[[window-attention|窗口注意力]]崩溃** — 仅缓存最近 Token 的朴素方案因逐出注意力汇 Token 而 PPL 飙升至 5000+。 + +4. **[[rolling-kv-cache|滚动 KV 缓存]]** — 固定大小的两段式缓存,位置编码在 cache 内部连续分配(关键设计)。 + +5. **[[sink-token|Sink Token 预训练]]** — 训练样本前加可学习 Token 作为唯一注意力汇,仅需 1 个 Token 替代 4 个。 + +6. **[[softmax-off-by-one|SoftMax-off-by-One]]** — SoftMax₁ = eˣ/(1+Σeˣ),允许丢弃注意力但不够充分。 + +🔗 **概念网络** + +- 核心连接: [[attention-sinks|注意力汇]] ↔ [[streaming-llm|StreamingLLM]] ↔ [[rolling-kv-cache|滚动 KV 缓存]] +- 问题链: [[length-extrapolation|长度外推]] → [[window-attention|窗口注意力]]失败 → [[attention-sinks|注意力汇]] → [[streaming-llm|StreamingLLM]]方案 +- 改进链: Vanilla → Zero Sink ([[softmax-off-by-one|SoftMax₁]]) → [[sink-token|Learnable Sink Token]] +- 扩展网络: 连接到 [[kv-cache-bottleneck|KV 缓存瓶颈]]、[[rotary-position-embedding|RoPE]]、[[llm-attention-survey-2026|注意力综述]] + +📚 **Wiki 集成** + +- 新增页面: 6 个(1 论文 + 5 概念) +- 更新页面: 1 个([[attention-sinks|注意力汇]] 从占位符 → 完整内容) +- 链接密度: 核心概念平均 5-7 个链接 +- 总规模: 294 → 300 页 + +💡 **关键洞察** + +1. **SoftMax 的"结构必然性"**:注意力汇不是 bug,而是 SoftMax 归一化约束下的结构必然产物。这个洞察改变了我们对注意力机制的理解——"多余"的注意力不是模型学坏了,而是数学结构要求它存在。 + +2. **最简单的方案最优雅**:StreamingLLM 不需要微调、不需要修改架构、不需要重新训练——只是保留 4 个初始 Token 的 KV。这种"发现现象→解释机制→最小干预"的研究范式堪称典范。 diff --git a/reviews/tba-review-20260512.md b/reviews/tba-review-20260512.md new file mode 100644 index 0000000..095395f --- /dev/null +++ b/reviews/tba-review-20260512.md @@ -0,0 +1,109 @@ +--- +title: "TBA Review — 2026-05-12" +created: 2026-05-12 +type: review +sources: ["arxiv:2503.18929"] +--- + +# TBA: Trajectory Balance with Asynchrony — 集成 Review + +📌 **基本信息** +- 论文:*Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training* +- 作者:Brian Bartoldson et al. (LLNL × Mila × UdeM × KAIST × CIFAR) +- 发表:NeurIPS 2025 +- arXiv:2503.18929 +- 代码:[bbartoldson/TBA](https://github.com/bbartoldson/TBA) + +--- + +🎯 **核心概念** + +1. **[[tba|TBA]](异步轨迹平衡框架)** — 将 GFlowNet 的 off-policy [[trajectory-balance-objective|TB 目标]] 与分布式 [[asynchronous-rl-llm|异步 RL]] 结合,实现 Searcher-Trainer 解耦,达到 4×–50× 训练加速。 + +2. **[[trajectory-balance-objective|Trajectory Balance (TB) 目标]]** — GFlowNet 的一种学习目标,天然 off-policy 兼容。在 LLM 后训练中,TB_VarGrad 梯度等价于 mean-baseline REINFORCE + KL 正则化奖励,但不要求 on-policy 数据。 + +3. **[[searcher-trainer-decoupling|Searcher-Trainer 解耦]]** — Searcher 节点持续生成响应和评估奖励(vLLM 推理),Trainer 节点持续从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样训练——两者互不等待,GPU 利用率接近 100%。 + +4. **[[reward-recency-sampling|奖励-最近度混合采样]]** — 概率 m 采样最近数据(稳定训练),概率 1−m 按奖励采样(鼓励探索),在 query 级别随机切换。m=0.5–0.6 效果最佳。 + +5. **[[gflownet-fine-tuning|GFlowNet 微调]]** — TBA 所属的理论框架,利用 GFlowNet 的分布匹配(而非奖励最大化)进行 LLM 后训练,天然产生多样化输出。 + +--- + +🔗 **概念网络** + +``` + [[rlvr-unified-framework]] + ↑ RL 后训练范式 + ┌───────┴───────────┐ + │ │ + [[grpo]] [[gflownet-fine-tuning]] + (On-Policy) (Off-Policy 分布式采样) + ↑ 对比 ↑ 基础框架 + │ │ + ┌───┴───────────┐ [[trajectory-balance-objective]] + │ │ ↑ TB 目标 + [[asynchronous-rl-llm]] ┌───────┴───────────────┐ + ↑ 异步范式 │ │ + │ │ │ + [[searcher-trainer- [[tba|TBA]] [[replay-buffer-rl-llm]] + decoupling]] ↑ 框架 ↑ Buffer + ↑ 架构 │ │ + └────────────────────┼────────────────────────┘ + │ + [[reward-recency-sampling]] + ↑ 采样策略 + │ + [[off-policy-llm-post-training]] + ↑ Off-Policy 范式 +``` + +- **核心连接**:GFlowNet → TB → TBA → Searcher-Trainer 解耦 → Replay Buffer → 奖励-最近度采样 +- **与现有网络连接**:链接了 [[grpo]]、[[rlvr-unified-framework]]、[[dgpo]]、[[dai-mathforge-2026|MathForge]] +- **新增概念**:8 个(全部为全新建模概念) + +--- + +📚 **Wiki 集成** + +| 类型 | 数量 | 描述 | +|------|------|------| +| 论文页面 | 1 | [[bartoldson-tba-2025]] | +| 原始存档 | 1 | `raw/papers/bartoldson-tba-2025.md` | +| 概念页面 | 8 | [[tba]], [[trajectory-balance-objective]], [[asynchronous-rl-llm]], [[off-policy-llm-post-training]], [[gflownet-fine-tuning]], [[replay-buffer-rl-llm]], [[searcher-trainer-decoupling]], [[reward-recency-sampling]] | +| Review 报告 | 1 | 本文件 | +| **本论文新增** | **11 页** | | +| 总规模 | 255 → **264 页** | | +| 链接完整性 | ✅ **0 断链** | | + +--- + +💡 **关键洞察** + +1. **TB 的 off-policy 性质是核心突破**:此前异步 LLM RL 的瓶颈在于 on-policy 算法(PPO/GRPO/RLOO)对 off-policyness 敏感——Async DPO 和 Proximal RLOO 在策略偏离增大时性能显著下降。TBA 用 TB 目标绕过了这个限制:TB 天然 off-policy 兼容,只要数据有 full support 即保证收敛。这不仅是工程优化,更是**算法选择决定架构可能性**的典型案例。 + +2. **"训练速度即模型能力"**:TBA 的 50× 加速不是免费的午餐——它源于架构上的根本性重新思考。Searcher 和 Trainer 互不等待意味着在相同 wall-clock 时间内可以处理更多数据、尝试更多探索。在 red-teaming 实验中,增加 Searcher 数量持续提升攻击成功率和多样性,表明**计算扩展直接转化为能力提升**。 + +3. **与 MathForge 的互补性**:TBA(加速训练)和 [[dai-mathforge-2026|MathForge]](提升训练质量)代表了 LLM RL 后训练的两个正交维度。TBA 解决 "how fast",MathForge 解决 "how well"。未来二者结合可能有巨大潜力。 + +4. **Kimi K1.5/K2 的联系**:论文揭示 Kimi K1.5/K2 的 RL 目标几乎等同 TB,但排除了 log-probability-ratio 的 control variate。TBA 保持此 term 且 ref-policy reset 更保守,这是理解工业界前沿 RL 训练的一个理论锚点。 + +--- + +📊 **实验亮点** + +| 任务 | 模型 | 加速比 | 性能 | +|------|------|--------|------| +| GSM8K MR | RhoMath-1B | **50×** vs VinePPO | 55% (+1.8%) | +| TL;DR PFT | Pythia 410M | **5×** vs Async DPO | 0.86 win-rate | +| MATH MR | Qwen 2.5 7B | — | 超越 Dr. GRPO (off-policy) | +| Red-Teaming | GPT-2 | **7×** vs GFlowNet | SOTA Pareto 前沿 | + +--- + +🎓 **方法论意义** + +TBA 展示了"借鉴成熟 RL 社区的技术 + 适配 LLM 特性"的成功范式: +- 从 GFlowNets 借 TB 目标 → 解决 off-policy 学习 +- 从 IMPALA 借 Actor-Learner 架构 → 解耦探索与学习 +- 避免直接移植 Value-based 方法(不适合 LLM 的巨大 action space) diff --git a/reviews/thinking-with-visual-primitives-review-20260430.md b/reviews/thinking-with-visual-primitives-review-20260430.md new file mode 100644 index 0000000..c8cb09b --- /dev/null +++ b/reviews/thinking-with-visual-primitives-review-20260430.md @@ -0,0 +1,98 @@ +--- +title: "Review — Thinking with Visual Primitives" +date: 2026-04-30 +paper: "Thinking with Visual Primitives" +authors: "DeepSeek-AI" +domain: "Multimodal AI / Visual Reasoning" +--- + +# 📌 Thinking with Visual Primitives — 集成 Review + +**论文**: Thinking with Visual Primitives +**作者**: Ruijie Lu, Yiyang Ma, Xiaokang Chen (Project Lead) et al. — DeepSeek-AI, 北京大学, 清华大学 +**来源**: [GitHub](https://github.com/deepseek-ai/Thinking-with-Visual-Primitives) (2026) +**集成时间**: 2026-04-30 + +--- + +## 🎯 核心概念 + +1. **视觉原语 (Visual Primitives)** — Bounding boxes 和 points 被提升为「思维的最小单位」,直接交织进 MLLM 的 Chain-of-Thought 推理链。框用于精确定位对象,点用于抽象空间引用和轨迹追踪。 + +2. **引用鸿沟 (Reference Gap)** — 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代。这是现有 MLLM 在复杂空间推理中逻辑崩溃的**根本瓶颈**,比感知鸿沟更深层。「Seeing is not reasoning.」 + +3. **极致 Token 效率** — 从 756×756 图像到仅 81 个 KV entries,压缩比 **7056×**。以 GPT-5.4 1/8、Gemini 1/12 的 token 预算,在空间推理和拓扑任务上实现反超。 + +4. **训练流水线** — 「train specialists—then—merge」策略:专项 SFT(框专家 FTwG + 点专家 FTwP)→ 专项 RL(GRPO + 多维度 RM)→ 统一 RFT → 在线策略蒸馏。 + +5. **四大冷启动任务** — 粗粒度计数、细粒度计数、迷宫导航、路径追踪。每个任务都设计了专门的奖励模型(指数衰减奖励、因果探索进度、双向轨迹评估等)。 + +--- + +## 🔗 概念网络 + +### 核心连接 +``` +视觉原语 ←→ 引用鸿沟 ←→ 感知鸿沟 + ↓ + 框原语(计数/空间推理) + 点原语(迷宫/路径追踪) + ↓ +专项SFT→专项RL(GRPO)→统一RFT→在线策略蒸馏 + ↓ +Token效率(7056×) ← CSA + DeepSeek-ViT +``` + +### 扩展网络 +- 连接到已有概念: [[compressed-sparse-attention]], [[on-policy-distillation]], [[mixture-of-experts]], [[deepseek-v4-million-token-context]] +- 新建 20 个概念页面,与现有 attention/MoE/训练方法概念形成密集交叉引用 +- 将 wiki 从 LLM 架构层**垂直延伸到多模态视觉推理层** + +--- + +## 📚 Wiki 集成 + +| 指标 | 数值 | +|------|------| +| 新增页面 | **21** 个(1 论文 + 20 概念) | +| 总规模 | 143 → **164** 页 | +| 链接密度 | 141 个交叉链接(仅新页面间) | +| 网络完整性 | **100%** 无断链 | +| 代码修复 | 75 个中文 wikilink → English kebab-case 格式化 | +| 覆盖维度 | 新增「多模态视觉推理」知识维度 | + +### 新增概念一览 +`visual-primitives`, `reference-gap`, `perception-gap`, `chain-of-thought`, `multimodal-large-language-model`, `system-2-thinking`, `deepseek-vit`, `deepseek-v4-flash`, `token-efficiency`, `coarse-grained-counting`, `fine-grained-counting`, `maze-navigation`, `path-tracing`, `group-relative-policy-optimization`, `specialized-sft`, `specialized-rl`, `unified-rft`, `exponential-decay-reward`, `bidirectional-trajectory-evaluation`, `reward-model` + +--- + +## 💡 关键洞察 + +### 1. 从「看到更多」到「指得更准」的范式转移 + +本文最深刻的贡献不是架构创新,而是**问题定义的重新框架化**。整个多模态社区一直在追求更高分辨率、更多视觉 token,好像问题就是「看得不够清楚」。DeepSeek 指出:即使完美感知,语言本身在空间指代上就是有缺陷的。这个洞察一旦提出就几乎是显然的——人类在解迷宫时不会自言自语「向左第三格再向右第五格」,而是直接用手指。 + +视觉原语本质上是在给 CoT 添加一个**空间类型系统**:让模型能够区分「说"红色的球"」(语言引用,有歧义)和「指 (342, 567) 那个位置」(空间引用,无歧义)。 + +### 2. Token 效率的工程奇迹 + +7056× 的压缩比是惊人的。这意味着 DeepSeek 在说:「我们不需要更贵的硬件,我们需要更聪明的信息压缩」。90 个 KV entries 承载了比 1,100 个密集 token 更丰富的空间信息——因为每个 token 都是精确的空间坐标,而非模糊的 visual embedding。 + +### 3. 对 Agent 和具身 AI 的潜在影响 + +这项工作的真正价值可能尚未完全释放。如果 MLLM 能够原生地「Think in coordinates」,那么: +- **GUI Agent** 可以直接输出操作坐标而非依赖 OCR+语义匹配 +- **机器人操作** 可以接收精确的抓取点而非「那个杯子」 +- **自动驾驶** 可以用轨迹原语替代高维规划空间 + +--- + +## ⚠️ 局限与未来 + +1. **需要显式触发词** — 当前视觉原语能力无法自主激活 +2. **点原语的泛化有限** — 跨场景拓扑推理仍是开放挑战 +3. **与感知鸿沟方案的整合** — 理论上互补,实战待验证 +4. **中英文能力继承** — 训练数据无中文,但得益于基座模型的多语言能力意外地支持中文推理 + +--- + +*「多模态智能的未来不在于看到更多像素,而在于构建语言与视觉之间精确、无歧义的引用桥梁。」*