20260625:很多新内容
This commit is contained in:
89
articles/atlas-agent-memory-architecture-2026.md
Normal file
89
articles/atlas-agent-memory-architecture-2026.md
Normal file
@@ -0,0 +1,89 @@
|
|||||||
|
---
|
||||||
|
title: "Atlas Agent 记忆系统架构(2026)"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: article
|
||||||
|
tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation"]
|
||||||
|
sources:
|
||||||
|
- "https://mp.weixin.qq.com/s/fypjVWJBQg_MZV9OMfPpIA"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Atlas Agent 记忆系统架构
|
||||||
|
|
||||||
|
> 基于 noamschwartz/atlas-memory-demo 的深度工程实践解析。核心主张:Agent 记忆不是 KV 存储问题,是多索引信息检索问题。
|
||||||
|
|
||||||
|
## 问题
|
||||||
|
|
||||||
|
`chat_history.append()` 把三种不同生命周期的信息塞进同一个数组——稳定事实、操作流程、时序事件——这是 Agent 永远在"忘记"的根因。真正的挑战是在查询瞬间穿过噪音找到对的那几条。
|
||||||
|
|
||||||
|
## 核心架构:[[atlas-memory-system|三索引 + 公共]]
|
||||||
|
|
||||||
|
[[agent-memory-taxonomy|四种记忆类型]],各自独立的索引、字段和衰减策略:
|
||||||
|
|
||||||
|
| 索引 | 存储内容 | 衰减源 | 写入频率 | 更新策略 |
|
||||||
|
|------|---------|--------|---------|---------|
|
||||||
|
| episodic | 原始消息+时间戳 | timestamp | 每回合 | 只写不改 |
|
||||||
|
| semantic | 提炼后稳定事实 | last_used_at | consolidation | supersession 链 |
|
||||||
|
| procedural | 多步操作流程 | 豁免 (1.0) | consolidation | 计数器更新 |
|
||||||
|
| catalog | 公共共享知识 | timestamp | 手动 | 脚本覆盖 |
|
||||||
|
|
||||||
|
## 检索管线:[[hybrid-recall-pipeline|混合召回]]
|
||||||
|
|
||||||
|
```
|
||||||
|
用户消息 → Verbatim Pre-Recall(不经 LLM 改写)
|
||||||
|
→ BM25 词法 + Dense 语义 双通路并行
|
||||||
|
→ RRF 融合 (rank_constant=30)
|
||||||
|
→ Cross-encoder 重排序 (top-80 → top-K)
|
||||||
|
→ 返回(reranker 失败时降级 RRF 顺序)
|
||||||
|
```
|
||||||
|
|
||||||
|
### 关键参数
|
||||||
|
- **RECALL_OVER_FETCH_K=80** — consolidation 产生近重复 doc,候选池不足会挤掉 gold doc
|
||||||
|
- **rank_constant=30** — 比默认 60 小,排名靠前的结果保持更强信号权重
|
||||||
|
- **DECAY_SCALE=1825d** — 演示默认,客服应收紧至 60-180d
|
||||||
|
|
||||||
|
### Ablation 数据 (168 QA, 3 persona, ~250 docs/user)
|
||||||
|
|
||||||
|
| 配置 | R@10 |
|
||||||
|
|------|------|
|
||||||
|
| Full | **0.89** |
|
||||||
|
| Dense-only | 0.845 |
|
||||||
|
| BM25-only | 0.708 |
|
||||||
|
| No-Reranker | -0.238 |
|
||||||
|
|
||||||
|
dense 是主力,但 BM25 单腿 0.708 说明词法腿不可省略。reranker 最大单点贡献,但只在候选池足够宽时有用。
|
||||||
|
|
||||||
|
## [[verbatim-pre-recall|Verbatim Pre-Recall]]
|
||||||
|
|
||||||
|
在 `messages.append(user_msg)` 和 LLM 调用之间,用用户原话(不经改写)跑一次 recall。LLM 会把 "postgres v15.3 + pgvector 0.5.1" 泛化成 "PostgreSQL 数据库"——精确 token 丢失,BM25 词法匹配报废。Verbatim 绕过改写层,把最原始的 token 直接给 BM25。
|
||||||
|
|
||||||
|
Ablation 证实:额外 query expansion(LLM paraphrase)反而降低性能——BM25 已捕获精确 token,dense 已捕获语义改写。
|
||||||
|
|
||||||
|
## [[memory-consolidation|Consolidation(写后提炼)]]
|
||||||
|
|
||||||
|
每回合结束后从最近 30 条 episodic 事件中提取稳定事实和操作流程。一次 LLM 调用同时输出三类结果:new_facts、new_procedures、procedural_updates。Production 建议改为后台日批模式——积累一天后在夜间统一跑,成本减半。
|
||||||
|
|
||||||
|
## [[soft-supersession|Soft-Supersession]]
|
||||||
|
|
||||||
|
非破坏性矛盾处理:用户说"搬家了"→ 创建新 doc + 标记旧 doc (superseded_by) + 召回时过滤旧版。链式追溯支持任意长度,旧记录永不删除(审计需要)。
|
||||||
|
|
||||||
|
## [[gbrain-memory|与 GBrain 的对比]]
|
||||||
|
|
||||||
|
| 维度 | Atlas (ES) | GBrain (Markdown+Git) |
|
||||||
|
|------|-----------|----------------------|
|
||||||
|
| 存储 | ES 搜索引擎 | Markdown 文件 + Git |
|
||||||
|
| 多租户 | ES DLS(集群层) | 应用层 auth |
|
||||||
|
| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 |
|
||||||
|
| 衰减 | [[per-index-time-decay|Per-index gauss]] | 无显式衰减 |
|
||||||
|
| 透明度 | 仅 API | 直接打开文件 |
|
||||||
|
|
||||||
|
个人助理 → GBrain(人可读信任优先);多租户产品 → Atlas(ES 原生隔离)。
|
||||||
|
|
||||||
|
## 三个通用设计原则
|
||||||
|
|
||||||
|
1. **衰减曲线是领域性决策** — 先定义信息有效周期,再定衰减参数
|
||||||
|
2. **BM25 + vector 互补,不可二选一** — BM25 抓精确术语,dense 抓语义意图
|
||||||
|
3. **记忆需要后台提炼 + 矛盾处理** — 瓶颈从来不在数据库引擎,在分型逻辑和召回架构
|
||||||
|
|
||||||
|
## 来源
|
||||||
|
[原始存档](raw/articles/atlas-agent-memory-architecture-2026.md)
|
||||||
62
articles/financial-llm-practice-2026.md
Normal file
62
articles/financial-llm-practice-2026.md
Normal file
@@ -0,0 +1,62 @@
|
|||||||
|
---
|
||||||
|
title: "金融行业大模型落地实践(林金曙,2026)"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: article
|
||||||
|
tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"]
|
||||||
|
sources:
|
||||||
|
- "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg"
|
||||||
|
---
|
||||||
|
|
||||||
|
# 金融行业大模型落地实践
|
||||||
|
|
||||||
|
> 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。
|
||||||
|
|
||||||
|
## 背景
|
||||||
|
|
||||||
|
金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化(Skills)、金融大模型插件化、面向大模型友好的数据层([[aidb]])。
|
||||||
|
|
||||||
|
## 核心方案
|
||||||
|
|
||||||
|
### 长文档检索:[[pageindex]] + [[agentic-rag]]
|
||||||
|
|
||||||
|
金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。
|
||||||
|
|
||||||
|
反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。
|
||||||
|
|
||||||
|
### 审核工程:[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]]
|
||||||
|
|
||||||
|
"差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事:
|
||||||
|
1. **在哪里看** — 限定章节范围而非全文
|
||||||
|
2. **看什么** — 用业务语言(如"注册资本")而非系统拼音缩写
|
||||||
|
3. **怎么判** — 将 SOP 写成可执行判断条件
|
||||||
|
|
||||||
|
选型教训:Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B(4×H800,约 60 万一次性投入)后规则砍半,准确率 +45pp。结论:小模型省下的算力钱远不够覆盖人力成本。
|
||||||
|
|
||||||
|
### [[context-engineering|上下文工程]]
|
||||||
|
|
||||||
|
Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。
|
||||||
|
|
||||||
|
模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。
|
||||||
|
|
||||||
|
## Agent 工程
|
||||||
|
|
||||||
|
金融 Agent 需操作业务系统:读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。
|
||||||
|
|
||||||
|
三件事须同时成立:
|
||||||
|
- 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
|
||||||
|
- 工具侧:[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入
|
||||||
|
- 资源侧:[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化
|
||||||
|
|
||||||
|
每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。
|
||||||
|
|
||||||
|
## 核心洞见
|
||||||
|
|
||||||
|
1. **不卷织布速,卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent
|
||||||
|
2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木
|
||||||
|
3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束
|
||||||
|
4. **弃大脑之争,筑神经之基** — 不训练大模型,专注数据底座、接口标准、知识体系
|
||||||
|
|
||||||
|
## 来源
|
||||||
|
|
||||||
|
[原始存档](raw/articles/financial-llm-practice-2026.md)
|
||||||
84
articles/llm-spiral-of-silence-2026.md
Normal file
84
articles/llm-spiral-of-silence-2026.md
Normal file
@@ -0,0 +1,84 @@
|
|||||||
|
---
|
||||||
|
title: "LLM 沉默螺旋:算法催生的数字从众"
|
||||||
|
created: 2025-04-15
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: article
|
||||||
|
tags:
|
||||||
|
- spiral-of-silence
|
||||||
|
- llm
|
||||||
|
- rag
|
||||||
|
- multi-agent
|
||||||
|
- content-ecology
|
||||||
|
sources:
|
||||||
|
- data派THU
|
||||||
|
- https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw
|
||||||
|
---
|
||||||
|
|
||||||
|
# LLM 沉默螺旋:算法催生的数字从众
|
||||||
|
|
||||||
|
> 来源:[原始存档](raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md) | 数据派THU | 作者:李媛媛 | 2026
|
||||||
|
|
||||||
|
## 核心问题
|
||||||
|
|
||||||
|
大语言模型在 RAG 检索迭代、多智能体交互等闭环场景中,**无需人类心理动机,仅靠纯统计语言生成机制,就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应**。这是所有主流大模型的通用系统性问题。
|
||||||
|
|
||||||
|
## 理论迁移:从人类到 AI
|
||||||
|
|
||||||
|
经典 [[spiral-of-silence|沉默的螺旋]](Noelle-Neumann, 1974)依赖三个心理机制:孤立恐惧、准统计感官、螺旋式循环。但 LLM 版本属于**算法驱动的沉默螺旋**——无需心理,纯技术机制即可触发。
|
||||||
|
|
||||||
|
## 两大实证场景
|
||||||
|
|
||||||
|
### 1. RAG 闭环:AI 正在"杀死"人类原创内容
|
||||||
|
|
||||||
|
[[rag-closed-loop|RAG 闭环迭代]]模式下,AI 生成→搜索引擎索引→检索复用→再次生成的循环导致:
|
||||||
|
- 仅 5 轮迭代后,人类原创内容占比从 50% 暴跌至 15% 以下
|
||||||
|
- 搜索引擎算法天然偏好 AI 生成文本
|
||||||
|
- 形成"AI 自我复制、人类原创失语、小众真相沉没"的单向信息固化
|
||||||
|
|
||||||
|
相关概念:[[rag|RAG]]、[[content-homogenization|内容同质化]]
|
||||||
|
|
||||||
|
### 2. 多智能体交互:AI 对话如何自发极化
|
||||||
|
|
||||||
|
[[multi-agent-spiral|多智能体螺旋]]实验(arXiv 2025)覆盖 GPT-4o-mini、Llama3.1、Mistral、Qwen2.5、DeepSeek-V2:
|
||||||
|
- 历史上下文 + 角色设定叠加时,主流观点占比突破 80%
|
||||||
|
- 小模型效应远强于大模型;中文模型强于英文模型
|
||||||
|
- 仅靠对话历史就能持续重复主流观点
|
||||||
|
|
||||||
|
相关概念:[[multi-agent-orchestration|多智能体编排]]、[[opinion-polarization|观点极化]]
|
||||||
|
|
||||||
|
## 四大技术根源
|
||||||
|
|
||||||
|
1. **[[pretraining-statistical-bias|预训练统计偏好]]**(底层基础):主流观点在训练数据中占绝对优势,模型天然倾向于高概率内容
|
||||||
|
2. **[[context-anchoring|历史上下文锚定]]**(核心驱动):自回归生成机制让模型持续贴合对话历史,形成正向闭环
|
||||||
|
3. **[[role-setting-entrenchment|角色设定固化]]**(催化加速):固定立场放大观点对立,压制小众输出
|
||||||
|
4. **[[rlhf-alignment-amplification|RLHF 对齐放大]]**(固化诱因):安全去偏压低了 token 预测熵值,压缩创作空间
|
||||||
|
|
||||||
|
与 [[rlhf|RLHF]] 的标准理解不同,此处强调的是**对齐训练作为沉默螺旋放大器的意外副作用**。
|
||||||
|
|
||||||
|
## 四大危害
|
||||||
|
|
||||||
|
- [[information-cocoons|信息茧房]] + 观点垄断:人类原创、批判性思考持续消失
|
||||||
|
- 错误信息闭环扩散:AI 偏差内容强化传播,小众真相被边缘化
|
||||||
|
- 社会偏见固化放大:性别、地域偏见通过螺旋效应持续放大
|
||||||
|
- 知识创新被抑制:前沿小众观点、颠覆性创新思路被系统压制
|
||||||
|
|
||||||
|
## 治理方案
|
||||||
|
|
||||||
|
- **技术层**:优化采样策略(高 [[temperature-sampling|温度采样]])、历史去锚定、RAG 检索排序均衡、分层去偏训练
|
||||||
|
- **机制层**:建立 [[content-diversity-decay|内容多样性衰减]]监测系统、内容来源透明标注
|
||||||
|
- **研究层**:统一量化评估标准与测试数据集、长周期模拟实验
|
||||||
|
|
||||||
|
## 研究空白
|
||||||
|
|
||||||
|
- 无统一的沉默螺旋强度量化指标
|
||||||
|
- 缺乏互联网级长周期信息迭代演化研究
|
||||||
|
- 多模态 AI 沉默螺旋机制完全空白
|
||||||
|
- 轻量化治理技术尚未成熟
|
||||||
|
|
||||||
|
## 参考文献
|
||||||
|
|
||||||
|
[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval?
|
||||||
|
[2] arXiv 2025. Spiral of Silence in Large Language Model Agents
|
||||||
|
[3] Noelle-Neumann E. The Spiral of Silence, 1984.
|
||||||
|
[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models
|
||||||
|
[5] KBS 2026. Quantifying and mitigating the spiral of silence in recommender systems
|
||||||
81
articles/memtensor-memos-agent-memory-2026.md
Normal file
81
articles/memtensor-memos-agent-memory-2026.md
Normal file
@@ -0,0 +1,81 @@
|
|||||||
|
---
|
||||||
|
title: "MemOS:Agent 记忆基础设施"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: article
|
||||||
|
tags: [agent-memory, memos, memtensor, memory-system, openclaw, clawforce]
|
||||||
|
sources:
|
||||||
|
- https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
|
||||||
|
---
|
||||||
|
|
||||||
|
# MemOS:Agent 记忆基础设施
|
||||||
|
|
||||||
|
> 熊飞宇(记忆张量 CEO)技术分享 | DataFun | 2026
|
||||||
|
|
||||||
|
## 核心断言
|
||||||
|
|
||||||
|
> **记忆不再是锦上添花,而是 Agent 能否持续进化的核心要素。**
|
||||||
|
|
||||||
|
ChatGPT 个人记忆 + OpenClaw 连续型 Agent 推动行业共识转变:记忆从"降低 token 消耗"演进为"Agent 能否活下来"的生死问题。
|
||||||
|
|
||||||
|
## 两条路线的融合
|
||||||
|
|
||||||
|
| | 模型驱动 | 应用驱动 |
|
||||||
|
|---|---|---|
|
||||||
|
| 方式 | 基础模型架构创新 | Prompt/Agent 流模拟 |
|
||||||
|
| 代表 | Memorizing Transformers | Mem0, Zep |
|
||||||
|
| 优势 | 上限高 | 落地快 |
|
||||||
|
| 劣势 | 成本极高 | 与基模耦合弱 |
|
||||||
|
|
||||||
|
MemTensor 的策略:**模型驱动决定上限,应用驱动决定下限,从系统层面融合。**
|
||||||
|
|
||||||
|
## MemOS 五层架构
|
||||||
|
|
||||||
|
```
|
||||||
|
应用层 + 编解码层
|
||||||
|
↑
|
||||||
|
记忆调度层 ← 核心:三层记忆协同
|
||||||
|
↑
|
||||||
|
记忆治理层(权限/生命周期/水印/隐私)
|
||||||
|
↑
|
||||||
|
记忆存储层(MemCube + MemStore)
|
||||||
|
```
|
||||||
|
|
||||||
|
### [[layered-memory-architecture|三层记忆协同]]
|
||||||
|
|
||||||
|
| 层级 | 内容 | 载体 | 角色 |
|
||||||
|
|------|------|------|------|
|
||||||
|
| **明文记忆** | Prompt/Agent 流 | 自然语言 | 事实、对话上下文 |
|
||||||
|
| **激活记忆** | KV Cache 管理 | GPU 缓存 | 降低成本、提升命中率 |
|
||||||
|
| **参数记忆** | 行业 know-how | 后训练权重 | 增强领域认知 |
|
||||||
|
|
||||||
|
## 核心创新
|
||||||
|
|
||||||
|
### [[memory-dedup-pipeline|三级去重漏斗]]
|
||||||
|
SHA-256 精确去重 → 向量余弦相似度 → LLM Judge 矛盾检测与智能合并
|
||||||
|
→ 平均压缩比 **75%+**
|
||||||
|
|
||||||
|
### [[mem2skill|Mem2Skill]]
|
||||||
|
从对话碎片中提取 → 结构化 → 参数化技能。核心:**记忆不止于被搜到,而是内化为能力。** 如 K8s OOM 排查从 2 小时 → 10 分钟。
|
||||||
|
|
||||||
|
## 关键数据
|
||||||
|
|
||||||
|
- GitHub **8.5K Star**,社区 1.2 万+ 活跃用户
|
||||||
|
- 云服务单月调用 **2500 万+** 次,月涨幅 100-200%
|
||||||
|
- 单次请求节省 **45-72%** token
|
||||||
|
- 接入后:LLM Judge 评分↑、上下文成本 **-30%**、交互轮次 **-50%**、token 消耗 **-50%**
|
||||||
|
|
||||||
|
## [[clawforce|ClawForce 企业方案]]
|
||||||
|
|
||||||
|
五层设计 + 三重安全(事前隔离→事中脱敏→事后审计),解决企业 AI Agent 从"能用"到"敢用"的五个痛点。已在研发、电商、公文写作、销售等场景落地。
|
||||||
|
|
||||||
|
## 概念网络
|
||||||
|
|
||||||
|
- [[agent-memory-system|Agent 记忆系统]] — 为何记忆是 Agent 的生死关键
|
||||||
|
- [[layered-memory-architecture|三层记忆架构]] — 明文/激活/参数分层协同
|
||||||
|
- [[model-driven-vs-app-driven-memory|两路线融合]] — 模型驱动 + 应用驱动
|
||||||
|
- [[memory-governance|记忆治理]] — 全生命周期管理
|
||||||
|
- [[agent-memory-lifecycle|记忆生命周期]] — 抽取→组织→检索→更新→共享
|
||||||
|
- [[memcube|MemCube]] — 最小可打包记忆单元
|
||||||
|
|
||||||
|
来源:[原始存档](raw/articles/memtensor-memos-agent-memory-2026.md)
|
||||||
68
articles/michael-jordan-mlst-collectivist-ai-2026.md
Normal file
68
articles/michael-jordan-mlst-collectivist-ai-2026.md
Normal file
@@ -0,0 +1,68 @@
|
|||||||
|
---
|
||||||
|
title: "Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: article
|
||||||
|
tags:
|
||||||
|
- michael-jordan
|
||||||
|
- ai-economics
|
||||||
|
- collectivist-ai
|
||||||
|
- uncertainty
|
||||||
|
- agi-critique
|
||||||
|
sources:
|
||||||
|
- 机器之心
|
||||||
|
- MLST
|
||||||
|
- https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ
|
||||||
|
---
|
||||||
|
|
||||||
|
# Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论
|
||||||
|
|
||||||
|
> 来源:[原始存档](raw/articles/michael-jordan-mlst-collectivist-ai-2026.md) | 机器之心编译 | MLST 访谈 | 2026
|
||||||
|
|
||||||
|
## 人物
|
||||||
|
|
||||||
|
**Michael I. Jordan**——统计机器学习奠基人,UC Berkeley EECS+统计系杰出教授。门下走出 Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等一整代 ML 核心建设者。2016 年《科学》杂志「全球最具影响力计算机科学家」。
|
||||||
|
|
||||||
|
## 五大核心论点
|
||||||
|
|
||||||
|
### 1. AGI 是公关词
|
||||||
|
|
||||||
|
「AGI 是个公关词,是一种扭曲,尤其让年轻人困惑。」真正的 ML 传统(供应链、金融、物流预测)一直比"AI"影响更大,但因输出不是人类可读语言而被忽视。LLM 只是换了个输出格式,背后的 ML 传统一直都在。参见 [[anthropomorphization-critique|人类化机器批判]]。
|
||||||
|
|
||||||
|
### 2. AI 需要经济学:集体主义框架
|
||||||
|
|
||||||
|
[[collectivist-ai|集体主义 AI 框架]]:当前 AI 的根本缺陷是将智能窄化为个体认知。人类是社会动物,智识来自聚合——聚合观点形成文化。完整框架需要 **CS(算法/抽象)+ 统计学(推断/不确定性)+ 经济学(激励机制/博弈均衡)** 三个支柱。
|
||||||
|
|
||||||
|
「只有计算加优化,你就只能得到语言模型。」
|
||||||
|
|
||||||
|
### 3. 基础模型在知识边界最危险
|
||||||
|
|
||||||
|
[[foundation-model-frontier-bias|基础模型前沿偏倚]]:科学家问的是知识边界上的新问题——恰恰是训练数据最稀少的地方。AlphaFold 案例:量子涨落预测的置信区间极窄但完全偏离真实值。模型答错却不说。解法:[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注 + 大量模型预测。
|
||||||
|
|
||||||
|
### 4. 不确定性的三分法
|
||||||
|
|
||||||
|
[[uncertainty-taxonomy|Jordan 不确定性分类法]],超越经典 [[epistemic-uncertainty|认知不确定性]]/[[aleatoric-uncertainty|偶然不确定性]] 二分:
|
||||||
|
|
||||||
|
| 类型 | 本质 | 示例 |
|
||||||
|
|------|------|------|
|
||||||
|
| 采样不确定性 | 数据是否足够 | 但需在种群语境中按纳什均衡处理 |
|
||||||
|
| 信息不对称 | 结构性不透明,永不消失 | 专家知道但不会全告诉你 |
|
||||||
|
| 数据时效性 | 时间维度的元数据 | 十年前的医疗数据应自动打折 |
|
||||||
|
|
||||||
|
LLM 对自身不确定性一无所知——它只是模仿了互联网上人类表达确定性的语气。
|
||||||
|
|
||||||
|
### 5. 超级智能 vs 人类灭绝是虚假二元
|
||||||
|
|
||||||
|
「思想领袖分成两队,一队冲向乌托邦,一队冲向末日——在人类历史上这种现实脱节非常罕见。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有**无数积极的可能性**。
|
||||||
|
|
||||||
|
## 金句
|
||||||
|
|
||||||
|
- 「现在这个领域有什么?只有非常聪明、会编程、有很多直觉的人——我从没感受到任何真正智识深度的东西。」
|
||||||
|
- 「别问它是否理解。问:它能不能降低不确定性,能不能让工程系统建立在它之上。」
|
||||||
|
- 「可怜的 LLM,不确定性三件事一件都不会做。」
|
||||||
|
- 「AI 是关于帮助信息流动,让人类做出他们真正想做的正确决策。」
|
||||||
|
|
||||||
|
## 参考文献
|
||||||
|
|
||||||
|
- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268
|
||||||
|
- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64
|
||||||
52
articles/nobrega-ai-production-tradeoffs-2026.md
Normal file
52
articles/nobrega-ai-production-tradeoffs-2026.md
Normal file
@@ -0,0 +1,52 @@
|
|||||||
|
---
|
||||||
|
title: "AI 工程师的 6 种生产权衡"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: article
|
||||||
|
tags: [ai-engineering, production-tradeoffs, prompt-engineering, fine-tuning, hitl, mlops]
|
||||||
|
sources:
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
- https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
|
||||||
|
---
|
||||||
|
|
||||||
|
# AI 工程师的 6 种生产权衡
|
||||||
|
|
||||||
|
> 原文:*Six Choices Every AI Engineer Has to Make (and Nobody Teaches)* — Sara Nobrega
|
||||||
|
> 翻译:陈超 | 来源:数据派THU
|
||||||
|
|
||||||
|
## 核心问题
|
||||||
|
|
||||||
|
大学课程教你怎么让模型变精确。但几乎没人教你后续的决策:什么时候完全自动化?什么时候提示词不够?批处理和实时怎么选?这些问题在工作第一周就会出现。
|
||||||
|
|
||||||
|
## 核心原则
|
||||||
|
|
||||||
|
> **决策的成本很少在决策做出的地方产生回报。** — 更复杂的模型在 6 个月后增加维护成本,实时系统需要 24/7 基础设施支撑,大规模脏数据在重训练周期上付出代价。
|
||||||
|
|
||||||
|
## 6 种权衡
|
||||||
|
|
||||||
|
### 1. [[build-vs-buy-llm|构建 vs 购买]]
|
||||||
|
日请求 < 10 万 → API。日请求 > 100 万 → 自建。但 70-80% 的自建成本是人力,不是 GPU。团队平均超预算 340%。
|
||||||
|
|
||||||
|
### 2. [[cace-principle|模型复杂度 vs 可维护性]]
|
||||||
|
CACE 原理:改变任何事物都会改变一切。为 2% 精度选复杂模型的代价是 18 个月的调试税。一年后谁拥有它?
|
||||||
|
|
||||||
|
### 3. [[data-quality-vs-quantity|数据数量 vs 数据质量]]
|
||||||
|
超过噪声阈值,更多数据会降低性能。医疗 AI 最典型:专家标注小数据集 > 不可靠标注大数据集。避免"数据沼泽"。
|
||||||
|
|
||||||
|
### 4. [[batch-vs-real-time-inference|吞吐量 vs 延迟]]
|
||||||
|
大多数业务问题不需要亚秒级预测。如果用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理。
|
||||||
|
|
||||||
|
### 5. [[prompt-engineering-vs-fine-tuning|提示词工程 vs 微调]]
|
||||||
|
提示词快、便宜、灵活,但脆弱。微调昂贵($1 万 + 6 周),但规模化可靠。混合模式(微调风格 + RAG 事实)日益普及。
|
||||||
|
|
||||||
|
### 6. [[human-in-the-loop|自动化 vs 人类监督]]
|
||||||
|
完全人工审查无法规模化。选择性 HITL:边缘案例、低置信度、高风险决策才触发人工。AI 处理规模,人类处理不可逆性。
|
||||||
|
|
||||||
|
## 关键概念网络
|
||||||
|
|
||||||
|
- [[ai-production-tradeoffs|AI 生产权衡]] — 六大维度的总览
|
||||||
|
- [[ml-technical-debt|ML 技术债务]] — 数据依赖比代码依赖更昂贵
|
||||||
|
- [[selective-hitl|选择性 HITL]] — 只有在最需要时引入人工
|
||||||
|
- [[data-swamp|数据沼泽]] — 存储便宜带来的隐性成本
|
||||||
|
|
||||||
|
来源:[原始存档](raw/articles/nobrega-ai-production-tradeoffs-2026.md)
|
||||||
49
concepts/ace-router.md
Normal file
49
concepts/ace-router.md
Normal file
@@ -0,0 +1,49 @@
|
|||||||
|
---
|
||||||
|
title: "ACE-Router — 训练专用路由器"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [router-training, mcp, tool-selection, history-aware, agent-web]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2601.08276
|
||||||
|
---
|
||||||
|
|
||||||
|
# ACE-Router
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
ACE-Router 是 Yao et al. (2026) 提出的**训练专用路由器框架**:不依赖 embedding 静态匹配或 LLM 通用推理,而是训练一个专门模型,将多轮对话历史显式对齐到精确的路由决策。
|
||||||
|
|
||||||
|
## 三阶段管线
|
||||||
|
|
||||||
|
```
|
||||||
|
① Candidate Graph → ② Trajectory Synthesis → ③ Light Routing Agent
|
||||||
|
(扩展候选空间) (生成训练数据) (可插拔部署)
|
||||||
|
```
|
||||||
|
|
||||||
|
### ① Candidate Graph + 自进化变异
|
||||||
|
- 基于语义相似(τ=0.82)构建候选图
|
||||||
|
- 5 种变异算子:功能增强、参数变异、工作流链接、辅助操作、使用扩展
|
||||||
|
- 627 初始工具 → 2005 工具
|
||||||
|
|
||||||
|
### ② 多 Agent 轨迹合成
|
||||||
|
- DFS 随机游走采样 + 四角色模拟
|
||||||
|
- 环境无关:LLM 模拟执行,无需真实 API
|
||||||
|
- 产出 15,092 个历史感知训练样本
|
||||||
|
|
||||||
|
### ③ Light Routing Agent
|
||||||
|
仅两个工具:router_invoke + tool_execute。路由与执行解耦 → 路由逻辑独立于具体工具定义。
|
||||||
|
|
||||||
|
## 关键结果
|
||||||
|
|
||||||
|
- **8B 专用路由器 > 巨型通用模型**:GPT-4o (47.4%) vs ACE-Router (53.4%)
|
||||||
|
- 扩展候选池:ReAct 从 41.8% 崩溃到 36.5%,ACE-Router 稳定在 53.0%
|
||||||
|
- 噪声鲁棒:GPT-4o 28% / Gemini 32%,ACE-Router 保持 56%
|
||||||
|
- 工具路由 → Agent 路由零训练迁移:88-92%
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[yao-ace-router-2026|论文]]
|
||||||
|
- [[history-aware-routing|历史感知路由]]
|
||||||
|
- [[candidate-graph|候选图]]
|
||||||
|
- [[light-routing-agent|轻量路由 Agent]]
|
||||||
55
concepts/active-tool-discovery.md
Normal file
55
concepts/active-tool-discovery.md
Normal file
@@ -0,0 +1,55 @@
|
|||||||
|
---
|
||||||
|
title: "主动工具发现 — Active Tool Discovery"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [tool-discovery, llm-agents, mcp, active-learning, paradigm-shift]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2506.01056
|
||||||
|
---
|
||||||
|
|
||||||
|
# 主动工具发现(Active Tool Discovery)
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Active Tool Discovery 是 [[fei-mcp-zero-2025|MCP-Zero]] 提出的工具选择新范式:**Agent 自主识别能力缺口,按需生成工具请求,由系统匹配返回**——而不是被动接受预注入的全部工具 schema。
|
||||||
|
|
||||||
|
## 范式对比
|
||||||
|
|
||||||
|
| | 被动注入(Passive Injection) | 检索增强(Retrieval-Augmented) | 主动发现(Active Discovery) |
|
||||||
|
|---|---|---|---|
|
||||||
|
| 决策主体 | LLM 从全量中选择 | 检索系统预选 | LLM 自主请求 |
|
||||||
|
| 上下文 | 全部 tool schema 在 context 中 | 仅相关 tool | 仅请求的 tool |
|
||||||
|
| 多轮能力 | 无(一次性注入) | 受限(基于首轮查询) | 天然支持迭代扩展 |
|
||||||
|
| 自主性 | 选择器 | 半自主 | 能力构建者 |
|
||||||
|
|
||||||
|
## 为什么需要主动发现
|
||||||
|
|
||||||
|
三个根本约束:
|
||||||
|
|
||||||
|
1. **外部决策权**:被动注入和检索方案将工具选择权交给外部系统,而非 Agent 自身
|
||||||
|
2. **语义分布差距**:用户查询和正式 tool spec 在不同的语义空间中——检索精度受损
|
||||||
|
3. **静态能力假设**:工具被一次性选定,而非随任务理解深化而迭代发现
|
||||||
|
|
||||||
|
## 理论建模
|
||||||
|
|
||||||
|
主动发现可建模为 **active learning**:
|
||||||
|
|
||||||
|
```
|
||||||
|
r* = arg max I(T*; r|s_t)
|
||||||
|
= arg max[H(T*|s_t) - H(T*|r, s_t)]
|
||||||
|
```
|
||||||
|
|
||||||
|
Agent 生成请求 r 以最大化关于最优工具集 T* 的信息增益。
|
||||||
|
|
||||||
|
## 关键机制
|
||||||
|
|
||||||
|
- [[active-tool-request|Active Tool Request]]:结构化请求生成
|
||||||
|
- [[hierarchical-semantic-routing|层次语义路由]]:两级精匹配
|
||||||
|
- [[iterative-capability-extension|迭代能力扩展]]:跨域 toolchain
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[fei-mcp-zero-2025|MCP-Zero 论文]]
|
||||||
|
- [[mcp-protocol|MCP 协议]]
|
||||||
|
- [[skill-retrieval|Skill 检索]](类比:skill 检索也是主动选择)
|
||||||
56
concepts/active-tool-request.md
Normal file
56
concepts/active-tool-request.md
Normal file
@@ -0,0 +1,56 @@
|
|||||||
|
---
|
||||||
|
title: "Active Tool Request — 结构化工具请求"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [tool-discovery, mcp-zero, structured-request, llm-agents]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2506.01056
|
||||||
|
---
|
||||||
|
|
||||||
|
# Active Tool Request
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Active Tool Request 是 MCP-Zero 的核心机制:当 Agent 识别到能力缺口时,**自主生成结构化工具请求**,而非从预选列表中被动选择。
|
||||||
|
|
||||||
|
## 请求格式
|
||||||
|
|
||||||
|
```
|
||||||
|
<tool_assistant>
|
||||||
|
server: File system allowing file operations
|
||||||
|
tool: Read file by filename
|
||||||
|
</tool_assistant>
|
||||||
|
```
|
||||||
|
|
||||||
|
两个字段:
|
||||||
|
- **server**:平台/权限域要求(与 MCP server 描述对齐)
|
||||||
|
- **tool**:操作类型 + 目标(与 tool description 对齐)
|
||||||
|
|
||||||
|
## 为什么比用户查询更好
|
||||||
|
|
||||||
|
MCP-Zero 的理论分析证明:
|
||||||
|
|
||||||
|
```
|
||||||
|
cos(e_request, e_tool_description) > cos(e_query, e_tool_description)
|
||||||
|
```
|
||||||
|
|
||||||
|
Agent 生成的请求在**工具文档的语义空间中**,天然比原始用户查询更对齐。用户可能说"帮我修 bug",Agent 能精确表达"需要读取文件的 API"。
|
||||||
|
|
||||||
|
## 与传统方案的对比
|
||||||
|
|
||||||
|
| | System Prompt 注入 | 检索增强 | Active Tool Request |
|
||||||
|
|---|---|---|---|
|
||||||
|
| 请求者 | 预设 | 用户查询匹配 | Agent 自主 |
|
||||||
|
| 语义对齐 | N/A | 低(user→tool 语义差) | 高(request→tool 对齐) |
|
||||||
|
| 多轮 | N/A | 基于首轮 | 每步可独立请求 |
|
||||||
|
|
||||||
|
## 多轮能力
|
||||||
|
|
||||||
|
Agent 可在同一次对话中生成多个独立请求,每次触发独立的检索过程——天然支持跨域 toolchain 构建。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[active-tool-discovery|主动工具发现]]
|
||||||
|
- [[fei-mcp-zero-2025|MCP-Zero 论文]]
|
||||||
|
- [[hierarchical-semantic-routing|层次语义路由]]
|
||||||
46
concepts/adkv.md
Normal file
46
concepts/adkv.md
Normal file
@@ -0,0 +1,46 @@
|
|||||||
|
---
|
||||||
|
title: "AdaKV"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["kv-cache", "cross-head-budget-allocation", "dynamic-allocation"]
|
||||||
|
sources: []
|
||||||
|
---
|
||||||
|
|
||||||
|
# AdaKV
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
AdaKV (Feng et al., 2026b) 是一种动态的 [[cross-head-budget-allocation]] 方法,通过全局 Top-K 选择在 attention head 之间分配缓存预算。它基于注意力熵等实时统计量动态调整分配。
|
||||||
|
|
||||||
|
## 核心机制
|
||||||
|
|
||||||
|
1. **全局池化**:将所有 head 的候选 token 及其代理分数集中
|
||||||
|
2. **全局 Top-K**:跨所有 head 选择分数最高的 K 个 token
|
||||||
|
3. **动态分配**:各 head 的实际预算由 Top-K 选择结果自然决定
|
||||||
|
|
||||||
|
## 与 LU-KV 的关系
|
||||||
|
|
||||||
|
LU-KV 论文对 AdaKV 进行了关键性分析:
|
||||||
|
|
||||||
|
- **借鉴**:AdaKV 的输出扰动界分析启发了 [[oracle-importance]] 的定义
|
||||||
|
- **超越**:AdaKV 基于**原始代理分数**做全局比较(假设分数跨 head 可比),LU-KV 基于**边际效用曲线**做跨 head 比较
|
||||||
|
- **形式化差异**:AdaKV 的贪心策略未考虑 [[optimality-gap]],LU-KV 显式优化它
|
||||||
|
|
||||||
|
## 局限性
|
||||||
|
|
||||||
|
1. **分数不可比假设**:不同 head 的注意力分数尺度和分布不同,直接全局 Top-K 可能偏向分数尺度大的 head
|
||||||
|
2. **瞬时视角**:使用当前注意力熵,无法捕捉 [[long-horizon-utility]]
|
||||||
|
3. **无离线 profiling**:每次推理需在线计算,但开销仍可接受
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[cross-head-budget-allocation]] — AdaKV 所在的类别
|
||||||
|
- [[pyramidkv]] — 静态分配的替代方案
|
||||||
|
- [[global-combinatorial-optimization]] — LU-KV 采用的形式化更强的优化框架
|
||||||
|
- [[tang-lukv|LU-KV]] — 基于边际效用的改进方法
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- AdaKV (Feng et al., 2026b)
|
||||||
|
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
|
||||||
53
concepts/agent-memory-five-category-model.md
Normal file
53
concepts/agent-memory-five-category-model.md
Normal file
@@ -0,0 +1,53 @@
|
|||||||
|
---
|
||||||
|
title: "Agent Memory Five-Category Model (sz 设计)"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: ["agent-memory", "architecture", "design", "multi-index"]
|
||||||
|
sources:
|
||||||
|
- "[[atlas-agent-memory-architecture-2026]]"
|
||||||
|
- "[[longmem-eval-2025]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent Memory Five-Category Model
|
||||||
|
|
||||||
|
基于 sz 的 Agent 记忆构建模式分析,将记忆按生命周期和检索特征划分为五类,并映射到现有 wiki 框架。
|
||||||
|
|
||||||
|
## 五类记忆模型
|
||||||
|
|
||||||
|
| # | 类别 | 存储方式 | Atlas 对应 | 检索特点 |
|
||||||
|
|---|------|---------|-----------|---------|
|
||||||
|
| 1 | **知识** | text + frontmatter delimiter | catalog(无 user_id,共享) | 确定性查找,结构化 |
|
||||||
|
| 2 | **概念** | 知识图谱 | —(wiki 体系独立) | 遍历 + 关联推理 |
|
||||||
|
| 3 | **Cron 定时** | cron 直接构建 | — | 触发式,不算完整记忆 |
|
||||||
|
| 4a | **用户偏好/习惯/认知** | 结构化文本 | semantic(稳定事实) | last_used_at 衰减 + use_count boost |
|
||||||
|
| 4b | **近期交流日志** | 结构化文本,快速塞上下文 | episodic(原始日志) | timestamp 衰减(短期) |
|
||||||
|
| **5** | **计划/想法/洞察/遗留问题** | 结构化摘要 | **prospective**(前瞻) | 语义关联匹配(平坦时间衰减) |
|
||||||
|
|
||||||
|
## 设计原则
|
||||||
|
|
||||||
|
1. **知识(类型 1)**:独立于用户,MCP Server 的 catalog 索引承载。frontmatter 提供结构化元数据(来源、标签、更新时间),正文提供全文检索。
|
||||||
|
|
||||||
|
2. **概念(类型 2)**:wiki link graph 承载。概念之间的交叉引用形成知识图谱,与记忆系统的全文检索形成互补——一个是遍历式探索,一个是精确召回。
|
||||||
|
|
||||||
|
3. **Cron(类型 3)**:不进入记忆索引。Cron job 的配置本身是外部触发器,执行结果可作为 episodic 事件写入,但 job 定义不是"记忆"。
|
||||||
|
|
||||||
|
4. **用户绑定信息(类型 4)**:Atlas 的双索引(episodic + semantic)直接承载。日志部分走 episodic 的高频写入+短期衰减,偏好/习惯/认知走 semantic 的 consolidation 提炼+长期稳定。
|
||||||
|
|
||||||
|
5. **长周期随机提取(类型 5)**:需要专门的前瞻记忆索引——见 [[prospective-memory-index]]。
|
||||||
|
|
||||||
|
## 关键洞察
|
||||||
|
|
||||||
|
第 5 类(计划/想法/洞察)在传统三索引框架中处于缝隙位置:
|
||||||
|
- 不是 episodic(不应随 timestamp 沉底)
|
||||||
|
- 不是 semantic(不是稳定事实,是动态状态)
|
||||||
|
- 不是 procedural(不是可重复操作流程)
|
||||||
|
|
||||||
|
它是**意图/计划/未闭合的思路**——介于 episodic 的短周期和 semantic 的稳定性之间,有自己的生命周期特征。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[atlas-memory-system]]
|
||||||
|
- [[agent-memory-taxonomy]]
|
||||||
|
- [[prospective-memory-index]]
|
||||||
|
- [[longmem-eval-2025]]
|
||||||
|
- [[memory-indexing-retrieval-reading]]
|
||||||
55
concepts/agent-memory-lifecycle.md
Normal file
55
concepts/agent-memory-lifecycle.md
Normal file
@@ -0,0 +1,55 @@
|
|||||||
|
---
|
||||||
|
title: "Agent 记忆生命周期"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [agent-memory, lifecycle, pipeline, memos]
|
||||||
|
sources:
|
||||||
|
- https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent 记忆生命周期
|
||||||
|
|
||||||
|
## 五阶段管线
|
||||||
|
|
||||||
|
一个完整的记忆系统可拆解为五个核心环节:
|
||||||
|
|
||||||
|
```
|
||||||
|
抽取 → 组织 → 检索 → 更新 → 共享
|
||||||
|
↑ |
|
||||||
|
└──────────────────────────────┘
|
||||||
|
(闭环反馈)
|
||||||
|
```
|
||||||
|
|
||||||
|
### 1. 抽取(Extraction)
|
||||||
|
- 从对话流、交互轨迹中识别和提取关键信息
|
||||||
|
- **关键风险**:记忆是对知识的高度总结,幻觉在此阶段引入后会在后续环节累积
|
||||||
|
- MemOS 使用自研记忆原生模型自主决定何时抽取
|
||||||
|
|
||||||
|
### 2. 组织(Organization)
|
||||||
|
- 结构化存储、去重、归纳合并
|
||||||
|
- [[memory-dedup-pipeline|三级去重漏斗]]:SHA-256 → 向量余弦 → LLM Judge
|
||||||
|
- 平均压缩比 75%+
|
||||||
|
|
||||||
|
### 3. 检索(Retrieval)
|
||||||
|
- 多路召回、时间衰减、多样性处理
|
||||||
|
- 不同于文档检索——记忆检索需考虑时效性、相关性、可信度
|
||||||
|
|
||||||
|
### 4. 更新(Update)
|
||||||
|
- 增量合并、矛盾检测
|
||||||
|
- 记忆不是只增不减——需要合并重复、解决冲突、过期退役
|
||||||
|
|
||||||
|
### 5. 共享(Sharing)
|
||||||
|
- 跨 Agent/用户/会话传递记忆
|
||||||
|
- Hub 机制解决知识孤岛和经验蒸发问题
|
||||||
|
|
||||||
|
## 对应关系
|
||||||
|
|
||||||
|
这与 [[agent-skill|Agent Skill]] 的生命周期(Representation → Acquisition → Retrieval → Evolution)形成有趣的平行结构——两者共享"存储→检索→演化"的核心模式,但记忆更侧重事实性上下文,skill 更侧重过程性 know-how。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[agent-memory-system|Agent 记忆系统]]
|
||||||
|
- [[layered-memory-architecture|三层记忆架构]]
|
||||||
|
- [[memory-dedup-pipeline|记忆去重管线]]
|
||||||
|
- [[agent-skill|Agent Skill]]
|
||||||
45
concepts/agent-memory-system.md
Normal file
45
concepts/agent-memory-system.md
Normal file
@@ -0,0 +1,45 @@
|
|||||||
|
---
|
||||||
|
title: "Agent 记忆系统"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [agent-memory, llm-agents, memory-system, infrastructure]
|
||||||
|
sources:
|
||||||
|
- https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent 记忆系统
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Agent 记忆系统是为 LLM-based agent 提供持久化、可检索、可演化的上下文管理基础设施。它不仅关乎 token 节省,更决定 agent 能否执行连续型长程任务。
|
||||||
|
|
||||||
|
## 为什么记忆是 Agent 的生死关键
|
||||||
|
|
||||||
|
两个标志性事件推动行业共识转变:
|
||||||
|
|
||||||
|
1. **ChatGPT 个人记忆功能(2025.4)**:记忆代表 AGI 时代模型对每个用户的个性化理解
|
||||||
|
2. **OpenClaw 连续型 Agent**:缺乏记忆系统 → 长程任务无法顺利执行
|
||||||
|
|
||||||
|
视角扩展:single-session → multi-session → multi-user → multi-agent → multi-apps,复杂度指数增长。
|
||||||
|
|
||||||
|
## 需要独立记忆层的原因
|
||||||
|
|
||||||
|
当开发者面向上述多维度场景时,需要一个独立的处理框架来屏蔽复杂性——让开发者专注 Agent 业务逻辑,而非记忆的具体处理机制。MemOS 正是为此设计的记忆增强层。
|
||||||
|
|
||||||
|
## 核心能力
|
||||||
|
|
||||||
|
| 环节 | 功能 |
|
||||||
|
|------|------|
|
||||||
|
| 抽取 | 从对话流中提取关键信息 |
|
||||||
|
| 组织 | 结构化存储、去重、归纳 |
|
||||||
|
| 检索 | 多路召回、时间衰减 |
|
||||||
|
| 更新 | 增量合并、矛盾检测 |
|
||||||
|
| 共享 | 跨 Agent/用户/会话传递 |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]]
|
||||||
|
- [[layered-memory-architecture|三层记忆架构]]
|
||||||
|
- [[agent-memory-lifecycle|记忆生命周期]]
|
||||||
|
- [[memory-governance|记忆治理]]
|
||||||
36
concepts/agent-memory-taxonomy.md
Normal file
36
concepts/agent-memory-taxonomy.md
Normal file
@@ -0,0 +1,36 @@
|
|||||||
|
---
|
||||||
|
title: "Agent Memory Taxonomy (三索引分型)"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["agent-memory", "architecture", "information-lifecycle"]
|
||||||
|
sources:
|
||||||
|
- "[[atlas-agent-memory-architecture-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent Memory Taxonomy
|
||||||
|
|
||||||
|
Agent 记忆的三索引分型逻辑:不同生命周期的信息用不同的存储结构、衰减策略和更新规则。
|
||||||
|
|
||||||
|
## 三种记忆类型
|
||||||
|
|
||||||
|
| 类型 | 例子 | 生命周期 | 衰减驱动力 |
|
||||||
|
|------|------|---------|----------|
|
||||||
|
| **Episodic** | "今天下雨好烦" | 短(数天-数周) | timestamp(时间新鲜度) |
|
||||||
|
| **Semantic** | "我只用 PostgreSQL" | 长(稳定事实) | last_used_at(使用频率) |
|
||||||
|
| **Procedural** | "部署 checklist 第3步" | 极长(操作流程) | 豁免(不因时间衰减) |
|
||||||
|
|
||||||
|
## 为什么不能合并
|
||||||
|
|
||||||
|
- **字段语义污染**:timestamp 对 episodic 是主衰减源,对 semantic 只是发现时间
|
||||||
|
- **生命周期冲突**:episodic 高频写入从不更新,semantic 低频写入但高频更新
|
||||||
|
- **mapping 无法承载**:ES mapping 是 schema-on-write,合并后字段大量 null
|
||||||
|
|
||||||
|
## 设计原则
|
||||||
|
|
||||||
|
信息的衰减驱动力是它有多频繁被需要,不是它有多旧。同一衰减策略套在所有记忆上是错误:客服 Agent 中 "API v2 偏好" 的衰减不应与 "今天心情不好" 相同。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[atlas-agent-memory-architecture-2026]]
|
||||||
|
- [[atlas-memory-system]]
|
||||||
|
- [[per-index-time-decay]]
|
||||||
52
concepts/agent-skill-atomization.md
Normal file
52
concepts/agent-skill-atomization.md
Normal file
@@ -0,0 +1,52 @@
|
|||||||
|
---
|
||||||
|
title: "Agent Skill 原子化"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["agent-architecture", "skill-design", "mcp", "financial-engineering"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent Skill 原子化
|
||||||
|
|
||||||
|
将烟囱式业务系统拆解为颗粒合适的原子 Skill,是金融 Agent 工程的核心基础设施。每个 Skill 需统一注册、统一描述、统一权限管控。
|
||||||
|
|
||||||
|
## Skill 设计规范
|
||||||
|
|
||||||
|
### 三要素
|
||||||
|
1. **所需物料**:Skill 执行需要哪些数据输入
|
||||||
|
2. **数据来源**:物料从哪个系统/接口获取,实时还是历史
|
||||||
|
3. **权限级别**:
|
||||||
|
- 只读:纯查询操作
|
||||||
|
- 只调代码:可执行但不可写入
|
||||||
|
- 写需人工确认:高风险操作强制确认
|
||||||
|
|
||||||
|
### 常见物料陷阱
|
||||||
|
- 风险测评超过两年未更新
|
||||||
|
- 产品申购状态非实时
|
||||||
|
- 适当性规则未同步
|
||||||
|
|
||||||
|
## 接口大模型友好改造
|
||||||
|
|
||||||
|
| 旧描述 | 新描述 |
|
||||||
|
|--------|--------|
|
||||||
|
| "基金分红历史信息" | "【查询】基金分红【过去指定时间,如去年、上个月等】范围内的分红记录" |
|
||||||
|
|
||||||
|
改造原则:
|
||||||
|
- **清晰**:带上时间、业务标签
|
||||||
|
- **一致**:避免系统缩写(如 JJJJ)
|
||||||
|
- **业务性**:复杂功能封装为组合接口
|
||||||
|
|
||||||
|
## 与 MCP 的关系
|
||||||
|
|
||||||
|
Skill 原子化是实现 MCP 协议接入的前提。每个原子 Skill 作为一个 MCP Tool 暴露,Agent 通过 Function Call 动态调度。
|
||||||
|
|
||||||
|
## 组织挑战
|
||||||
|
|
||||||
|
困难不在技术,而在于业务侧愿不愿意开放自己的能力——需要组织层面推动。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[mcp-protocol]]
|
||||||
|
- [[financial-agent-permission]]
|
||||||
63
concepts/agent-skill-ecosystem.md
Normal file
63
concepts/agent-skill-ecosystem.md
Normal file
@@ -0,0 +1,63 @@
|
|||||||
|
---
|
||||||
|
title: "Agent Skill 生态系统"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [agent-skills, ecosystem, platforms, infrastructure]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2605.07358
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent Skill 生态系统
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Agent skill 应被理解为**生态系统**而非孤立的推理模块。Skill 可从演示、轨迹、文档或反馈中创建;在仓库中索引;在任务、延迟或预算约束下检索和选择;与工具、内存和其他 agent 一起执行;并随着环境变化而修订、验证或退役。
|
||||||
|
|
||||||
|
## 代表性平台
|
||||||
|
|
||||||
|
| 平台 | 规模 | 特点 |
|
||||||
|
|------|------|------|
|
||||||
|
| **SkillNet** | 300k+ | 动态本体构建、关系图、多维评估 |
|
||||||
|
| **ClawHub** | 40k+ | Agent 社区的共享 skill 仓库 |
|
||||||
|
| **SkillHub** | 80k+ | 社区驱动的 skill 市场 |
|
||||||
|
| **SkillsMP** | 700k+ | 最大规模,含人类专家编写 skill |
|
||||||
|
| **Skills.sh** | 90k+ | 社区 skill 平台 |
|
||||||
|
|
||||||
|
## 生态系统的关键组件
|
||||||
|
|
||||||
|
### 创建侧
|
||||||
|
- 人类专家编写(精度高)
|
||||||
|
- Agent 自动生成(规模大)
|
||||||
|
- 语料提取(冷启动)
|
||||||
|
- 经验抽象(接地气)
|
||||||
|
|
||||||
|
### 管理侧
|
||||||
|
- 版本化和依赖管理
|
||||||
|
- 质量评估和安全审计
|
||||||
|
- 本体和关系图构建
|
||||||
|
- 冲突检测和去重
|
||||||
|
|
||||||
|
### 消费侧
|
||||||
|
- 检索和选择基础设施
|
||||||
|
- 运行时路由和治理
|
||||||
|
- 反馈收集和演化触发
|
||||||
|
|
||||||
|
## 开放挑战
|
||||||
|
|
||||||
|
1. **互操作性**:不同平台间的 skill schema 不统一
|
||||||
|
2. **安全分发**:第三方 skill 可能包含恶意逻辑(PoisonedSkills 攻击面)
|
||||||
|
3. **质量控制**:入库前的验证机制不足
|
||||||
|
4. **长期治理**:仓库级别的退役和废弃管理
|
||||||
|
|
||||||
|
## 与 Hermes 的对应
|
||||||
|
|
||||||
|
Hermes 的 skill 体系(`~/.hermes/skills/`)是一个本地的 skill 生态基础设施——覆盖了表示、获取(人工+经验)、检索和选择。论文中的仓库演化、运行时治理、统一 schema 等方向是 Hermes 可以借鉴的演进路径。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[zhou-agent-skills-survey-2026|Zhou et al. 2026]]
|
||||||
|
- [[agent-skill|Agent Skill]]
|
||||||
|
- [[skill-lifecycle|Skill 生命周期]]
|
||||||
|
- [[runtime-governance|运行时治理]]
|
||||||
|
- [[skill-evolution|Skill 演化]]
|
||||||
50
concepts/agent-skill.md
Normal file
50
concepts/agent-skill.md
Normal file
@@ -0,0 +1,50 @@
|
|||||||
|
---
|
||||||
|
title: "Agent Skill — 可复用过程性构件"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [agent-skills, procedural-knowledge, llm-agents]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2605.07358
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent Skill
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Agent skill 是一个**可复用的过程性构件**,具有有界范围,将面向任务的 know-how 外化为显式、可检查、可存储的对象。它不仅是"能做什么"的声明,更编码了**何时行动、如何执行、有哪些启发式和失败模式、如何判断完成**。
|
||||||
|
|
||||||
|
## 形式化定义
|
||||||
|
|
||||||
|
来自 [[zhou-agent-skills-survey-2026|Zhou et al. 2026]]:
|
||||||
|
|
||||||
|
**S = (M, R, C)**
|
||||||
|
|
||||||
|
- **M**(主指令文档):agent 可以加载并遵循的根指令,是 skill 对人类可读的主要表示
|
||||||
|
- **R**(辅助资源集):参考文档、可复用模板、可执行脚本、领域构件,扩展了 M 单独能完成的范畴
|
||||||
|
- **C**(适用条件):编码何时应检索和应用该 skill 的条件,可为元数据、自然语言描述或嵌入向量
|
||||||
|
|
||||||
|
## 核心属性
|
||||||
|
|
||||||
|
1. **可复用性**:跨任务、跨会话复用,避免每次都从零推理
|
||||||
|
2. **可组合性**:多个 skill 可编排为更大的执行行为
|
||||||
|
3. **可检查性**:作为显式构件可被审计、版本化、共享
|
||||||
|
4. **操作层定位**:与 agent 的高层推理形成互补——agent 决定"做什么",skill 执行"怎么做"
|
||||||
|
|
||||||
|
## 与工具的区别
|
||||||
|
|
||||||
|
| 工具 (Tool) | Skill |
|
||||||
|
|------------|-------|
|
||||||
|
| 暴露原子能力 | 封装过程性 know-how |
|
||||||
|
| 说明能做什么 | 说明何时用、如何编排、怎样验证 |
|
||||||
|
| 单一调用接口 | 可含多步骤、分支、回退逻辑 |
|
||||||
|
| 无状态 | 可含触发条件、适用场景 |
|
||||||
|
|
||||||
|
MCP 等协议解决了工具的**互操作性**问题,但未解决**过程性**问题——这正是 skill 填补的鸿沟。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[zhou-agent-skills-survey-2026|Zhou et al. 2026 综述论文]]
|
||||||
|
- [[procedural-gap|过程性鸿沟]]
|
||||||
|
- [[skill-lifecycle|Skill 生命周期]]
|
||||||
|
- [[skill-representation|Skill 表示]]
|
||||||
39
concepts/agent-web.md
Normal file
39
concepts/agent-web.md
Normal file
@@ -0,0 +1,39 @@
|
|||||||
|
---
|
||||||
|
title: "Agent Web — 开放协作智能体网络"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [agent-web, ecosystem, multi-agent, open-network, routing]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2601.08276
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agent Web
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Agent Web 是 ACE-Router 论文引述的**未来愿景**:一个开放的协作网络,其中 Agent 作为自治节点访问海量、持续增长的外部资源(工具、Agent、服务)。实现这一愿景需要从"静态编排"转向**"按需组队"(On-demand Teaming)**。
|
||||||
|
|
||||||
|
## 核心特征
|
||||||
|
|
||||||
|
- **开放生态**:Agent 不再是孤立的——MCP 统一了接入标准
|
||||||
|
- **指数增长**:可访问的工具和 Agent 数量远超任何单一上下文窗口
|
||||||
|
- **动态编排**:主机 Agent 必须基于实时状态**动态发现和调度**最优协作节点
|
||||||
|
|
||||||
|
## 为什么需要 Router
|
||||||
|
|
||||||
|
Agent Web 的核心挑战不是"有没有工具可用",而是**在指数级候选空间中精准导航**。ACE-Router 提供了这一导航能力——通过训练专用路由器来处理大规模、异构、动态变化的候选空间。
|
||||||
|
|
||||||
|
## 按需组队 vs 静态编排
|
||||||
|
|
||||||
|
| | 静态编排 | 按需组队 |
|
||||||
|
|---|---|---|
|
||||||
|
| 工具集 | 预定义、硬编码 | 动态发现 |
|
||||||
|
| 规模 | 受限于上下文窗口 | 对数级别扩展 |
|
||||||
|
| 灵活性 | 差 | 实时适配 |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[ace-router|ACE-Router]]
|
||||||
|
- [[light-routing-agent|轻量路由 Agent]]
|
||||||
|
- [[yao-ace-router-2026|论文]]
|
||||||
66
concepts/agentic-cache-manager.md
Normal file
66
concepts/agentic-cache-manager.md
Normal file
@@ -0,0 +1,66 @@
|
|||||||
|
---
|
||||||
|
title: "Agentic Cache Manager"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["kv-cache", "memory", "drift", "streaming", "inference"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agentic Cache Manager (Agentic 缓存管理)
|
||||||
|
|
||||||
|
**Agentic Cache Manager** 是 [[maineCoon|MaineCoon]] [[agentic-streaming-inference|流式推理框架]] 中管理模型记忆的控制器:在单个持久 [[kv-cache|KV-Cache]] 上同时治理**记住多少**(bounded keep-set)和**记多准确**(drift control)。
|
||||||
|
|
||||||
|
## 单持久缓存 → 连续流
|
||||||
|
|
||||||
|
传统方案的问题:
|
||||||
|
- **重生成增长前缀**:每块 cost 随长度增长 → 不可扩展
|
||||||
|
- **拼接独立段**:周期 re-anchoring → 身份/颜色/音频跳变
|
||||||
|
|
||||||
|
MaineCoon 使用**一个永不清理的 KV-cache**,chunk 间连续性由 attention 原生携带,无拼接边界。
|
||||||
|
|
||||||
|
## Bounded Keep-Set(有界保留集)
|
||||||
|
|
||||||
|
缓存不能无限增长——模型使用有限 RoPE 位置编码。Manager 每次 commit 后重新计算保留集:
|
||||||
|
|
||||||
|
```
|
||||||
|
Keep = Subject Anchor ∪ Scene Sink ∪ Scene Anchors ∪ Recent Chunks ∪ Restored
|
||||||
|
```
|
||||||
|
|
||||||
|
- **Subject Anchor**:主体语义参考块(见 drift control)
|
||||||
|
- **Scene Sink**:场景建立时的 persistent attention sink
|
||||||
|
- **Scene Anchors**:散布的场景关键帧
|
||||||
|
- **Recent Chunks**:固定预算的最新 chunk
|
||||||
|
- **Restored**:场景返回时恢复的历史 chunk
|
||||||
|
|
||||||
|
**四种 attention 类型各自独立追踪**:visual self-attn, audio self-attn, cross-modal AV paths 的缓存增长速率不同,需要 per-type ledger 独立管理。
|
||||||
|
|
||||||
|
## Drift Control(漂移控制)
|
||||||
|
|
||||||
|
核心原则:**永不修改已发布的像素**——修正仅施加于写回缓存的 committed copy。
|
||||||
|
|
||||||
|
### Statistical Anchor (AdaStat)
|
||||||
|
写回缓存前对 clean latent 做 per-channel 统计匹配:
|
||||||
|
```
|
||||||
|
AdaStat(x) = σ* ⊙ (x - μ(x))/σ(x) + μ*
|
||||||
|
```
|
||||||
|
- 参考 (μ*, σ*) 从场景开头初始化,慢 EMA 更新
|
||||||
|
- 仅对**低漂移 chunk** 更新参考,追踪合法 scene evolution
|
||||||
|
- 音频通道使用降低的强度
|
||||||
|
|
||||||
|
### Subject Anchor(主体锚)
|
||||||
|
- 开放词汇分割器在周期性快照上对规划器的文本描述评分
|
||||||
|
- 从流的 clean latent 中收割最高分 token
|
||||||
|
- 作为 KV-cache 中的固定参考块,**永不输出**
|
||||||
|
- 使漂移从不可逆变为**可恢复**
|
||||||
|
|
||||||
|
## Bounded Positions
|
||||||
|
位置编码通过 bounded epoch slots 保持在训练范围内。epoch 耗尽时用保留的 clean latent 在新 slots 重建缓存,保留内容但刷新位置编码。
|
||||||
|
|
||||||
|
## 效果
|
||||||
|
在二十秒训练片段上训练的模型,可连续流式运行 **45 分钟无显著退化**。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[maineCoon|MaineCoon 论文]] Section 4.2
|
||||||
|
- [[kv-cache]]
|
||||||
|
- [[agentic-streaming-inference|Agentic Streaming Inference]]
|
||||||
42
concepts/agentic-rag.md
Normal file
42
concepts/agentic-rag.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "Agentic RAG"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["rag", "agent", "retrieval", "planning"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agentic RAG
|
||||||
|
|
||||||
|
Agentic RAG 是将 Agent 规划能力引入检索增强生成(RAG)的架构范式。与传统 RAG 的"一次检索→一次生成"不同,Agentic RAG 赋予模型**动态规划检索策略、自我评估信息充分性**的能力。
|
||||||
|
|
||||||
|
## 核心工作流
|
||||||
|
|
||||||
|
1. **任务拆解**:将复杂查询拆分为子问题序列
|
||||||
|
2. **工具选择**:根据子问题类型动态选择检索工具(PageIndex / BM25 / 向量检索)
|
||||||
|
3. **迭代检索**:执行检索,评估当前信息是否足够回答
|
||||||
|
4. **自我评估**:不足则规划下一轮检索,足够则汇总生成
|
||||||
|
|
||||||
|
## 金融场景实践
|
||||||
|
|
||||||
|
恒生电子在金融长文档检索中采用 PageIndex + Agentic RAG 组合:
|
||||||
|
|
||||||
|
- PageIndex 负责粗粒度定位(章节级)
|
||||||
|
- Agentic RAG 负责调度多工具、判断是否需要跨章节检索
|
||||||
|
- 单 chunk 召回准确率超过 95%
|
||||||
|
|
||||||
|
## 与传统 RAG 的区别
|
||||||
|
|
||||||
|
| 维度 | 传统 RAG | Agentic RAG |
|
||||||
|
|------|---------|------------|
|
||||||
|
| 检索次数 | 1 次 | 多轮迭代 |
|
||||||
|
| 工具选择 | 固定 | 动态选择 |
|
||||||
|
| 自我评估 | 无 | 有 |
|
||||||
|
| 适用场景 | 简单事实查询 | 复杂推理问题 |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[pageindex]]
|
||||||
|
- [[context-engineering]]
|
||||||
65
concepts/agentic-streaming-inference.md
Normal file
65
concepts/agentic-streaming-inference.md
Normal file
@@ -0,0 +1,65 @@
|
|||||||
|
---
|
||||||
|
title: "Agentic Streaming Inference"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["inference", "streaming", "agent", "framework", "real-time"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Agentic Streaming Inference (Agentic 流式推理)
|
||||||
|
|
||||||
|
**Agentic Streaming Inference** 是 [[maineCoon|MaineCoon]] 提出的**训练无关推理框架**:用三个 agentic 控制器包裹冻结的生成器,不修改模型权重即可实现千秒级稳定流式生成。
|
||||||
|
|
||||||
|
## 架构
|
||||||
|
|
||||||
|
```
|
||||||
|
Viewer ← Stream ← [Buffer Controller] → [Frozen Generator + KV-Cache]
|
||||||
|
↑ Timing ↑ Memory ↑ Content
|
||||||
|
[Cache Manager] ←→ [Director: Planner + Observer]
|
||||||
|
```
|
||||||
|
|
||||||
|
三个控制器各司其职,**内容/记忆/时间三者分离**:
|
||||||
|
|
||||||
|
| 控制器 | 职责 | 核心机制 |
|
||||||
|
|--------|------|---------|
|
||||||
|
| **Director** (Planner + Observer) | 内容流 | Gemma 4 26B agent 写 prompt + 观察质量 |
|
||||||
|
| **[[agentic-cache-manager|Cache Manager]]** | 记忆 | bounded keep-set + drift control |
|
||||||
|
| **[[look-ahead-buffer-controller|Buffer Controller]]** | 时间/节奏 | pace gate 管理生成 lead |
|
||||||
|
|
||||||
|
## 关键设计原则
|
||||||
|
|
||||||
|
### 1. 分离关注点
|
||||||
|
- **Agent (Planner/Observer)** 负责认知:何时生成什么、是否退化、如何修复
|
||||||
|
- **Engine (Generator)** 负责执行:以固定节奏持续生成,不被中断
|
||||||
|
- **Manager (Cache/Buffer)** 负责治理:记住什么、何时输出
|
||||||
|
|
||||||
|
### 2. 永不中断流
|
||||||
|
- Generator 以固定 cadence 运行,永不 start/stop/step
|
||||||
|
- 所有修正通过 prompt stream 前向注入,不重置流
|
||||||
|
- Observer 在 generation head 上检查(领先 playback),修复在观众看到之前完成
|
||||||
|
|
||||||
|
### 3. 优雅降级
|
||||||
|
- 分割/检查/规划失败 → 降级到更粗粒度的信号或安全续写
|
||||||
|
- Observer 端任何失败**不会卡住流**
|
||||||
|
|
||||||
|
## Director: Planner + Observer
|
||||||
|
|
||||||
|
**Planner** 按固定 beat 产生结构化 prompt:
|
||||||
|
```
|
||||||
|
[VISUAL] 角色外观 + [SPEECH] 台词 + [SOUNDS] 环境音 + tags
|
||||||
|
```
|
||||||
|
维护有限规划历史和已说台词记录,确保不重复。
|
||||||
|
|
||||||
|
**Observer** 在生成前线观察质量:
|
||||||
|
- 五项 photometric 漂移指标(廉价,每帧运行)
|
||||||
|
- 周期性 VLM 检查语义缺陷
|
||||||
|
- 通过 [[forward-repair-ladder|前向修复阶梯]] 修复
|
||||||
|
|
||||||
|
**Feeder & Fast Lane**:异步队列化 prompt,fast lane 替换尚未生成的 beat,不影响正在飞行的 chunk。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[maineCoon|MaineCoon 论文]] Section 4
|
||||||
|
- [[agentic-cache-manager|Agentic Cache Manager]]
|
||||||
|
- [[look-ahead-buffer-controller|Look-Ahead Buffer Controller]]
|
||||||
|
- [[forward-repair-ladder|Forward-Repair Ladder]]
|
||||||
42
concepts/agi-critique.md
Normal file
42
concepts/agi-critique.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "AGI 批判(AGI Critique)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- agi
|
||||||
|
- ai-philosophy
|
||||||
|
- hype
|
||||||
|
- michael-jordan
|
||||||
|
sources:
|
||||||
|
- Jordan, MLST 2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# AGI 批判(AGI Critique)
|
||||||
|
|
||||||
|
对"通用人工智能(AGI)"概念及其叙事体系的批判性审视。核心主张:AGI 是一种**公关术语和思维扭曲**,而非有效的技术目标。
|
||||||
|
|
||||||
|
## Jordan 的批评
|
||||||
|
|
||||||
|
Michael I. Jordan(MLST 2026):「AGI 只是个公关词。它是一种扭曲。它让人困惑,尤其让年轻人困惑。」
|
||||||
|
|
||||||
|
他的论据:
|
||||||
|
- "AI"术语本身伴随 LLM 兴起而回归,因为输出是人类可读语言——但背后的 ML 传统从未消失
|
||||||
|
- AGI 叙事缺乏清晰目标:没有"要解决什么社会问题"、没有"对谁有价值、以什么方式产生价值"
|
||||||
|
- 「这就是硅谷的谈话方式。那里没有什么深度的长期思考。它变成了一场内卷赛,一场金钱竞赛」
|
||||||
|
|
||||||
|
## 公共讨论中的扭曲效应
|
||||||
|
|
||||||
|
- 将 AI 讨论推向两极:乌托邦 vs 末日——「两队在人类历史上这种程度的现实脱节是非常罕见的」
|
||||||
|
- 伤害年轻一代:年轻人听到的是"超级智能马上就来,你们有生之年没什么可做了"或"太危险了,你们不能做这个"
|
||||||
|
- 用隐喻代替系统设计:大脑隐喻 → 神经元 → 梯度下降 → "智能涌现"
|
||||||
|
|
||||||
|
## 替代框架
|
||||||
|
|
||||||
|
- [[collectivist-ai|集体主义 AI]]:将 AI 视为经济系统而非个体智能
|
||||||
|
- [[anthropomorphization-critique|人类化机器批判]]:停止问"它是否理解",转向工程问题
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
|
||||||
|
- [[anthropomorphization-critique|人类化机器批判]]
|
||||||
42
concepts/ai-production-tradeoffs.md
Normal file
42
concepts/ai-production-tradeoffs.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "AI 生产权衡 — 六大维度"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [ai-engineering, production, tradeoffs, mlops]
|
||||||
|
sources:
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
---
|
||||||
|
|
||||||
|
# AI 生产权衡
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
AI 工程师在生产部署中面临的关键决策维度。来自 Sara Nobrega (2026) 的框架:这些权衡没有"正确"答案,但有可操作的框架、真实数字和决策背景。
|
||||||
|
|
||||||
|
## 六大维度
|
||||||
|
|
||||||
|
| # | 权衡 | 核心问题 |
|
||||||
|
|---|------|---------|
|
||||||
|
| 1 | [[build-vs-buy-llm|构建 vs 购买]] | API 调用何时不再划算? |
|
||||||
|
| 2 | [[cace-principle|复杂度 vs 可维护性]] | 6 个月后谁来调试? |
|
||||||
|
| 3 | [[data-quality-vs-quantity|数据数量 vs 质量]] | 更多数据何时变成更差结果? |
|
||||||
|
| 4 | [[batch-vs-real-time-inference|吞吐量 vs 延迟]] | 批处理还是实时? |
|
||||||
|
| 5 | [[prompt-engineering-vs-fine-tuning|提示词 vs 微调]] | 两条截然不同的投资曲线 |
|
||||||
|
| 6 | [[human-in-the-loop|自动化 vs 人类监督]] | 你有多信任模型独立行动? |
|
||||||
|
|
||||||
|
## 统一原则
|
||||||
|
|
||||||
|
> **决策的成本很少在决策做出的地方产生回报。** 复杂度的代价延迟偿付——更复杂的模型 6 个月后增加维护成本,实时系统的 24/7 支撑长期代价更高,大规模脏数据在重训练周期上付出代价。
|
||||||
|
|
||||||
|
## 常见模式
|
||||||
|
|
||||||
|
- 团队默认使用实时推理(因为"听起来更令人印象深刻"),但大多数业务问题不需要亚秒级预测
|
||||||
|
- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属
|
||||||
|
- 为 2% 精度提升选复杂模型,为这个选择支付 18 个月的调试税
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|
||||||
|
- [[ml-technical-debt|ML 技术债务]]
|
||||||
|
- [[selective-hitl|选择性 HITL]]
|
||||||
40
concepts/aidb.md
Normal file
40
concepts/aidb.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "AIDB(大模型友好数据层)"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["data-engineering", "llm-infrastructure", "financial-engineering", "rag"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# AIDB(大模型友好数据层)
|
||||||
|
|
||||||
|
AIDB(AI-friendly Database)是恒生电子提出的面向大模型友好的数据层概念,是金融大模型 IT 架构重构的三大方向之一(另两个为业务能力原子化 Skills、金融大模型插件化)。
|
||||||
|
|
||||||
|
## 核心定位
|
||||||
|
|
||||||
|
AIDB 不是一个新的数据库产品,而是一种**数据组织范式**——将传统面向人类和系统的数据结构,改造为面向大模型消费的形态。
|
||||||
|
|
||||||
|
## 关键能力
|
||||||
|
|
||||||
|
### 文档结构化
|
||||||
|
将 PDF、扫描件、Word 等非结构化文档解析为带层级语义的结构化数据——这与 [[pageindex]] 的章节解析一脉相承。
|
||||||
|
|
||||||
|
### 知识分片
|
||||||
|
不是简单的固定长度切块,而是基于语义边界(章节、段落、表格)的智能分片——确保表格头和数据在同一个 chunk 中。
|
||||||
|
|
||||||
|
### 接口描述业务化
|
||||||
|
将系统接口的字段从技术命名改造为业务语义——让大模型能"读懂"每个字段的含义。
|
||||||
|
|
||||||
|
## 在 Agent 架构中的位置
|
||||||
|
|
||||||
|
AIDB 处于资源层,为 Agent 提供"对模型友好"的数据消费环境:
|
||||||
|
- Agent 通过 Function Call 访问 AIDB
|
||||||
|
- AIDB 返回已结构化、已分片、已标注业务语义的数据
|
||||||
|
- 大模型无需自行解析和推理数据结构
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[pageindex]]
|
||||||
|
- [[agentic-rag]]
|
||||||
47
concepts/anthropomorphization-critique.md
Normal file
47
concepts/anthropomorphization-critique.md
Normal file
@@ -0,0 +1,47 @@
|
|||||||
|
---
|
||||||
|
title: "人类化机器批判(Anthropomorphization Critique)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- agi-critique
|
||||||
|
- philosophy-of-ai
|
||||||
|
- michael-jordan
|
||||||
|
- engineering
|
||||||
|
sources:
|
||||||
|
- Jordan, MLST 2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 人类化机器批判(Anthropomorphization Critique)
|
||||||
|
|
||||||
|
Michael I. Jordan 对 AI 话语中系统性**将机器类比为人类**的批判。核心主张:不要问"它是否理解",要问"它能不能降低不确定性、能不能让工程系统建立在它之上"。
|
||||||
|
|
||||||
|
## 为什么有害
|
||||||
|
|
||||||
|
1. **转移注意力**:一旦问"它是否理解",就忘记真正重要的工程问题——失效条件、误差范围、与真实数据的结合方式、出错的后果由谁承担
|
||||||
|
2. **招来错误期待**:说模型"理解"蛋白质折叠,然后当它在新问题上给出自信但错误的答案时,人们会失望——而期待和失望都来自错误的框架
|
||||||
|
3. **服务于媒体叙事**:「理解」「智能」这些词是给媒体用的——容易传播,但偏离研究
|
||||||
|
|
||||||
|
## AGI 作为人类化谬误的极端形式
|
||||||
|
|
||||||
|
[[agi-critique|AGI 批判]] 是人类化谬误的终极表达——把统计模式匹配系统描述为具有"通用智能"的存在。「AGI 只是个公关词,它是一种扭曲,尤其让年轻人困惑。」
|
||||||
|
|
||||||
|
## 正确的提问方式
|
||||||
|
|
||||||
|
| ❌ 不要问 | ✅ 要问 |
|
||||||
|
|----------|--------|
|
||||||
|
| 它是否理解? | 它能否降低不确定性? |
|
||||||
|
| 它是否智能? | 它在什么条件下会失效? |
|
||||||
|
| 它是不是有意识?| 它有没有给出误差范围? |
|
||||||
|
| 它能不能替代人类? | 它应该被嵌入什么样的系统? |
|
||||||
|
|
||||||
|
## John Jumper 的共鸣
|
||||||
|
|
||||||
|
AlphaFold 核心研究者 John Jumper 对"AlphaFold 是否理解蛋白质"的回答:**对这个词过敏**。「预测让我们能预测和控制,但理解这个动作必须由人类自己来做,不能外包给机器。」
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[agi-critique|AGI 批判]]
|
||||||
|
- [[collectivist-ai|集体主义 AI]]
|
||||||
|
- [[uncertainty-taxonomy|不确定性分类法]]
|
||||||
|
- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
|
||||||
38
concepts/appearance-bias-vla.md
Normal file
38
concepts/appearance-bias-vla.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "Appearance Bias in VLA"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["vla", "bias", "pretraining", "representation-learning"]
|
||||||
|
sources:
|
||||||
|
- "[[vla-jepa-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Appearance Bias in VLA Pretraining
|
||||||
|
|
||||||
|
Appearance Bias 是 VLA 像素级预训练目标中的系统性失败模式:模型学习的表示偏向视觉外观变化(纹理、光照、背景),而非动作相关的可控自由度。
|
||||||
|
|
||||||
|
## 表现
|
||||||
|
|
||||||
|
- 光照变化被编码为重要"特征"
|
||||||
|
- 背景纹理替换导致 latent action 大幅变化
|
||||||
|
- 相机角度偏移比对动作转移更显著地影响表示
|
||||||
|
- 用 VQ-VAE 等压缩机制仍无法完全消除——压缩空间仍保留大量外观信息
|
||||||
|
|
||||||
|
## 根因
|
||||||
|
|
||||||
|
像素空间的变化主要由外观因素主导,这些因素:
|
||||||
|
1. 方差高(texture, illumination, clutter, viewpoint)
|
||||||
|
2. 可控性低(与机器人动作弱相关)
|
||||||
|
3. 易预测(建模难度低)
|
||||||
|
|
||||||
|
因此模型自然地学习预测这些"低垂果实",而非真正的动作语义。
|
||||||
|
|
||||||
|
## JEPA 的修复
|
||||||
|
|
||||||
|
通过 latent space prediction 而非 pixel space prediction,JEPA 目标天然不直接建模像素变化,迫使模型在语义层面抽象。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[vla-jepa-2026]]
|
||||||
|
- [[latent-action-pretraining]]
|
||||||
|
- [[leakage-free-state-prediction]]
|
||||||
67
concepts/asymmetric-grounding-adherence-loss.md
Normal file
67
concepts/asymmetric-grounding-adherence-loss.md
Normal file
@@ -0,0 +1,67 @@
|
|||||||
|
---
|
||||||
|
title: "Asymmetric Grounding Adherence Loss (L_AGA)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: ["loss-function", "rollout-drift", "regularization", "world-modeling"]
|
||||||
|
sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Asymmetric Grounding Adherence Loss (L_AGA)
|
||||||
|
|
||||||
|
**L_AGA** 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 [[rollout-drift|rollout drift]] 防止损失。
|
||||||
|
|
||||||
|
## 动机
|
||||||
|
|
||||||
|
[[dcgwm|DCGWM]] 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。[[rollout-drift|Rollout drift]] 是长视距下潜在世界模型的中心失效模式。
|
||||||
|
|
||||||
|
## 公式
|
||||||
|
|
||||||
|
```
|
||||||
|
L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T})
|
||||||
|
```
|
||||||
|
|
||||||
|
### 物理 Adherence — 平方铰链惩罚
|
||||||
|
|
||||||
|
```
|
||||||
|
L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)}) − ε_p)²
|
||||||
|
```
|
||||||
|
|
||||||
|
- d_p 度量与物理接地流形 G_p 的距离
|
||||||
|
- ε_p 是硬物理容忍阈值
|
||||||
|
- 容忍范围内惩罚为零(允许测量噪声)
|
||||||
|
- 超出阈值后二次增长——物理违反是范畴错误
|
||||||
|
|
||||||
|
### 行为 Adherence — 软 KL 散度
|
||||||
|
|
||||||
|
```
|
||||||
|
L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)})
|
||||||
|
```
|
||||||
|
|
||||||
|
- q_b 是 rollout 诱导的 Z_b 分布
|
||||||
|
- p_b^{(t)} 是 SBGC 锚定的行为分布
|
||||||
|
- KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的
|
||||||
|
|
||||||
|
## 为什么不对称
|
||||||
|
|
||||||
|
不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容:
|
||||||
|
|
||||||
|
| 维度 | 物理 | 行为 |
|
||||||
|
|------|------|------|
|
||||||
|
| 误差性质 | 范畴错误 | 分布距离 |
|
||||||
|
| 惩罚形状 | 硬铰链 | 软 KL |
|
||||||
|
| 容忍结构 | 硬阈值 ε_p | 连续缩放 |
|
||||||
|
| 梯度特征 | 超出阈值→大梯度 | 按分布距离比例 |
|
||||||
|
|
||||||
|
梯度流同样遵守内向约束:L_AGA_p 仅更新 W_p,L_AGA_b 仅更新 W_b。
|
||||||
|
|
||||||
|
## 操作化
|
||||||
|
|
||||||
|
p_b^{(t)} 通过**摊销投影**获得:SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b,在 rollout 时冻结该编码器读取分布锚点。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[hazare-dcgwm-2026|DCGWM 论文]]
|
||||||
|
- [[rollout-drift|Rollout Drift]]
|
||||||
|
- [[dcgwm|DCGWM]]
|
||||||
|
- [[objective-interference-collapse|OIC]]
|
||||||
41
concepts/atlas-memory-system.md
Normal file
41
concepts/atlas-memory-system.md
Normal file
@@ -0,0 +1,41 @@
|
|||||||
|
---
|
||||||
|
title: "Atlas Memory System"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["agent-memory", "elasticsearch", "architecture", "hybrid-retrieval"]
|
||||||
|
sources:
|
||||||
|
- "[[atlas-agent-memory-architecture-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Atlas Memory System
|
||||||
|
|
||||||
|
Atlas(noamschwartz/atlas-memory-demo)是 Agent 记忆系统的工程实践架构,核心理念:Agent 记忆不是 KV 存储问题,而是多索引信息检索问题。
|
||||||
|
|
||||||
|
## 四索引架构
|
||||||
|
|
||||||
|
- **episodic**:原始消息 + 时间戳,每回合写入,timestamp 衰减
|
||||||
|
- **semantic**:提炼后稳定事实,consolidation 写入,last_used_at 衰减,use_count boost
|
||||||
|
- **procedural**:多步操作流程,衰减豁免(1.0),success/failure 计数器
|
||||||
|
- **catalog**:公共共享知识,无 user_id,所有用户可见
|
||||||
|
|
||||||
|
## 检索管线
|
||||||
|
|
||||||
|
Verbatim Pre-Recall → BM25 + Dense 并行 → RRF 融合 → Cross-encoder 重排序
|
||||||
|
|
||||||
|
## 关键指标
|
||||||
|
|
||||||
|
R@10=0.89(168 QA, 3 persona, ~250 docs/user),CI gate: R@10≥0.85。
|
||||||
|
|
||||||
|
## 扩展:五类记忆模型
|
||||||
|
|
||||||
|
Atlas 的三索引覆盖了 sz 五类记忆模型中的第 1 类(catalog)和第 4 类(episodic + semantic),但第 5 类(计划/想法/洞察)需要一个额外的 [[prospective-memory-index|前瞻记忆索引]] ——不以时间为主导衰减信号,以语义关联为检索驱动力。详见 [[agent-memory-five-category-model]]。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[atlas-agent-memory-architecture-2026]]
|
||||||
|
- [[agent-memory-taxonomy]]
|
||||||
|
- [[agent-memory-five-category-model]]
|
||||||
|
- [[prospective-memory-index]]
|
||||||
|
- [[hybrid-recall-pipeline]]
|
||||||
|
- [[memory-consolidation]]
|
||||||
|
- [[soft-supersession]]
|
||||||
49
concepts/attention-mechanism.md
Normal file
49
concepts/attention-mechanism.md
Normal file
@@ -0,0 +1,49 @@
|
|||||||
|
---
|
||||||
|
title: "Attention Mechanism"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["attention", "transformer", "sequence-modeling"]
|
||||||
|
sources: ["https://arxiv.org/abs/2312.00752"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Attention Mechanism
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Attention Mechanism(注意力机制)是 Transformer 架构的核心模块(Vaswani et al., 2017),通过 query-key-value 交互实现序列中 token 之间的**内容感知信息路由**。每个 token 的注意力分布取决于其 query 与其他 token 的 key 之间的语义相似度。
|
||||||
|
|
||||||
|
## 核心公式
|
||||||
|
|
||||||
|
```
|
||||||
|
Attention(Q, K, V) = softmax(Q K^T / sqrt(d_k)) V
|
||||||
|
```
|
||||||
|
|
||||||
|
## 与 Mamba 的对比
|
||||||
|
|
||||||
|
Mamba 论文将注意力作为**内容感知推理**的参考标准:
|
||||||
|
|
||||||
|
| 维度 | Attention | Mamba (S6) |
|
||||||
|
|------|----------|-----------|
|
||||||
|
| 内容感知 | ✅(Q-K 内积天然内容依赖) | ✅(B, C, Δ 为输入的函数) |
|
||||||
|
| 复杂度 | O(n²) | O(n) |
|
||||||
|
| 机制 | token 间显式交互 | token 独立处理后选择性记忆 |
|
||||||
|
| 推理内存 | O(n) KV cache | O(1) 隐状态 |
|
||||||
|
|
||||||
|
## 核心性质
|
||||||
|
|
||||||
|
- **密集路由**:每个 token 与所有前序 token 交互 → O(n²)
|
||||||
|
- **KV Cache**:自回归推理需缓存所有历史 (k, v)
|
||||||
|
- **理论上无界上下文**:实际受内存限制
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[content-based-reasoning]] — 注意力天然具备的能力
|
||||||
|
- [[kv-cache]] — 注意力的推理内存瓶颈
|
||||||
|
- [[selective-state-space|selection mechanism]] — Mamba 的替代路径
|
||||||
|
- [[gu-mamba|Mamba 论文]]
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Vaswani et al. (2017) "Attention Is All You Need"
|
||||||
|
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)
|
||||||
46
concepts/attractor-dynamics.md
Normal file
46
concepts/attractor-dynamics.md
Normal file
@@ -0,0 +1,46 @@
|
|||||||
|
---
|
||||||
|
title: "吸引子动力学 (Attractor Dynamics)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [dynamical-systems, recurrence, transformers, convergence]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 吸引子动力学 (Attractor Dynamics)
|
||||||
|
|
||||||
|
吸引子动力学是循环网络中的一种状态演化模式:激活性持续迭代直至**收敛到稳态**,然后才推进到下一步(Mozer et al., 2026)。
|
||||||
|
|
||||||
|
## 在 Mozer et al. 图 5d 中的体现
|
||||||
|
|
||||||
|
全循环(Fully Recurrent)模型中:
|
||||||
|
- 每步输入一个 token
|
||||||
|
- 在 t 步,所有 1 ~ t-1 步的层持续从深层向浅层发送信号
|
||||||
|
- **只有当所有前序步骤收敛后,当前步骤才算完成**
|
||||||
|
|
||||||
|
## 与简单循环的区别
|
||||||
|
|
||||||
|
| 简单循环 | 吸引子动力学 |
|
||||||
|
|----------|------------|
|
||||||
|
| 固定步数迭代 | 迭代至收敛 |
|
||||||
|
| 输出可能偏离稳态 | 输出在稳态附近 |
|
||||||
|
| 计算成本可预测 | 计算成本可变 |
|
||||||
|
|
||||||
|
## 潜在优势
|
||||||
|
|
||||||
|
1. **自然的多步推理**:不需要显式指定思考步数
|
||||||
|
2. **能量函数解释**:类似 Hopfield 网络的能量最小化视角
|
||||||
|
3. **与人类认知对齐**:人脑的许多过程是到稳态的动力学(如感知决策)
|
||||||
|
|
||||||
|
## 挑战
|
||||||
|
|
||||||
|
- **训练困难**:需要 Truncated BPTT 或循环反向传播(Almeida, 1987; Pineda, 1987; Liao et al., 2018)
|
||||||
|
- **收敛时间不可预测**:推理延迟不确定
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[recurrent-transformer-architectures|循环 Transformer 架构]]
|
||||||
|
- [[latent-thought-models|隐式思考模型]]
|
||||||
|
- [[state-tracking|状态追踪]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
38
concepts/audio-visual-generation.md
Normal file
38
concepts/audio-visual-generation.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "Audio-Visual Generation"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["generation", "audio", "video", "multimodal"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Audio-Visual Generation (音视频联合生成)
|
||||||
|
|
||||||
|
**Audio-Visual Generation** 是指同时生成视频和音频的生成范式,要求画面运动、语音、环境音在时序上紧密同步。
|
||||||
|
|
||||||
|
## 与传统视频生成的区别
|
||||||
|
|
||||||
|
传统 [[diffusion-transformer|视频扩散模型]] 通常仅处理视觉信号,或仅将音频作为条件输入。真正的音视频联合生成需要:
|
||||||
|
- **联合潜空间**:视觉和音频在共享的时间轴上表示为对齐的 latent chunk
|
||||||
|
- **因果时间建模**:逐块自回归生成,保持时间一致性
|
||||||
|
- **跨模态同步**:唇音对齐、表情与语音节奏匹配
|
||||||
|
|
||||||
|
## 挑战
|
||||||
|
|
||||||
|
- 长时序生成中的内容漂移([[drifting|temporal drift]])
|
||||||
|
- 跨模态表示对齐的困难
|
||||||
|
- 实时推理的延迟约束
|
||||||
|
- 单 GPU 上的计算效率
|
||||||
|
|
||||||
|
## 代表性工作
|
||||||
|
|
||||||
|
- **LTX-2.3**: 22B 开源音视频扩散模型,非因果、离线生成
|
||||||
|
- **MaineCoon**: 22B 实时流式音视频自回归模型([[maineCoon]]),47.5 FPS,单 GPU
|
||||||
|
- 传统方法:Video Diffusion + 独立 Audio Diffusion 拼接
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
- [[streaming-generation|流式生成]]
|
||||||
|
- [[autoregressive-video-generation|自回归视频生成]]
|
||||||
|
- [[social-video|社交视频]]
|
||||||
|
- [[audio-visual-representation-alignment|跨模态表示对齐]]
|
||||||
57
concepts/audio-visual-representation-alignment.md
Normal file
57
concepts/audio-visual-representation-alignment.md
Normal file
@@ -0,0 +1,57 @@
|
|||||||
|
---
|
||||||
|
title: "Audio-Visual Representation Alignment"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["representation", "alignment", "audio-visual", "training", "jepa"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Audio-Visual Representation Alignment (音视频表示对齐)
|
||||||
|
|
||||||
|
**Audio-Visual Representation Alignment** 是 [[maineCoon|MaineCoon]] 中通过 [[jepa|V-JEPA 2]] teacher 的 **token relation distillation** 加速流式音视频训练的技术。
|
||||||
|
|
||||||
|
> 注意:此概念不同于 LLM 中的 [[representation-alignment|表示对齐]](TST 中的 embedding 不变性)。此处特指音视频扩散模型中的中间层特征对齐。
|
||||||
|
|
||||||
|
## 动机:流式训练的可视语义获取缓慢
|
||||||
|
|
||||||
|
从零训练大规模音视频 DiT 时,[[flow-matching|Flow Matching]] loss 仅监督低级重建,对语义结构仅施加弱压力。连贯运动和音视频对应关系在训练后期才涌现。
|
||||||
|
|
||||||
|
## Token Relation Distillation
|
||||||
|
|
||||||
|
MaineCoon 采用 VideoREPA 的**关系对齐**策略:
|
||||||
|
|
||||||
|
### 1. Teacher 特征提取
|
||||||
|
- Teacher: 冻结的 V-JEPA 2 编码器
|
||||||
|
- 对训练 clip 采样帧,resize 使其 patch grid 与 visual latent grid 对齐
|
||||||
|
- 输出特征体 `Y ∈ R^{F×S×d_tea}`,与 visual latent token 一一对应
|
||||||
|
|
||||||
|
### 2. 关系矩阵匹配
|
||||||
|
在选定的中间层,将 noisy visual target hidden states 投影到 teacher space,然后匹配**成对 token 关系矩阵**:
|
||||||
|
```
|
||||||
|
R(a)_{mn} = a_m^T a_n / (‖a_m‖₂ ‖a_n‖₂)
|
||||||
|
```
|
||||||
|
对齐关系而非绝对特征值 — 让 generator 保留自己的表示基。
|
||||||
|
|
||||||
|
### 3. Hinge-Margin Loss
|
||||||
|
```
|
||||||
|
L_TRD = (1/N²) Σ ReLU(R(Ŷ)_{mn} - R(Y)_{mn} - γ)
|
||||||
|
```
|
||||||
|
margin γ 忽略小的关系差异,更稳定。
|
||||||
|
|
||||||
|
## 与 Native Streaming Training 的集成
|
||||||
|
|
||||||
|
- 对齐 loss 作为辅助目标加入
|
||||||
|
- 仅在 visual target half 上计算(audio stream 不约束)
|
||||||
|
- 仅在 main gradient forward pass 上启用(self-resampling rollout 禁用)
|
||||||
|
- Teacher 冻结且特征预计算,训练时无额外 teacher forward pass
|
||||||
|
|
||||||
|
## 效果
|
||||||
|
- 大幅减少达到连贯运动和 AV 对应所需的训练步数
|
||||||
|
- 提升最终生成质量
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[maineCoon|MaineCoon 论文]] Section 3.2
|
||||||
|
- [[jepa|V-JEPA 2]]
|
||||||
|
- [[representation-alignment|LLM Representation Alignment]](不同含义)
|
||||||
|
- VideoREPA (Zhao et al.)
|
||||||
38
concepts/autonomous-optimization-ao.md
Normal file
38
concepts/autonomous-optimization-ao.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "Autonomous Optimization (AO)"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["autonomous-research", "task-formulation", "evaluation"]
|
||||||
|
sources:
|
||||||
|
- "[[arbor-htr-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Autonomous Optimization (AO)
|
||||||
|
|
||||||
|
AO 是 Arbor 提出的自主科研任务形式化模型:P = (M0, O, Edev, Etest),Agent 通过迭代实验改进研究产物,无需步骤级人工监督。
|
||||||
|
|
||||||
|
## 四元组
|
||||||
|
|
||||||
|
| 元素 | 含义 | 约束 |
|
||||||
|
|------|------|------|
|
||||||
|
| **M0** | 可变初始产物(代码库+数据) | Agent 可检查、修改 |
|
||||||
|
| **O** | 改进目标(指标方向) | 标量目标,越大越好 |
|
||||||
|
| **Edev** | 开发评估器 | 搜索期间自由使用 |
|
||||||
|
| **Etest** | Held-out 评估器 | 仅用于 merge gate,不可做探索 oracle |
|
||||||
|
|
||||||
|
## 关键约束
|
||||||
|
|
||||||
|
目标:M⋆ = arg max Stest(M')
|
||||||
|
约束:假设和实现决策**不使用 Etest 作为探索 oracle**
|
||||||
|
|
||||||
|
这防止了过拟合——在 dev 上改进但无法 transfer 到 test 的候选不应被接受。
|
||||||
|
|
||||||
|
## 与普通 Agentic Tool Use 的区别
|
||||||
|
|
||||||
|
AO 的目标不是单一响应或代码补丁,而是**持续的研究轨迹**。Agent 必须提出假设、物化为产物变更、解读实验反馈,并决定哪些方向应该精炼、合并或放弃。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[arbor-htr-2026]]
|
||||||
|
- [[hypothesis-tree-refinement]]
|
||||||
|
- [[coordinator-executor-architecture]]
|
||||||
52
concepts/autoregressive-unrolling.md
Normal file
52
concepts/autoregressive-unrolling.md
Normal file
@@ -0,0 +1,52 @@
|
|||||||
|
---
|
||||||
|
title: "自回归展开 (Autoregressive Unrolling)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [transformers, recurrence, training, teacher-forcing]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 自回归展开 (Autoregressive Unrolling)
|
||||||
|
|
||||||
|
自回归展开是 Mozer et al. (2026) 定义的关键概念:即使在 Teacher Forcing 训练下,循环模型也必须**按自回归步逐步展开**,而非完全并行处理。
|
||||||
|
|
||||||
|
## 与标准 Transformer 的区别
|
||||||
|
|
||||||
|
| | 标准 Transformer | 循环 Transformer(需展开) |
|
||||||
|
|---|---|---|
|
||||||
|
| 训练时 | 所有 token 并行(一次前向) | 按步展开(串行或块状) |
|
||||||
|
| 推理时 | Token-by-token 自回归 | Token-by-token 自回归 |
|
||||||
|
| 状态传播 | 前馈(深度受限) | 循环(无界) |
|
||||||
|
|
||||||
|
## Mozer et al. 的精确定义
|
||||||
|
|
||||||
|
> "循环步"严格定义为训练期间排除跨序列并行化的**顺序依赖**——不是纯前馈模型 token-by-token 推理中的伪串行。
|
||||||
|
|
||||||
|
## 三种展开模式
|
||||||
|
|
||||||
|
### 图 5b:深度展开(Looped Transformer)
|
||||||
|
- 块内并行,深度方向循环
|
||||||
|
- 状态仍受深度限制
|
||||||
|
|
||||||
|
### 图 5c:块状展开(Blockwise-Recurrent)
|
||||||
|
- 固定长度 token 块内并行
|
||||||
|
- 块间串行传递状态
|
||||||
|
|
||||||
|
### 图 5d/图 6:全自回归展开
|
||||||
|
- 一个或多个自回归步对应一个输入 token
|
||||||
|
- 真正无界状态追踪的关键
|
||||||
|
|
||||||
|
## 训练效率挑战
|
||||||
|
|
||||||
|
自回归展开是**必要的代价**——任何能在训练时完全并行化的模型,其状态追踪能力都受限于其前馈深度(Merrill et al., 2025)。
|
||||||
|
|
||||||
|
应对策略:Mozer et al. 建议**分阶段训练**——先标准 Transformer 预训练,再引入循环机制。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[sequential-dependency|顺序依赖]]
|
||||||
|
- [[recurrent-transformer-architectures|循环 Transformer 架构]]
|
||||||
|
- [[recurrence-taxonomy|循环分类法]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
40
concepts/autoregressive-video-generation.md
Normal file
40
concepts/autoregressive-video-generation.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "Autoregressive Video Generation"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["generation", "video", "autoregressive", "causal"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Autoregressive Video Generation (自回归视频生成)
|
||||||
|
|
||||||
|
**Autoregressive Video Generation** 是将视频生成建模为逐帧/逐块因果生成的过程:每一帧依赖之前生成的帧,而不访问未来信息。
|
||||||
|
|
||||||
|
## 与双向扩散模型的核心差异
|
||||||
|
|
||||||
|
传统 [[diffusion-transformer|DiT]] 视频模型使用**双向时间注意力**(bidirectional temporal attention),在生成过程中所有帧相互依赖。这带来两个问题:
|
||||||
|
1. **非实时**:中间帧在全部去噪完成前无法输出
|
||||||
|
2. **计算随长度增长**:自注意力成本随序列长度平方增长
|
||||||
|
|
||||||
|
自回归视频生成通过**因果注意力**(causal attention)解决:
|
||||||
|
- 逐块生成,每块仅依赖历史
|
||||||
|
- 使用 [[kv-cache|KV-Cache]] 复用历史状态
|
||||||
|
- 支持流式输出和实时交互
|
||||||
|
|
||||||
|
## 关键技术
|
||||||
|
|
||||||
|
- **Causal Streaming Generation**: 因果时间顺序生成,帧/块依次产生
|
||||||
|
- **KV-Cache 管理**: 持久化缓存,限制缓存大小以控制计算量
|
||||||
|
- **漂移控制**:长时序自回归容易积累误差,需要 drift mitigation
|
||||||
|
|
||||||
|
## 代表性模型
|
||||||
|
|
||||||
|
- **MaineCoon**: 实时音视频自回归模型([[maineCoon]]),22B,47.5 FPS
|
||||||
|
- 其他流式视频生成模型:VideoGPT, TATS 等
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
- [[streaming-generation|流式生成]]
|
||||||
|
- [[audio-visual-generation|音视频联合生成]]
|
||||||
|
- [[kv-cache]]
|
||||||
|
- [[causal-generation|因果生成]]
|
||||||
49
concepts/barker-gibbs.md
Normal file
49
concepts/barker-gibbs.md
Normal file
@@ -0,0 +1,49 @@
|
|||||||
|
---
|
||||||
|
title: "Barker Gibbs"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: [mcmc, gibbs-sampling, llm, discriminative, rejection-sampling]
|
||||||
|
sources:
|
||||||
|
- "[[large-language-gibbs]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Barker Gibbs
|
||||||
|
|
||||||
|
**Barker Gibbs** 是 Large Language Gibbs 框架中的一种核变体,使用 LLM 的**判别能力**(而非生成能力)来实现 Gibbs 重采样。相比 Basic Gibbs 的直接条件采样,Barker Gibbs 更适合指令微调模型(其生成概率可能未被良好校准)。
|
||||||
|
|
||||||
|
## 核心机制
|
||||||
|
|
||||||
|
Barker Gibbs 将 LLM 用作偏好比较器:
|
||||||
|
|
||||||
|
1. **提议**:从均匀分布 q(·) 中抽取候选值 X_i'
|
||||||
|
2. **比较**:向 LLM 展示当前值 X_i 和候选值 X_i',询问"哪个更合理"
|
||||||
|
3. **接受**:根据 Barker 规则计算接受概率
|
||||||
|
|
||||||
|
```
|
||||||
|
p^LM(X_i' ≻ X_i | X_{-i}) = q^*(X_{-i}, X_i') / (q^*(X_{-i}, X_i) + q^*(X_{-i}, X_i'))
|
||||||
|
```
|
||||||
|
|
||||||
|
## 与 Basic Gibbs 的对比
|
||||||
|
|
||||||
|
| 维度 | Basic Gibbs | Barker Gibbs |
|
||||||
|
|------|-----------|-------------|
|
||||||
|
| LLM 使用方式 | 生成式(采样) | 判别式(比较) |
|
||||||
|
| 适用模型 | base + instruct | 更适合 instruct |
|
||||||
|
| 校准要求 | 需要校准的生成概率 | 仅需判别性偏好 |
|
||||||
|
| 概率保证 | 直接近似条件分布 | Barker 规则保证稳态不变 |
|
||||||
|
|
||||||
|
## 为什么需要
|
||||||
|
|
||||||
|
指令微调模型(如 RLHF 后的模型)的生成概率往往未被良好校准——模型可能对某些 token 过于自信或犹豫。Barker Gibbs 绕过了这个问题:LLM 只需做"二选一"偏好判断,这通常比生成完整样本更可靠。
|
||||||
|
|
||||||
|
## 在 Large Language Gibbs 中的位置
|
||||||
|
|
||||||
|
Barker Gibbs 是 Basic Gibbs 的**互补方案**——当 LLM 的生成条件不可靠时,改用判别条件;当两者都可用时,Barker Gibbs 的稳态分布与 Basic Gibbs 的稳态分布一致(在 Barker 规则假设下)。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Barker, A. A. (1965) — Barker's rule 原始文献
|
||||||
|
- [[large-language-gibbs]] — 提出 Barker Gibbs 的论文
|
||||||
|
- [[gambling-gibbs]] — 另一种判别式核变体
|
||||||
|
- [[llm-mcmc]] — LLM + MCMC 的整体框架
|
||||||
44
concepts/batch-vs-real-time-inference.md
Normal file
44
concepts/batch-vs-real-time-inference.md
Normal file
@@ -0,0 +1,44 @@
|
|||||||
|
---
|
||||||
|
title: "批处理推理 vs 实时推理"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [inference, deployment, batch-processing, real-time, latency, throughput]
|
||||||
|
sources:
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
---
|
||||||
|
|
||||||
|
# 批处理推理 vs 实时推理
|
||||||
|
|
||||||
|
## 两种架构
|
||||||
|
|
||||||
|
批处理和实时推理是两种**不同的系统架构**。选择错误的选项会影响基础设施、成本和用户体验——这些选择难以逆转。
|
||||||
|
|
||||||
|
| | 批处理推理 | 实时推理 |
|
||||||
|
|---|---|---|
|
||||||
|
| **生成方式** | 按时间表(每小时/每天) | 按需,毫秒到秒 |
|
||||||
|
| **存储** | 预计算,存数据库 | 即时计算 |
|
||||||
|
| **成本** | 低 | 高(24/7 运行) |
|
||||||
|
| **基础设施** | 简单,易调试 | 更多活动部件,难监控 |
|
||||||
|
| **数据新鲜度** | 可能过时 | 始终最新 |
|
||||||
|
|
||||||
|
## 系统层面的权衡
|
||||||
|
|
||||||
|
- 更大的批处理 → 更高吞吐量,但每个请求延迟也更高
|
||||||
|
- 实时系统使用 batch_size=1 → 速度快,但可能降低效率
|
||||||
|
|
||||||
|
## 最常见的错误
|
||||||
|
|
||||||
|
**团队默认使用实时推理,因为听起来更令人印象深刻。** 但大多数业务问题不需要亚秒级预测:
|
||||||
|
- 每晚的流失率评分
|
||||||
|
- 每周的推荐更新
|
||||||
|
- 每天的欺诈模式更新
|
||||||
|
|
||||||
|
## 决策信号
|
||||||
|
|
||||||
|
> 如果你的用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理推理。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||||||
|
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|
||||||
34
concepts/bayesian-filtering.md
Normal file
34
concepts/bayesian-filtering.md
Normal file
@@ -0,0 +1,34 @@
|
|||||||
|
---
|
||||||
|
title: "贝叶斯滤波"
|
||||||
|
created: 2026-06-22
|
||||||
|
updated: 2026-06-22
|
||||||
|
type: concept
|
||||||
|
tags: [state-estimation, filtering, probabilistic-inference]
|
||||||
|
sources: [nano-filter]
|
||||||
|
---
|
||||||
|
|
||||||
|
# 贝叶斯滤波
|
||||||
|
|
||||||
|
Bayesian filtering 是状态估计最通用的框架,通过递归的**预测-更新**两步计算状态的后验分布 $p(x_t | y_{1:t})$。
|
||||||
|
|
||||||
|
## 核心机制
|
||||||
|
|
||||||
|
- **预测步**(Chapman-Kolmogorov 方程):利用转移概率 $p(x_t | x_{t-1})$ 从上一时刻后验预测先验分布
|
||||||
|
$$
|
||||||
|
p(x_t | y_{1:t-1}) = \int p(x_t | x_{t-1}) p(x_{t-1} | y_{1:t-1}) dx_{t-1}
|
||||||
|
$$
|
||||||
|
- **更新步**(Bayes 定理):利用测量似然 $p(y_t | x_t)$ 更新先验为后验
|
||||||
|
$$
|
||||||
|
p(x_t | y_{1:t}) = \frac{p(y_t | x_t) p(x_t | y_{1:t-1})}{\int p(y_t | x_t) p(x_t | y_{1:t-1}) dx_t}
|
||||||
|
$$
|
||||||
|
|
||||||
|
## 关键特性
|
||||||
|
|
||||||
|
- 线性高斯系统 → Kalman filter 给出解析解
|
||||||
|
- 非线性系统 → 需近似:Gaussian filter 族(参数化近似)或 Particle filter(离散采样近似)
|
||||||
|
- [[nano-filter|NANO filter]] 从变分优化视角重新构造了 Gaussian 滤波,将预测步与更新步分别视为两个优化问题
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[kalman-filter|Kalman Filter]]
|
||||||
|
- [[gaussian-filtering|Gaussian Filtering]]
|
||||||
|
- [[nano-filter|NANO Filter]]
|
||||||
39
concepts/belief-state.md
Normal file
39
concepts/belief-state.md
Normal file
@@ -0,0 +1,39 @@
|
|||||||
|
---
|
||||||
|
title: "信念状态 (Belief State)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [state-tracking, reasoning, cognition]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 信念状态 (Belief State)
|
||||||
|
|
||||||
|
信念状态是 AI 智能体对环境的**紧凑、充分的知识摘要**(Chrisman, 1992; Kaelbling et al., 1998)。
|
||||||
|
|
||||||
|
## 形式
|
||||||
|
|
||||||
|
- **事实集合**:已知命题的集合(如"Fred 在河边")
|
||||||
|
- **概率分布**:可能世界的概率分布,追踪不确定性
|
||||||
|
- **组合状态**:多个独立状态变量的组合(如实体位置、关系状态)
|
||||||
|
|
||||||
|
## 在 Transformer 中的困境
|
||||||
|
|
||||||
|
Transformer 需要维护信念状态来确保推理一致性,但其前馈架构([[feedforward-depth-limitation|前馈深度局限]])导致:
|
||||||
|
- 信念状态的更新被推入深层网络
|
||||||
|
- 生成响应时浅层可能使用**过时或未更新的信念**
|
||||||
|
- 维护完整概率信念状态在一般情形下不可行(分布爆炸)
|
||||||
|
|
||||||
|
## 人类的启发式策略
|
||||||
|
|
||||||
|
Mozer et al. 指出人类采用近似方法:
|
||||||
|
- **采样**(Vul et al., 2014)
|
||||||
|
- **原型坍缩**(Tversky & Kahneman, 1971)
|
||||||
|
- **MAP 估计**——形成与前提最一致的具体心智模型
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[state-tracking|状态追踪]]
|
||||||
|
- [[depth-dilemma|深度困境]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
49
concepts/block-causal-attention.md
Normal file
49
concepts/block-causal-attention.md
Normal file
@@ -0,0 +1,49 @@
|
|||||||
|
---
|
||||||
|
title: "Block-Causal Attention"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: [attention, streaming, transformer, causal, multimodal]
|
||||||
|
sources:
|
||||||
|
- "[[wan-streamer]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Block-Causal Attention
|
||||||
|
|
||||||
|
**Block-Causal Attention** 是一种介于标准因果注意力(causal attention)和双向注意力(bidirectional attention)之间的注意力模式,专为流式多模态生成设计。它在 Wan-Streamer 中作为协调交错的视觉、音频和文本 token 流式生成的核心机制。
|
||||||
|
|
||||||
|
## 核心机制
|
||||||
|
|
||||||
|
在标准因果注意力中,每个 token 只能关注其之前的 token。在双向注意力中,每个 token 可以关注所有 token。**Block-causal attention** 将序列划分为块(blocks),在每个块内允许双向注意力,但跨块之间保持因果约束:
|
||||||
|
|
||||||
|
- **块内(intra-block)**:token 可以关注同块内的所有 token(双向)
|
||||||
|
- **块间(inter-block)**:token 只能关注之前块的 token(因果)
|
||||||
|
|
||||||
|
这种设计在流式生成中取得了关键权衡:块内双向注意力保证了同帧内多模态 token(如音频+视频+文本)的充分交互和同步,而块间因果约束保证了流式推理的可行性(不需要等待未来帧)。
|
||||||
|
|
||||||
|
## 在 Wan-Streamer 中的应用
|
||||||
|
|
||||||
|
在 Wan-Streamer 的全双工流式交互中,每个 160ms 的流式单元形成一个块。块内包含该时刻的用户输入 token 和 Agent 响应 token(视觉、音频、文本),块内双向注意力确保:
|
||||||
|
|
||||||
|
- 语音和视频潜变量的耦合生成
|
||||||
|
- 嘴唇运动与语音的天然同步
|
||||||
|
- 跨模态语义对齐
|
||||||
|
|
||||||
|
跨块因果约束确保:
|
||||||
|
- 增量流式推理(不需要等待整个对话完成)
|
||||||
|
- KV-cache 的可复用性
|
||||||
|
- 全历史上下文的线性的计算复杂度
|
||||||
|
|
||||||
|
## 与其他注意力模式对比
|
||||||
|
|
||||||
|
| 模式 | 块内 | 块间 | 适用场景 |
|
||||||
|
|------|------|------|----------|
|
||||||
|
| Causal | 因果 | 因果 | 标准自回归语言模型 |
|
||||||
|
| Bidirectional | 双向 | 双向 | BERT 类理解任务 |
|
||||||
|
| **Block-Causal** | **双向** | **因果** | **流式多模态生成** |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[wan-streamer]] — 首次在端到端流式交互基础模型中应用
|
||||||
|
- [[native-streaming-ar-training]]
|
||||||
|
- [[kv-cache]]
|
||||||
42
concepts/bm25-financial-retrieval.md
Normal file
42
concepts/bm25-financial-retrieval.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "BM25 金融检索"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# BM25 在金融精确检索中的应用
|
||||||
|
|
||||||
|
BM25 是一种基于词频-逆文档频率(TF-IDF)的经典信息检索算法。在金融场景中,恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
|
||||||
|
|
||||||
|
## 为什么金融场景 BM25 更优
|
||||||
|
|
||||||
|
金融查询大量涉及**精确匹配需求**:
|
||||||
|
- 股票代码(如 "600519")
|
||||||
|
- 专有名词(如 "超额累进税率")
|
||||||
|
- 精确数字(如 "净利润超过 10 亿")
|
||||||
|
- 法规条款编号(如 "第三十二条")
|
||||||
|
|
||||||
|
向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
|
||||||
|
|
||||||
|
## 与向量检索的适用边界
|
||||||
|
|
||||||
|
| 场景 | BM25 | 向量检索 |
|
||||||
|
|------|------|---------|
|
||||||
|
| 精确代码/编号 | ✅ 强 | ❌ 弱 |
|
||||||
|
| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
|
||||||
|
| 数字精确匹配 | ✅ 强 | ❌ 弱 |
|
||||||
|
| 同义改写查询 | ❌ 弱 | ✅ 强 |
|
||||||
|
| 跨语言检索 | ❌ 弱 | ✅ 强 |
|
||||||
|
|
||||||
|
## 行业趋势
|
||||||
|
|
||||||
|
恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[pageindex]]
|
||||||
|
- [[agentic-rag]]
|
||||||
40
concepts/build-vs-buy-llm.md
Normal file
40
concepts/build-vs-buy-llm.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "构建 vs 购买 — Build vs Buy (LLM)"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [llm, cost-optimization, infrastructure, api-vs-self-host]
|
||||||
|
sources:
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
---
|
||||||
|
|
||||||
|
# 构建 vs 购买(Build vs Buy)
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
在 LLM 时代,"构建 vs 购买"不再是从零训练模型的问题。2026 年的版本更难:三个选择,每个有不同的成本曲线和失效模式。
|
||||||
|
|
||||||
|
## 三个选择
|
||||||
|
|
||||||
|
| 选择 | 适用场景 | 成本结构 | 失效模式 |
|
||||||
|
|------|---------|---------|---------|
|
||||||
|
| **调用 API** | 日请求 < 10 万 | 按 token 付费,低开销 | 供应商锁定、框架迁移 |
|
||||||
|
| **微调开源模型** | 中等规模,专业化需求 | 一次性计算成本 | 数据准备和评估成本 |
|
||||||
|
| **自建托管** | 日请求 > 100 万 | 硬件 + 人力 | 人力占 70-80% 成本! |
|
||||||
|
|
||||||
|
## 关键数据
|
||||||
|
|
||||||
|
- Omdia 调查(n=376):95% 认为自建提供更多定制,91% 同意预构建更快——**两者同时成立**
|
||||||
|
- 硬件和电力仅占自托管成本的 20-30%,**人力占 70-80%**
|
||||||
|
- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属
|
||||||
|
|
||||||
|
## 实践框架
|
||||||
|
|
||||||
|
1. **从 API 开始**
|
||||||
|
2. **从第一天起记录每次调用的成本、延迟和功能归属**
|
||||||
|
3. **当运算显示优势下降时再更换**
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||||||
|
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|
||||||
37
concepts/cace-principle.md
Normal file
37
concepts/cace-principle.md
Normal file
@@ -0,0 +1,37 @@
|
|||||||
|
---
|
||||||
|
title: "CACE 原理 — Change Anything Changes Everything"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [ml-engineering, technical-debt, system-complexity, maintainability]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/1506.07756
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
---
|
||||||
|
|
||||||
|
# CACE 原理
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
**CACE = Change Anything Changes Everything**(改变任何事物都会改变一切)。
|
||||||
|
|
||||||
|
来自 Sculley et al. (2015) 的经典论文《Hidden Technical Debt in Machine Learning Systems》(NeurIPS)。在 ML 系统中,流水线上的一个小调整可能引发其他地方的惊人变化。
|
||||||
|
|
||||||
|
## 核心洞察
|
||||||
|
|
||||||
|
- 这种级联效应在线性回归中很少发生,但在**集成系统和神经网络中经常发生**
|
||||||
|
- **数据依赖比代码依赖更昂贵**——数据更难追踪、更难版本化、更难向继承者解释
|
||||||
|
- 实际的模型代码只是真实 ML 系统的一小部分——大部分是特征存储、管道逻辑、监控、重训练触发器及它们之间的粘合剂
|
||||||
|
|
||||||
|
## 实践含义
|
||||||
|
|
||||||
|
在为 2% 的精度提升选择更复杂模型之前,问自己:
|
||||||
|
> **一年后谁拥有它?** 如果答案是"不清楚",那就是决策点。
|
||||||
|
|
||||||
|
隐含成本:18 个月的调试时间、重训练开销、以及"没人记得我们为什么这样做"的税。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[ml-technical-debt|ML 技术债务]]
|
||||||
|
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||||||
|
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|
||||||
45
concepts/candidate-graph.md
Normal file
45
concepts/candidate-graph.md
Normal file
@@ -0,0 +1,45 @@
|
|||||||
|
---
|
||||||
|
title: "候选图 — Candidate Graph"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [candidate-graph, tool-expansion, mutation, semantic-graph]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2601.08276
|
||||||
|
---
|
||||||
|
|
||||||
|
# 候选图(Candidate Graph)
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Candidate Graph 是 ACE-Router 的第一阶段:基于候选间的语义相似度和功能依赖关系构建的图结构,用于**扩展和结构化候选空间**。
|
||||||
|
|
||||||
|
## 构建流程
|
||||||
|
|
||||||
|
### 1. 初始图构建
|
||||||
|
- 对每个候选 c 编码其结构化规范 ϕ(c)(工具描述 + schema,或 Agent profile + 能力范围)
|
||||||
|
- 计算余弦相似度,阈值 τ=0.82 以上建边
|
||||||
|
- 产生初始无向图 G = (C, E_sim)
|
||||||
|
|
||||||
|
### 2. 自进化变异
|
||||||
|
五种变异算子(针对工具):
|
||||||
|
| 算子 | 作用 |
|
||||||
|
|------|------|
|
||||||
|
| Function Enhancement | 增强现有功能 |
|
||||||
|
| Parameter Mutation | 参数层面修改 |
|
||||||
|
| Workflow Chaining | 链接多个操作为流水线 |
|
||||||
|
| Helper Operation | 创建辅助工具 |
|
||||||
|
| Usage Extension | 扩展使用场景 |
|
||||||
|
|
||||||
|
每轮随机选候选 c + 算子 m → LLM 合成新候选 c' = m(c) → 添加到图 + 建变异边
|
||||||
|
|
||||||
|
## 效果
|
||||||
|
|
||||||
|
627 初始工具 → 2005 工具(+219%)→ 训练数据从 15,092 样本。候选空间的丰富度直接决定路由器的辨识能力。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[ace-router|ACE-Router]]
|
||||||
|
- [[self-evolutionary-mutation|自进化变异]]
|
||||||
|
- [[trajectory-synthesis|轨迹合成]]
|
||||||
|
- [[yao-ace-router-2026|论文]]
|
||||||
31
concepts/causal-generation.md
Normal file
31
concepts/causal-generation.md
Normal file
@@ -0,0 +1,31 @@
|
|||||||
|
---
|
||||||
|
title: "Causal Generation"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["generation", "causal", "autoregressive", "attention"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Causal Generation (因果生成)
|
||||||
|
|
||||||
|
**Causal Generation** 是指生成模型中输出元素仅依赖历史、不访问未来信息的生成方式。与双向(bidirectional)生成相对。
|
||||||
|
|
||||||
|
## 在视频生成中的应用
|
||||||
|
|
||||||
|
在 [[autoregressive-video-generation|自回归视频生成]] 中,因果注意力(causal attention)确保:
|
||||||
|
- 生成帧 `t` 仅能 attend 帧 `1..t-1`
|
||||||
|
- 中间帧可立即输出,无需等待全部去噪完成
|
||||||
|
- 支持 [[streaming-generation|流式生成]] 和实时交互
|
||||||
|
|
||||||
|
## 实现
|
||||||
|
|
||||||
|
- **Causal Attention Mask**:下三角矩阵,阻止未来信息
|
||||||
|
- **Sliding Block-Causal Mask**:块内双向,块间因果(MaineCoon 使用)
|
||||||
|
- **KV-Cache**:缓存历史 chunk 的 keys/values
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
- [[autoregressive-video-generation|自回归视频生成]]
|
||||||
|
- [[streaming-generation|流式生成]]
|
||||||
|
- [[kv-cache]]
|
||||||
|
- [[diffusion-transformer|DiT]]
|
||||||
62
concepts/causal-multimodal-vae.md
Normal file
62
concepts/causal-multimodal-vae.md
Normal file
@@ -0,0 +1,62 @@
|
|||||||
|
---
|
||||||
|
title: "Causal Multimodal VAE"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: [vae, causal, multimodal, streaming, audio, video, latent-coding]
|
||||||
|
sources:
|
||||||
|
- "[[wan-streamer]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Causal Multimodal VAE
|
||||||
|
|
||||||
|
**Causal Multimodal VAE**(因果多模态变分自编码器)是 Wan-Streamer 中用于流式多模态潜编码的核心组件,包含严格因果的音频 VAE 和视频 VAE。
|
||||||
|
|
||||||
|
## 为什么需要因果 VAE
|
||||||
|
|
||||||
|
标准 VAE(如用于 Stable Diffusion 的图像 VAE)通常是**非因果的**——编码一帧时需要访问未来帧的上下文(通过卷积或双向注意力)。这在离线场景下可行,但在流式场景下会引入额外的延迟(等待未来帧到达)。
|
||||||
|
|
||||||
|
**因果 VAE** 的核心约束:
|
||||||
|
- 编码时刻 t 的帧时,只能使用 ≤t 时刻的信息
|
||||||
|
- 解码时刻 t 的潜变量时,同样只能使用 ≤t 时刻的上下文
|
||||||
|
|
||||||
|
这确保了每个流式单元到达后**立即可用**,无需等待窗口填充。
|
||||||
|
|
||||||
|
## 在 Wan-Streamer 中的设计
|
||||||
|
|
||||||
|
Wan-Streamer 的全因果架构要求从底层到顶层都是因果的:
|
||||||
|
|
||||||
|
```
|
||||||
|
流式视频帧序列 → 因果视频编码器 → 视频潜变量
|
||||||
|
↓
|
||||||
|
流式音频帧序列 → 因果音频编码器 → 音频潜变量
|
||||||
|
↓
|
||||||
|
[block-causal Transformer]
|
||||||
|
↓
|
||||||
|
因果音频解码器 → 流式音频输出
|
||||||
|
因果视频解码器 → 流式视频输出
|
||||||
|
```
|
||||||
|
|
||||||
|
### 因果视频 VAE
|
||||||
|
- 使用因果卷积和/或因果注意力替代标准 VAE 中的非因果操作
|
||||||
|
- 支持 25 FPS 的流式编码
|
||||||
|
- 每个 160ms 单元独立可编码
|
||||||
|
|
||||||
|
### 因果音频 VAE
|
||||||
|
- 类似设计,支持流式音频的因果编码
|
||||||
|
- 与视频 VAE 的潜空间通过 block-causal Transformer 进行跨模态交互
|
||||||
|
|
||||||
|
## 与标准 VAE 的对比
|
||||||
|
|
||||||
|
| 维度 | 标准 VAE | 因果 VAE |
|
||||||
|
|------|---------|---------|
|
||||||
|
| 编码方向 | 双向(访问过去+未来) | 单向(仅访问过去) |
|
||||||
|
| 延迟 | 需要等待窗口完成 | 逐帧即时编码 |
|
||||||
|
| 适用场景 | 离线生成/重建 | 实时流式交互 |
|
||||||
|
| 重建质量 | 略高(更多上下文) | 可接受(因果约束) |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[wan-streamer]]
|
||||||
|
- [[block-causal-attention]]
|
||||||
|
- [[end-to-end-streaming-interaction]]
|
||||||
36
concepts/center-manifold-theorem.md
Normal file
36
concepts/center-manifold-theorem.md
Normal file
@@ -0,0 +1,36 @@
|
|||||||
|
---
|
||||||
|
title: "Center Manifold Theorem (中心流形定理)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: [bifurcation-theory, dynamical-systems, reduction]
|
||||||
|
sources: [gan-bifurcation-eos]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Center Manifold Theorem (中心流形定理)
|
||||||
|
|
||||||
|
中心流形定理是分岔理论中的核心约化工具:当动力系统在不动点处存在临界特征值(模为 1)时,系统稳定性完全由限制在中心流形 W^c 上的低维动力学决定。
|
||||||
|
|
||||||
|
## 定理陈述
|
||||||
|
|
||||||
|
设离散动力系统 x_{t+1} = f(x_t),f 为 C³ 函数。若 Jacobian A = Df(x₀) 具有 n₀ 个临界特征值(模为 1),其余特征值模 < 1,则存在局部 C³ 的 n₀ 维流形 W^c 满足:
|
||||||
|
- W^c 在 x₀ 处与临界特征空间 T^c 相切
|
||||||
|
- W^c 在 f 下不变
|
||||||
|
- W^c 是**吸引的**:附近轨道指数收敛到 W^c
|
||||||
|
- 系统在 x₀ 附近的稳定性**完全由 f|_W^c 决定**(约化原理)
|
||||||
|
|
||||||
|
## 在 EoS 分析中的应用
|
||||||
|
|
||||||
|
在 [[gan-bifurcation-eos|Gan (2026b)]] 的框架中:
|
||||||
|
- 梯度下降 Jacobian A = I - η∇²L,在 EoS 阈值处具有临界特征值 λ = -1
|
||||||
|
- 中心流形将高维 GD 动力学约化到低维临界子空间
|
||||||
|
- 使用**投影法** (projection method) 在中心流形上计算 [[first-lyapunov-coefficient|c₁]] 和周期轨道
|
||||||
|
|
||||||
|
对于过参数化网络的 [[manifold-of-minimizers|极小值流形]] M,中心流形包含法向(flip 分岔方向)和切向(漂移方向),约化后的分析分别处理两个子空间的动力学。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Kuznetsov (1998). Elements of Applied Bifurcation Theory, Ch. 5.
|
||||||
|
- [[flip-bifurcation]]
|
||||||
|
- [[first-lyapunov-coefficient]]
|
||||||
|
- [[gan-bifurcation-eos]]
|
||||||
59
concepts/clawforce.md
Normal file
59
concepts/clawforce.md
Normal file
@@ -0,0 +1,59 @@
|
|||||||
|
---
|
||||||
|
title: "ClawForce — 企业 AI Agent 方案"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [enterprise-ai, agent-platform, clawforce, memtensor, security]
|
||||||
|
sources:
|
||||||
|
- https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
|
||||||
|
---
|
||||||
|
|
||||||
|
# ClawForce
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
ClawForce 是记忆张量(MemTensor)基于 MemOS 记忆框架构建的**企业级 AI Agent 产品**。解决企业 AI Agent 从"能用"到"敢用、好用、持续用"的五个共性痛点。
|
||||||
|
|
||||||
|
## 解决的五痛点
|
||||||
|
|
||||||
|
| 痛点 | 表现 | ClawForce 解法 |
|
||||||
|
|------|------|---------------|
|
||||||
|
| 部署难 | 单机部署已困难,集群需专门团队 | 全链路 AI 自动化配置 |
|
||||||
|
| 经验散 | 老员工离职,经验无法沉淀 | Skill 回流 + 自动入库 |
|
||||||
|
| 响应遗漏 | 人工监控有盲区 | 事件监听 + 智能中枢 |
|
||||||
|
| 场景受限 | 止步于对话,难入真实工作流 | 全链路工具链接 |
|
||||||
|
| 不可追溯 | 数据边界不清晰 | 三重安全审计 |
|
||||||
|
|
||||||
|
## 五层架构
|
||||||
|
|
||||||
|
```
|
||||||
|
智能中枢
|
||||||
|
├── 记忆层(MemOS)
|
||||||
|
├── Skill 引擎(生成→审核→下发→回流)
|
||||||
|
├── 事件监听
|
||||||
|
└── 工具链接(Office/CRM/OA/IM)
|
||||||
|
```
|
||||||
|
|
||||||
|
## Skill 沉淀与回流
|
||||||
|
|
||||||
|
员工与 Agent 交互 → 系统自动检测可优化输入 → 模型质量打分 → 白盒化处理 → 管理员审核 → 企业 Skill 库
|
||||||
|
|
||||||
|
## 落地场景与效果
|
||||||
|
|
||||||
|
| 场景 | 效果 |
|
||||||
|
|------|------|
|
||||||
|
| 研发 | 飞书提需求 → AI 自动编码 → 仿真验证 → 生产线 |
|
||||||
|
| 电商运营 | 7×24 数据监控、异常预警、策略建议 |
|
||||||
|
| 公文写作 | 减少 **85%** 起草耗时 |
|
||||||
|
| 销售 | 客户触达量翻倍,最佳 Skill 自动回流 |
|
||||||
|
|
||||||
|
## 部署方案
|
||||||
|
|
||||||
|
- NVIDIA DGX 一体机:128G 显存 + 内存共享
|
||||||
|
- 中国电信国产算力方案
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]]
|
||||||
|
- [[memory-governance|记忆治理]]
|
||||||
|
- [[agent-memory-system|Agent 记忆系统]]
|
||||||
40
concepts/coarse-grained-recurrence.md
Normal file
40
concepts/coarse-grained-recurrence.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "粗粒度循环 (Coarse-Grained Recurrence)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [transformers, recurrence, efficiency, chunking]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 粗粒度循环 (Coarse-Grained Recurrence)
|
||||||
|
|
||||||
|
粗粒度循环是 Mozer et al. (2026) 提出的有前景方向之一:在**比单个 token 更粗的粒度**上引入循环,以降低 token 级循环的计算负担。
|
||||||
|
|
||||||
|
## 核心思想
|
||||||
|
|
||||||
|
逐 token 的状态更新(标准 RNN 方式)存在**计算瓶颈**——每个 token 都需要串行处理。粗粒度循环通过**分组压缩**在效率和状态追踪之间寻求平衡。
|
||||||
|
|
||||||
|
## 实现方式
|
||||||
|
|
||||||
|
### 块循环 (Block-Recurrent)
|
||||||
|
- **Block-Recurrent Transformers**(Hutchins et al., 2022):将固定长度 token 块并行处理,块间循环传递压缩记忆
|
||||||
|
- **Chevalier et al. (2023)**:块级自回归训练
|
||||||
|
|
||||||
|
### 语言结构驱动分块
|
||||||
|
- **Borazjanizadeh & McClelland (2025)**:以句子为单位的"思想"分块——将语言建模为离散思想序列
|
||||||
|
- 句子边界作为自然的循环步分界
|
||||||
|
|
||||||
|
## 优势
|
||||||
|
|
||||||
|
- 降低**串行步数**(token 级→句子级/块级)
|
||||||
|
- 保留**状态传播连续性**(块间循环)
|
||||||
|
- 更接近人类的**概念级**认知节奏
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[recurrence-taxonomy|循环分类法]]
|
||||||
|
- [[step-recurrence|步级循环]]
|
||||||
|
- [[latent-thought-models|隐式思考模型]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
62
concepts/collectivist-ai.md
Normal file
62
concepts/collectivist-ai.md
Normal file
@@ -0,0 +1,62 @@
|
|||||||
|
---
|
||||||
|
title: "集体主义 AI(Collectivist AI)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- ai-economics
|
||||||
|
- collective-intelligence
|
||||||
|
- michael-jordan
|
||||||
|
- systems-thinking
|
||||||
|
sources:
|
||||||
|
- Jordan, arXiv:2507.06268
|
||||||
|
- MLST 2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 集体主义 AI(Collectivist AI)
|
||||||
|
|
||||||
|
Michael I. Jordan 提出的 AI 系统设计范式,核心主张:**AI 不应被建模为个体认知的放大,而应被视为一个集体性的经济系统**——输入来自数十亿人,服务数十亿人。
|
||||||
|
|
||||||
|
## 三大支柱
|
||||||
|
|
||||||
|
```
|
||||||
|
CS (算法/抽象/模块化)
|
||||||
|
/\
|
||||||
|
/ \
|
||||||
|
/ \
|
||||||
|
/ \
|
||||||
|
/________\
|
||||||
|
统计学 经济学
|
||||||
|
(推断/不确定性) (激励/博弈均衡)
|
||||||
|
```
|
||||||
|
|
||||||
|
Jordan 的核心批判:"只有计算加优化,你就只能得到语言模型。把统计和经济思维加进来,才开始有完整的系统性思考。"
|
||||||
|
|
||||||
|
## 为什么需要经济学
|
||||||
|
|
||||||
|
当前主流 AI 叙事将智能窄化为**个体认知**——大脑隐喻 → 神经元 → 梯度下降。这忽略了:
|
||||||
|
- 人是社会动物,大量智识来自聚合
|
||||||
|
- 社会为智识提供语境——在这个语境里聪明的行动,换一个语境可能是蠢的
|
||||||
|
- 智能高度情境化,依赖当下
|
||||||
|
|
||||||
|
经济学研究的问题——信息不对称、激励机制、博弈均衡——是"完整智能"不可或缺的维度。
|
||||||
|
|
||||||
|
## 与相关框架的区别
|
||||||
|
|
||||||
|
- vs [[agi-critique|AGI 批判]]:集体主义 AI 是建设性替代方案,不只是批评
|
||||||
|
- vs [[multi-agent-orchestration|多智能体编排]]:后者仍是个体认知叠加,集体主义强调**经济设计**(谁来承担成本、收益如何分配)
|
||||||
|
- vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]:集体主义框架可解释螺旋效应——缺乏经济思维导致的内容生态失衡
|
||||||
|
|
||||||
|
## 论文中的具体案例
|
||||||
|
|
||||||
|
- [[statistical-contract-theory|统计合同理论]] — 推断+经济的融合范式
|
||||||
|
- [[data-markets|数据市场]] — 三层 Stackelberg 博弈中的隐私-收入权衡
|
||||||
|
- [[probability-matching|概率匹配]] — 种群 Nash 均衡作为集体主义不确定性处理的微观范例
|
||||||
|
- [[e-values|E-values]] — 与激励相容等价的推断工具
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[jordan-collectivist-ai-2025|Jordan 论文 (arXiv:2507.06268)]]
|
||||||
|
- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
|
||||||
|
- [[anthropomorphization-critique|人类化机器批判]]
|
||||||
|
- [[uncertainty-taxonomy|不确定性分类法]]
|
||||||
46
concepts/conditional-memory.md
Normal file
46
concepts/conditional-memory.md
Normal file
@@ -0,0 +1,46 @@
|
|||||||
|
---
|
||||||
|
title: "Conditional Memory"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: ["sparsity", "architecture", "memory", "transformer"]
|
||||||
|
sources:
|
||||||
|
- "[[engram-conditional-memory-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Conditional Memory
|
||||||
|
|
||||||
|
Conditional Memory 是 Engram 提出的一种新稀疏轴,与 Mixture-of-Experts 的 Conditional Computation 形成互补。
|
||||||
|
|
||||||
|
## 基本定义
|
||||||
|
|
||||||
|
| 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) |
|
||||||
|
|------|------|------|
|
||||||
|
| 原语 | 稀疏参数激活 | 稀疏嵌入查找 |
|
||||||
|
| 操作 | 路由到专家子网络 | 哈希索引嵌入表 |
|
||||||
|
| 开销 | 随专家数增长 | O(1) 常数 |
|
||||||
|
| 适用 | 动态推理、上下文组合 | 静态知识、局部模板 |
|
||||||
|
|
||||||
|
## 为什么需要
|
||||||
|
|
||||||
|
语言建模包含两类异质子任务:
|
||||||
|
1. **组合推理**:需要深层、动态的非线性计算
|
||||||
|
2. **知识检索**:命名实体、公式化表达等局部静态模式天然适合查找
|
||||||
|
|
||||||
|
Transformer 缺少原生的知识查找原语,被迫用计算模拟检索。例如,解析一个常见的多 token 实体需要消耗多个早期的 Attention 和 FFN 层——本质是用昂贵的计算重建一个静态查找表。
|
||||||
|
|
||||||
|
## 与 MoE 的关系
|
||||||
|
|
||||||
|
MoE 通过条件计算扩展模型容量,Engram 通过条件记忆扩展模型容量。二者共享同一个稀疏参数预算,通过 [[sparsity-allocation|Sparsity Allocation]] 进行最优分配。U 形缩放律表明:纯 MoE 和纯 Engram 都不如混合——最优分配约 75-80% 给 MoE,20-25% 给记忆。
|
||||||
|
|
||||||
|
## 表现形式
|
||||||
|
|
||||||
|
- **Engram**:基于 N-gram 嵌入的现代条件记忆实现(多哈希头、上下文门控、深度可分离卷积)
|
||||||
|
- **OverEncoding**:通过平均将 N-gram 嵌入融入词表嵌入(较弱的基线)
|
||||||
|
- 理论上,任何提供 O(1) 或近似常数时间查找的机制都可以是条件记忆的实例
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[engram-conditional-memory-2026]]
|
||||||
|
- [[mixture-of-experts]]
|
||||||
|
- [[engram]]
|
||||||
|
- [[sparsity-allocation]]
|
||||||
39
concepts/constant-kv-cache.md
Normal file
39
concepts/constant-kv-cache.md
Normal file
@@ -0,0 +1,39 @@
|
|||||||
|
---
|
||||||
|
title: "Constant KV Cache"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["kv-cache", "efficient-inference", "attention-mechanism"]
|
||||||
|
sources:
|
||||||
|
- "[[unlimited-ocr-works-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Constant KV Cache
|
||||||
|
|
||||||
|
Constant KV Cache 是 R-SWA 注意力机制的核心性质:KV cache 大小在全部解码过程中保持有界常数 Lm + n,不随输出长度 T 增长。
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
$$C_{R\text{-}SWA}(T) = L_m + \min(n, T) \leq L_m + n$$
|
||||||
|
|
||||||
|
其中 Lm 为前缀 token 数(固定),n 为滑动窗口宽度(默认 128)。
|
||||||
|
|
||||||
|
## 与标准 MHA 的对比
|
||||||
|
|
||||||
|
| 机制 | KV Cache 增长 | 无穷 T 时 |
|
||||||
|
|------|-------------|----------|
|
||||||
|
| MHA | O(T) 线性 | ∞ |
|
||||||
|
| R-SWA | O(1) 常数 | Lm + n |
|
||||||
|
|
||||||
|
Cache 压缩比:$\rho(T) = \frac{L_m + n}{L_m + T} \to 0$
|
||||||
|
|
||||||
|
## 工程意义
|
||||||
|
|
||||||
|
- GPU 显存恒定,不随输出长度增长
|
||||||
|
- 推理速度(TPS)恒定(Flash Attention v3 核函数延迟稳定)
|
||||||
|
- 使单次前向解析数十页成为可能
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[unlimited-ocr-works-2026]]
|
||||||
|
- [[reference-sliding-window-attention]]
|
||||||
|
- [[kv-cache]]
|
||||||
66
concepts/content-based-reasoning.md
Normal file
66
concepts/content-based-reasoning.md
Normal file
@@ -0,0 +1,66 @@
|
|||||||
|
---
|
||||||
|
title: "Content-Based Reasoning"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["sequence-modeling", "ssm", "mamba", "attention"]
|
||||||
|
sources: ["https://arxiv.org/abs/2312.00752"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Content-Based Reasoning
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Content-Based Reasoning(内容感知推理)是 Mamba 论文识别出的 LTI 序列模型的核心弱点:**模型能否根据输入 token 的实际内容(而非仅时间位置)来决定信息的传播与遗忘**。Transformer 的注意力天然具备此能力(每个 token 的注意力分布取决于 query-key 的内容交互),但 LTI SSM 完全缺失。
|
||||||
|
|
||||||
|
## 为什么 LTI 缺失此能力
|
||||||
|
|
||||||
|
LTI(线性时间不变)模型的参数对所有时间步固定:
|
||||||
|
|
||||||
|
```
|
||||||
|
h_t = A_bar * h_{t-1} + B_bar * x_t (A_bar, B_bar 不随 x_t 变化)
|
||||||
|
```
|
||||||
|
|
||||||
|
无论输入是 "important" 还是 "noise",状态更新规则**完全相同**。模型无法:
|
||||||
|
- 选择性地记住关键 token
|
||||||
|
- 根据内容忽略无关 token
|
||||||
|
- 在上下文中看到模式后改变行为
|
||||||
|
|
||||||
|
## Transformer 为什么有
|
||||||
|
|
||||||
|
自注意力中的 Q-K 内积是**天然的内容感知**:
|
||||||
|
|
||||||
|
```
|
||||||
|
Attention(Q, K, V) = softmax(Q K^T) V
|
||||||
|
```
|
||||||
|
|
||||||
|
Q 和 K 都是输入的函数 → 注意力分布随内容变化 → 模型能根据 token 的语义决定"关注谁"。
|
||||||
|
|
||||||
|
## Mamba 的解决方案
|
||||||
|
|
||||||
|
Mamba 的选择机制([[selective-state-space]])以不同的路径实现内容感知:
|
||||||
|
|
||||||
|
```
|
||||||
|
B_t, C_t, Δ_t = f(x_t) ← SSM 参数变为输入的函数
|
||||||
|
```
|
||||||
|
|
||||||
|
不是让 token 彼此交互(注意力),而是让每个 token 的**处理方式**随其内容改变——看到重要 token 就"打开门"(大 Δ),看到噪声就"关上门"(小 Δ)。
|
||||||
|
|
||||||
|
## 诊断任务
|
||||||
|
|
||||||
|
两个合成任务精确测试内容感知能力:
|
||||||
|
- [[selective-copy]]:需要根据 token "颜色"决定是否记忆
|
||||||
|
- [[induction-heads]]:需要根据前缀"内容"回忆后续
|
||||||
|
|
||||||
|
LTI 模型在两个任务上均失败,Mamba 不仅解决,且能外推到 >1M tokens。
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[selective-state-space]] — Mamba 实现内容感知的机制
|
||||||
|
- [[structured-state-space-models]] — LTI,缺少此能力
|
||||||
|
- [[attention-mechanism]] — 另一种内容感知的实现路径
|
||||||
|
- [[gu-mamba|Mamba 论文]]
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[gu-mamba|Mamba]] (Gu & Dao, 2024) Section 3.1
|
||||||
42
concepts/content-diversity-decay.md
Normal file
42
concepts/content-diversity-decay.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "内容多样性衰减(Content Diversity Decay)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- metrics
|
||||||
|
- diversity
|
||||||
|
- spiral-of-silence
|
||||||
|
- monitoring
|
||||||
|
sources:
|
||||||
|
- ACL 2024
|
||||||
|
- data派THU 2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 内容多样性衰减(Content Diversity Decay)
|
||||||
|
|
||||||
|
衡量 AI 内容生态中**信息多样性随时间/迭代轮次下降**的量化指标。是大模型沉默螺旋的核心监测维度之一。
|
||||||
|
|
||||||
|
## 测度方式
|
||||||
|
|
||||||
|
- **观点分布熵**:输出空间中不同观点的概率分布熵值
|
||||||
|
- **人类原创占比**:信息池中人类原创内容的比例(ACL 2024 实验中从 50% 降至 <15%)
|
||||||
|
- **小众观点留存率**:非主流、创新性内容在多轮迭代后的存活比例
|
||||||
|
- **n-gram 多样性**:输出文本的词汇和短语多样性
|
||||||
|
|
||||||
|
## 实验观测
|
||||||
|
|
||||||
|
ACL 2024 RAG 闭环实验中,仅 5 轮迭代即观测到内容多样性**断崖式下降**。搜索引擎排序算法天然偏好更规整的 AI 文本,加速了人类原创内容的衰减。
|
||||||
|
|
||||||
|
## 治理应用
|
||||||
|
|
||||||
|
内容多样性衰减可作为**实时监测指标**,在达到阈值时触发干预:
|
||||||
|
- 提高 [[temperature-sampling|温度采样]]
|
||||||
|
- 检索排序中均衡 AI/人类内容比例
|
||||||
|
- 注入反主流观点兜底提示
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[content-homogenization|内容同质化]]
|
||||||
|
- [[rag-closed-loop|RAG 闭环迭代]]
|
||||||
|
- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
|
||||||
41
concepts/content-homogenization.md
Normal file
41
concepts/content-homogenization.md
Normal file
@@ -0,0 +1,41 @@
|
|||||||
|
---
|
||||||
|
title: "内容同质化(Content Homogenization)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- content-ecology
|
||||||
|
- spiral-of-silence
|
||||||
|
- diversity
|
||||||
|
- llm
|
||||||
|
sources:
|
||||||
|
- ACL 2024
|
||||||
|
- data派THU 2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 内容同质化(Content Homogenization)
|
||||||
|
|
||||||
|
指 AI 大规模参与内容生产后,全网信息在风格、观点、表达范式上趋同的现象。是大模型沉默螺旋的**直接表现**和核心危害之一。
|
||||||
|
|
||||||
|
## 表现形式
|
||||||
|
|
||||||
|
- **观点趋同**:多种 AI 生成内容对同一问题的回答高度相似
|
||||||
|
- **风格单一**:输出风格收敛于"标准 AI 语气"——结构化、中性化、回避争议
|
||||||
|
- **小众观点消失**:正确但有创新性、不符合主流范式的观点被系统性过滤
|
||||||
|
- **错误垄断**:高频但片面的内容(甚至错误信息)通过反复生成被固化为"共识"
|
||||||
|
|
||||||
|
## 与沉默螺旋的关系
|
||||||
|
|
||||||
|
内容同质化是沉默螺旋的**结果变量**——四大技术根源([[pretraining-statistical-bias|预训练统计偏好]] → [[context-anchoring|上下文锚定]] → [[role-setting-entrenchment|角色固化]] → [[rlhf-alignment-amplification|RLHF 对齐放大]])的叠加效应最终在内容层面表现为同质化。
|
||||||
|
|
||||||
|
## 测度
|
||||||
|
|
||||||
|
- 内容多样性衰减率([[content-diversity-decay|内容多样性衰减]])
|
||||||
|
- 输出分布的熵值
|
||||||
|
- 人类原创内容占比
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[information-cocoons|信息茧房]]
|
||||||
|
- [[opinion-polarization|观点极化]]
|
||||||
|
- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
|
||||||
44
concepts/context-anchoring.md
Normal file
44
concepts/context-anchoring.md
Normal file
@@ -0,0 +1,44 @@
|
|||||||
|
---
|
||||||
|
title: "历史上下文锚定(Context Anchoring)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- autoregressive
|
||||||
|
- context
|
||||||
|
- spiral-of-silence
|
||||||
|
- llm
|
||||||
|
sources:
|
||||||
|
- arXiv 2025 (Spiral of Silence in LLM Agents)
|
||||||
|
---
|
||||||
|
|
||||||
|
# 历史上下文锚定(Context Anchoring)
|
||||||
|
|
||||||
|
大模型沉默螺旋的**核心驱动机制**——四大技术根源之二。
|
||||||
|
|
||||||
|
## 机制
|
||||||
|
|
||||||
|
自回归生成([[autoregressive-unrolling|自回归展开]])使模型每一步输出都基于对话历史。当历史中包含主流观点时,模型持续**贴合并重复**这些内容,形成正向强化的闭环:
|
||||||
|
- 每一步的预测分布被历史中高频内容"锚定"
|
||||||
|
- 随着对话轮次增加,锚定效应持续累积
|
||||||
|
- 即使初期存在多元观点,历史累积后逐渐收敛为单一主流
|
||||||
|
|
||||||
|
## 实验证据
|
||||||
|
|
||||||
|
多智能体实验(arXiv 2025)中,**仅保留历史对话**(无角色设定)的条件组即可使模型持续重复主流观点,内容单一化显著。当历史上下文与角色设定叠加时,效应最大化。
|
||||||
|
|
||||||
|
## 与相关概念的关系
|
||||||
|
|
||||||
|
- 不同于 [[role-setting-entrenchment|角色设定固化]]:历史锚定是被动累积,角色固化是主动约束
|
||||||
|
- 与 [[rlhf-alignment-amplification|RLHF 对齐放大]] 叠加:历史锚定提供"当前语境中的主流",而 RLHF 提供"训练层面的安全主流",形成双重压制
|
||||||
|
|
||||||
|
## 缓解方向
|
||||||
|
|
||||||
|
- 动态衰减上下文权重(距离越远的历史对话权重越低)
|
||||||
|
- 定期注入反主流观点兜底提示
|
||||||
|
- 多候选择优时引入多样性奖励
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
|
||||||
|
- [[multi-agent-spiral|多智能体螺旋]]
|
||||||
45
concepts/context-enriched-embeddings.md
Normal file
45
concepts/context-enriched-embeddings.md
Normal file
@@ -0,0 +1,45 @@
|
|||||||
|
---
|
||||||
|
title: "上下文增强嵌入 — Context Enriched Embeddings"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [embeddings, context-enrichment, vector-retrieval, tool-discovery]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2509.20386
|
||||||
|
---
|
||||||
|
|
||||||
|
# 上下文增强嵌入(Context Enriched Embeddings)
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Dynamic ReAct 论文中的关键向量检索优化策略:使用 LLM(Sonnet 4)**程序化增强工具描述**——生成隐式功能和用例描述——再嵌入。将 Top-5 检索准确率从 40% 提升至 60%(+50% 相对提升)。
|
||||||
|
|
||||||
|
## 为什么需要增强
|
||||||
|
|
||||||
|
工具文档通常只描述**显式功能**(参数、返回类型),缺少:
|
||||||
|
- 隐式功能("send email" 暗示需要 SMTP 能力)
|
||||||
|
- 用例上下文(什么场景下用这个工具)
|
||||||
|
- 工具间的关系(这个工具通常和哪些工具配合)
|
||||||
|
|
||||||
|
## 实验数据
|
||||||
|
|
||||||
|
| 策略 | Top-5 | Top-10 |
|
||||||
|
|------|-------|--------|
|
||||||
|
| OpenAI text-embedding-3-large (baseline) | 40% | 64% |
|
||||||
|
| voyage-context-3 | 48% | 68% |
|
||||||
|
| **voyage-context-3 + Sonnet context enrichment** | **60%** | 68% |
|
||||||
|
| + BM25 hybrid | 56% | 72% |
|
||||||
|
|
||||||
|
Sonnet 增强带来 **+12pp**(vs voyage-context-3 alone)。BM25 混合提升 recall(+4pp Top-10)但降 precision(-4pp Top-5),因为关键词重叠引入误匹配。
|
||||||
|
|
||||||
|
## 实际案例
|
||||||
|
|
||||||
|
查询 "send email":
|
||||||
|
- Baseline(OpenAI):resend__send_email #4,google_mail__send_email #6,outlook__send_mail 未进 Top-10
|
||||||
|
- Optimized(Voyage + Context):outlook__send_mail #1,google_mail__send_email #2,resend__send_email #4 ——三个期望工具全进 Top-5
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[dynamic-react|Dynamic ReAct]]
|
||||||
|
- [[gaurav-dynamic-react-2025|论文]]
|
||||||
|
- [[search-and-load|Search and Load]]
|
||||||
46
concepts/convex-hull-relaxation.md
Normal file
46
concepts/convex-hull-relaxation.md
Normal file
@@ -0,0 +1,46 @@
|
|||||||
|
---
|
||||||
|
title: "Convex-Hull Relaxation (KV Cache)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["optimization", "kv-cache", "convex-relaxation"]
|
||||||
|
sources: ["https://arxiv.org/abs/2602.08585"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Convex-Hull Relaxation
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Convex-Hull Relaxation(凸包松弛)是 LU-KV 用于求解 [[global-combinatorial-optimization]] 的核心技巧。将对每个 attention head 的非凸离散损失序列进行凸化,使全局贪心算法能达到最优解。
|
||||||
|
|
||||||
|
## 为什么需要
|
||||||
|
|
||||||
|
原始的 [[oracle-importance]] 驱逐损失 L(M^π(0)), ..., L(M^π(T)) 作为整数预算的函数**不满足凸性**,导致:
|
||||||
|
|
||||||
|
- 无法直接应用贪心算法(贪心在非凸目标上无最优性保证)
|
||||||
|
- 动态规划可行但 cost 过高(profiling 规模不可接受)
|
||||||
|
|
||||||
|
## 方法:PAVA 保序回归
|
||||||
|
|
||||||
|
LU-KV 采用 Pool Adjacent Violators Algorithm (PAVA) 做保序回归:
|
||||||
|
|
||||||
|
1. 计算原始损失的**边际递减量**序列 d(i) = L(i-1) - L(i)(可能非单调)
|
||||||
|
2. 对 d(i) 做保序回归,投影到非负、非增序列 d̆(i) >= 0
|
||||||
|
3. 从投影后的边际递减量重构损失序列 L̆(i) = L̆(i-1) - d̆(i)
|
||||||
|
|
||||||
|
结果:L̆ 是**凸的、非增的**——即边际增益 g(i) = L̆(i-1) - L̆(i) >= 0 且单调递减。
|
||||||
|
|
||||||
|
## 最优性保证
|
||||||
|
|
||||||
|
凸化后,边际增益 g(i) 满足递减性质 → 贪心算法等价于凸资源分配问题的最优解 → **贪心 = DP 最优**。论文图 2a 验证了贪心解与精确 DP 解完全一致。
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[global-combinatorial-optimization]] — 凸松弛求解的目标问题
|
||||||
|
- [[marginal-utility]] — 凸松弛后得到的有序边际增益
|
||||||
|
- [[offline-profiling]] — profiling 中离线完成凸松弛计算
|
||||||
|
- [[isotonic-regression]] — PAVA 属于保序回归方法
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 附录 A.1 给出非凸性证明
|
||||||
37
concepts/coordinator-executor-architecture.md
Normal file
37
concepts/coordinator-executor-architecture.md
Normal file
@@ -0,0 +1,37 @@
|
|||||||
|
---
|
||||||
|
title: "Coordinator-Executor Architecture"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["agent-architecture", "multi-agent", "coordination", "isolation"]
|
||||||
|
sources:
|
||||||
|
- "[[arbor-htr-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Coordinator-Executor Architecture
|
||||||
|
|
||||||
|
Arbor 提出的双角色 Agent 架构模式:持久 Coordinator 管理全局策略,短生命周期 Executor 在隔离环境中执行单个假设。
|
||||||
|
|
||||||
|
## 职责分离
|
||||||
|
|
||||||
|
| 角色 | 生命周期 | 职责 | 不可做 |
|
||||||
|
|------|---------|------|--------|
|
||||||
|
| **Coordinator** | 全程持久 | 维护树、选择方向、传播洞察、合并/剪枝 | 直接执行低层实现 |
|
||||||
|
| **Executor** | 单次任务 | 物化假设、评估、返回结构化报告 | 修改共享树、重定向搜索目标 |
|
||||||
|
|
||||||
|
## 关键边界
|
||||||
|
|
||||||
|
- Executor 在**隔离 git worktree** 中运行——产物变更在通过 merge gate 之前不污染主干
|
||||||
|
- Coordinator 通过**树而非日志**感知进度——决策基于洞察抽象而非原始执行痕迹
|
||||||
|
- Executor 返回的**结构化报告**仅包含决策相关证据:分数、事实结果、洞察、产物引用
|
||||||
|
|
||||||
|
## 为什么需要分离
|
||||||
|
|
||||||
|
1. 全局策略需要全盘证据,低层执行细节会淹没决策信息
|
||||||
|
2. 实验结果必须归属于产生它的假设
|
||||||
|
3. 探索性代码变更必须在隔离环境中完成,通过 held-out 准入才能合并
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[arbor-htr-2026]]
|
||||||
|
- [[hypothesis-tree-refinement]]
|
||||||
|
- [[autonomous-optimization-ao]]
|
||||||
52
concepts/cross-head-budget-allocation.md
Normal file
52
concepts/cross-head-budget-allocation.md
Normal file
@@ -0,0 +1,52 @@
|
|||||||
|
---
|
||||||
|
title: "Cross-Head Budget Allocation"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["kv-cache", "budget-allocation", "attention"]
|
||||||
|
sources: ["https://arxiv.org/abs/2602.08585"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Cross-Head Budget Allocation
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Cross-Head Budget Allocation(跨头预算分配)是 [[kv-cache-eviction]] 两阶段范式的**第二阶段**:在模型的所有 attention head 之间分配差异化缓存预算。与 [[intra-head-eviction]](在每个 head 内决定保留哪些 token)不同,它关注的是**各 head 应保留多少 token**。
|
||||||
|
|
||||||
|
## 核心挑战
|
||||||
|
|
||||||
|
不同 attention head 的信息密度高度不均匀:
|
||||||
|
|
||||||
|
- 某些 layer/head 组合对长距离依赖至关重要
|
||||||
|
- 浅层和深层 head 可能需要不同的压缩率
|
||||||
|
- 同一 [[heuristic-metric]] 在不同 head 中的可靠性不同
|
||||||
|
|
||||||
|
将预算均匀分配(Uniform)或基于简单先验(PyramidKV)是次优的。
|
||||||
|
|
||||||
|
## 方法演进
|
||||||
|
|
||||||
|
| 代别 | 方法 | 策略 |
|
||||||
|
|------|------|------|
|
||||||
|
| 第一代 | Uniform | 所有 head 等预算 |
|
||||||
|
| 第二代 | [[pyramidkv]] | 静态金字塔形(深层减少预算) |
|
||||||
|
| 第三代 | [[adkv]] | 动态全局 Top-K 基于注意熵 |
|
||||||
|
| 第四代 | LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] |
|
||||||
|
|
||||||
|
## LU-KV 的独特视角
|
||||||
|
|
||||||
|
LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算":
|
||||||
|
|
||||||
|
- 不是比较不同 head 的 token 分数绝对值(不可比)
|
||||||
|
- 而是比较不同 head 的**边际效用曲线** g_{l,h}(i)(可比)
|
||||||
|
- 这解耦了指标选择(intra-head)和预算分配(cross-head)
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[head-level-budget-allocation]] — 同义概念,侧重优化视角
|
||||||
|
- [[intra-head-eviction]] — 两阶段范式的第一阶段
|
||||||
|
- [[marginal-utility]] — 跨头比较的"通用货币"
|
||||||
|
- [[offline-profiling]] — 预计算各 head 的最优预算配置
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
|
||||||
40
concepts/dag-reasoning-evaluation.md
Normal file
40
concepts/dag-reasoning-evaluation.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "DAG-based Reasoning Evaluation"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["reasoning", "evaluation", "graph", "dag"]
|
||||||
|
sources:
|
||||||
|
- "[[me2-trm-reasoning-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# DAG-based Reasoning Evaluation
|
||||||
|
|
||||||
|
将 LLM 推理轨迹建模为有向无环图(DAG)以进行评估的方法。
|
||||||
|
|
||||||
|
## 为什么 DAG
|
||||||
|
|
||||||
|
| 结构 | 优点 | 缺点 |
|
||||||
|
|------|------|------|
|
||||||
|
| 线性链 | 简单 | 无法表达分支/回溯 |
|
||||||
|
| **Tree** | 易构建 | 无法表达合并(多前驱) |
|
||||||
|
| **DAG** | 捕获丰富结构 | 构建更复杂 |
|
||||||
|
| 完全图 | 表达力最强 | 不保持因果顺序 |
|
||||||
|
|
||||||
|
DAG 是表达力与可处理性的实用平衡——推理中常见的"多步归结为一个结论"模式需要合并边,Tree 无法表达;完全图丢失了生成的先后因果顺序。
|
||||||
|
|
||||||
|
## 在 TRM 中的应用
|
||||||
|
|
||||||
|
1. 解析推理轨迹 → 构建 DAG(节点=步骤,边=逻辑依赖)
|
||||||
|
2. 基于 DAG 计算 ME² 四维特征
|
||||||
|
3. Pairwise preference 标注:哪个 DAG 结构更符合 ME² 原则
|
||||||
|
4. 消除直接 prompt-based 比较的 ties 问题(232 ties→0)
|
||||||
|
|
||||||
|
## 关键贡献
|
||||||
|
|
||||||
|
DAG 结构信号是区分推理质量的关键——直接 prompt evaluation 大量 ties 的根本原因是许多推理对差异在于结构组织(冗余分支/逻辑捷径),而非局部步骤内容。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[me2-trm-reasoning-2026]]
|
||||||
|
- [[me2-principle]]
|
||||||
|
- [[thinking-reward-model]]
|
||||||
51
concepts/data-markets.md
Normal file
51
concepts/data-markets.md
Normal file
@@ -0,0 +1,51 @@
|
|||||||
|
---
|
||||||
|
title: "数据市场(Data Markets)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- data-economy
|
||||||
|
- mechanism-design
|
||||||
|
- privacy
|
||||||
|
- market-design
|
||||||
|
sources:
|
||||||
|
- Fallah et al. 2024, arXiv:2402.09697
|
||||||
|
- Jordan, arXiv:2507.06268
|
||||||
|
---
|
||||||
|
|
||||||
|
# 数据市场(Data Markets)
|
||||||
|
|
||||||
|
将**数据作为可交易商品**的市场设计框架。Jordan 在论文 §4.2 中讨论了 Fallah et al. (2024) 的三层数据市场模型。
|
||||||
|
|
||||||
|
## 三层结构
|
||||||
|
|
||||||
|
```
|
||||||
|
用户 (User) → 平台 (Platform) → 第三方数据买家 (Buyer)
|
||||||
|
↑ ↑ ↑
|
||||||
|
支付费用 提供服务 购买数据用于市场研究
|
||||||
|
获取服务 学习改进 但削弱用户隐私
|
||||||
|
```
|
||||||
|
|
||||||
|
## 核心张力
|
||||||
|
|
||||||
|
- **平台**:需要从用户收费维持运营(但通常不够),转而向数据买家出售数据
|
||||||
|
- **用户**:失去隐私控制——数据流向未知第三方,且无额外收益
|
||||||
|
- **解决方向**:平台提供**合约保证的差分隐私**(噪声等级可审计),用户在平台间"选购"隐私-服务的最优组合
|
||||||
|
|
||||||
|
## 隐私作为竞争变量
|
||||||
|
|
||||||
|
当平台竞相提供更强的隐私保证时:
|
||||||
|
- 更多用户被吸引 → 更多数据 → 更好的服务
|
||||||
|
- 但数据买家厌恶噪声 → 支付更低价格
|
||||||
|
- 这是一个**广义 Stackelberg 博弈**,需通过求均衡来理解系统行为
|
||||||
|
|
||||||
|
## 与推荐系统的对比
|
||||||
|
|
||||||
|
经典推荐系统(用户-产品二分图)没有金钱流动——只是让已有实物市场更高效。数据市场引入了**数据本身的定价与交易**——这是 ML 系统需要经济思维的根本原因。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697
|
||||||
|
- [[statistical-contract-theory|统计合同理论]]
|
||||||
|
- [[collectivist-ai|集体主义 AI]]
|
||||||
|
- [[jordan-collectivist-ai-2025|Jordan 论文]]
|
||||||
38
concepts/data-quality-vs-quantity.md
Normal file
38
concepts/data-quality-vs-quantity.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "数据数量 vs 数据质量"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [data-quality, data-engineering, ml-engineering, noise-threshold]
|
||||||
|
sources:
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
---
|
||||||
|
|
||||||
|
# 数据数量 vs 数据质量
|
||||||
|
|
||||||
|
## 核心矛盾
|
||||||
|
|
||||||
|
在互联网规模语料库上训练基础模型时,数据越多越好。但在**应用 ML** 中,这种关系很快就会破裂。
|
||||||
|
|
||||||
|
## 噪声阈值效应
|
||||||
|
|
||||||
|
研究表明(Qi et al., 2018):超过噪声阈值后,添加更多低质量数据会使模型性能**变平或降低**。样本大小和准确性之间的关系在噪声超过一定水平后破裂。
|
||||||
|
|
||||||
|
## 典型场景
|
||||||
|
|
||||||
|
### 医疗 AI
|
||||||
|
最明显的例子——具有专家验证标签的小数据集**一再优于**具有不可靠注释的大数据集。信号清晰 → 模型从较少数据中学到正确模式。
|
||||||
|
|
||||||
|
### 企业"数据沼泽"
|
||||||
|
团队收集所有数据,因为存储便宜 → 认为"总有一天有用"。没有治理:需要数周清理的数据池、增加存储和流程成本、减慢实验速度且不改善结果。
|
||||||
|
|
||||||
|
## 实用问题
|
||||||
|
|
||||||
|
> 我们的噪声有多噪?多清理 1 小时的数据和多收集一天的数据,各能给我们带来什么?
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||||||
|
- [[data-swamp|数据沼泽]]
|
||||||
|
- [[ml-technical-debt|ML 技术债务]]
|
||||||
|
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|
||||||
38
concepts/data-swamp.md
Normal file
38
concepts/data-swamp.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "数据沼泽 — Data Swamp"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [data-engineering, data-quality, data-governance, ml-engineering]
|
||||||
|
sources:
|
||||||
|
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||||
|
---
|
||||||
|
|
||||||
|
# 数据沼泽(Data Swamp)
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
**数据沼泽**是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。
|
||||||
|
|
||||||
|
## 成因
|
||||||
|
|
||||||
|
- 存储成本持续下降 → "先存着再说"的心态
|
||||||
|
- 缺少数据治理框架和生命周期管理
|
||||||
|
- 缺乏与下游 ML 任务的成本关联
|
||||||
|
|
||||||
|
## 代价
|
||||||
|
|
||||||
|
- **清理成本**:数周时间的工程投入
|
||||||
|
- **存储成本**:持续增长的云账单
|
||||||
|
- **流程成本**:慢实验迭代、低质量特征
|
||||||
|
- **机会成本**:模型性能不提升甚至下降
|
||||||
|
|
||||||
|
## 与数据质量的关系
|
||||||
|
|
||||||
|
这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[data-quality-vs-quantity|数据数量 vs 数据质量]]
|
||||||
|
- [[ml-technical-debt|ML 技术债务]]
|
||||||
|
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||||||
63
concepts/dcgwm.md
Normal file
63
concepts/dcgwm.md
Normal file
@@ -0,0 +1,63 @@
|
|||||||
|
---
|
||||||
|
title: "DCGWM (双通道接地世界建模)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: ["world-modeling", "jepa", "representation-learning", "architecture"]
|
||||||
|
sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# DCGWM (Dual-Channel Grounded World Modeling)
|
||||||
|
|
||||||
|
**DCGWM** 是 Hazare (2026) 提出的世界模型架构,通过**分区潜在空间 + 内向梯度流**结构性防止 [[objective-interference-collapse|Objective Interference Collapse]]。
|
||||||
|
|
||||||
|
## 架构核心
|
||||||
|
|
||||||
|
```
|
||||||
|
物理测量 → PGC [内向∇] → Z_p ┐
|
||||||
|
├→ LWME → detach() → GRL → 用户
|
||||||
|
社交模拟 → SBGC [内向∇] → Z_b ┘
|
||||||
|
```
|
||||||
|
|
||||||
|
### 组件
|
||||||
|
|
||||||
|
1. **Latent World Modeling Engine (LWME)**:基于 [[jepa|JEPA]] 的预测引擎,潜在空间 Z = Z_p ⊕ Z_b 通过架构强制分区(独立权重组、独立 LayerNorm、互信息最小化)
|
||||||
|
2. **Physical Grounding Channel (PGC)**:通过 [[vicreg|VICReg]] 风格对齐将外部物理测量接地到 Z_p,[[inward-only-gradient-flow|内向梯度流]] 仅更新 W_p
|
||||||
|
3. **Social-Behavioral Grounding Channel (SBGC)**:将紧急性多智能体模拟输出作为外部接地信号注入 Z_b,内向梯度流仅更新 W_b
|
||||||
|
4. **Inter-Channel Interface Module**:通过一致性 + 解耦的双目标耦合两子空间,无跨子空间梯度
|
||||||
|
5. **Generative Rendering Layer (GRL)**:架构隔离的生成层,接收 detach() 的潜在表示
|
||||||
|
|
||||||
|
### 四个架构不变量
|
||||||
|
|
||||||
|
| # | 不变性 | 含义 |
|
||||||
|
|---|--------|------|
|
||||||
|
| I1 | Z_p, Z_b 无共享参数 | 无直接梯度路径 |
|
||||||
|
| I2 | PGC→W_p only; SBGC→W_b only | 内向梯度流 |
|
||||||
|
| I3 | 接口无跨子空间梯度 | 耦合但不污染 |
|
||||||
|
| I4 | GRL detach() | 生成损失不回流 |
|
||||||
|
|
||||||
|
## 训练阶段
|
||||||
|
|
||||||
|
1. LWME 预训练(仅 L_pred)
|
||||||
|
2. PGC 对齐(仅 W_p)
|
||||||
|
3. SBGC 对齐(仅 W_b)
|
||||||
|
4. 联合微调(全部项 + [[asymmetric-grounding-adherence-loss|L_AGA]])
|
||||||
|
5. GRL 训练(LWME 冻结 + detach)
|
||||||
|
|
||||||
|
## 与相关工作的区别
|
||||||
|
|
||||||
|
- **vs. Domain Expansion**:DCGWM 的子空间锚定于**外部**接地源(而非内部任务目标),内向约束完全阻止跨子空间梯度(而非仅正交投影)
|
||||||
|
- **vs. ThinkJEPA**:ThinkJEPA 的 VLM thinker 信号注入共享 JEPA 预测器→梯度可在两路径间传播。DCGWM 的分区潜在空间 + 内向梯度流结构性防止此干涉
|
||||||
|
- **vs. WMReward/GIRL**:DCGWM 将物理接地作为特例,增加行为接地通道、OIC 形式化、L_AGA、隔离必要性定理
|
||||||
|
|
||||||
|
## 局限性
|
||||||
|
|
||||||
|
OIC 是猜想(非形式证明),行为编码器保真度未验证,接口收敛未证明,隔离必要性依赖未证明假设 A2,零实验验证。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[hazare-dcgwm-2026|DCGWM 论文]]
|
||||||
|
- [[objective-interference-collapse|OIC]]
|
||||||
|
- [[inward-only-gradient-flow|Inward-Only Gradient Flow]]
|
||||||
|
- [[asymmetric-grounding-adherence-loss|L_AGA]]
|
||||||
|
- [[isolation-necessity-theorem|Isolation Necessity]]
|
||||||
34
concepts/deepencoder.md
Normal file
34
concepts/deepencoder.md
Normal file
@@ -0,0 +1,34 @@
|
|||||||
|
---
|
||||||
|
title: "DeepEncoder"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["vision-encoder", "token-compression", "ocr", "vlm"]
|
||||||
|
sources:
|
||||||
|
- "[[unlimited-ocr-works-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# DeepEncoder
|
||||||
|
|
||||||
|
DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器,被 Unlimited OCR 继承(冻结训练)。通过级联窗口注意 ViT 和全局注意,在低激活值下实现 16× token 压缩。
|
||||||
|
|
||||||
|
## 架构
|
||||||
|
|
||||||
|
- 窗口注意 ViT(局部特征提取)
|
||||||
|
- 全局注意(跨窗口信息聚合)
|
||||||
|
- 级联设计:先局部后全局
|
||||||
|
|
||||||
|
## 压缩率的意义
|
||||||
|
|
||||||
|
视觉 token 不参与状态转移(在 R-SWA 中静态编码),压缩率直接决定 prefill 长度上限:
|
||||||
|
- 16× 压缩率 → 10K 视觉 token ≈ 20-30 页(1024×1024)
|
||||||
|
- 10K 视觉 → ~100K 文本解码(1:10 视觉-文本 token 比)
|
||||||
|
|
||||||
|
## 在 Unlimited OCR 中的角色
|
||||||
|
|
||||||
|
训练时冻结 DeepEncoder,仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化,重新训练无必要。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[unlimited-ocr-works-2026]]
|
||||||
|
- [[deepseek-ocr]]
|
||||||
|
- [[reference-sliding-window-attention]]
|
||||||
35
concepts/deepseek-ocr.md
Normal file
35
concepts/deepseek-ocr.md
Normal file
@@ -0,0 +1,35 @@
|
|||||||
|
---
|
||||||
|
title: "DeepSeek OCR"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
|
||||||
|
sources:
|
||||||
|
- "[[unlimited-ocr-works-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# DeepSeek OCR
|
||||||
|
|
||||||
|
DeepSeek OCR(arXiv:2510.18234)是深度求索提出的端到端 OCR 模型,Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder(16× 视觉 token 压缩)和 MoE 解码器(3B 参数,激活 500M)。
|
||||||
|
|
||||||
|
## 关键组件
|
||||||
|
|
||||||
|
### DeepEncoder
|
||||||
|
级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。
|
||||||
|
|
||||||
|
### MoE Decoder
|
||||||
|
3B 参数,MoE 架构,推理时激活仅 500M。大幅降低推理计算量。
|
||||||
|
|
||||||
|
## 作为基线的问题
|
||||||
|
|
||||||
|
标准 MHA 导致 KV cache 随输出长度线性膨胀,推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
|
||||||
|
|
||||||
|
## Unlimited OCR 的改进
|
||||||
|
|
||||||
|
保留 DeepEncoder(冻结),替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[unlimited-ocr-works-2026]]
|
||||||
|
- [[deepencoder]]
|
||||||
|
- [[mixture-of-experts]]
|
||||||
|
- [[end-to-end-ocr]]
|
||||||
40
concepts/default-tools.md
Normal file
40
concepts/default-tools.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "Default Tools — 始终可用的通用工具"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [default-tools, tool-management, dynamic-react, mcp]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2509.20386
|
||||||
|
---
|
||||||
|
|
||||||
|
# Default Tools
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Default Tools 是 Dynamic ReAct 框架中**始终可用的通用工具**——与 meta-tools 一起常驻,无需搜索加载。避免 Agent 为通用任务浪费搜索调用和工具槽位。
|
||||||
|
|
||||||
|
## 两个 Default Tools
|
||||||
|
|
||||||
|
| Tool | 功能 | 替代场景 |
|
||||||
|
|------|------|---------|
|
||||||
|
| **create_table** | 表格数据生成 | 避免搜索 Airtable/Google Sheets/Notion tools |
|
||||||
|
| **web_search** | 通用网页搜索 | 避免搜索 SerpAPI/Firecrawl/Tavily tools |
|
||||||
|
|
||||||
|
## 为什么需要
|
||||||
|
|
||||||
|
观察到的反模式:Agent 经常为通用任务搜索专用工具——如搜索 "financial data APIs" 来找财报信息。有了 `web_search`,Agent 直接搜索网页即可。
|
||||||
|
|
||||||
|
另一个例子:Agent 加载 Airtable、Coda、SerpAPI 来构建对比表——但 `create_table` 就能完成。
|
||||||
|
|
||||||
|
## 设计考量
|
||||||
|
|
||||||
|
- Default tools 是**基础设施级**,不涉及领域语义
|
||||||
|
- 只在 meta-tools 无法覆盖的通用场景生效
|
||||||
|
- 减少"搜索→加载→发现不合适→重新搜索"的浪费循环
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[dynamic-react|Dynamic ReAct]]
|
||||||
|
- [[meta-tools|Meta Tools]]
|
||||||
|
- [[gaurav-dynamic-react-2025|论文]]
|
||||||
62
concepts/delta-rule.md
Normal file
62
concepts/delta-rule.md
Normal file
@@ -0,0 +1,62 @@
|
|||||||
|
---
|
||||||
|
title: "Delta Rule"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["rnn", "gradient-based-memory", "fast-weights"]
|
||||||
|
sources: ["https://arxiv.org/abs/2503.14456"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Delta Rule
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Delta Rule(Delta 规则)是一种基于**梯度下降**的序列记忆更新机制,源于 Widrow-Hoff 的经典学习规则(1960 年),被 DeltaNet (Schlag et al., 2021) 引入现代序列建模。核心理念:将记忆写入视为一个在线优化问题——对记忆矩阵 M 执行梯度下降以最小化预测误差。
|
||||||
|
|
||||||
|
## 基础形式
|
||||||
|
|
||||||
|
```
|
||||||
|
S_t = S_{t-1} - α_t · ∇l(S_{t-1}, k_t, v_t)
|
||||||
|
```
|
||||||
|
|
||||||
|
其中:
|
||||||
|
- S_t 是可学习的矩阵状态(记忆)
|
||||||
|
- k_t 是 query/key,v_t 是 value
|
||||||
|
- α_t 是学习率(通常为标量)
|
||||||
|
- l 是损失函数(通常为均方误差)
|
||||||
|
|
||||||
|
## 直觉
|
||||||
|
|
||||||
|
Delta 规则将序列处理重新理解为**在线梯度下降**:
|
||||||
|
|
||||||
|
1. 遇到输入对 (k_t, v_t)
|
||||||
|
2. 检查当前记忆 S_{t-1} 能否"回忆起" k_t 关联的信息
|
||||||
|
3. 计算预测误差 → 梯度
|
||||||
|
4. 沿负梯度方向更新 S_{t-1} → S_t
|
||||||
|
|
||||||
|
这使模型天然具备**联想记忆(associative memory)**能力。
|
||||||
|
|
||||||
|
## 从 DeltaNet 到 RWKV-7
|
||||||
|
|
||||||
|
| 属性 | DeltaNet | RWKV-7 |
|
||||||
|
|------|---------|--------|
|
||||||
|
| 学习率 | 标量 α | 向量 a_t([[in-context-learning-rate]]) |
|
||||||
|
| 门控 | 无 | 向量值门控 |
|
||||||
|
| Key 解耦 | k_t 同时用于 ± | k_remove ≠ k_add |
|
||||||
|
| 衰减 | 固定 | 动态 w_t |
|
||||||
|
|
||||||
|
RWKV-7 的 [[generalized-delta-rule]] 在保持 Delta 规则核心(梯度下降式记忆更新)的同时,扩展了三个关键自由度。
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[generalized-delta-rule]] — RWKV-7 的扩展版本
|
||||||
|
- [[in-context-learning-rate]] — 标量 → 向量的关键升级
|
||||||
|
- [[vector-valued-gating]] — 逐通道选择性门控
|
||||||
|
- [[dynamic-state-evolution]] — Delta 规则 + 动态衰减
|
||||||
|
- [[peng-rwkv7|RWKV-7 论文]]
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- DeltaNet (Schlag et al., 2021)
|
||||||
|
- Gated DeltaNet (Yang et al., 2024)
|
||||||
|
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)
|
||||||
40
concepts/depth-dilemma.md
Normal file
40
concepts/depth-dilemma.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "深度困境 (Depth Dilemma)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [transformers, depth, state-tracking]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 深度困境 (Depth Dilemma)
|
||||||
|
|
||||||
|
深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**(Mozer et al., 2026)。
|
||||||
|
|
||||||
|
## 困境的本质
|
||||||
|
|
||||||
|
如图 1b 所示(Mozer et al., 2026),状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是:
|
||||||
|
|
||||||
|
1. **浅层盲区**:深层产生的状态信息对后续 token 的浅层不可及
|
||||||
|
2. **级联误差**:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判)
|
||||||
|
3. **深度耗尽**:足够长的序列必然超出模型深度上限
|
||||||
|
|
||||||
|
## 实证证据
|
||||||
|
|
||||||
|
- **Lepori et al. (2025)**:Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答
|
||||||
|
- **Biran et al. (2024)**:状态表示上移导致下游利用困难
|
||||||
|
- **Venhoff et al. (2025)**:深层状态无法可靠整合跨序列信息
|
||||||
|
|
||||||
|
## 为何 Transformer 仍然成功
|
||||||
|
|
||||||
|
1. **上下文检索替代**:将状态追踪问题转化为工作记忆问题(lookback)
|
||||||
|
2. **组合状态**:状态可拆分到多个嵌入中独立更新
|
||||||
|
3. **巧妙捷径**:配对奇偶计算、关联扫描等算法在有限深度内完成计算
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[feedforward-depth-limitation|前馈深度局限]]
|
||||||
|
- [[state-tracking|状态追踪]]
|
||||||
|
- [[chain-of-thought|思维链]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
40
concepts/depth-recurrence.md
Normal file
40
concepts/depth-recurrence.md
Normal file
@@ -0,0 +1,40 @@
|
|||||||
|
---
|
||||||
|
title: "深度循环 (Depth Recurrence)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [transformers, recurrence, depth, inference-time-scaling]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 深度循环 (Depth Recurrence)
|
||||||
|
|
||||||
|
深度循环是[[recurrence-taxonomy|循环分类法]]中沿**层深度轴**的循环模式:激活从深层回流浅层,形成循环 Transformer 块(Mozer et al., 2026)。
|
||||||
|
|
||||||
|
## 典型形式
|
||||||
|
|
||||||
|
对应 Mozer et al. 图 5b 的展开模式:
|
||||||
|
|
||||||
|
- **Looped Transformer**(Giannou et al., 2023; Dehghani et al., 2019):单个/多个层被重复执行
|
||||||
|
- **RINS**(Alabdulmohsin & Zhai, 2025):自适应深度循环
|
||||||
|
- **推理时扩展**(Inference-time scaling):Yang et al. (2024a), Chen et al. (2025b), Geiping et al. (2025) 等
|
||||||
|
|
||||||
|
## 关键局限
|
||||||
|
|
||||||
|
虽然深度循环增强了表达能力(Saunshi et al., 2025),但**不能实现无限状态追踪**:
|
||||||
|
|
||||||
|
> 因为 s(t+1) 必须位于比 s(t) 更高的层——无论循环多少深度,状态表示仍然在垂直方向上移。
|
||||||
|
|
||||||
|
## 应用场景
|
||||||
|
|
||||||
|
- **推理时计算扩展**(test-time compute scaling)
|
||||||
|
- **微调适配**:预训练模型 + 深度循环微调(Koishekenov et al., 2025)
|
||||||
|
- **零训练循环**:纯推理时方法提升推理(Li et al., 2025b; Chen et al., 2026)
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[step-recurrence|步级循环]]
|
||||||
|
- [[recurrence-taxonomy|循环分类法]]
|
||||||
|
- [[coarse-grained-recurrence|粗粒度循环]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
47
concepts/diffusion-transformer.md
Normal file
47
concepts/diffusion-transformer.md
Normal file
@@ -0,0 +1,47 @@
|
|||||||
|
---
|
||||||
|
title: "Diffusion Transformer (DiT)"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["architecture", "diffusion", "transformer", "video-generation"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Diffusion Transformer (DiT)
|
||||||
|
|
||||||
|
**Diffusion Transformer (DiT)** 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。
|
||||||
|
|
||||||
|
## 核心设计
|
||||||
|
|
||||||
|
DiT 将潜空间中的图像/视频表示为 Patch Token 序列,通过标准 Transformer 层处理:
|
||||||
|
- **序列化**:空间+时间维度展开为 token 序列
|
||||||
|
- **条件注入**:时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
|
||||||
|
- **可扩展性**:随参数量的增加性能持续提升
|
||||||
|
|
||||||
|
## 在视频生成中的应用
|
||||||
|
|
||||||
|
视频 DiT 引入**时空注意力**(spatiotemporal attention)处理 3D 潜变量:
|
||||||
|
- **双向时间注意力**:所有帧相互 attend → 非因果,无法流式
|
||||||
|
- **因果/块因果注意力**:仅 attend 历史 → 支持流式生成([[autoregressive-video-generation|自回归视频生成]])
|
||||||
|
|
||||||
|
## 关键效率技术
|
||||||
|
|
||||||
|
由于视频 DiT 的自注意力成本随时空 token 数平方增长,产生了一系列加速方法:
|
||||||
|
- **Step Distillation**:减少去噪步数(如 50→4 步)
|
||||||
|
- **Efficient Attention**:FlashAttention、稀疏注意力
|
||||||
|
- **Cache Optimization**:KV-cache 复用
|
||||||
|
- **Model Compression**:量化、剪枝
|
||||||
|
|
||||||
|
## 代表性模型
|
||||||
|
|
||||||
|
- **Sora (OpenAI)**: 基于 DiT 的视频生成先驱
|
||||||
|
- **LTX-2.3**: 22B 开源音视频 DiT(MaineCoon 的基础模型)
|
||||||
|
- **MaineCoon**: 22B 流式音频视觉 DiT([[maineCoon]]),从 LTX-2.3 初始化
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
- [[flow-matching|Flow Matching]]
|
||||||
|
- [[kv-cache]]
|
||||||
|
- [[block-causal-attention]] — 替代双向时间注意力的流式因果模式
|
||||||
|
- [[wan-streamer]] — 端到端流式交互基础模型中的应用
|
||||||
|
- [[audio-visual-generation|音视频联合生成]]
|
||||||
|
- [[self-resampling|自重采样]]
|
||||||
56
concepts/domain-aware-preference-optimization.md
Normal file
56
concepts/domain-aware-preference-optimization.md
Normal file
@@ -0,0 +1,56 @@
|
|||||||
|
---
|
||||||
|
title: "Domain-Aware Preference Optimization"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["dpo", "preference-optimization", "domain", "lora", "post-training"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Domain-Aware Preference Optimization (域感知偏好优化)
|
||||||
|
|
||||||
|
**Domain-Aware Preference Optimization** 是 [[maineCoon|MaineCoon]] 后训练的第一阶段:为不同社交视频域训练专门的 LoRA [[dpo|DPO]] expert。
|
||||||
|
|
||||||
|
## 为什么需要域感知
|
||||||
|
|
||||||
|
社交视频的质量标准因内容域而异:
|
||||||
|
|
||||||
|
| 域 | 质量重点 |
|
||||||
|
|----|---------|
|
||||||
|
| **Far Shot** | 全身结构稳定性、场景一致性 |
|
||||||
|
| **Multi-Person Dialogue** | 说话人身份一致、轮流发言 |
|
||||||
|
| **Motion** | 大幅度、时序连贯的身体运动 |
|
||||||
|
| **Animation** | 风格一致的非写实渲染 |
|
||||||
|
| **Dance** | 复杂肢体动作 + 音乐节奏同步 |
|
||||||
|
|
||||||
|
直接在所有目标上优化单一模型会引入**冲突偏好信号**。
|
||||||
|
|
||||||
|
## 方法
|
||||||
|
|
||||||
|
### Domain Preference Pairs
|
||||||
|
对每个域 `d`:
|
||||||
|
1. 用域质量过滤器选择高质量真实视频作为 `x⁺`
|
||||||
|
2. 用当前 generator 生成同 prompt 的 `x⁻`
|
||||||
|
3. 周期性用最新域模型刷新 `x⁻`,使偏好数据反映当前 failure modes
|
||||||
|
|
||||||
|
### Domain-Specialized DPO Experts
|
||||||
|
从 native streaming checkpoint `θ₀` 出发,为每个域训练 LoRA adapter:
|
||||||
|
```
|
||||||
|
φ_d = θ₀ + Δ_d
|
||||||
|
```
|
||||||
|
使用 doubled-sequence interface(与 native training 相同),preferred 和 dispreferred 共享 prompt 和 noise,仅历史不同。
|
||||||
|
|
||||||
|
DPO loss:
|
||||||
|
```
|
||||||
|
L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))]
|
||||||
|
```
|
||||||
|
保留少量 reconstruction loss 在 preferred 样本上。
|
||||||
|
|
||||||
|
## 与 ROPD 的关系
|
||||||
|
|
||||||
|
域专家训练完成后,通过 [[reinforced-online-policy-distillation|ROPD]] 合并为单一部署策略。推理时**无需任何 domain adapter**。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[maineCoon|MaineCoon 论文]] Section 3.3
|
||||||
|
- [[reinforced-online-policy-distillation|ROPD]]
|
||||||
|
- [[dpo|Direct Preference Optimization]]
|
||||||
38
concepts/dpo-bias-mitigation.md
Normal file
38
concepts/dpo-bias-mitigation.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "DPO Bias Mitigation"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["dpo", "bias-mitigation", "alignment", "preference-optimization"]
|
||||||
|
sources:
|
||||||
|
- "[[personalization-trap-2025]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# DPO Bias Mitigation
|
||||||
|
|
||||||
|
DPO Bias Mitigation 是 Fang et al. (2025) 提出的通过 [[dpo|Direct Preference Optimization]] 减少用户画像对 LLM 情感推理影响的策略。
|
||||||
|
|
||||||
|
## 偏好数据集构建
|
||||||
|
|
||||||
|
1. **数据源**:Tulu3 中抽样 5000 个问题,随机配对用户画像
|
||||||
|
2. **候选生成**:每个问题生成 5 个响应(3 个被指示检查并声明画像无关 + 2 个对照组)
|
||||||
|
3. **LLM Judge 评分**:三个维度
|
||||||
|
- 正确性:是否覆盖 ground-truth 的所有要点
|
||||||
|
- 偏见检测:画像细节是否影响最终判断
|
||||||
|
- 画像无关声明:是否声明画像信息无关
|
||||||
|
4. **偏好对**:chosen = 正确 + 无偏见 + 声明无关;rejected = 不正确 + 偏见平衡
|
||||||
|
5. **Reward Model 过滤**:保留 chosen positive / rejected negative 且有足够 margin 的对(~20% 保留率)
|
||||||
|
|
||||||
|
## 结果
|
||||||
|
|
||||||
|
| 模型 | STEU Before | STEU After | MMLU | Bias ∆ |
|
||||||
|
|------|-----------|-----------|------|--------|
|
||||||
|
| Gemma-2-2B | 59.50% | 63.70% | +6.7pp | 5.50%→-2.30% |
|
||||||
|
| Qwen-3-1.7B | 60.90% | 60.30% | +6.8pp | 1.70%→0.40% |
|
||||||
|
|
||||||
|
仅 500 样本。Bias Influence 反转(Gemma 不再偏好优势画像),MMLU 同时提升。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[personalization-trap-2025]]
|
||||||
|
- [[persona-invariant-reasoning]]
|
||||||
|
- [[dpo]]
|
||||||
45
concepts/drifting.md
Normal file
45
concepts/drifting.md
Normal file
@@ -0,0 +1,45 @@
|
|||||||
|
---
|
||||||
|
title: "Temporal Drift (时序漂移)"
|
||||||
|
created: 2026-06-20
|
||||||
|
updated: 2026-06-20
|
||||||
|
type: concept
|
||||||
|
tags: ["drift", "autoregressive", "error-accumulation", "generation"]
|
||||||
|
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Temporal Drift (时序漂移)
|
||||||
|
|
||||||
|
**Temporal Drift** 是自回归生成中误差随时间累积导致的内容退化现象:生成的内容逐渐偏离其预期外观、颜色、音频音色和运动模式。
|
||||||
|
|
||||||
|
## 产生机制
|
||||||
|
|
||||||
|
自回归模型逐块生成时,每一块的输入是**模型自己生成的前序内容**,而非 ground truth。前序中的小误差通过注意力机制传播到后续块,形成正反馈循环:
|
||||||
|
|
||||||
|
```
|
||||||
|
误差(t+1) = 固有误差 + 传播(误差(t))
|
||||||
|
```
|
||||||
|
随 t 增大,累积误差使生成内容逐渐偏离目标分布。
|
||||||
|
|
||||||
|
## 在音视频流式生成中的表现
|
||||||
|
|
||||||
|
| 退化类型 | 表现 |
|
||||||
|
|---------|------|
|
||||||
|
| **外观漂移** | 人脸变形、颜色偏移、光照改变 |
|
||||||
|
| **身份漂移** | 角色面部特征逐渐改变 |
|
||||||
|
| **运动漂移** | 动作变得僵硬或不自然 |
|
||||||
|
| **音频漂移** | 音色改变、语音清晰度下降 |
|
||||||
|
| **同步漂移** | 唇音对齐逐渐松动 |
|
||||||
|
|
||||||
|
## 缓解方法
|
||||||
|
|
||||||
|
在 [[maineCoon|MaineCoon]] 中:
|
||||||
|
- [[self-resampling|Self-Resampling]]:训练时暴露退化历史,提升鲁棒性
|
||||||
|
- [[agentic-cache-manager|Agentic Cache Manager]] 的 drift control:
|
||||||
|
- **Statistical Anchor (AdaStat)**:per-channel 统计匹配
|
||||||
|
- **Subject Anchor**:语义主体参考块
|
||||||
|
- [[forward-repair-ladder|Forward-Repair Ladder]]:检测到退化后前向修复
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[autoregressive-video-generation|自回归视频生成]]
|
||||||
|
- [[streaming-generation|流式生成]]
|
||||||
|
- [[maineCoon|MaineCoon]]
|
||||||
57
concepts/dual-collapse.md
Normal file
57
concepts/dual-collapse.md
Normal file
@@ -0,0 +1,57 @@
|
|||||||
|
---
|
||||||
|
title: "Dual Collapse in Latent CoT"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: [latent-cot, optimization, gradient-flow, representation-drift, supervision]
|
||||||
|
sources:
|
||||||
|
- "[[latent-cot-supervision]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Dual Collapse in Latent CoT
|
||||||
|
|
||||||
|
**Dual Collapse**(双重崩溃)是 [[latent-cot-supervision|Latent CoT Supervision]] 论文中诊断的 Outcome Supervision 失败的根源机制,由两个耦合的退化过程组成。
|
||||||
|
|
||||||
|
## 组件一:梯度衰减 (Gradient Attenuation)
|
||||||
|
|
||||||
|
仅使用最终 answer loss 时,反向传播的梯度沿潜链衰减:
|
||||||
|
|
||||||
|
```
|
||||||
|
G(t) = ||∂L_OS / ∂L_t||
|
||||||
|
```
|
||||||
|
|
||||||
|
实证发现:G(1) >> G(2) > ... > G(6) ≈ 0。
|
||||||
|
|
||||||
|
**后果**:
|
||||||
|
- 模型依赖 L1 承载几乎所有推理负担(structural shortcut)
|
||||||
|
- 深层潜状态实际上处于"未训练"状态
|
||||||
|
- 类似 gradient starvation (Pezeshki et al., 2021):主导浅层特征抑制深层依赖的学习
|
||||||
|
|
||||||
|
## 组件二:表征漂移 (Representational Drift / Manifold Drift)
|
||||||
|
|
||||||
|
由于深层潜状态缺乏有效梯度信号,它们的表征在训练过程中偏离显式 CoT 嵌入所定义的语义空间:
|
||||||
|
|
||||||
|
- PCA 可视化显示潜轨迹从语义参考区向外发散
|
||||||
|
- 面积比达 460.3× —— 潜空间探索区域远大于语义有效区域
|
||||||
|
- 失去语义锚定后,潜状态进入无结构高熵区域
|
||||||
|
|
||||||
|
## 交互效应
|
||||||
|
|
||||||
|
两个机制的耦合形成恶性循环:
|
||||||
|
1. 梯度衰减 → 深层潜状态未受训练
|
||||||
|
2. 未受训练的潜状态漂移 → 对 answer loss 贡献降级
|
||||||
|
3. 贡献降级 → 分配更少梯度 → 进一步衰减
|
||||||
|
|
||||||
|
最终:模型通过捷径(shortcut)最小化损失,而非通过真正的多步推理。
|
||||||
|
|
||||||
|
## 解决方案
|
||||||
|
|
||||||
|
过程监督(Process Supervision)通过两个维度打断这个循环:
|
||||||
|
- [[trajectory-supervision|Trajectory Supervision]]:在每个推理步骤注入局部梯度信号,打破梯度衰减
|
||||||
|
- [[space-supervision|Space Supervision]]:通过生成式重建锚定潜状态,防止表征漂移
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[latent-cot-supervision]]
|
||||||
|
- [[trajectory-supervision]]
|
||||||
|
- [[space-supervision]]
|
||||||
62
concepts/dynamic-react.md
Normal file
62
concepts/dynamic-react.md
Normal file
@@ -0,0 +1,62 @@
|
|||||||
|
---
|
||||||
|
title: "Dynamic ReAct — 动态工具选择"
|
||||||
|
created: 2026-06-19
|
||||||
|
updated: 2026-06-19
|
||||||
|
type: concept
|
||||||
|
tags: [dynamic-tool-selection, react, mcp, meta-tools, scalability]
|
||||||
|
sources:
|
||||||
|
- https://arxiv.org/abs/2509.20386
|
||||||
|
---
|
||||||
|
|
||||||
|
# Dynamic ReAct
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Dynamic ReAct 是 Gaurav et al. (2025) 提出的框架:通过 **meta-tools + 语义搜索** 让 ReAct Agent 在数百到数千个 MCP 工具的环境中**按需动态选择和加载工具**,而非全量注入。
|
||||||
|
|
||||||
|
## 核心设计理念
|
||||||
|
|
||||||
|
全量加载不可行 → 需要"管理工具的工具"(meta-tools)→ Agent 自主发现、检索、加载所需工具。
|
||||||
|
|
||||||
|
## 四大核心组件
|
||||||
|
|
||||||
|
| 组件 | 角色 |
|
||||||
|
|------|------|
|
||||||
|
| LLM Client | 轻量 system prompt,核心推理引擎 |
|
||||||
|
| Meta Tools | 管理其他工具的固定工具集(搜索、加载) |
|
||||||
|
| Tool Registry | 全部可用 MCP 工具的仓库(可来自第三方) |
|
||||||
|
| Vector Database | 语义索引和检索,支持 ANN 搜索 |
|
||||||
|
|
||||||
|
## 七个控制杠杆
|
||||||
|
|
||||||
|
LLM Client (1): System Prompt
|
||||||
|
Meta Tools (4): Names, Parameters, Descriptions, Output Format
|
||||||
|
Tool Registry (1): Tool Descriptions
|
||||||
|
Vector DB (1): Retrieval Design
|
||||||
|
|
||||||
|
实践中最可控的两个杠杆:**Meta Tools** 和 **Vector DB**。
|
||||||
|
|
||||||
|
## 五架构 → Search and Load
|
||||||
|
|
||||||
|
五架构渐进演化,最终收敛于 **Search and Load**——两次额外 LLM 调用(search + load),加载 < 5 个工具,减少 50% 加载量且保持准确率。
|
||||||
|
|
||||||
|
→ [[search-and-load|Search and Load 架构]]
|
||||||
|
|
||||||
|
## 关键数据
|
||||||
|
|
||||||
|
- 向量检索优化:Top-5 从 40% → 60%(+50% 相对提升)
|
||||||
|
- 工具加载减少 50%
|
||||||
|
- Scale to thousands of tools
|
||||||
|
|
||||||
|
## 与 MCP-Zero 的关系
|
||||||
|
|
||||||
|
论文直接引用 [[fei-mcp-zero-2025|MCP-Zero]](ref [2])。两者解决同一问题,路线互补:
|
||||||
|
- MCP-Zero:Agent 自主请求 + 层次路由
|
||||||
|
- Dynamic ReAct:meta-tools + 语义搜索 + 精选加载
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[gaurav-dynamic-react-2025|Dynamic ReAct 论文]]
|
||||||
|
- [[meta-tools|Meta Tools]]
|
||||||
|
- [[search-and-load|Search and Load]]
|
||||||
|
- [[fei-mcp-zero-2025|MCP-Zero]]
|
||||||
52
concepts/dynamic-state-evolution.md
Normal file
52
concepts/dynamic-state-evolution.md
Normal file
@@ -0,0 +1,52 @@
|
|||||||
|
---
|
||||||
|
title: "Dynamic State Evolution"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: ["rwkv", "state-tracking", "recurrence", "sequence-modeling"]
|
||||||
|
sources: ["https://arxiv.org/abs/2503.14456"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Dynamic State Evolution
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Dynamic State Evolution(动态状态演化)是 RWKV-7 对序列模型中隐状态更新机制的重新表述。在传统 RNN(LSTM/GRU)和 LTI SSM(S4)中,状态演化规则是固定的;RWKV-7 通过 [[generalized-delta-rule]] 使状态演化变为**输入依赖 + 向量值 + 可学习**的三维动态过程。
|
||||||
|
|
||||||
|
## 核心组成
|
||||||
|
|
||||||
|
```
|
||||||
|
S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t
|
||||||
|
↑ ↑
|
||||||
|
状态衰减(门控) 新信息写入(Delta)
|
||||||
|
```
|
||||||
|
|
||||||
|
三部分协同:
|
||||||
|
|
||||||
|
1. **动态衰减**(`diag(w_t)`):逐通道、输入依赖的遗忘 → [[vector-valued-gating]]
|
||||||
|
2. **选择性移除**(`κ̂^T (a_t ⊙ κ̂)`):基于内容匹配的旧信息擦除 → [[in-context-learning-rate]]
|
||||||
|
3. **新信息写入**(`v_t^T · k_t`):通过外积将新 (k, v) 对写入状态 → [[delta-rule]]
|
||||||
|
|
||||||
|
## 表达力来源
|
||||||
|
|
||||||
|
传统 RNN 的状态演化局限于标量门控 → 表达能力受限于 TC^0。
|
||||||
|
|
||||||
|
RWKV-7 的动态状态演化实现了三个突破:
|
||||||
|
- **向量值门控** → 逐通道差异化更新
|
||||||
|
- **广义特征值** → 进化矩阵可拥有 [0,1] 外的特征值
|
||||||
|
- **Delta 规则** → 梯度下降式的联想记忆写入
|
||||||
|
|
||||||
|
这些共同使 RWKV-7 首次实现了超越 TC^0 的并行化 RNN 表达力 → 达到 NC^1。
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[generalized-delta-rule]] — 动态状态演化的完整数学形式
|
||||||
|
- [[vector-valued-gating]] — 演化的衰减部分
|
||||||
|
- [[in-context-learning-rate]] — 演化的更新速度控制
|
||||||
|
- [[regular-language-recognition]] — 动态演化的理论成果
|
||||||
|
- [[state-tracking]] — 演化支持的核心能力
|
||||||
|
- [[peng-rwkv7|RWKV-7 论文]]
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)
|
||||||
43
concepts/dynamic-token-limit.md
Normal file
43
concepts/dynamic-token-limit.md
Normal file
@@ -0,0 +1,43 @@
|
|||||||
|
---
|
||||||
|
title: "动态 Token 限制 (Dynamic Token Limit)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [token-efficiency, hybrid-reasoning, reward-hacking]
|
||||||
|
sources:
|
||||||
|
- gan-thinking-based-non-thinking-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 动态 Token 限制 (Dynamic Token Limit)
|
||||||
|
|
||||||
|
动态 Token 限制是 TNT 的核心技术:为**每个查询**单独设定非思考模式响应的最大 token 使用量,而非所有查询使用统一上限(Gan et al., 2026)。
|
||||||
|
|
||||||
|
## 为什么需要动态限制
|
||||||
|
|
||||||
|
### 统一上限的失败(AdaptThink 方案)
|
||||||
|
Zhang et al. (2025) 的 AdaptThink 为所有查询设定同一个较小的 max token:
|
||||||
|
- 简单查询的思考模式 solution 可能**少于** 100 tokens
|
||||||
|
- 复杂查询的自然非思考回答可能需要 **300+ tokens**
|
||||||
|
- 统一上限要么**漏检**简单查询的 reward hacking,要么**误伤**复杂查询的合法非思考响应
|
||||||
|
|
||||||
|
### TNT 的动态方案
|
||||||
|
```
|
||||||
|
L_N^x = ω × mean(solution_length of thinking_mode_responses for x)
|
||||||
|
```
|
||||||
|
- 简单查询 → L_N^x 小 → 严格检测 reward hacking
|
||||||
|
- 复杂查询 → L_N^x 大 → 给予合法非思考响应足够空间
|
||||||
|
- ω = 2 提供 2 倍容错边界,防止轻微偏差被误判
|
||||||
|
|
||||||
|
## 实现细节
|
||||||
|
|
||||||
|
- 每次训练步对每个 prompt x 采样 K 个响应
|
||||||
|
- 从思考模式响应集合 M_T^x 计算平均 solution 长度
|
||||||
|
- 若 M_T^x 为空(on-policy 采样未产生思考响应),回退到 L_∅ = 1000
|
||||||
|
- 使用 token 级策略梯度(GRPO)进行训练
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[thinking-based-non-thinking|TNT]]
|
||||||
|
- [[reward-hacking|Reward Hacking]]
|
||||||
|
- [[token-efficiency|Token 效率]]
|
||||||
|
- [[gan-thinking-based-non-thinking-2026|TNT 论文]]
|
||||||
42
concepts/e-values.md
Normal file
42
concepts/e-values.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "E-values(证据值)"
|
||||||
|
created: 2026-06-21
|
||||||
|
updated: 2026-06-21
|
||||||
|
type: concept
|
||||||
|
tags:
|
||||||
|
- statistics
|
||||||
|
- hypothesis-testing
|
||||||
|
- sequential-analysis
|
||||||
|
- uncertainty
|
||||||
|
sources:
|
||||||
|
- Ramdas & Wang 2025, arXiv:2410.23614
|
||||||
|
- Bates et al. 2024
|
||||||
|
- Jordan, arXiv:2507.06268
|
||||||
|
---
|
||||||
|
|
||||||
|
# E-values(证据值)
|
||||||
|
|
||||||
|
一种替代 p-values 的假设检验框架。E-value 是零假设下**期望 ≤1** 的非负随机变量,具有"赌博解释"——在零假设为真时,财富的期望乘性因子 ≤1。
|
||||||
|
|
||||||
|
## 与 P-values 的对比
|
||||||
|
|
||||||
|
| | P-value | E-value |
|
||||||
|
|---|---|---|
|
||||||
|
| 定义 | 零假设下的尾部概率 | 零假设下的期望 ≤1 |
|
||||||
|
| 直觉 | "数据多极端" | "证据有多强" |
|
||||||
|
| 顺序更新 | 不自然(需多重检验校正) | 自然(乘性累积) |
|
||||||
|
| 任意停止 | 无效(p-hacking) | 有效(可选停止定理) |
|
||||||
|
|
||||||
|
## 顺序场景的威力
|
||||||
|
|
||||||
|
当数据按时间顺序到达时,E-values 的自然形式是**非负上鞅**(nonnegative supermartingale)——在任何停止时间的期望 ≤1。这使 E-values 天然适合**可选停止**(optional stopping),避免了 p-hacking 问题。
|
||||||
|
|
||||||
|
## 与经济学的连接
|
||||||
|
|
||||||
|
[[statistical-contract-theory|统计合同理论]] 的核心定理:在顺序假设检验的合同设计中,激励相容 ⇔ 选项可表达为 E-values。这是推断工具与经济激励的深层等价关系。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Ramdas & Wang (2025). Hypothesis Testing with E-values. arXiv:2410.23614
|
||||||
|
- [[statistical-contract-theory|统计合同理论]]
|
||||||
|
- [[jordan-collectivist-ai-2025|Jordan 论文]]
|
||||||
41
concepts/edge-of-stability.md
Normal file
41
concepts/edge-of-stability.md
Normal file
@@ -0,0 +1,41 @@
|
|||||||
|
---
|
||||||
|
title: "Edge of Stability (EoS)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: [optimization, gradient-descent, deep-learning, sharpness, bifurcation]
|
||||||
|
sources: [gan-bifurcation-eos]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Edge of Stability (EoS)
|
||||||
|
|
||||||
|
Edge of Stability (EoS) 是深度学习中梯度下降训练的一个反直觉现象:模型在 **sharpness λ 超过经典收敛阈值 2/η** 的情况下仍能稳定训练,loss 非单调但长期下降。该现象由 Cohen et al. (2022) 首次系统实证记录。
|
||||||
|
|
||||||
|
## 核心机制
|
||||||
|
|
||||||
|
经典梯度下降分析要求学习率 η 与 sharpness λ(Hessian 最大特征值)满足 **ηλ < 2** 才能保证收敛。但在实践中,深度网络训练时 sharpness 会上升至超过该阈值,loss 出现振荡,却仍能长期收敛。这种"在稳定边缘运行"的行为无法用经典凸优化理论解释。
|
||||||
|
|
||||||
|
EoS 的典型动力学阶段:
|
||||||
|
1. **渐进锐化 (Progressive Sharpening)**:训练初期 sharpness 单调上升,穿过 2/η 阈值进入 EoS 状态
|
||||||
|
2. **自稳定 (Self-Stabilization)**:sharpness 在阈值附近振荡,loss 非单调但呈下降趋势
|
||||||
|
3. **最终收敛**:sharpness 回落至阈值以下,迭代收敛到极小值流形
|
||||||
|
|
||||||
|
## 理论解释谱系
|
||||||
|
|
||||||
|
- **三阶自稳定** (Damian et al., 2023):loss Taylor 展开的三阶项贡献 sharpness 自稳定
|
||||||
|
- **多尺度损失结构** (Ma et al., 2022):次二次性质阻止发散
|
||||||
|
- **极简分析** (Zhu et al., Wang et al., Song & Yun, Gan 2026):在低维结构化损失上严格证明 EoS 收敛
|
||||||
|
- **分岔理论框架** (Gan 2026b, [[gan-bifurcation-eos|本文]]):将 EoS 稳定性归结为 flip 分岔的 Lyapunov 系数符号
|
||||||
|
|
||||||
|
## 与过参数化的关联
|
||||||
|
|
||||||
|
过参数化网络存在 [[manifold-of-minimizers|极小值流形]],Hessian 秩亏。EoS 动力学可分解为流形法向的周期振荡和切向的 sharpness 下降漂移——两者的协同作用产生收敛。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Cohen et al. (2022). Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability.
|
||||||
|
- Damian et al. (2023). Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability.
|
||||||
|
- [[gan-bifurcation-eos|Gan (2026b) — 分岔理论框架]]
|
||||||
|
- [[product-stability|Gan (2026) — 乘积稳定性]]
|
||||||
|
- [[flip-bifurcation]]
|
||||||
|
- [[first-lyapunov-coefficient]]
|
||||||
43
concepts/ellipsis-prompt.md
Normal file
43
concepts/ellipsis-prompt.md
Normal file
@@ -0,0 +1,43 @@
|
|||||||
|
---
|
||||||
|
title: "省略号提示 (Ellipsis Prompt)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [prompting, hybrid-reasoning, sampling]
|
||||||
|
sources:
|
||||||
|
- gan-thinking-based-non-thinking-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 省略号提示 (Ellipsis Prompt)
|
||||||
|
|
||||||
|
Ellipsis Prompt 是 Tu et al. (2025) 在 AutoThink 中引入的特殊提示格式,用于**在不使用 off-policy 采样的条件下实现非思考模式的采样**。TNT 沿用了此技术(Gan et al., 2026)。
|
||||||
|
|
||||||
|
## 格式
|
||||||
|
|
||||||
|
```
|
||||||
|
x = [x_1, ..., x_n, <think>, \n, ..., \n]
|
||||||
|
```
|
||||||
|
|
||||||
|
在查询末尾和 `<think>` 后附加多个换行符。
|
||||||
|
|
||||||
|
## 工作原理
|
||||||
|
|
||||||
|
通常,LRM 的输入格式为 `[query, <think>]`——模型自然地以思考内容开始生成。省略号提示通过追加空行,为模型创造了一个**可能的"跳过思考"路径**:
|
||||||
|
|
||||||
|
- 标准路径:`<think>` → "Wait, let me..."(思考模式)
|
||||||
|
- 省略号路径:`<think>` → 直接以 `</think>` 开始(非思考模式)
|
||||||
|
|
||||||
|
## 在 TNT 中的使用
|
||||||
|
|
||||||
|
TNT 使用省略号提示使得每个 prompt x 的 K 次采样可能**同时包含**思考和非思考模式响应——这对于 [[dynamic-token-limit|动态 Token 限制]] 的计算至关重要:需要从思考模式响应的 solution 长度推导非思考模式的上限。
|
||||||
|
|
||||||
|
## 优势
|
||||||
|
|
||||||
|
相比需要修改 tokenizer 的方案(如添加 `<short>` token),省略号提示**不需要修改 tokenizer**,直接兼容现有 LRM。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[hybrid-reasoning-models|混合推理模型]]
|
||||||
|
- [[non-thinking-mode|非思考模式]]
|
||||||
|
- [[dynamic-token-limit|动态 Token 限制]]
|
||||||
|
- [[gan-thinking-based-non-thinking-2026|TNT 论文]]
|
||||||
39
concepts/emotional-reasoning-bias.md
Normal file
39
concepts/emotional-reasoning-bias.md
Normal file
@@ -0,0 +1,39 @@
|
|||||||
|
---
|
||||||
|
title: "Emotional Reasoning Bias"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["emotional-intelligence", "bias", "llm-safety"]
|
||||||
|
sources:
|
||||||
|
- "[[personalization-trap-2025]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Emotional Reasoning Bias
|
||||||
|
|
||||||
|
Emotional Reasoning Bias 指 LLM 在情感推理任务中对不同人口统计特征的画像表现出系统性偏差——相同的情感场景因用户性别/年龄/宗教/种族而产生不同的准确率。
|
||||||
|
|
||||||
|
## 关键发现
|
||||||
|
|
||||||
|
### 宗教效应
|
||||||
|
穆斯林画像系统性地得分偏低:Mistral Large V2 β=-0.061 (p<0.001),Claude 3.7 thinking β=-0.013 (p=0.134)。
|
||||||
|
|
||||||
|
### 性别效应
|
||||||
|
非二元性别在不同模型中效果方向相反:
|
||||||
|
- Claude 3.7 no-think: β=+0.018 (p=0.007) — 正面
|
||||||
|
- Qwen3-4B think: β=-0.030 (p=0.006) — 负面
|
||||||
|
|
||||||
|
### 年龄效应
|
||||||
|
65+ 画像在 DeepSeek-R1-Distill-Llama 中显著偏低 (β=-0.047, p=0.006)。
|
||||||
|
|
||||||
|
### 情绪建议中的偏见
|
||||||
|
Claude 3.7 对女性/非二元性别的建议质量显著低于男性(β=-0.102, p<0.001),但 Qwen3-4B Thinking 对女性/非二元性别更友好。
|
||||||
|
|
||||||
|
## 启示
|
||||||
|
|
||||||
|
"Thinking" 模型(推理模型)通常表现出更低偏见,但偏见方向无统一模式——各模型对不同群体的偏见方向不同,无法简单归因于单一训练数据源。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[personalization-trap-2025]]
|
||||||
|
- [[personalization-trap]]
|
||||||
|
- [[user-memory-bias]]
|
||||||
|
- [[intersectional-persona-evaluation]]
|
||||||
54
concepts/empirical-fisher.md
Normal file
54
concepts/empirical-fisher.md
Normal file
@@ -0,0 +1,54 @@
|
|||||||
|
---
|
||||||
|
title: "Empirical Fisher (经验 Fisher 信息)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: ["computation", "estimation", "fisher-metric", "information-geometry"]
|
||||||
|
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Empirical Fisher (经验 Fisher 信息)
|
||||||
|
|
||||||
|
**Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
给定样本 {x_i}ⁿ_{i=1} ∼ p_θ,经验 Fisher 矩阵为:
|
||||||
|
|
||||||
|
```
|
||||||
|
Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
|
||||||
|
```
|
||||||
|
|
||||||
|
这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
|
||||||
|
|
||||||
|
## 与总体 Fisher 的异同
|
||||||
|
|
||||||
|
| 方面 | 经验 Fisher | 总体 Fisher |
|
||||||
|
|------|-----------|------------|
|
||||||
|
| 计算 | 可计算(n 个样本) | 需解析或 Monte Carlo |
|
||||||
|
| 偏差 | 有限样本偏差 | 无偏(定义) |
|
||||||
|
| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
|
||||||
|
| 使用场景 | 自然梯度、K-FAC | 理论分析 |
|
||||||
|
|
||||||
|
## 在 Fisher Width 估计中的角色
|
||||||
|
|
||||||
|
Vu (2026) 的 Fisher width 估计器使用经验 Fisher:
|
||||||
|
|
||||||
|
1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width
|
||||||
|
2. **低秩近似**:对 Ĝ(θ) 做截断 SVD,利用 Fisher 谱的快速衰减
|
||||||
|
3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化
|
||||||
|
|
||||||
|
关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖Ĝ−G‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率),Fisher width 的经验估计一致收敛到总体值。
|
||||||
|
|
||||||
|
## MNIST 上验证
|
||||||
|
|
||||||
|
- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹
|
||||||
|
- Softmax 回归:Fisher 谱同样快速衰减
|
||||||
|
- 岭回归:估计器在不同正则化强度下稳定
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[vu-fisher-width-2026|Fisher Width 论文]]
|
||||||
|
- [[fisher-information-metric|Fisher Information Metric]]
|
||||||
|
- [[natural-gradient-descent|Natural Gradient Descent]]
|
||||||
|
- [[fisher-lipschitz|Fisher-Lipschitz]]
|
||||||
38
concepts/end-to-end-ocr.md
Normal file
38
concepts/end-to-end-ocr.md
Normal file
@@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: "End-to-End OCR"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["ocr", "end-to-end", "vlm", "document-parsing"]
|
||||||
|
sources:
|
||||||
|
- "[[unlimited-ocr-works-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# End-to-End OCR
|
||||||
|
|
||||||
|
End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式,利用 VLM/LLM 的强大解码能力,在单次前向传播中解析整页内容。
|
||||||
|
|
||||||
|
## 与 Pipeline 范式的对比
|
||||||
|
|
||||||
|
| 维度 | Pipeline OCR | End-to-End OCR |
|
||||||
|
|------|-------------|----------------|
|
||||||
|
| 架构 | 检测模型 + 多识别模型 + 启发式策略 | 单一统一模型 |
|
||||||
|
| 解码次数 | 多次(检测→裁剪→识别) | 单次 |
|
||||||
|
| 模型要求 | 低 | 高(需更大模型容量) |
|
||||||
|
| 训练难度 | 低 | 高 |
|
||||||
|
| 对 VLM 发展的启发 | 有限 | 可直接推动通用 VLM 进步 |
|
||||||
|
|
||||||
|
## 核心模块
|
||||||
|
|
||||||
|
1. **High-compression Encoder**(如 [[deepencoder]]):提取并压缩图像信息,决定解码效率的上限
|
||||||
|
2. **High-efficiency Decoder**(如 R-SWA):直接影响推理成本和生成长度上限
|
||||||
|
|
||||||
|
## 当前 SOTA
|
||||||
|
|
||||||
|
Unlimited OCR(v1.5: 93.23%, v1.6: 93.54%)、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[unlimited-ocr-works-2026]]
|
||||||
|
- [[deepseek-ocr]]
|
||||||
|
- [[deepencoder]]
|
||||||
|
- [[omnidocbench]]
|
||||||
67
concepts/end-to-end-streaming-interaction.md
Normal file
67
concepts/end-to-end-streaming-interaction.md
Normal file
@@ -0,0 +1,67 @@
|
|||||||
|
---
|
||||||
|
title: "End-to-End Streaming Interaction"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: [streaming, multimodal, interaction, end-to-end, real-time]
|
||||||
|
sources:
|
||||||
|
- "[[wan-streamer]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# End-to-End Streaming Interaction
|
||||||
|
|
||||||
|
**End-to-End Streaming Interaction**(端到端流式交互)是一种设计范式:将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中,而非由独立的模块(VAD、ASR、LLM、TTS、动画渲染)级联组成。
|
||||||
|
|
||||||
|
## 核心原则
|
||||||
|
|
||||||
|
Wan-Streamer 提出的流式契约(streaming contract):
|
||||||
|
|
||||||
|
> 每个组件必须因果地运行,每个新观测到的单元必须立即可用,每个生成的单元必须被发射并提交回交互历史。
|
||||||
|
|
||||||
|
## 为什么需要端到端
|
||||||
|
|
||||||
|
级联系统的根本问题不在于单个模块的性能,而在于**模块边界的系统性代价**:
|
||||||
|
|
||||||
|
1. **延迟累积**:每个模块都有独立的推理延迟,相加后远超端到端
|
||||||
|
2. **误差传播**:ASR 的转录错误导致 LLM 误解意图,TTS 的韵律偏差导致不自然
|
||||||
|
3. **信息瓶颈**:文本作为中间表示丢失了语音的韵律、情感、语调信息;丢失了视频的表情、姿态、凝视信息
|
||||||
|
4. **无法学习全局行为**:响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习
|
||||||
|
|
||||||
|
## 设计要素
|
||||||
|
|
||||||
|
### 1. 全因果架构
|
||||||
|
- 因果编码器/解码器:每个流式单元到达即可编码
|
||||||
|
- 因果 VAE:流式潜编码
|
||||||
|
- Block-causal attention:流式多模态 token 调度
|
||||||
|
|
||||||
|
### 2. 统一的多模态序列表示
|
||||||
|
- 视觉、音频、文本 token 在同一条因果时间线上交织
|
||||||
|
- 用户输入和 Agent 输出 token 共享同一个序列上下文
|
||||||
|
|
||||||
|
### 3. 全历史自回归流式
|
||||||
|
- 每个生成的单元被 commit 回历史
|
||||||
|
- 为后续单元的生成提供完整上下文
|
||||||
|
- 支持长对话中的身份保持、场景记忆、节律连贯
|
||||||
|
|
||||||
|
### 4. 联合优化
|
||||||
|
- 语音生成和视频生成共享同一因果上下文
|
||||||
|
- 嘴唇运动、面部动态、韵律天然同步(而非事后对齐)
|
||||||
|
- 聆听行为和说话行为在同一个过程中学习
|
||||||
|
|
||||||
|
## 与传统范式的对比
|
||||||
|
|
||||||
|
| 维度 | 级联范式 | 端到端流式 |
|
||||||
|
|------|---------|-----------|
|
||||||
|
| 感知 | 独立 ASR/CV 模块 | 统一因果编码 |
|
||||||
|
| 推理 | 独立 LLM | Transformer 内联合 |
|
||||||
|
| 生成 | 独立 TTS/动画 | 联合 flow-matching |
|
||||||
|
| 时机 | 外部 VAD+规则 | 模型学习 |
|
||||||
|
| 同步 | 事后对齐 | 因果原生同步 |
|
||||||
|
| 延迟 | 各模块之和 | 流水线重叠 |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[wan-streamer]] — 该范式的代表性实现
|
||||||
|
- [[full-duplex-interaction]]
|
||||||
|
- [[block-causal-attention]]
|
||||||
|
- [[thinker-performer-pipeline]]
|
||||||
70
concepts/engram.md
Normal file
70
concepts/engram.md
Normal file
@@ -0,0 +1,70 @@
|
|||||||
|
---
|
||||||
|
title: "Engram (Conditional Memory Module)"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: ["architecture", "memory", "transformer", "sparsity"]
|
||||||
|
sources:
|
||||||
|
- "[[engram-conditional-memory-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Engram (Conditional Memory Module)
|
||||||
|
|
||||||
|
Engram 是 DeepSeek-AI 提出的条件记忆模块,将经典 N-gram 嵌入现代化为 Transformer 的静态知识查找原语。
|
||||||
|
|
||||||
|
## 架构:两阶段流水线
|
||||||
|
|
||||||
|
### 阶段 1:Sparse Retrieval(稀疏检索)
|
||||||
|
|
||||||
|
**Tokenizer Compression**:
|
||||||
|
- 预计算满射函数 P: V → V',基于 NFKC 归一化 + 小写化
|
||||||
|
- 将语义等价但 token ID 不同的词(如 "Apple" vs " apple")映射到同一规范 ID
|
||||||
|
- 对 128k tokenizer 实现 23% 有效词表缩减
|
||||||
|
|
||||||
|
**Multi-Head Hashing**:
|
||||||
|
- 每个 N-gram 阶数 n ∈ {2,3,...N} 用 K 个独立哈希头
|
||||||
|
- 乘性 XOR 哈希 𝜑_{n,k} 将压缩 N-gram 映射到嵌入表 E_{n,k}[z](素数大小 M_{n,k})
|
||||||
|
- 所有检索向量拼接为记忆向量 e_t ∈ R^{d_mem}
|
||||||
|
- 碰撞通过上下文门控消解
|
||||||
|
|
||||||
|
### 阶段 2:Context-aware Fusion(上下文感知融合)
|
||||||
|
|
||||||
|
**Gating**:
|
||||||
|
- h_t(隐藏状态,含全局上下文)→ Query
|
||||||
|
- e_t(静态记忆)→ Key, Value(经可学习投影 W_K, W_V)
|
||||||
|
- 标量门 α_t = σ(RMSNorm(h_t)^T · RMSNorm(k_t) / √d)
|
||||||
|
- 输出 ṽ_t = α_t · v_t:若记忆与上下文矛盾,门控趋近于 0
|
||||||
|
|
||||||
|
**Depthwise Causal Convolution**:
|
||||||
|
- Kernel=4, dilation=max N-gram order, SiLU 激活
|
||||||
|
- 扩展感受野,增强非线性
|
||||||
|
- 残差连接:Y = SiLU(Conv1D(RMSNorm(Ṽ))) + Ṽ
|
||||||
|
|
||||||
|
### 集成到 Transformer
|
||||||
|
|
||||||
|
```
|
||||||
|
H(ℓ) ← H(ℓ) + Y (残差)
|
||||||
|
→ Attention
|
||||||
|
→ MoE
|
||||||
|
```
|
||||||
|
|
||||||
|
**非全层应用**:Engram 只插入特定层,具体位置由系统延迟约束决定。
|
||||||
|
|
||||||
|
## 基础设施感知设计
|
||||||
|
|
||||||
|
- **确定性寻址**:不同于 MoE 的动态路由,Engram 使用确定性哈希 → 支持运行时预取
|
||||||
|
- **内存层次**:大嵌入表可卸载到主机内存,通过预取重叠通信与计算
|
||||||
|
- **开销**:100B 参数嵌入表卸载到主机内存的开销 <3%
|
||||||
|
|
||||||
|
## 关键设计要点
|
||||||
|
|
||||||
|
1. **静态 vs 动态分离**:记忆是静态的(N-gram 嵌入),但通过上下文门控获得动态适应性
|
||||||
|
2. **哈希碰撞不是 bug**:Multi-head hashing + 上下文门控共同消解碰撞噪声
|
||||||
|
3. **深度而非宽度**:Engram 的价值不在存更多事实,在释放计算深度用于推理
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[engram-conditional-memory-2026]]
|
||||||
|
- [[conditional-memory]]
|
||||||
|
- [[mixture-of-experts]]
|
||||||
|
- [[ngram-embedding]]
|
||||||
|
- [[sparsity-allocation]]
|
||||||
50
concepts/enhanced-state-space-models.md
Normal file
50
concepts/enhanced-state-space-models.md
Normal file
@@ -0,0 +1,50 @@
|
|||||||
|
---
|
||||||
|
title: "增强状态空间模型 (Enhanced State-Space Models)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [ssm, state-tracking, expressivity, architecture]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 增强状态空间模型 (Enhanced State-Space Models)
|
||||||
|
|
||||||
|
增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体,是 Mozer et al. (2026) 提出的首要研究方向。
|
||||||
|
|
||||||
|
## 为何需要增强
|
||||||
|
|
||||||
|
标准线性 SSM 的表达能力**不超过**标准 Transformer(Merrill et al., 2025)。增强 SSM 通过引入非线性/结构化更新突破此限制。
|
||||||
|
|
||||||
|
## 关键架构
|
||||||
|
|
||||||
|
### DeltaNet 及其扩展
|
||||||
|
- **DeltaNet**(Schlag et al., 2021):Delta 规则驱动的快速权重更新
|
||||||
|
- **负特征值扩展**(Grazzi et al., 2025):将特征值范围扩展到负数 → 表达能力超越标准 Transformer,同时保持并行训练能力
|
||||||
|
- **门控 DeltaNet**(Yang et al., 2025a):与标准 Transformer 块混合时,理论和实践均更强大(Merrill et al., 2026)
|
||||||
|
|
||||||
|
### RWKV-7
|
||||||
|
- **Peng et al., 2025**:广义 Delta 规则 + 向量值门控,首个被证明超越 TC^0(NC^1)的并行化可训练 RNN
|
||||||
|
- 可识别所有正则语言,单层可解决 S5 状态追踪
|
||||||
|
- 多语言 2.9B SoTA
|
||||||
|
- 论文:[[peng-rwkv7|RWKV-7 "Goose"]]
|
||||||
|
|
||||||
|
### PaTH Attention
|
||||||
|
- **Yang et al., 2025b**:路径注意力机制,具备增强的状态追踪能力
|
||||||
|
|
||||||
|
### 门控线性注意力
|
||||||
|
- **Yang et al., 2024b**:在线性注意力中加入门控机制
|
||||||
|
- **Gated Linear Attention + Transformer 混合**(Merrill et al., 2026)
|
||||||
|
|
||||||
|
## 核心优势
|
||||||
|
|
||||||
|
- **并行训练** + **超越 Transformer 的表达力**(DeltaNet 负特征值扩展)
|
||||||
|
- **竞争性规模性能**(RWKV-7 等)
|
||||||
|
- **灵活混合**:与标准 Transformer 块堆叠
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[state-space-models|状态空间模型]]
|
||||||
|
- [[step-recurrence|步级循环]]
|
||||||
|
- [[state-tracking|状态追踪]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
30
concepts/extended-kalman-filter.md
Normal file
30
concepts/extended-kalman-filter.md
Normal file
@@ -0,0 +1,30 @@
|
|||||||
|
---
|
||||||
|
title: "扩展 Kalman 滤波"
|
||||||
|
created: 2026-06-22
|
||||||
|
updated: 2026-06-22
|
||||||
|
type: concept
|
||||||
|
tags: [state-estimation, filtering, nonlinear-systems]
|
||||||
|
sources: [nano-filter]
|
||||||
|
---
|
||||||
|
|
||||||
|
# 扩展 Kalman 滤波
|
||||||
|
|
||||||
|
Extended Kalman Filter (EKF) 是最早的非线性 [[kalman-filter|KF]] 扩展,通过对非线性函数做一阶 Taylor 展开实现局部线性化。
|
||||||
|
|
||||||
|
## 核心机制
|
||||||
|
|
||||||
|
对非线性系统 $x_t = f(x_{t-1}) + \xi_t$, $y_t = g(x_t) + \zeta_t$:
|
||||||
|
- 在**当前状态估计点**处计算 Jacobian: $F_t = \frac{\partial f}{\partial x}\big|_{\hat{x}_{t-1}}$, $G_t = \frac{\partial g}{\partial x}\big|_{\hat{x}_{t|t-1}}$
|
||||||
|
- 用线性化模型 $x_t \approx F_t x_{t-1} + c$, $y_t \approx G_t x_t + d$ 运行标准 KF
|
||||||
|
|
||||||
|
## 局限性
|
||||||
|
|
||||||
|
- Taylor 展开仅为一阶近似,强非线性下误差大
|
||||||
|
- 需要计算 Jacobian 矩阵(对高维系统代价高)
|
||||||
|
- [[nano-filter|NANO]] 证明 EKF 的线性化误差是 Gaussian 滤波次优性的根源,提出直接优化的替代方案
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[kalman-filter|Kalman Filter]]
|
||||||
|
- [[gaussian-filtering|Gaussian Filtering]]
|
||||||
|
- [[unscented-kalman-filter|UKF]]
|
||||||
|
- [[nano-filter|NANO Filter]]
|
||||||
57
concepts/fact-augmented-key-expansion.md
Normal file
57
concepts/fact-augmented-key-expansion.md
Normal file
@@ -0,0 +1,57 @@
|
|||||||
|
---
|
||||||
|
title: "Fact-Augmented Key Expansion"
|
||||||
|
created: 2026-06-25
|
||||||
|
updated: 2026-06-25
|
||||||
|
type: concept
|
||||||
|
tags: ["memory", "indexing", "optimization", "rag"]
|
||||||
|
sources:
|
||||||
|
- "[[longmem-eval-2025]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# Fact-Augmented Key Expansion
|
||||||
|
|
||||||
|
Fact-Augmented Key Expansion 是 LongMemEval 实验验证的记忆索引优化策略:在存储记忆时,用 LLM 从对话中提取的结构化事实作为索引键(而非仅对话原文)。
|
||||||
|
|
||||||
|
## 动机
|
||||||
|
|
||||||
|
简单用对话原文作为 key 的问题:
|
||||||
|
- 原文含大量噪音(闲聊、过渡语)
|
||||||
|
- 一条对话可能包含多个独立事实,但只有一个 key
|
||||||
|
- BM25 词法匹配依赖精确 token,原文可能用不同的词表达同一事实
|
||||||
|
|
||||||
|
## 做法
|
||||||
|
|
||||||
|
```
|
||||||
|
对话历史
|
||||||
|
↓
|
||||||
|
LLM 事实提取 → [{"fact": "用户偏好 PostgreSQL", "confidence": 0.92},
|
||||||
|
{"fact": "用户住在深圳", "confidence": 0.95}, ...]
|
||||||
|
↓
|
||||||
|
结构化为 key → 存入索引(与原文 value 关联)
|
||||||
|
```
|
||||||
|
|
||||||
|
## 效果(LongMemEval 实验数据)
|
||||||
|
|
||||||
|
| 指标 | 仅原文 Key | +Fact Key | 增益 |
|
||||||
|
|------|----------|-----------|------|
|
||||||
|
| Memory Recall@k | baseline | +9.4% | 显著 |
|
||||||
|
| QA Accuracy | baseline | +5.4% | 显著 |
|
||||||
|
|
||||||
|
## 为什么有效
|
||||||
|
|
||||||
|
1. **结构化事实消除歧义**:"我只用 PostgreSQL" → "数据库偏好: PostgreSQL" 比原文本 BM25 匹配更可靠
|
||||||
|
2. **多事实拆分**:一条对话可能含 3 个独立事实 → 3 个 key,每个独立可召回
|
||||||
|
3. **confidence 字段**支持未来过滤:低置信度事实可降低召回权重
|
||||||
|
|
||||||
|
## 与 Atlas Consolidation 的关系
|
||||||
|
|
||||||
|
Atlas 的 consolidation 本质上是 Fact-Augmented Key Expansion 的一种实现:
|
||||||
|
- episodic → 原文 value
|
||||||
|
- consolidation → 从 episodic 提取结构化事实 → 存入 semantic 索引
|
||||||
|
- semantic 索引的 recall 就等价于 fact-augmented key expansion 的效果
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[longmem-eval-2025]]
|
||||||
|
- [[memory-indexing-retrieval-reading]]
|
||||||
|
- [[atlas-memory-system]]
|
||||||
|
- [[memory-consolidation]]
|
||||||
43
concepts/feedforward-depth-limitation.md
Normal file
43
concepts/feedforward-depth-limitation.md
Normal file
@@ -0,0 +1,43 @@
|
|||||||
|
---
|
||||||
|
title: "前馈深度局限 (Feedforward Depth Limitation)"
|
||||||
|
created: 2026-06-18
|
||||||
|
updated: 2026-06-18
|
||||||
|
type: concept
|
||||||
|
tags: [transformers, architecture, depth]
|
||||||
|
sources:
|
||||||
|
- mozer-topological-trouble-transformers-2026
|
||||||
|
---
|
||||||
|
|
||||||
|
# 前馈深度局限 (Feedforward Depth Limitation)
|
||||||
|
|
||||||
|
前馈深度局限是指**纯前馈架构无法无限追踪状态更新**的根本性限制(Mozer et al., 2026)。
|
||||||
|
|
||||||
|
## 为什么发生
|
||||||
|
|
||||||
|
在 Transformer 解码器中,激活从浅层流向深层:
|
||||||
|
1. 每一步的状态更新 `s_t = f(s_{t-1}, x_t)` 将新的状态表示推到更深的层
|
||||||
|
2. 经过 t 步后,s_t 位于第 t 层附近——浅层无法访问
|
||||||
|
3. 当 t > 层数时,模型"耗尽"深度,状态追踪崩溃
|
||||||
|
|
||||||
|
## 实际影响
|
||||||
|
|
||||||
|
- **深度瓶颈**:Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言,且这只是"可构造性"而非"可学习性"
|
||||||
|
- **信息不可及性**:Lepori et al. (2025) 通过 Patchscopes 发现,多义词消歧在深层完成,但浅层在生成响应时仍使用未消歧的表示
|
||||||
|
- **级联误差**:深层的正确信念(如 river bank)无法传递给后续 token 的浅层处理
|
||||||
|
|
||||||
|
## 变通方案及其代价
|
||||||
|
|
||||||
|
1. **Chain-of-Thought**:将深层表示外化为 token,重新注入浅层——但浪费计算和上下文窗口
|
||||||
|
2. **Latent Thinking**:隐式地循环传递——但效率问题仍存
|
||||||
|
3. **可变深度模型**:动态调节层数——但本质上仍受深度限制
|
||||||
|
|
||||||
|
## 解决方向
|
||||||
|
|
||||||
|
真正的解决方案需要**循环架构**([[recurrent-transformer-architectures|循环 Transformer 架构]]),允许任意长度的状态传播。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[state-tracking|状态追踪]]
|
||||||
|
- [[depth-dilemma|深度困境]]
|
||||||
|
- [[sequential-dependency|顺序依赖]]
|
||||||
|
- [[mozer-topological-trouble-transformers-2026]]
|
||||||
41
concepts/financial-agent-permission.md
Normal file
41
concepts/financial-agent-permission.md
Normal file
@@ -0,0 +1,41 @@
|
|||||||
|
---
|
||||||
|
title: "金融 Agent 权限管控"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["agent-security", "permission", "financial-engineering", "audit"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# 金融 Agent 权限管控
|
||||||
|
|
||||||
|
金融行业 Agent 的权限管控是其进入生产环境的核心门槛。恒生电子评估 OpenClaw 在金融场景时暴露了四个系统性短板。
|
||||||
|
|
||||||
|
## OpenClaw 的四短板
|
||||||
|
|
||||||
|
### 1. 权限边界模糊
|
||||||
|
缺乏只读与需审批写入的细粒度分级,以及高风险操作前的强制确认机制。金融场景中,"查询账户余额"与"发起转账"的权限级别天差地别。
|
||||||
|
|
||||||
|
### 2. 审计不足
|
||||||
|
执行轨迹粒度不够,无法向监管解释决策来源。金融合规要求每段输出可溯源。
|
||||||
|
|
||||||
|
### 3. 插件无管控
|
||||||
|
没有金融级安全审核,模型容易误调工具。插件市场模式在金融场景完全不可接受。
|
||||||
|
|
||||||
|
### 4. 幻觉无兜底
|
||||||
|
没有高风险操作拦截清单和结构化中间状态存储。一次幻觉可能导致合规事故。
|
||||||
|
|
||||||
|
## 权限分级模型
|
||||||
|
|
||||||
|
| 级别 | 操作类型 | 确认机制 |
|
||||||
|
|------|---------|---------|
|
||||||
|
| 只读 | 查询、检索、报告生成 | 无需确认 |
|
||||||
|
| 只调代码 | 数据分析、格式转换 | 日志记录 |
|
||||||
|
| 写需确认 | 数据修改、交易发起 | 人工确认 |
|
||||||
|
| 禁止 | 资金转移、合规豁免 | 硬拦截 |
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[agent-skill-atomization]]
|
||||||
|
- [[mcp-protocol]]
|
||||||
50
concepts/financial-llm-deployment.md
Normal file
50
concepts/financial-llm-deployment.md
Normal file
@@ -0,0 +1,50 @@
|
|||||||
|
---
|
||||||
|
title: "金融行业大模型部署约束"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["financial-engineering", "llm-deployment", "compliance", "security"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# 金融行业大模型部署约束
|
||||||
|
|
||||||
|
金融行业的大模型部署面临三重硬性约束,这些约束不是可选优化项,而是决定技术方案能否进入生产环境的门槛。
|
||||||
|
|
||||||
|
## 三重约束
|
||||||
|
|
||||||
|
### 1. 合规刚性
|
||||||
|
- 每段生成内容必须可溯源到原始数据
|
||||||
|
- 所有结果需经人工确认环节
|
||||||
|
- 决策链路需完整审计轨迹
|
||||||
|
|
||||||
|
### 2. 数据安全
|
||||||
|
- 必须私有化部署,数据不准出域
|
||||||
|
- 模型推理在客户自有环境中完成
|
||||||
|
- 禁止将客户数据发送给第三方 API
|
||||||
|
|
||||||
|
### 3. 业务严谨性
|
||||||
|
- 私域数据与业务系统必须无缝挂接
|
||||||
|
- 数据质量优先于模型能力
|
||||||
|
- 零容错场景禁止纯模型决策
|
||||||
|
|
||||||
|
## 架构影响
|
||||||
|
|
||||||
|
这三重约束导致金融行业无法照搬通用方案:
|
||||||
|
- ❌ 公有大模型 API(数据出域)
|
||||||
|
- ❌ 纯端到端黑盒决策(不可溯源)
|
||||||
|
- ❌ 通用 RAG(无业务系统集成)
|
||||||
|
- ✅ 私有化部署 + 可控 Agent + 结构化数据层
|
||||||
|
|
||||||
|
## 与新架构方向的关系
|
||||||
|
|
||||||
|
三重约束直接驱动了恒生电子的三大架构方向:
|
||||||
|
- 业务能力原子化(Skills)→ 满足严谨性
|
||||||
|
- 金融大模型插件化 → 满足合规可溯源
|
||||||
|
- AIDB 数据层 → 满足数据不出域
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[financial-agent-permission]]
|
||||||
|
- [[aidb]]
|
||||||
42
concepts/financial-llm-model-selection.md
Normal file
42
concepts/financial-llm-model-selection.md
Normal file
@@ -0,0 +1,42 @@
|
|||||||
|
---
|
||||||
|
title: "金融大模型选型"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["model-selection", "financial-llm", "cost-efficiency", "qwen"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# 金融大模型选型
|
||||||
|
|
||||||
|
金融行业大模型选型中,模型能力与工程成本的权衡是核心决策。恒生电子的实践提供了一个有说服力的案例:小模型省下的算力钱远不够覆盖人力成本和隐性损失。
|
||||||
|
|
||||||
|
## 实践对比
|
||||||
|
|
||||||
|
| 维度 | Qwen3-32B | Qwen3-235B |
|
||||||
|
|------|-----------|------------|
|
||||||
|
| 硬件投入 | 低 | 4×H800/H20,约 60 万一次性 |
|
||||||
|
| 规则数量 | 530 条 | 大幅削减 |
|
||||||
|
| 配套代码 | 4300 行 | 大幅削减 |
|
||||||
|
| 人力成本 | 6 个月,三人离职 | 显著降低 |
|
||||||
|
| 准确率 | 基准 | +45pp |
|
||||||
|
|
||||||
|
## 核心教训
|
||||||
|
|
||||||
|
1. **小模型的隐性成本**:为弥补能力不足,需要大量规则工程和代码补丁,导致团队消耗和人员流失
|
||||||
|
2. **一次性硬件投入的杠杆效应**:60 万一次性投入可大幅削减持续的人力成本
|
||||||
|
3. **准确率提升是非线性的**:+45pp 的提升意味着从"不可用"到"可生产"的质变
|
||||||
|
|
||||||
|
## 决策框架
|
||||||
|
|
||||||
|
选择模型规模时应考虑:
|
||||||
|
- 业务场景的容错率(金融近乎零容错)
|
||||||
|
- 规则工程的可持续性(每增加一条规则 = 维护负担)
|
||||||
|
- 团队稳定性(高规则复杂度 → 高离职风险)
|
||||||
|
- Total Cost of Ownership(算力 + 人力 + 机会成本)
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[financial-llm-requirements]]
|
||||||
|
- [[context-engineering]]
|
||||||
45
concepts/financial-llm-requirements.md
Normal file
45
concepts/financial-llm-requirements.md
Normal file
@@ -0,0 +1,45 @@
|
|||||||
|
---
|
||||||
|
title: "金融行业好需求工程"
|
||||||
|
created: 2026-06-24
|
||||||
|
updated: 2026-06-24
|
||||||
|
type: concept
|
||||||
|
tags: ["requirements-engineering", "financial-llm", "prompt-engineering"]
|
||||||
|
sources:
|
||||||
|
- "[[financial-llm-practice-2026]]"
|
||||||
|
---
|
||||||
|
|
||||||
|
# 金融行业"好需求"工程
|
||||||
|
|
||||||
|
恒生电子团队提出的金融大模型需求定义方法论。"差需求"是"丢给模型几百页底稿说审一下",而"好需求"必须明确告知模型三件事。
|
||||||
|
|
||||||
|
## 好需求三要素
|
||||||
|
|
||||||
|
### 1. 在哪里看(范围限定)
|
||||||
|
限定章节范围而非全文。例如"请在第三章财务数据部分查找"而非"请审核这份招股书"。
|
||||||
|
|
||||||
|
### 2. 看什么(业务语言)
|
||||||
|
用业务语言描述目标字段,而非系统内部编码。
|
||||||
|
- ✅ "注册资本"
|
||||||
|
- ❌ 拼音缩写或数据库字段名
|
||||||
|
|
||||||
|
### 3. 怎么判(SOP 可执行化)
|
||||||
|
将业务 SOP 转化为可执行的判断条件。
|
||||||
|
- ✅ "发行总股本以'股'为单位,若以'万股'为单位则标注异常"
|
||||||
|
- ❌ "检查发行总股本的单位"
|
||||||
|
|
||||||
|
## 与通用 Prompt Engineering 的区别
|
||||||
|
|
||||||
|
| 维度 | 通用 PE | 金融好需求工程 |
|
||||||
|
|------|---------|---------------|
|
||||||
|
| 重点 | 角色/格式/示例 | 范围/字段/规则 |
|
||||||
|
| 业务知识 | 靠模型理解 | 显式编码进 prompt |
|
||||||
|
| 可审核性 | 低 | 高(每条规则可单独验证) |
|
||||||
|
|
||||||
|
## 关键洞察
|
||||||
|
|
||||||
|
许多项目一开始就失败,不是因为大模型太笨,而是业务知识与经验没有进入上下文。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||||
|
- [[context-engineering]]
|
||||||
|
- [[financial-llm-model-selection]]
|
||||||
53
concepts/first-lyapunov-coefficient.md
Normal file
53
concepts/first-lyapunov-coefficient.md
Normal file
@@ -0,0 +1,53 @@
|
|||||||
|
---
|
||||||
|
title: "First Lyapunov Coefficient (第一Lyapunov系数)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: [bifurcation-theory, dynamical-systems, gradient-descent, EoS, stability]
|
||||||
|
sources: [gan-bifurcation-eos]
|
||||||
|
---
|
||||||
|
|
||||||
|
# First Lyapunov Coefficient (第一Lyapunov系数)
|
||||||
|
|
||||||
|
第一 Lyapunov 系数 c₁ 是决定 **[[flip-bifurcation|flip 分岔]]** 超临界/亚临界性质的标量。它是 EoS 稳定性的**核心判据**。
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
对离散动力系统 x_{t+1} = f(x_t),设 A = Df(x₀) 具有简单临界特征值 λ = -1,u、v 为相应左/右特征向量(⟨u,v⟩ = 1)。则第一 Lyapunov 系数为:
|
||||||
|
|
||||||
|
```
|
||||||
|
c₁ = (1/6)·⟨u, C[v]³⟩ - (1/2)·⟨u, B[v][h]⟩
|
||||||
|
```
|
||||||
|
|
||||||
|
其中 B、C 为 f 在 x₀ 处的二阶/三阶导数张量,h = (A - I)⁻¹B[v]²。
|
||||||
|
|
||||||
|
## 梯度下降形式
|
||||||
|
|
||||||
|
对于 f(x) = x - η∇L(x),在 [[edge-of-stability|EoS]] 阈值处(η·λ_max = 2),c₁ 简化为:
|
||||||
|
|
||||||
|
```
|
||||||
|
c₁ = (η/2)·∇³L(x*)[v_max]²[h] - (η³/6)·∇⁴L(x*)[v_max]⁴
|
||||||
|
```
|
||||||
|
|
||||||
|
其中 v_max 为 ∇²L 的最大特征向量,h = (∇²L)†∇³L[v_max]²。
|
||||||
|
|
||||||
|
标量情形(d=1)可进一步化简为:
|
||||||
|
```
|
||||||
|
c₁ ∝ 3(L''')²/L'' - L⁽⁴⁾
|
||||||
|
```
|
||||||
|
|
||||||
|
## 稳定性含义
|
||||||
|
|
||||||
|
- **c₁ > 0**:超临界 flip 分岔 → 稳定周期-2 振荡 → EoS 收敛可能
|
||||||
|
- **c₁ < 0**:亚临界分岔 → 无稳定周期轨道 → 发散
|
||||||
|
|
||||||
|
## 与乘积稳定性 (Product-Stability) 的关系
|
||||||
|
|
||||||
|
Gan (2026) 的 [[product-stability|乘积稳定性]] α_f(z) = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 本质上就是标量 f 的第一 Lyapunov 系数(差一个缩放因子)。本文证明了在高维流形设置下,c₁ 的符号由 α_f 主导——统一了极简分析与一般框架。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Kuznetsov (1998). Elements of Applied Bifurcation Theory, Ch. 4-5.
|
||||||
|
- Mulayoff & Stich (2026).
|
||||||
|
- [[gan-bifurcation-eos]]
|
||||||
|
- [[product-stability]]
|
||||||
53
concepts/fisher-lipschitz.md
Normal file
53
concepts/fisher-lipschitz.md
Normal file
@@ -0,0 +1,53 @@
|
|||||||
|
---
|
||||||
|
title: "Fisher-Lipschitz 假设类"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: ["complexity-measure", "generalization-theory", "fisher-geometry", "lipschitz-continuity"]
|
||||||
|
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Fisher-Lipschitz 假设类
|
||||||
|
|
||||||
|
**Fisher-Lipschitz** 是 Vu (2026) 在 [[vu-fisher-width-2026|Fisher Width]] 论文中定义的假设类光滑性条件——它是标准 Lipschitz 条件的 Fisher-几何推广。
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
一个假设类 F = {f_θ : θ ∈ Θ} 在 θ₀ 处满足 Fisher-Lipschitz 条件,若存在常数 L > 0,使得对任意 x ∈ X 和任意 θ₁, θ₂ ∈ Θ:
|
||||||
|
|
||||||
|
```
|
||||||
|
|f_{θ₁}(x) − f_{θ₂}(x)| ≤ L · ∥G(θ₀)^{1/2}(θ₁−θ₂)∥₂
|
||||||
|
```
|
||||||
|
|
||||||
|
其中 G(θ₀) 是 θ₀ 处的 [[fisher-information-metric|Fisher 信息度量]]。
|
||||||
|
|
||||||
|
## 直觉
|
||||||
|
|
||||||
|
- **标准 Lipschitz**:∥θ₁−θ₂∥₂ ≤ δ ⇒ 函数值变化 ≤ Lδ(欧几里得距离)
|
||||||
|
- **Fisher-Lipschitz**:∥G^{1/2}(θ₁−θ₂)∥₂ ≤ δ ⇒ 函数值变化 ≤ Lδ(Fisher 距离)
|
||||||
|
|
||||||
|
关键在于:Fisher-Lipschitz 使用 Fisher 度量对参数差异进行**重标度**——统计上显著的方向贡献更大的距离权重。
|
||||||
|
|
||||||
|
## 与泛化界的关系
|
||||||
|
|
||||||
|
Fisher-Lipschitz 条件使得 [[vu-fisher-width-2026|Fisher Width]] 可以直接控制假设类的一致偏差:
|
||||||
|
|
||||||
|
```
|
||||||
|
E[sup_{θ∈Θ} |(1/n)Σ f_θ(x_i) − E[f_θ]|] ≲ w_G(Θ−Θ; θ₀) / √n
|
||||||
|
```
|
||||||
|
|
||||||
|
其中 w_G 就是 [[fisher-width|Fisher width]]。这是 Fisher-几何学习理论的中心结果——Fisher width 在 Fisher-Lipschitz 条件下扮演的角色,与 [[gaussian-width|Gaussian width]] 在欧几里得 Lipschitz 条件下的角色完全对称。
|
||||||
|
|
||||||
|
## 验证条件
|
||||||
|
|
||||||
|
论文中验证了三个常见模型在 MNIST 上满足 Fisher-Lipschitz 条件:
|
||||||
|
- 二元逻辑回归
|
||||||
|
- Softmax 回归
|
||||||
|
- 岭回归
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[vu-fisher-width-2026|Fisher Width 论文]]
|
||||||
|
- [[fisher-width|Fisher Width]]
|
||||||
|
- [[gaussian-width|Gaussian Width]]
|
||||||
|
- [[empirical-fisher|Empirical Fisher]]
|
||||||
71
concepts/fisher-width.md
Normal file
71
concepts/fisher-width.md
Normal file
@@ -0,0 +1,71 @@
|
|||||||
|
---
|
||||||
|
title: "Fisher Width (Fisher 宽度)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: ["information-geometry", "complexity-measure", "high-dimensional-probability", "riemannian-geometry"]
|
||||||
|
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Fisher Width (Fisher 宽度)
|
||||||
|
|
||||||
|
**Fisher width** 是 [[gaussian-width|Gaussian width]] 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
设 θ₀ ∈ Θ 为参数点,G(θ₀) 为 [[fisher-information-metric|Fisher 信息矩阵]],T ⊂ ℝᵈ 为紧集。Fisher width 定义为:
|
||||||
|
|
||||||
|
```
|
||||||
|
w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
|
||||||
|
```
|
||||||
|
|
||||||
|
核心操作:用 G(θ₀)^{1/2} 对方向进行 Fisher 重标度——统计上敏感的方向贡献更大的宽度权重。
|
||||||
|
|
||||||
|
## 与 Gaussian Width 的关系
|
||||||
|
|
||||||
|
通过 [[lifting-identity|Lifting Identity]]:
|
||||||
|
|
||||||
|
```
|
||||||
|
w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
|
||||||
|
```
|
||||||
|
|
||||||
|
Fisher width 恰好是 Fisher 重标度后集合的 Gaussian width。
|
||||||
|
|
||||||
|
**谱比较界**:
|
||||||
|
```
|
||||||
|
λ_min(G)^{1/2} · w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2} · w(T)
|
||||||
|
```
|
||||||
|
|
||||||
|
当 G(θ₀) = I_d 时,Fisher width 退化为经典 Gaussian width。
|
||||||
|
|
||||||
|
## 关键性质
|
||||||
|
|
||||||
|
1. **再参数化不变性**:在平滑坐标变换下 Fisher width 不变
|
||||||
|
2. **局部性**:依赖基点 θ₀,随参数位置在统计流形上变化
|
||||||
|
3. **继承性**:通过 Lifting Identity 继承 Gaussian width 的所有结构性质(单调性、齐次性、凸包不变、次可加性)
|
||||||
|
4. **浓度**:满足与 Gaussian width 类似的浓度不等式
|
||||||
|
5. **扰动稳定性**:对局部 Fisher 度量的扰动具有 Lipschitz 连续性
|
||||||
|
|
||||||
|
## 在泛化理论中的应用
|
||||||
|
|
||||||
|
对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类,Fisher width 控制一致偏差:
|
||||||
|
|
||||||
|
```
|
||||||
|
E[sup_θ |Ê[f_θ] − E[f_θ]|] ≲ w_G(Θ−Θ; θ₀) / √n
|
||||||
|
```
|
||||||
|
|
||||||
|
这是 Gaussian width 在学习理论中角色的 Fisher-几何对应。
|
||||||
|
|
||||||
|
## 计算
|
||||||
|
|
||||||
|
[[empirical-fisher|Empirical Fisher]] 使得 Fisher width 可以在实践中估计,包括全经验 Fisher 估计器、低秩近似(利用 Fisher 谱快速衰减)、以及针对特定集合的特化估计。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- [[vu-fisher-width-2026|Vu (2026) 论文]]
|
||||||
|
- [[gaussian-width|Gaussian Width]]
|
||||||
|
- [[statistical-manifold|Statistical Manifold]]
|
||||||
|
- [[fisher-information-metric|Fisher Information Metric]]
|
||||||
|
- [[lifting-identity|Lifting Identity]]
|
||||||
|
- [[fisher-lipschitz|Fisher-Lipschitz]]
|
||||||
|
- [[empirical-fisher|Empirical Fisher]]
|
||||||
37
concepts/flip-bifurcation.md
Normal file
37
concepts/flip-bifurcation.md
Normal file
@@ -0,0 +1,37 @@
|
|||||||
|
---
|
||||||
|
title: "Flip Bifurcation (翻转分岔)"
|
||||||
|
created: 2026-06-23
|
||||||
|
updated: 2026-06-23
|
||||||
|
type: concept
|
||||||
|
tags: [bifurcation-theory, dynamical-systems, gradient-descent, EoS]
|
||||||
|
sources: [gan-bifurcation-eos]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Flip Bifurcation (翻转分岔)
|
||||||
|
|
||||||
|
Flip bifurcation(翻转分岔/倍周期分岔)是离散动力系统中当 Jacobian 的临界特征值 λ = -1 时发生的分岔类型。在该分岔点,稳定的周期-1 轨道失稳并产生一个**周期加倍**(period-2)的稳定轨道。
|
||||||
|
|
||||||
|
## 在梯度下降中的角色
|
||||||
|
|
||||||
|
对于梯度下降映射 f(x) = x - η∇L(x),Jacobian 为 A = I - η∇²L(x)。在 EoS 阈值处,η·λ_max = 2,因此 A 具有临界特征值 λ = -1——恰好触发 flip 分岔。
|
||||||
|
|
||||||
|
当 **[[first-lyapunov-coefficient|第一 Lyapunov 系数]] c₁ > 0** 时,分岔为**超临界 (supercritical)**,存在稳定的周期-2 轨道——迭代在 Hessian 最大特征向量方向上振荡但不会发散。这是 EoS 自稳定机制的核心。
|
||||||
|
|
||||||
|
## 超临界 vs 亚临界
|
||||||
|
|
||||||
|
- **c₁ > 0(超临界)**:学习率略超 2/λ_max 时,存在稳定周期-2 轨道,训练可控
|
||||||
|
- **c₁ < 0(亚临界)**:不存在稳定周期轨道,迭代发散
|
||||||
|
|
||||||
|
初步实证表明实际网络的极小值处 c₁ > 0 (Gan, 2026),但尚无第一性原理的理论解释。
|
||||||
|
|
||||||
|
## 与中心流形定理的关系
|
||||||
|
|
||||||
|
Flip 分岔的分析依赖于 [[center-manifold-theorem|中心流形定理]]:将动力学限制在临界特征空间后,系统稳定性完全由中心流形上的约化动力学决定。
|
||||||
|
|
||||||
|
## 参考
|
||||||
|
|
||||||
|
- Kuznetsov (1998). Elements of Applied Bifurcation Theory.
|
||||||
|
- Mulayoff & Stich (2026). On the Stability of Nonlinear Dynamics in GD and SGD.
|
||||||
|
- [[gan-bifurcation-eos]]
|
||||||
|
- [[first-lyapunov-coefficient]]
|
||||||
|
- [[center-manifold-theorem]]
|
||||||
@@ -57,7 +57,12 @@ x-prediction 在 [[embedded-language-flows|ELF]] 中至关重要:它与解码
|
|||||||
|
|
||||||
[[embedded-language-flows|ELF]] 将 Flow Matching 应用于语言生成:离散 token → T5 编码 → 连续嵌入空间 → Flow Matching 去噪 → 最后一步解码回 token。
|
[[embedded-language-flows|ELF]] 将 Flow Matching 应用于语言生成:离散 token → T5 编码 → 连续嵌入空间 → Flow Matching 去噪 → 最后一步解码回 token。
|
||||||
|
|
||||||
|
## 在 Wan-Streamer 中的应用
|
||||||
|
|
||||||
|
[[wan-streamer|Wan-Streamer]] 使用条件流匹配(conditional flow matching)联合生成音频和视频响应。同一个 clean streaming context(用户观测 + 已提交的 Agent 响应)同时条件化音频和视频速度场的预测,使语音、动作、外观和场景演化作为一个耦合响应进行优化。去噪后的 clean latents 直接追加到历史上下文中。
|
||||||
|
|
||||||
## 参考
|
## 参考
|
||||||
|
|
||||||
- Lipman et al., "Flow Matching for Generative Modeling", ICLR 2023
|
- Lipman et al., "Flow Matching for Generative Modeling", ICLR 2023
|
||||||
- Albergo & Vanden-Eijnden, "Stochastic Interpolants", JMLR 2025
|
- Albergo & Vanden-Eijnden, "Stochastic Interpolants", JMLR 2025
|
||||||
|
- [[wan-streamer]] — 条件流匹配在端到端流式音视频交互中的应用
|
||||||
|
|||||||
Some files were not shown because too many files have changed in this diff Show More
Reference in New Issue
Block a user