20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/articles/atlas-agent-memory-architecture-2026.md
+++ b/articles/atlas-agent-memory-architecture-2026.md
@@ -0,0 +1,89 @@
 ---
 title: "Atlas Agent 记忆系统架构（2026）"
 created: 2026-06-24
 updated: 2026-06-24
 type: article
 tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation"]
 sources:
  - "https://mp.weixin.qq.com/s/fypjVWJBQg_MZV9OMfPpIA"
 ---
 # Atlas Agent 记忆系统架构
 > 基于 noamschwartz/atlas-memory-demo 的深度工程实践解析。核心主张：Agent 记忆不是 KV 存储问题，是多索引信息检索问题。
 ## 问题
 `chat_history.append()` 把三种不同生命周期的信息塞进同一个数组——稳定事实、操作流程、时序事件——这是 Agent 永远在"忘记"的根因。真正的挑战是在查询瞬间穿过噪音找到对的那几条。
 ## 核心架构：[[atlas-memory-system|三索引 + 公共]]
 [[agent-memory-taxonomy|四种记忆类型]]，各自独立的索引、字段和衰减策略：
 | 索引 | 存储内容 | 衰减源 | 写入频率 | 更新策略 |
 |------|---------|--------|---------|---------|
 | episodic | 原始消息+时间戳 | timestamp | 每回合 | 只写不改 |
 | semantic | 提炼后稳定事实 | last_used_at | consolidation | supersession 链 |
 | procedural | 多步操作流程 | 豁免 (1.0) | consolidation | 计数器更新 |
 | catalog | 公共共享知识 | timestamp | 手动 | 脚本覆盖 |
 ## 检索管线：[[hybrid-recall-pipeline|混合召回]]
 ```
 用户消息 → Verbatim Pre-Recall（不经 LLM 改写）
         → BM25 词法 + Dense 语义 双通路并行
         → RRF 融合 (rank_constant=30)
         → Cross-encoder 重排序 (top-80 → top-K)
         → 返回（reranker 失败时降级 RRF 顺序）
 ```
 ### 关键参数
 - **RECALL_OVER_FETCH_K=80** — consolidation 产生近重复 doc，候选池不足会挤掉 gold doc
 - **rank_constant=30** — 比默认 60 小，排名靠前的结果保持更强信号权重
 - **DECAY_SCALE=1825d** — 演示默认，客服应收紧至 60-180d
 ### Ablation 数据 (168 QA, 3 persona, ~250 docs/user)
 | 配置 | R@10 |
 |------|------|
 | Full | **0.89** |
 | Dense-only | 0.845 |
 | BM25-only | 0.708 |
 | No-Reranker | -0.238 |
 dense 是主力，但 BM25 单腿 0.708 说明词法腿不可省略。reranker 最大单点贡献，但只在候选池足够宽时有用。
 ## [[verbatim-pre-recall|Verbatim Pre-Recall]]
 在 `messages.append(user_msg)` 和 LLM 调用之间，用用户原话（不经改写）跑一次 recall。LLM 会把 "postgres v15.3 + pgvector 0.5.1" 泛化成 "PostgreSQL 数据库"——精确 token 丢失，BM25 词法匹配报废。Verbatim 绕过改写层，把最原始的 token 直接给 BM25。
 Ablation 证实：额外 query expansion（LLM paraphrase）反而降低性能——BM25 已捕获精确 token，dense 已捕获语义改写。
 ## [[memory-consolidation|Consolidation（写后提炼）]]
 每回合结束后从最近 30 条 episodic 事件中提取稳定事实和操作流程。一次 LLM 调用同时输出三类结果：new_facts、new_procedures、procedural_updates。Production 建议改为后台日批模式——积累一天后在夜间统一跑，成本减半。
 ## [[soft-supersession|Soft-Supersession]]
 非破坏性矛盾处理：用户说"搬家了"→ 创建新 doc + 标记旧 doc (superseded_by) + 召回时过滤旧版。链式追溯支持任意长度，旧记录永不删除（审计需要）。
 ## [[gbrain-memory|与 GBrain 的对比]]
 | 维度 | Atlas (ES) | GBrain (Markdown+Git) |
 |------|-----------|----------------------|
 | 存储 | ES 搜索引擎 | Markdown 文件 + Git |
 | 多租户 | ES DLS（集群层） | 应用层 auth |
 | 矛盾处理 | Soft-Supersession 链 | Git 版本历史 |
 | 衰减 | [[per-index-time-decay|Per-index gauss]] | 无显式衰减 |
 | 透明度 | 仅 API | 直接打开文件 |
 个人助理 → GBrain（人可读信任优先）；多租户产品 → Atlas（ES 原生隔离）。
 ## 三个通用设计原则
 1. **衰减曲线是领域性决策** — 先定义信息有效周期，再定衰减参数
 2. **BM25 + vector 互补，不可二选一** — BM25 抓精确术语，dense 抓语义意图
 3. **记忆需要后台提炼 + 矛盾处理** — 瓶颈从来不在数据库引擎，在分型逻辑和召回架构
 ## 来源
 [原始存档](raw/articles/atlas-agent-memory-architecture-2026.md)
--- a/articles/financial-llm-practice-2026.md
+++ b/articles/financial-llm-practice-2026.md
@@ -0,0 +1,62 @@
 ---
 title: "金融行业大模型落地实践（林金曙，2026）"
 created: 2026-06-24
 updated: 2026-06-24
 type: article
 tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"]
 sources:
  - "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg"
 ---
 # 金融行业大模型落地实践
 > 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享，系统梳理金融行业大模型工程实践。
 ## 背景
 金融行业的大模型落地面临三重硬约束——合规（可溯源+人工确认）、安全（私有化部署+数据不出域）、严谨（数据质量>模型能力）。团队的核心判断：不要用通用模型覆盖一切，而应基于大模型重构金融 IT 架构——业务能力原子化（Skills）、金融大模型插件化、面向大模型友好的数据层（[[aidb]]）。
 ## 核心方案
 ### 长文档检索：[[pageindex]] + [[agentic-rag]]
 金融文档（如蜜雪冰城 1300 页招股书）让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射，检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题，动态调用多种检索工具，自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。
 反常识决策：团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配（代码、专有名词、数字），[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。
 ### 审核工程：[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]]
 "差需求"：丢给模型几百页底稿说"审一下"。"好需求"需告知三件事：
 1. **在哪里看** — 限定章节范围而非全文
 2. **看什么** — 用业务语言（如"注册资本"）而非系统拼音缩写
 3. **怎么判** — 将 SOP 写成可执行判断条件
 选型教训：Qwen3-32B 需 530 条规则、4300 行代码，三人离职；换 Qwen3-235B（4×H800，约 60 万一次性投入）后规则砍半，准确率 +45pp。结论：小模型省下的算力钱远不够覆盖人力成本。
 ### [[context-engineering|上下文工程]]
 Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入，章节目录与表头信息动态使用。最难的不是模型推理，而是让模型在恰当时机看到恰当信息。
 模型能力边界：擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标；不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。
 ## Agent 工程
 金融 Agent 需操作业务系统：读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板：[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。
 三件事须同时成立：
 - 模型侧：任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
 - 工具侧：[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入
 - 资源侧：[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化
 每个 Skill 需明确物料、数据来源、权限级别（只读/只调代码/写需人工确认）。接口描述改造示例："基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。
 ## 核心洞见
 1. **不卷织布速，卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent
 2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木
 3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束
 4. **弃大脑之争，筑神经之基** — 不训练大模型，专注数据底座、接口标准、知识体系
 ## 来源
 [原始存档](raw/articles/financial-llm-practice-2026.md)
--- a/articles/llm-spiral-of-silence-2026.md
+++ b/articles/llm-spiral-of-silence-2026.md
@@ -0,0 +1,84 @@
 ---
 title: "LLM 沉默螺旋：算法催生的数字从众"
 created: 2025-04-15
 updated: 2026-06-21
 type: article
 tags:
  - spiral-of-silence
  - llm
  - rag
  - multi-agent
  - content-ecology
 sources:
  - data派THU
  - https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw
 ---
 # LLM 沉默螺旋：算法催生的数字从众
 > 来源：[原始存档](raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md) | 数据派THU | 作者：李媛媛 | 2026
 ## 核心问题
 大语言模型在 RAG 检索迭代、多智能体交互等闭环场景中，**无需人类心理动机，仅靠纯统计语言生成机制，就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应**。这是所有主流大模型的通用系统性问题。
 ## 理论迁移：从人类到 AI
 经典 [[spiral-of-silence|沉默的螺旋]]（Noelle-Neumann, 1974）依赖三个心理机制：孤立恐惧、准统计感官、螺旋式循环。但 LLM 版本属于**算法驱动的沉默螺旋**——无需心理，纯技术机制即可触发。
 ## 两大实证场景
 ### 1. RAG 闭环：AI 正在"杀死"人类原创内容
 [[rag-closed-loop|RAG 闭环迭代]]模式下，AI 生成→搜索引擎索引→检索复用→再次生成的循环导致：
 - 仅 5 轮迭代后，人类原创内容占比从 50% 暴跌至 15% 以下
 - 搜索引擎算法天然偏好 AI 生成文本
 - 形成"AI 自我复制、人类原创失语、小众真相沉没"的单向信息固化
 相关概念：[[rag|RAG]]、[[content-homogenization|内容同质化]]
 ### 2. 多智能体交互：AI 对话如何自发极化
 [[multi-agent-spiral|多智能体螺旋]]实验（arXiv 2025）覆盖 GPT-4o-mini、Llama3.1、Mistral、Qwen2.5、DeepSeek-V2：
 - 历史上下文 + 角色设定叠加时，主流观点占比突破 80%
 - 小模型效应远强于大模型；中文模型强于英文模型
 - 仅靠对话历史就能持续重复主流观点
 相关概念：[[multi-agent-orchestration|多智能体编排]]、[[opinion-polarization|观点极化]]
 ## 四大技术根源
 1. **[[pretraining-statistical-bias|预训练统计偏好]]**（底层基础）：主流观点在训练数据中占绝对优势，模型天然倾向于高概率内容
 2. **[[context-anchoring|历史上下文锚定]]**（核心驱动）：自回归生成机制让模型持续贴合对话历史，形成正向闭环
 3. **[[role-setting-entrenchment|角色设定固化]]**（催化加速）：固定立场放大观点对立，压制小众输出
 4. **[[rlhf-alignment-amplification|RLHF 对齐放大]]**（固化诱因）：安全去偏压低了 token 预测熵值，压缩创作空间
 与 [[rlhf|RLHF]] 的标准理解不同，此处强调的是**对齐训练作为沉默螺旋放大器的意外副作用**。
 ## 四大危害
 - [[information-cocoons|信息茧房]] + 观点垄断：人类原创、批判性思考持续消失
 - 错误信息闭环扩散：AI 偏差内容强化传播，小众真相被边缘化
 - 社会偏见固化放大：性别、地域偏见通过螺旋效应持续放大
 - 知识创新被抑制：前沿小众观点、颠覆性创新思路被系统压制
 ## 治理方案
 - **技术层**：优化采样策略（高 [[temperature-sampling|温度采样]]）、历史去锚定、RAG 检索排序均衡、分层去偏训练
 - **机制层**：建立 [[content-diversity-decay|内容多样性衰减]]监测系统、内容来源透明标注
 - **研究层**：统一量化评估标准与测试数据集、长周期模拟实验
 ## 研究空白
 - 无统一的沉默螺旋强度量化指标
 - 缺乏互联网级长周期信息迭代演化研究
 - 多模态 AI 沉默螺旋机制完全空白
 - 轻量化治理技术尚未成熟
 ## 参考文献
 [1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval?
 [2] arXiv 2025. Spiral of Silence in Large Language Model Agents
 [3] Noelle-Neumann E. The Spiral of Silence, 1984.
 [4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models
 [5] KBS 2026. Quantifying and mitigating the spiral of silence in recommender systems
--- a/articles/memtensor-memos-agent-memory-2026.md
+++ b/articles/memtensor-memos-agent-memory-2026.md
@@ -0,0 +1,81 @@
 ---
 title: "MemOS：Agent 记忆基础设施"
 created: 2026-06-19
 updated: 2026-06-19
 type: article
 tags: [agent-memory, memos, memtensor, memory-system, openclaw, clawforce]
 sources:
  - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
 ---
 # MemOS：Agent 记忆基础设施
 > 熊飞宇（记忆张量 CEO）技术分享 | DataFun | 2026
 ## 核心断言
 > **记忆不再是锦上添花，而是 Agent 能否持续进化的核心要素。**
 ChatGPT 个人记忆 + OpenClaw 连续型 Agent 推动行业共识转变：记忆从"降低 token 消耗"演进为"Agent 能否活下来"的生死问题。
 ## 两条路线的融合
 | | 模型驱动 | 应用驱动 |
 |---|---|---|
 | 方式 | 基础模型架构创新 | Prompt/Agent 流模拟 |
 | 代表 | Memorizing Transformers | Mem0, Zep |
 | 优势 | 上限高 | 落地快 |
 | 劣势 | 成本极高 | 与基模耦合弱 |
 MemTensor 的策略：**模型驱动决定上限，应用驱动决定下限，从系统层面融合。**
 ## MemOS 五层架构
 ```
 应用层 + 编解码层
     ↑
 记忆调度层 ← 核心：三层记忆协同
     ↑
 记忆治理层（权限/生命周期/水印/隐私）
     ↑
 记忆存储层（MemCube + MemStore）
 ```
 ### [[layered-memory-architecture|三层记忆协同]]
 | 层级 | 内容 | 载体 | 角色 |
 |------|------|------|------|
 | **明文记忆** | Prompt/Agent 流 | 自然语言 | 事实、对话上下文 |
 | **激活记忆** | KV Cache 管理 | GPU 缓存 | 降低成本、提升命中率 |
 | **参数记忆** | 行业 know-how | 后训练权重 | 增强领域认知 |
 ## 核心创新
 ### [[memory-dedup-pipeline|三级去重漏斗]]
 SHA-256 精确去重 → 向量余弦相似度 → LLM Judge 矛盾检测与智能合并
 → 平均压缩比 **75%+**
 ### [[mem2skill|Mem2Skill]]
 从对话碎片中提取 → 结构化 → 参数化技能。核心：**记忆不止于被搜到，而是内化为能力。** 如 K8s OOM 排查从 2 小时 → 10 分钟。
 ## 关键数据
 - GitHub **8.5K Star**，社区 1.2 万+ 活跃用户
 - 云服务单月调用 **2500 万+** 次，月涨幅 100-200%
 - 单次请求节省 **45-72%** token
 - 接入后：LLM Judge 评分↑、上下文成本 **-30%**、交互轮次 **-50%**、token 消耗 **-50%**
 ## [[clawforce|ClawForce 企业方案]]
 五层设计 + 三重安全（事前隔离→事中脱敏→事后审计），解决企业 AI Agent 从"能用"到"敢用"的五个痛点。已在研发、电商、公文写作、销售等场景落地。
 ## 概念网络
 - [[agent-memory-system|Agent 记忆系统]] — 为何记忆是 Agent 的生死关键
 - [[layered-memory-architecture|三层记忆架构]] — 明文/激活/参数分层协同
 - [[model-driven-vs-app-driven-memory|两路线融合]] — 模型驱动 + 应用驱动
 - [[memory-governance|记忆治理]] — 全生命周期管理
 - [[agent-memory-lifecycle|记忆生命周期]] — 抽取→组织→检索→更新→共享
 - [[memcube|MemCube]] — 最小可打包记忆单元
 来源：[原始存档](raw/articles/memtensor-memos-agent-memory-2026.md)
--- a/articles/michael-jordan-mlst-collectivist-ai-2026.md
+++ b/articles/michael-jordan-mlst-collectivist-ai-2026.md
@@ -0,0 +1,68 @@
 ---
 title: "Michael I. Jordan：AI 的集体主义经济学与虚假的 AGI 二元论"
 created: 2026-06-21
 updated: 2026-06-21
 type: article
 tags:
  - michael-jordan
  - ai-economics
  - collectivist-ai
  - uncertainty
  - agi-critique
 sources:
  - 机器之心
  - MLST
  - https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ
 ---
 # Michael I. Jordan：AI 的集体主义经济学与虚假的 AGI 二元论
 > 来源：[原始存档](raw/articles/michael-jordan-mlst-collectivist-ai-2026.md) | 机器之心编译 | MLST 访谈 | 2026
 ## 人物
 **Michael I. Jordan**——统计机器学习奠基人，UC Berkeley EECS+统计系杰出教授。门下走出 Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等一整代 ML 核心建设者。2016 年《科学》杂志「全球最具影响力计算机科学家」。
 ## 五大核心论点
 ### 1. AGI 是公关词
 「AGI 是个公关词，是一种扭曲，尤其让年轻人困惑。」真正的 ML 传统（供应链、金融、物流预测）一直比"AI"影响更大，但因输出不是人类可读语言而被忽视。LLM 只是换了个输出格式，背后的 ML 传统一直都在。参见 [[anthropomorphization-critique|人类化机器批判]]。
 ### 2. AI 需要经济学：集体主义框架
 [[collectivist-ai|集体主义 AI 框架]]：当前 AI 的根本缺陷是将智能窄化为个体认知。人类是社会动物，智识来自聚合——聚合观点形成文化。完整框架需要 **CS（算法/抽象）+ 统计学（推断/不确定性）+ 经济学（激励机制/博弈均衡）** 三个支柱。
 「只有计算加优化，你就只能得到语言模型。」
 ### 3. 基础模型在知识边界最危险
 [[foundation-model-frontier-bias|基础模型前沿偏倚]]：科学家问的是知识边界上的新问题——恰恰是训练数据最稀少的地方。AlphaFold 案例：量子涨落预测的置信区间极窄但完全偏离真实值。模型答错却不说。解法：[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注 + 大量模型预测。
 ### 4. 不确定性的三分法
 [[uncertainty-taxonomy|Jordan 不确定性分类法]]，超越经典 [[epistemic-uncertainty|认知不确定性]]/[[aleatoric-uncertainty|偶然不确定性]] 二分：
 | 类型 | 本质 | 示例 |
 |------|------|------|
 | 采样不确定性 | 数据是否足够 | 但需在种群语境中按纳什均衡处理 |
 | 信息不对称 | 结构性不透明，永不消失 | 专家知道但不会全告诉你 |
 | 数据时效性 | 时间维度的元数据 | 十年前的医疗数据应自动打折 |
 LLM 对自身不确定性一无所知——它只是模仿了互联网上人类表达确定性的语气。
 ### 5. 超级智能 vs 人类灭绝是虚假二元
 「思想领袖分成两队，一队冲向乌托邦，一队冲向末日——在人类历史上这种现实脱节非常罕见。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有**无数积极的可能性**。
 ## 金句
 - 「现在这个领域有什么？只有非常聪明、会编程、有很多直觉的人——我从没感受到任何真正智识深度的东西。」
 - 「别问它是否理解。问：它能不能降低不确定性，能不能让工程系统建立在它之上。」
 - 「可怜的 LLM，不确定性三件事一件都不会做。」
 - 「AI 是关于帮助信息流动，让人类做出他们真正想做的正确决策。」
 ## 参考文献
 - Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268
 - MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64
--- a/articles/nobrega-ai-production-tradeoffs-2026.md
+++ b/articles/nobrega-ai-production-tradeoffs-2026.md
@@ -0,0 +1,52 @@
 ---
 title: "AI 工程师的 6 种生产权衡"
 created: 2026-06-19
 updated: 2026-06-19
 type: article
 tags: [ai-engineering, production-tradeoffs, prompt-engineering, fine-tuning, hitl, mlops]
 sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
  - https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
 ---
 # AI 工程师的 6 种生产权衡
 > 原文：*Six Choices Every AI Engineer Has to Make (and Nobody Teaches)* — Sara Nobrega
 > 翻译：陈超 | 来源：数据派THU
 ## 核心问题
 大学课程教你怎么让模型变精确。但几乎没人教你后续的决策：什么时候完全自动化？什么时候提示词不够？批处理和实时怎么选？这些问题在工作第一周就会出现。
 ## 核心原则
 > **决策的成本很少在决策做出的地方产生回报。** — 更复杂的模型在 6 个月后增加维护成本，实时系统需要 24/7 基础设施支撑，大规模脏数据在重训练周期上付出代价。
 ## 6 种权衡
 ### 1. [[build-vs-buy-llm|构建 vs 购买]]
 日请求 < 10 万 → API。日请求 > 100 万 → 自建。但 70-80% 的自建成本是人力，不是 GPU。团队平均超预算 340%。
 ### 2. [[cace-principle|模型复杂度 vs 可维护性]]
 CACE 原理：改变任何事物都会改变一切。为 2% 精度选复杂模型的代价是 18 个月的调试税。一年后谁拥有它？
 ### 3. [[data-quality-vs-quantity|数据数量 vs 数据质量]]
 超过噪声阈值，更多数据会降低性能。医疗 AI 最典型：专家标注小数据集 > 不可靠标注大数据集。避免"数据沼泽"。
 ### 4. [[batch-vs-real-time-inference|吞吐量 vs 延迟]]
 大多数业务问题不需要亚秒级预测。如果用户不会注意到预测是 5 分钟前还是 5 毫秒前，用批处理。
 ### 5. [[prompt-engineering-vs-fine-tuning|提示词工程 vs 微调]]
 提示词快、便宜、灵活，但脆弱。微调昂贵（$1 万 + 6 周），但规模化可靠。混合模式（微调风格 + RAG 事实）日益普及。
 ### 6. [[human-in-the-loop|自动化 vs 人类监督]]
 完全人工审查无法规模化。选择性 HITL：边缘案例、低置信度、高风险决策才触发人工。AI 处理规模，人类处理不可逆性。
 ## 关键概念网络
 - [[ai-production-tradeoffs|AI 生产权衡]] — 六大维度的总览
 - [[ml-technical-debt|ML 技术债务]] — 数据依赖比代码依赖更昂贵
 - [[selective-hitl|选择性 HITL]] — 只有在最需要时引入人工
 - [[data-swamp|数据沼泽]] — 存储便宜带来的隐性成本
 来源：[原始存档](raw/articles/nobrega-ai-production-tradeoffs-2026.md)
--- a/concepts/ace-router.md
+++ b/concepts/ace-router.md
@@ -0,0 +1,49 @@
 ---
 title: "ACE-Router — 训练专用路由器"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [router-training, mcp, tool-selection, history-aware, agent-web]
 sources:
  - https://arxiv.org/abs/2601.08276
 ---
 # ACE-Router
 ## 定义
 ACE-Router 是 Yao et al. (2026) 提出的**训练专用路由器框架**：不依赖 embedding 静态匹配或 LLM 通用推理，而是训练一个专门模型，将多轮对话历史显式对齐到精确的路由决策。
 ## 三阶段管线
 ```
 ① Candidate Graph → ② Trajectory Synthesis → ③ Light Routing Agent
   (扩展候选空间)      (生成训练数据)            (可插拔部署)
 ```
 ### ① Candidate Graph + 自进化变异
 - 基于语义相似（τ=0.82）构建候选图
 - 5 种变异算子：功能增强、参数变异、工作流链接、辅助操作、使用扩展
 - 627 初始工具 → 2005 工具
 ### ② 多 Agent 轨迹合成
 - DFS 随机游走采样 + 四角色模拟
 - 环境无关：LLM 模拟执行，无需真实 API
 - 产出 15,092 个历史感知训练样本
 ### ③ Light Routing Agent
 仅两个工具：router_invoke + tool_execute。路由与执行解耦 → 路由逻辑独立于具体工具定义。
 ## 关键结果
 - **8B 专用路由器 > 巨型通用模型**：GPT-4o (47.4%) vs ACE-Router (53.4%)
 - 扩展候选池：ReAct 从 41.8% 崩溃到 36.5%，ACE-Router 稳定在 53.0%
 - 噪声鲁棒：GPT-4o 28% / Gemini 32%，ACE-Router 保持 56%
 - 工具路由 → Agent 路由零训练迁移：88-92%
 ## 参考
 - [[yao-ace-router-2026|论文]]
 - [[history-aware-routing|历史感知路由]]
 - [[candidate-graph|候选图]]
 - [[light-routing-agent|轻量路由 Agent]]
--- a/concepts/active-tool-discovery.md
+++ b/concepts/active-tool-discovery.md
@@ -0,0 +1,55 @@
 ---
 title: "主动工具发现 — Active Tool Discovery"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [tool-discovery, llm-agents, mcp, active-learning, paradigm-shift]
 sources:
  - https://arxiv.org/abs/2506.01056
 ---
 # 主动工具发现（Active Tool Discovery）
 ## 定义
 Active Tool Discovery 是 [[fei-mcp-zero-2025|MCP-Zero]] 提出的工具选择新范式：**Agent 自主识别能力缺口，按需生成工具请求，由系统匹配返回**——而不是被动接受预注入的全部工具 schema。
 ## 范式对比
 | | 被动注入（Passive Injection） | 检索增强（Retrieval-Augmented） | 主动发现（Active Discovery） |
 |---|---|---|---|
 | 决策主体 | LLM 从全量中选择 | 检索系统预选 | LLM 自主请求 |
 | 上下文 | 全部 tool schema 在 context 中 | 仅相关 tool | 仅请求的 tool |
 | 多轮能力 | 无（一次性注入） | 受限（基于首轮查询） | 天然支持迭代扩展 |
 | 自主性 | 选择器 | 半自主 | 能力构建者 |
 ## 为什么需要主动发现
 三个根本约束：
 1. **外部决策权**：被动注入和检索方案将工具选择权交给外部系统，而非 Agent 自身
 2. **语义分布差距**：用户查询和正式 tool spec 在不同的语义空间中——检索精度受损
 3. **静态能力假设**：工具被一次性选定，而非随任务理解深化而迭代发现
 ## 理论建模
 主动发现可建模为 **active learning**：
 ```
 r* = arg max I(T*; r|s_t)
   = arg max[H(T*|s_t) - H(T*|r, s_t)]
 ```
 Agent 生成请求 r 以最大化关于最优工具集 T* 的信息增益。
 ## 关键机制
 - [[active-tool-request|Active Tool Request]]：结构化请求生成
 - [[hierarchical-semantic-routing|层次语义路由]]：两级精匹配
 - [[iterative-capability-extension|迭代能力扩展]]：跨域 toolchain
 ## 参考
 - [[fei-mcp-zero-2025|MCP-Zero 论文]]
 - [[mcp-protocol|MCP 协议]]
 - [[skill-retrieval|Skill 检索]]（类比：skill 检索也是主动选择）
--- a/concepts/active-tool-request.md
+++ b/concepts/active-tool-request.md
@@ -0,0 +1,56 @@
 ---
 title: "Active Tool Request — 结构化工具请求"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [tool-discovery, mcp-zero, structured-request, llm-agents]
 sources:
  - https://arxiv.org/abs/2506.01056
 ---
 # Active Tool Request
 ## 定义
 Active Tool Request 是 MCP-Zero 的核心机制：当 Agent 识别到能力缺口时，**自主生成结构化工具请求**，而非从预选列表中被动选择。
 ## 请求格式
 ```
 <tool_assistant>
 server: File system allowing file operations
 tool: Read file by filename
 </tool_assistant>
 ```
 两个字段：
 - **server**：平台/权限域要求（与 MCP server 描述对齐）
 - **tool**：操作类型 + 目标（与 tool description 对齐）
 ## 为什么比用户查询更好
 MCP-Zero 的理论分析证明：
 ```
 cos(e_request, e_tool_description) > cos(e_query, e_tool_description)
 ```
 Agent 生成的请求在**工具文档的语义空间中**，天然比原始用户查询更对齐。用户可能说"帮我修 bug"，Agent 能精确表达"需要读取文件的 API"。
 ## 与传统方案的对比
 | | System Prompt 注入 | 检索增强 | Active Tool Request |
 |---|---|---|---|
 | 请求者 | 预设 | 用户查询匹配 | Agent 自主 |
 | 语义对齐 | N/A | 低（user→tool 语义差） | 高（request→tool 对齐） |
 | 多轮 | N/A | 基于首轮 | 每步可独立请求 |
 ## 多轮能力
 Agent 可在同一次对话中生成多个独立请求，每次触发独立的检索过程——天然支持跨域 toolchain 构建。
 ## 参考
 - [[active-tool-discovery|主动工具发现]]
 - [[fei-mcp-zero-2025|MCP-Zero 论文]]
 - [[hierarchical-semantic-routing|层次语义路由]]
--- a/concepts/adkv.md
+++ b/concepts/adkv.md
@@ -0,0 +1,46 @@
 ---
 title: "AdaKV"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["kv-cache", "cross-head-budget-allocation", "dynamic-allocation"]
 sources: []
 ---
 # AdaKV
 ## 定义
 AdaKV (Feng et al., 2026b) 是一种动态的 [[cross-head-budget-allocation]] 方法，通过全局 Top-K 选择在 attention head 之间分配缓存预算。它基于注意力熵等实时统计量动态调整分配。
 ## 核心机制
 1. **全局池化**：将所有 head 的候选 token 及其代理分数集中
 2. **全局 Top-K**：跨所有 head 选择分数最高的 K 个 token
 3. **动态分配**：各 head 的实际预算由 Top-K 选择结果自然决定
 ## 与 LU-KV 的关系
 LU-KV 论文对 AdaKV 进行了关键性分析：
 - **借鉴**：AdaKV 的输出扰动界分析启发了 [[oracle-importance]] 的定义
 - **超越**：AdaKV 基于**原始代理分数**做全局比较（假设分数跨 head 可比），LU-KV 基于**边际效用曲线**做跨 head 比较
 - **形式化差异**：AdaKV 的贪心策略未考虑 [[optimality-gap]]，LU-KV 显式优化它
 ## 局限性
 1. **分数不可比假设**：不同 head 的注意力分数尺度和分布不同，直接全局 Top-K 可能偏向分数尺度大的 head
 2. **瞬时视角**：使用当前注意力熵，无法捕捉 [[long-horizon-utility]]
 3. **无离线 profiling**：每次推理需在线计算，但开销仍可接受
 ## 相关概念
 - [[cross-head-budget-allocation]] — AdaKV 所在的类别
 - [[pyramidkv]] — 静态分配的替代方案
 - [[global-combinatorial-optimization]] — LU-KV 采用的形式化更强的优化框架
 - [[tang-lukv|LU-KV]] — 基于边际效用的改进方法
 ## 参考
 - AdaKV (Feng et al., 2026b)
 - [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
--- a/concepts/agent-memory-five-category-model.md
+++ b/concepts/agent-memory-five-category-model.md
@@ -0,0 +1,53 @@
 ---
 title: "Agent Memory Five-Category Model (sz 设计)"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: ["agent-memory", "architecture", "design", "multi-index"]
 sources:
  - "[[atlas-agent-memory-architecture-2026]]"
  - "[[longmem-eval-2025]]"
 ---
 # Agent Memory Five-Category Model
 基于 sz 的 Agent 记忆构建模式分析，将记忆按生命周期和检索特征划分为五类，并映射到现有 wiki 框架。
 ## 五类记忆模型
 | # | 类别 | 存储方式 | Atlas 对应 | 检索特点 |
 |---|------|---------|-----------|---------|
 | 1 | **知识** | text + frontmatter delimiter | catalog（无 user_id，共享） | 确定性查找，结构化 |
 | 2 | **概念** | 知识图谱 | —（wiki 体系独立） | 遍历 + 关联推理 |
 | 3 | **Cron 定时** | cron 直接构建 | — | 触发式，不算完整记忆 |
 | 4a | **用户偏好/习惯/认知** | 结构化文本 | semantic（稳定事实） | last_used_at 衰减 + use_count boost |
 | 4b | **近期交流日志** | 结构化文本，快速塞上下文 | episodic（原始日志） | timestamp 衰减（短期） |
 | **5** | **计划/想法/洞察/遗留问题** | 结构化摘要 | **prospective**（前瞻） | 语义关联匹配（平坦时间衰减） |
 ## 设计原则
 1. **知识（类型 1）**：独立于用户，MCP Server 的 catalog 索引承载。frontmatter 提供结构化元数据（来源、标签、更新时间），正文提供全文检索。
 2. **概念（类型 2）**：wiki link graph 承载。概念之间的交叉引用形成知识图谱，与记忆系统的全文检索形成互补——一个是遍历式探索，一个是精确召回。
 3. **Cron（类型 3）**：不进入记忆索引。Cron job 的配置本身是外部触发器，执行结果可作为 episodic 事件写入，但 job 定义不是"记忆"。
 4. **用户绑定信息（类型 4）**：Atlas 的双索引（episodic + semantic）直接承载。日志部分走 episodic 的高频写入+短期衰减，偏好/习惯/认知走 semantic 的 consolidation 提炼+长期稳定。
 5. **长周期随机提取（类型 5）**：需要专门的前瞻记忆索引——见 [[prospective-memory-index]]。
 ## 关键洞察
 第 5 类（计划/想法/洞察）在传统三索引框架中处于缝隙位置：
 - 不是 episodic（不应随 timestamp 沉底）
 - 不是 semantic（不是稳定事实，是动态状态）
 - 不是 procedural（不是可重复操作流程）
 它是**意图/计划/未闭合的思路**——介于 episodic 的短周期和 semantic 的稳定性之间，有自己的生命周期特征。
 ## 参考
 - [[atlas-memory-system]]
 - [[agent-memory-taxonomy]]
 - [[prospective-memory-index]]
 - [[longmem-eval-2025]]
 - [[memory-indexing-retrieval-reading]]
--- a/concepts/agent-memory-lifecycle.md
+++ b/concepts/agent-memory-lifecycle.md
@@ -0,0 +1,55 @@
 ---
 title: "Agent 记忆生命周期"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [agent-memory, lifecycle, pipeline, memos]
 sources:
  - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
 ---
 # Agent 记忆生命周期
 ## 五阶段管线
 一个完整的记忆系统可拆解为五个核心环节：
 ```
 抽取 → 组织 → 检索 → 更新 → 共享
  ↑                              |
  └──────────────────────────────┘
          (闭环反馈)
 ```
 ### 1. 抽取（Extraction）
 - 从对话流、交互轨迹中识别和提取关键信息
 - **关键风险**：记忆是对知识的高度总结，幻觉在此阶段引入后会在后续环节累积
 - MemOS 使用自研记忆原生模型自主决定何时抽取
 ### 2. 组织（Organization）
 - 结构化存储、去重、归纳合并
 - [[memory-dedup-pipeline|三级去重漏斗]]：SHA-256 → 向量余弦 → LLM Judge
 - 平均压缩比 75%+
 ### 3. 检索（Retrieval）
 - 多路召回、时间衰减、多样性处理
 - 不同于文档检索——记忆检索需考虑时效性、相关性、可信度
 ### 4. 更新（Update）
 - 增量合并、矛盾检测
 - 记忆不是只增不减——需要合并重复、解决冲突、过期退役
 ### 5. 共享（Sharing）
 - 跨 Agent/用户/会话传递记忆
 - Hub 机制解决知识孤岛和经验蒸发问题
 ## 对应关系
 这与 [[agent-skill|Agent Skill]] 的生命周期（Representation → Acquisition → Retrieval → Evolution）形成有趣的平行结构——两者共享"存储→检索→演化"的核心模式，但记忆更侧重事实性上下文，skill 更侧重过程性 know-how。
 ## 参考
 - [[agent-memory-system|Agent 记忆系统]]
 - [[layered-memory-architecture|三层记忆架构]]
 - [[memory-dedup-pipeline|记忆去重管线]]
 - [[agent-skill|Agent Skill]]
--- a/concepts/agent-memory-system.md
+++ b/concepts/agent-memory-system.md
@@ -0,0 +1,45 @@
 ---
 title: "Agent 记忆系统"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [agent-memory, llm-agents, memory-system, infrastructure]
 sources:
  - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
 ---
 # Agent 记忆系统
 ## 定义
 Agent 记忆系统是为 LLM-based agent 提供持久化、可检索、可演化的上下文管理基础设施。它不仅关乎 token 节省，更决定 agent 能否执行连续型长程任务。
 ## 为什么记忆是 Agent 的生死关键
 两个标志性事件推动行业共识转变：
 1. **ChatGPT 个人记忆功能（2025.4）**：记忆代表 AGI 时代模型对每个用户的个性化理解
 2. **OpenClaw 连续型 Agent**：缺乏记忆系统 → 长程任务无法顺利执行
 视角扩展：single-session → multi-session → multi-user → multi-agent → multi-apps，复杂度指数增长。
 ## 需要独立记忆层的原因
 当开发者面向上述多维度场景时，需要一个独立的处理框架来屏蔽复杂性——让开发者专注 Agent 业务逻辑，而非记忆的具体处理机制。MemOS 正是为此设计的记忆增强层。
 ## 核心能力
 | 环节 | 功能 |
 |------|------|
 | 抽取 | 从对话流中提取关键信息 |
 | 组织 | 结构化存储、去重、归纳 |
 | 检索 | 多路召回、时间衰减 |
 | 更新 | 增量合并、矛盾检测 |
 | 共享 | 跨 Agent/用户/会话传递 |
 ## 参考
 - [[memtensor-memos-agent-memory-2026|MemOS 技术分享]]
 - [[layered-memory-architecture|三层记忆架构]]
 - [[agent-memory-lifecycle|记忆生命周期]]
 - [[memory-governance|记忆治理]]
--- a/concepts/agent-memory-taxonomy.md
+++ b/concepts/agent-memory-taxonomy.md
@@ -0,0 +1,36 @@
 ---
 title: "Agent Memory Taxonomy (三索引分型)"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["agent-memory", "architecture", "information-lifecycle"]
 sources:
  - "[[atlas-agent-memory-architecture-2026]]"
 ---
 # Agent Memory Taxonomy
 Agent 记忆的三索引分型逻辑：不同生命周期的信息用不同的存储结构、衰减策略和更新规则。
 ## 三种记忆类型
 | 类型 | 例子 | 生命周期 | 衰减驱动力 |
 |------|------|---------|----------|
 | **Episodic** | "今天下雨好烦" | 短（数天-数周） | timestamp（时间新鲜度） |
 | **Semantic** | "我只用 PostgreSQL" | 长（稳定事实） | last_used_at（使用频率） |
 | **Procedural** | "部署 checklist 第3步" | 极长（操作流程） | 豁免（不因时间衰减） |
 ## 为什么不能合并
 - **字段语义污染**：timestamp 对 episodic 是主衰减源，对 semantic 只是发现时间
 - **生命周期冲突**：episodic 高频写入从不更新，semantic 低频写入但高频更新
 - **mapping 无法承载**：ES mapping 是 schema-on-write，合并后字段大量 null
 ## 设计原则
 信息的衰减驱动力是它有多频繁被需要，不是它有多旧。同一衰减策略套在所有记忆上是错误：客服 Agent 中 "API v2 偏好" 的衰减不应与 "今天心情不好" 相同。
 ## 参考
 - [[atlas-agent-memory-architecture-2026]]
 - [[atlas-memory-system]]
 - [[per-index-time-decay]]
--- a/concepts/agent-skill-atomization.md
+++ b/concepts/agent-skill-atomization.md
@@ -0,0 +1,52 @@
 ---
 title: "Agent Skill 原子化"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["agent-architecture", "skill-design", "mcp", "financial-engineering"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # Agent Skill 原子化
 将烟囱式业务系统拆解为颗粒合适的原子 Skill，是金融 Agent 工程的核心基础设施。每个 Skill 需统一注册、统一描述、统一权限管控。
 ## Skill 设计规范
 ### 三要素
 1. **所需物料**：Skill 执行需要哪些数据输入
 2. **数据来源**：物料从哪个系统/接口获取，实时还是历史
 3. **权限级别**：
   - 只读：纯查询操作
   - 只调代码：可执行但不可写入
   - 写需人工确认：高风险操作强制确认
 ### 常见物料陷阱
 - 风险测评超过两年未更新
 - 产品申购状态非实时
 - 适当性规则未同步
 ## 接口大模型友好改造
 | 旧描述 | 新描述 |
 |--------|--------|
 | "基金分红历史信息" | "【查询】基金分红【过去指定时间，如去年、上个月等】范围内的分红记录" |
 改造原则：
 - **清晰**：带上时间、业务标签
 - **一致**：避免系统缩写（如 JJJJ）
 - **业务性**：复杂功能封装为组合接口
 ## 与 MCP 的关系
 Skill 原子化是实现 MCP 协议接入的前提。每个原子 Skill 作为一个 MCP Tool 暴露，Agent 通过 Function Call 动态调度。
 ## 组织挑战
 困难不在技术，而在于业务侧愿不愿意开放自己的能力——需要组织层面推动。
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[mcp-protocol]]
 - [[financial-agent-permission]]
--- a/concepts/agent-skill-ecosystem.md
+++ b/concepts/agent-skill-ecosystem.md
@@ -0,0 +1,63 @@
 ---
 title: "Agent Skill 生态系统"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [agent-skills, ecosystem, platforms, infrastructure]
 sources:
  - https://arxiv.org/abs/2605.07358
 ---
 # Agent Skill 生态系统
 ## 定义
 Agent skill 应被理解为**生态系统**而非孤立的推理模块。Skill 可从演示、轨迹、文档或反馈中创建；在仓库中索引；在任务、延迟或预算约束下检索和选择；与工具、内存和其他 agent 一起执行；并随着环境变化而修订、验证或退役。
 ## 代表性平台
 | 平台 | 规模 | 特点 |
 |------|------|------|
 | **SkillNet** | 300k+ | 动态本体构建、关系图、多维评估 |
 | **ClawHub** | 40k+ | Agent 社区的共享 skill 仓库 |
 | **SkillHub** | 80k+ | 社区驱动的 skill 市场 |
 | **SkillsMP** | 700k+ | 最大规模，含人类专家编写 skill |
 | **Skills.sh** | 90k+ | 社区 skill 平台 |
 ## 生态系统的关键组件
 ### 创建侧
 - 人类专家编写（精度高）
 - Agent 自动生成（规模大）
 - 语料提取（冷启动）
 - 经验抽象（接地气）
 ### 管理侧
 - 版本化和依赖管理
 - 质量评估和安全审计
 - 本体和关系图构建
 - 冲突检测和去重
 ### 消费侧
 - 检索和选择基础设施
 - 运行时路由和治理
 - 反馈收集和演化触发
 ## 开放挑战
 1. **互操作性**：不同平台间的 skill schema 不统一
 2. **安全分发**：第三方 skill 可能包含恶意逻辑（PoisonedSkills 攻击面）
 3. **质量控制**：入库前的验证机制不足
 4. **长期治理**：仓库级别的退役和废弃管理
 ## 与 Hermes 的对应
 Hermes 的 skill 体系（`~/.hermes/skills/`）是一个本地的 skill 生态基础设施——覆盖了表示、获取（人工+经验）、检索和选择。论文中的仓库演化、运行时治理、统一 schema 等方向是 Hermes 可以借鉴的演进路径。
 ## 参考
 - [[zhou-agent-skills-survey-2026|Zhou et al. 2026]]
 - [[agent-skill|Agent Skill]]
 - [[skill-lifecycle|Skill 生命周期]]
 - [[runtime-governance|运行时治理]]
 - [[skill-evolution|Skill 演化]]
--- a/concepts/agent-skill.md
+++ b/concepts/agent-skill.md
@@ -0,0 +1,50 @@
 ---
 title: "Agent Skill — 可复用过程性构件"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [agent-skills, procedural-knowledge, llm-agents]
 sources:
  - https://arxiv.org/abs/2605.07358
 ---
 # Agent Skill
 ## 定义
 Agent skill 是一个**可复用的过程性构件**，具有有界范围，将面向任务的 know-how 外化为显式、可检查、可存储的对象。它不仅是"能做什么"的声明，更编码了**何时行动、如何执行、有哪些启发式和失败模式、如何判断完成**。
 ## 形式化定义
 来自 [[zhou-agent-skills-survey-2026|Zhou et al. 2026]]：
 **S = (M, R, C)**
 - **M**（主指令文档）：agent 可以加载并遵循的根指令，是 skill 对人类可读的主要表示
 - **R**（辅助资源集）：参考文档、可复用模板、可执行脚本、领域构件，扩展了 M 单独能完成的范畴
 - **C**（适用条件）：编码何时应检索和应用该 skill 的条件，可为元数据、自然语言描述或嵌入向量
 ## 核心属性
 1. **可复用性**：跨任务、跨会话复用，避免每次都从零推理
 2. **可组合性**：多个 skill 可编排为更大的执行行为
 3. **可检查性**：作为显式构件可被审计、版本化、共享
 4. **操作层定位**：与 agent 的高层推理形成互补——agent 决定"做什么"，skill 执行"怎么做"
 ## 与工具的区别
 | 工具 (Tool) | Skill |
 |------------|-------|
 | 暴露原子能力 | 封装过程性 know-how |
 | 说明能做什么 | 说明何时用、如何编排、怎样验证 |
 | 单一调用接口 | 可含多步骤、分支、回退逻辑 |
 | 无状态 | 可含触发条件、适用场景 |
 MCP 等协议解决了工具的**互操作性**问题，但未解决**过程性**问题——这正是 skill 填补的鸿沟。
 ## 参考
 - [[zhou-agent-skills-survey-2026|Zhou et al. 2026 综述论文]]
 - [[procedural-gap|过程性鸿沟]]
 - [[skill-lifecycle|Skill 生命周期]]
 - [[skill-representation|Skill 表示]]
--- a/concepts/agent-web.md
+++ b/concepts/agent-web.md
@@ -0,0 +1,39 @@
 ---
 title: "Agent Web — 开放协作智能体网络"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [agent-web, ecosystem, multi-agent, open-network, routing]
 sources:
  - https://arxiv.org/abs/2601.08276
 ---
 # Agent Web
 ## 定义
 Agent Web 是 ACE-Router 论文引述的**未来愿景**：一个开放的协作网络，其中 Agent 作为自治节点访问海量、持续增长的外部资源（工具、Agent、服务）。实现这一愿景需要从"静态编排"转向**"按需组队"（On-demand Teaming）**。
 ## 核心特征
 - **开放生态**：Agent 不再是孤立的——MCP 统一了接入标准
 - **指数增长**：可访问的工具和 Agent 数量远超任何单一上下文窗口
 - **动态编排**：主机 Agent 必须基于实时状态**动态发现和调度**最优协作节点
 ## 为什么需要 Router
 Agent Web 的核心挑战不是"有没有工具可用"，而是**在指数级候选空间中精准导航**。ACE-Router 提供了这一导航能力——通过训练专用路由器来处理大规模、异构、动态变化的候选空间。
 ## 按需组队 vs 静态编排
 | | 静态编排 | 按需组队 |
 |---|---|---|
 | 工具集 | 预定义、硬编码 | 动态发现 |
 | 规模 | 受限于上下文窗口 | 对数级别扩展 |
 | 灵活性 | 差 | 实时适配 |
 ## 参考
 - [[ace-router|ACE-Router]]
 - [[light-routing-agent|轻量路由 Agent]]
 - [[yao-ace-router-2026|论文]]
--- a/concepts/agentic-cache-manager.md
+++ b/concepts/agentic-cache-manager.md
@@ -0,0 +1,66 @@
 ---
 title: "Agentic Cache Manager"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["kv-cache", "memory", "drift", "streaming", "inference"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Agentic Cache Manager (Agentic 缓存管理)
 **Agentic Cache Manager** 是 [[maineCoon|MaineCoon]] [[agentic-streaming-inference|流式推理框架]] 中管理模型记忆的控制器：在单个持久 [[kv-cache|KV-Cache]] 上同时治理**记住多少**（bounded keep-set）和**记多准确**（drift control）。
 ## 单持久缓存 → 连续流
 传统方案的问题：
 - **重生成增长前缀**：每块 cost 随长度增长 → 不可扩展
 - **拼接独立段**：周期 re-anchoring → 身份/颜色/音频跳变
 MaineCoon 使用**一个永不清理的 KV-cache**，chunk 间连续性由 attention 原生携带，无拼接边界。
 ## Bounded Keep-Set（有界保留集）
 缓存不能无限增长——模型使用有限 RoPE 位置编码。Manager 每次 commit 后重新计算保留集：
 ```
 Keep = Subject Anchor ∪ Scene Sink ∪ Scene Anchors ∪ Recent Chunks ∪ Restored
 ```
 - **Subject Anchor**：主体语义参考块（见 drift control）
 - **Scene Sink**：场景建立时的 persistent attention sink
 - **Scene Anchors**：散布的场景关键帧
 - **Recent Chunks**：固定预算的最新 chunk
 - **Restored**：场景返回时恢复的历史 chunk
 **四种 attention 类型各自独立追踪**：visual self-attn, audio self-attn, cross-modal AV paths 的缓存增长速率不同，需要 per-type ledger 独立管理。
 ## Drift Control（漂移控制）
 核心原则：**永不修改已发布的像素**——修正仅施加于写回缓存的 committed copy。
 ### Statistical Anchor (AdaStat)
 写回缓存前对 clean latent 做 per-channel 统计匹配：
 ```
 AdaStat(x) = σ* ⊙ (x - μ(x))/σ(x) + μ*
 ```
 - 参考 (μ*, σ*) 从场景开头初始化，慢 EMA 更新
 - 仅对**低漂移 chunk** 更新参考，追踪合法 scene evolution
 - 音频通道使用降低的强度
 ### Subject Anchor（主体锚）
 - 开放词汇分割器在周期性快照上对规划器的文本描述评分
 - 从流的 clean latent 中收割最高分 token
 - 作为 KV-cache 中的固定参考块，**永不输出**
 - 使漂移从不可逆变为**可恢复**
 ## Bounded Positions
 位置编码通过 bounded epoch slots 保持在训练范围内。epoch 耗尽时用保留的 clean latent 在新 slots 重建缓存，保留内容但刷新位置编码。
 ## 效果
 在二十秒训练片段上训练的模型，可连续流式运行 **45 分钟无显著退化**。
 ## 参考
 - [[maineCoon|MaineCoon 论文]] Section 4.2
 - [[kv-cache]]
 - [[agentic-streaming-inference|Agentic Streaming Inference]]
--- a/concepts/agentic-rag.md
+++ b/concepts/agentic-rag.md
@@ -0,0 +1,42 @@
 ---
 title: "Agentic RAG"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["rag", "agent", "retrieval", "planning"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # Agentic RAG
 Agentic RAG 是将 Agent 规划能力引入检索增强生成（RAG）的架构范式。与传统 RAG 的"一次检索→一次生成"不同，Agentic RAG 赋予模型**动态规划检索策略、自我评估信息充分性**的能力。
 ## 核心工作流
 1. **任务拆解**：将复杂查询拆分为子问题序列
 2. **工具选择**：根据子问题类型动态选择检索工具（PageIndex / BM25 / 向量检索）
 3. **迭代检索**：执行检索，评估当前信息是否足够回答
 4. **自我评估**：不足则规划下一轮检索，足够则汇总生成
 ## 金融场景实践
 恒生电子在金融长文档检索中采用 PageIndex + Agentic RAG 组合：
 - PageIndex 负责粗粒度定位（章节级）
 - Agentic RAG 负责调度多工具、判断是否需要跨章节检索
 - 单 chunk 召回准确率超过 95%
 ## 与传统 RAG 的区别
 | 维度 | 传统 RAG | Agentic RAG |
 |------|---------|------------|
 | 检索次数 | 1 次 | 多轮迭代 |
 | 工具选择 | 固定 | 动态选择 |
 | 自我评估 | 无 | 有 |
 | 适用场景 | 简单事实查询 | 复杂推理问题 |
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[pageindex]]
 - [[context-engineering]]
--- a/concepts/agentic-streaming-inference.md
+++ b/concepts/agentic-streaming-inference.md
@@ -0,0 +1,65 @@
 ---
 title: "Agentic Streaming Inference"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["inference", "streaming", "agent", "framework", "real-time"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Agentic Streaming Inference (Agentic 流式推理)
 **Agentic Streaming Inference** 是 [[maineCoon|MaineCoon]] 提出的**训练无关推理框架**：用三个 agentic 控制器包裹冻结的生成器，不修改模型权重即可实现千秒级稳定流式生成。
 ## 架构
 ```
 Viewer ← Stream ← [Buffer Controller] → [Frozen Generator + KV-Cache]
                       ↑ Timing              ↑ Memory ↑ Content
                  [Cache Manager] ←→ [Director: Planner + Observer]
 ```
 三个控制器各司其职，**内容/记忆/时间三者分离**：
 | 控制器 | 职责 | 核心机制 |
 |--------|------|---------|
 | **Director** (Planner + Observer) | 内容流 | Gemma 4 26B agent 写 prompt + 观察质量 |
 | **[[agentic-cache-manager|Cache Manager]]** | 记忆 | bounded keep-set + drift control |
 | **[[look-ahead-buffer-controller|Buffer Controller]]** | 时间/节奏 | pace gate 管理生成 lead |
 ## 关键设计原则
 ### 1. 分离关注点
 - **Agent (Planner/Observer)** 负责认知：何时生成什么、是否退化、如何修复
 - **Engine (Generator)** 负责执行：以固定节奏持续生成，不被中断
 - **Manager (Cache/Buffer)** 负责治理：记住什么、何时输出
 ### 2. 永不中断流
 - Generator 以固定 cadence 运行，永不 start/stop/step
 - 所有修正通过 prompt stream 前向注入，不重置流
 - Observer 在 generation head 上检查（领先 playback），修复在观众看到之前完成
 ### 3. 优雅降级
 - 分割/检查/规划失败 → 降级到更粗粒度的信号或安全续写
 - Observer 端任何失败**不会卡住流**
 ## Director: Planner + Observer
 **Planner** 按固定 beat 产生结构化 prompt：
 ```
 [VISUAL] 角色外观 + [SPEECH] 台词 + [SOUNDS] 环境音 + tags
 ```
 维护有限规划历史和已说台词记录，确保不重复。
 **Observer** 在生成前线观察质量：
 - 五项 photometric 漂移指标（廉价，每帧运行）
 - 周期性 VLM 检查语义缺陷
 - 通过 [[forward-repair-ladder|前向修复阶梯]] 修复
 **Feeder & Fast Lane**：异步队列化 prompt，fast lane 替换尚未生成的 beat，不影响正在飞行的 chunk。
 ## 参考
 - [[maineCoon|MaineCoon 论文]] Section 4
 - [[agentic-cache-manager|Agentic Cache Manager]]
 - [[look-ahead-buffer-controller|Look-Ahead Buffer Controller]]
 - [[forward-repair-ladder|Forward-Repair Ladder]]
--- a/concepts/agi-critique.md
+++ b/concepts/agi-critique.md
@@ -0,0 +1,42 @@
 ---
 title: "AGI 批判（AGI Critique）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - agi
  - ai-philosophy
  - hype
  - michael-jordan
 sources:
  - Jordan, MLST 2026
 ---
 # AGI 批判（AGI Critique）
 对"通用人工智能（AGI）"概念及其叙事体系的批判性审视。核心主张：AGI 是一种**公关术语和思维扭曲**，而非有效的技术目标。
 ## Jordan 的批评
 Michael I. Jordan（MLST 2026）：「AGI 只是个公关词。它是一种扭曲。它让人困惑，尤其让年轻人困惑。」
 他的论据：
 - "AI"术语本身伴随 LLM 兴起而回归，因为输出是人类可读语言——但背后的 ML 传统从未消失
 - AGI 叙事缺乏清晰目标：没有"要解决什么社会问题"、没有"对谁有价值、以什么方式产生价值"
 - 「这就是硅谷的谈话方式。那里没有什么深度的长期思考。它变成了一场内卷赛，一场金钱竞赛」
 ## 公共讨论中的扭曲效应
 - 将 AI 讨论推向两极：乌托邦 vs 末日——「两队在人类历史上这种程度的现实脱节是非常罕见的」
 - 伤害年轻一代：年轻人听到的是"超级智能马上就来，你们有生之年没什么可做了"或"太危险了，你们不能做这个"
 - 用隐喻代替系统设计：大脑隐喻 → 神经元 → 梯度下降 → "智能涌现"
 ## 替代框架
 - [[collectivist-ai|集体主义 AI]]：将 AI 视为经济系统而非个体智能
 - [[anthropomorphization-critique|人类化机器批判]]：停止问"它是否理解"，转向工程问题
 ## 参考
 - [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
 - [[anthropomorphization-critique|人类化机器批判]]
--- a/concepts/ai-production-tradeoffs.md
+++ b/concepts/ai-production-tradeoffs.md
@@ -0,0 +1,42 @@
 ---
 title: "AI 生产权衡 — 六大维度"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [ai-engineering, production, tradeoffs, mlops]
 sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
 ---
 # AI 生产权衡
 ## 定义
 AI 工程师在生产部署中面临的关键决策维度。来自 Sara Nobrega (2026) 的框架：这些权衡没有"正确"答案，但有可操作的框架、真实数字和决策背景。
 ## 六大维度
 | # | 权衡 | 核心问题 |
 |---|------|---------|
 | 1 | [[build-vs-buy-llm|构建 vs 购买]] | API 调用何时不再划算？ |
 | 2 | [[cace-principle|复杂度 vs 可维护性]] | 6 个月后谁来调试？ |
 | 3 | [[data-quality-vs-quantity|数据数量 vs 质量]] | 更多数据何时变成更差结果？ |
 | 4 | [[batch-vs-real-time-inference|吞吐量 vs 延迟]] | 批处理还是实时？ |
 | 5 | [[prompt-engineering-vs-fine-tuning|提示词 vs 微调]] | 两条截然不同的投资曲线 |
 | 6 | [[human-in-the-loop|自动化 vs 人类监督]] | 你有多信任模型独立行动？ |
 ## 统一原则
 > **决策的成本很少在决策做出的地方产生回报。** 复杂度的代价延迟偿付——更复杂的模型 6 个月后增加维护成本，实时系统的 24/7 支撑长期代价更高，大规模脏数据在重训练周期上付出代价。
 ## 常见模式
 - 团队默认使用实时推理（因为"听起来更令人印象深刻"），但大多数业务问题不需要亚秒级预测
 - 团队平均超出 LLM 预算 340%，主因是缺少使用跟踪和成本归属
 - 为 2% 精度提升选复杂模型，为这个选择支付 18 个月的调试税
 ## 参考
 - [[nobrega-ai-production-tradeoffs-2026|原文文章]]
 - [[ml-technical-debt|ML 技术债务]]
 - [[selective-hitl|选择性 HITL]]
--- a/concepts/aidb.md
+++ b/concepts/aidb.md
@@ -0,0 +1,40 @@
 ---
 title: "AIDB（大模型友好数据层）"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["data-engineering", "llm-infrastructure", "financial-engineering", "rag"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # AIDB（大模型友好数据层）
 AIDB（AI-friendly Database）是恒生电子提出的面向大模型友好的数据层概念，是金融大模型 IT 架构重构的三大方向之一（另两个为业务能力原子化 Skills、金融大模型插件化）。
 ## 核心定位
 AIDB 不是一个新的数据库产品，而是一种**数据组织范式**——将传统面向人类和系统的数据结构，改造为面向大模型消费的形态。
 ## 关键能力
 ### 文档结构化
 将 PDF、扫描件、Word 等非结构化文档解析为带层级语义的结构化数据——这与 [[pageindex]] 的章节解析一脉相承。
 ### 知识分片
 不是简单的固定长度切块，而是基于语义边界（章节、段落、表格）的智能分片——确保表格头和数据在同一个 chunk 中。
 ### 接口描述业务化
 将系统接口的字段从技术命名改造为业务语义——让大模型能"读懂"每个字段的含义。
 ## 在 Agent 架构中的位置
 AIDB 处于资源层，为 Agent 提供"对模型友好"的数据消费环境：
 - Agent 通过 Function Call 访问 AIDB
 - AIDB 返回已结构化、已分片、已标注业务语义的数据
 - 大模型无需自行解析和推理数据结构
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[pageindex]]
 - [[agentic-rag]]
--- a/concepts/anthropomorphization-critique.md
+++ b/concepts/anthropomorphization-critique.md
@@ -0,0 +1,47 @@
 ---
 title: "人类化机器批判（Anthropomorphization Critique）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - agi-critique
  - philosophy-of-ai
  - michael-jordan
  - engineering
 sources:
  - Jordan, MLST 2026
 ---
 # 人类化机器批判（Anthropomorphization Critique）
 Michael I. Jordan 对 AI 话语中系统性**将机器类比为人类**的批判。核心主张：不要问"它是否理解"，要问"它能不能降低不确定性、能不能让工程系统建立在它之上"。
 ## 为什么有害
 1. **转移注意力**：一旦问"它是否理解"，就忘记真正重要的工程问题——失效条件、误差范围、与真实数据的结合方式、出错的后果由谁承担
 2. **招来错误期待**：说模型"理解"蛋白质折叠，然后当它在新问题上给出自信但错误的答案时，人们会失望——而期待和失望都来自错误的框架
 3. **服务于媒体叙事**：「理解」「智能」这些词是给媒体用的——容易传播，但偏离研究
 ## AGI 作为人类化谬误的极端形式
 [[agi-critique|AGI 批判]] 是人类化谬误的终极表达——把统计模式匹配系统描述为具有"通用智能"的存在。「AGI 只是个公关词，它是一种扭曲，尤其让年轻人困惑。」
 ## 正确的提问方式
 | ❌ 不要问 | ✅ 要问 |
 |----------|--------|
 | 它是否理解？ | 它能否降低不确定性？ |
 | 它是否智能？ | 它在什么条件下会失效？ |
 | 它是不是有意识？| 它有没有给出误差范围？ |
 | 它能不能替代人类？ | 它应该被嵌入什么样的系统？ |
 ## John Jumper 的共鸣
 AlphaFold 核心研究者 John Jumper 对"AlphaFold 是否理解蛋白质"的回答：**对这个词过敏**。「预测让我们能预测和控制，但理解这个动作必须由人类自己来做，不能外包给机器。」
 ## 参考
 - [[agi-critique|AGI 批判]]
 - [[collectivist-ai|集体主义 AI]]
 - [[uncertainty-taxonomy|不确定性分类法]]
 - [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
--- a/concepts/appearance-bias-vla.md
+++ b/concepts/appearance-bias-vla.md
@@ -0,0 +1,38 @@
 ---
 title: "Appearance Bias in VLA"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["vla", "bias", "pretraining", "representation-learning"]
 sources:
  - "[[vla-jepa-2026]]"
 ---
 # Appearance Bias in VLA Pretraining
 Appearance Bias 是 VLA 像素级预训练目标中的系统性失败模式：模型学习的表示偏向视觉外观变化（纹理、光照、背景），而非动作相关的可控自由度。
 ## 表现
 - 光照变化被编码为重要"特征"
 - 背景纹理替换导致 latent action 大幅变化
 - 相机角度偏移比对动作转移更显著地影响表示
 - 用 VQ-VAE 等压缩机制仍无法完全消除——压缩空间仍保留大量外观信息
 ## 根因
 像素空间的变化主要由外观因素主导，这些因素：
 1. 方差高（texture, illumination, clutter, viewpoint）
 2. 可控性低（与机器人动作弱相关）
 3. 易预测（建模难度低）
 因此模型自然地学习预测这些"低垂果实"，而非真正的动作语义。
 ## JEPA 的修复
 通过 latent space prediction 而非 pixel space prediction，JEPA 目标天然不直接建模像素变化，迫使模型在语义层面抽象。
 ## 参考
 - [[vla-jepa-2026]]
 - [[latent-action-pretraining]]
 - [[leakage-free-state-prediction]]
--- a/concepts/asymmetric-grounding-adherence-loss.md
+++ b/concepts/asymmetric-grounding-adherence-loss.md
@@ -0,0 +1,67 @@
 ---
 title: "Asymmetric Grounding Adherence Loss (L_AGA)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: ["loss-function", "rollout-drift", "regularization", "world-modeling"]
 sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
 ---
 # Asymmetric Grounding Adherence Loss (L_AGA)
 **L_AGA** 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 [[rollout-drift|rollout drift]] 防止损失。
 ## 动机
 [[dcgwm|DCGWM]] 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。[[rollout-drift|Rollout drift]] 是长视距下潜在世界模型的中心失效模式。
 ## 公式
 ```
 L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T})
 ```
 ### 物理 Adherence — 平方铰链惩罚
 ```
 L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)}) − ε_p)²
 ```
 - d_p 度量与物理接地流形 G_p 的距离
 - ε_p 是硬物理容忍阈值
 - 容忍范围内惩罚为零（允许测量噪声）
 - 超出阈值后二次增长——物理违反是范畴错误
 ### 行为 Adherence — 软 KL 散度
 ```
 L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)})
 ```
 - q_b 是 rollout 诱导的 Z_b 分布
 - p_b^{(t)} 是 SBGC 锚定的行为分布
 - KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的
 ## 为什么不对称
 不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容：
 | 维度 | 物理 | 行为 |
 |------|------|------|
 | 误差性质 | 范畴错误 | 分布距离 |
 | 惩罚形状 | 硬铰链 | 软 KL |
 | 容忍结构 | 硬阈值 ε_p | 连续缩放 |
 | 梯度特征 | 超出阈值→大梯度 | 按分布距离比例 |
 梯度流同样遵守内向约束：L_AGA_p 仅更新 W_p，L_AGA_b 仅更新 W_b。
 ## 操作化
 p_b^{(t)} 通过**摊销投影**获得：SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b，在 rollout 时冻结该编码器读取分布锚点。
 ## 参考
 - [[hazare-dcgwm-2026|DCGWM 论文]]
 - [[rollout-drift|Rollout Drift]]
 - [[dcgwm|DCGWM]]
 - [[objective-interference-collapse|OIC]]
--- a/concepts/atlas-memory-system.md
+++ b/concepts/atlas-memory-system.md
@@ -0,0 +1,41 @@
 ---
 title: "Atlas Memory System"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["agent-memory", "elasticsearch", "architecture", "hybrid-retrieval"]
 sources:
  - "[[atlas-agent-memory-architecture-2026]]"
 ---
 # Atlas Memory System
 Atlas（noamschwartz/atlas-memory-demo）是 Agent 记忆系统的工程实践架构，核心理念：Agent 记忆不是 KV 存储问题，而是多索引信息检索问题。
 ## 四索引架构
 - **episodic**：原始消息 + 时间戳，每回合写入，timestamp 衰减
 - **semantic**：提炼后稳定事实，consolidation 写入，last_used_at 衰减，use_count boost
 - **procedural**：多步操作流程，衰减豁免（1.0），success/failure 计数器
 - **catalog**：公共共享知识，无 user_id，所有用户可见
 ## 检索管线
 Verbatim Pre-Recall → BM25 + Dense 并行 → RRF 融合 → Cross-encoder 重排序
 ## 关键指标
 R@10=0.89（168 QA, 3 persona, ~250 docs/user），CI gate: R@10≥0.85。
 ## 扩展：五类记忆模型
 Atlas 的三索引覆盖了 sz 五类记忆模型中的第 1 类（catalog）和第 4 类（episodic + semantic），但第 5 类（计划/想法/洞察）需要一个额外的 [[prospective-memory-index|前瞻记忆索引]] ——不以时间为主导衰减信号，以语义关联为检索驱动力。详见 [[agent-memory-five-category-model]]。
 ## 参考
 - [[atlas-agent-memory-architecture-2026]]
 - [[agent-memory-taxonomy]]
 - [[agent-memory-five-category-model]]
 - [[prospective-memory-index]]
 - [[hybrid-recall-pipeline]]
 - [[memory-consolidation]]
 - [[soft-supersession]]
--- a/concepts/attention-mechanism.md
+++ b/concepts/attention-mechanism.md
@@ -0,0 +1,49 @@
 ---
 title: "Attention Mechanism"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["attention", "transformer", "sequence-modeling"]
 sources: ["https://arxiv.org/abs/2312.00752"]
 ---
 # Attention Mechanism
 ## 定义
 Attention Mechanism（注意力机制）是 Transformer 架构的核心模块（Vaswani et al., 2017），通过 query-key-value 交互实现序列中 token 之间的**内容感知信息路由**。每个 token 的注意力分布取决于其 query 与其他 token 的 key 之间的语义相似度。
 ## 核心公式
 ```
 Attention(Q, K, V) = softmax(Q K^T / sqrt(d_k)) V
 ```
 ## 与 Mamba 的对比
 Mamba 论文将注意力作为**内容感知推理**的参考标准：
 | 维度 | Attention | Mamba (S6) |
 |------|----------|-----------|
 | 内容感知 | ✅（Q-K 内积天然内容依赖） | ✅（B, C, Δ 为输入的函数） |
 | 复杂度 | O(n²) | O(n) |
 | 机制 | token 间显式交互 | token 独立处理后选择性记忆 |
 | 推理内存 | O(n) KV cache | O(1) 隐状态 |
 ## 核心性质
 - **密集路由**：每个 token 与所有前序 token 交互 → O(n²)
 - **KV Cache**：自回归推理需缓存所有历史 (k, v)
 - **理论上无界上下文**：实际受内存限制
 ## 相关概念
 - [[content-based-reasoning]] — 注意力天然具备的能力
 - [[kv-cache]] — 注意力的推理内存瓶颈
 - [[selective-state-space|selection mechanism]] — Mamba 的替代路径
 - [[gu-mamba|Mamba 论文]]
 ## 参考
 - Vaswani et al. (2017) "Attention Is All You Need"
 - [[gu-mamba|Mamba]] (Gu & Dao, 2024)
--- a/concepts/attractor-dynamics.md
+++ b/concepts/attractor-dynamics.md
@@ -0,0 +1,46 @@
 ---
 title: "吸引子动力学 (Attractor Dynamics)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [dynamical-systems, recurrence, transformers, convergence]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 吸引子动力学 (Attractor Dynamics)
 吸引子动力学是循环网络中的一种状态演化模式：激活性持续迭代直至**收敛到稳态**，然后才推进到下一步（Mozer et al., 2026）。
 ## 在 Mozer et al. 图 5d 中的体现
 全循环（Fully Recurrent）模型中：
 - 每步输入一个 token
 - 在 t 步，所有 1 ~ t-1 步的层持续从深层向浅层发送信号
 - **只有当所有前序步骤收敛后，当前步骤才算完成**
 ## 与简单循环的区别
 | 简单循环 | 吸引子动力学 |
 |----------|------------|
 | 固定步数迭代 | 迭代至收敛 |
 | 输出可能偏离稳态 | 输出在稳态附近 |
 | 计算成本可预测 | 计算成本可变 |
 ## 潜在优势
 1. **自然的多步推理**：不需要显式指定思考步数
 2. **能量函数解释**：类似 Hopfield 网络的能量最小化视角
 3. **与人类认知对齐**：人脑的许多过程是到稳态的动力学（如感知决策）
 ## 挑战
 - **训练困难**：需要 Truncated BPTT 或循环反向传播（Almeida, 1987; Pineda, 1987; Liao et al., 2018）
 - **收敛时间不可预测**：推理延迟不确定
 ## 参考
 - [[recurrent-transformer-architectures|循环 Transformer 架构]]
 - [[latent-thought-models|隐式思考模型]]
 - [[state-tracking|状态追踪]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/audio-visual-generation.md
+++ b/concepts/audio-visual-generation.md
@@ -0,0 +1,38 @@
 ---
 title: "Audio-Visual Generation"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["generation", "audio", "video", "multimodal"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Audio-Visual Generation (音视频联合生成)
 **Audio-Visual Generation** 是指同时生成视频和音频的生成范式，要求画面运动、语音、环境音在时序上紧密同步。
 ## 与传统视频生成的区别
 传统 [[diffusion-transformer|视频扩散模型]] 通常仅处理视觉信号，或仅将音频作为条件输入。真正的音视频联合生成需要：
 - **联合潜空间**：视觉和音频在共享的时间轴上表示为对齐的 latent chunk
 - **因果时间建模**：逐块自回归生成，保持时间一致性
 - **跨模态同步**：唇音对齐、表情与语音节奏匹配
 ## 挑战
 - 长时序生成中的内容漂移（[[drifting|temporal drift]]）
 - 跨模态表示对齐的困难
 - 实时推理的延迟约束
 - 单 GPU 上的计算效率
 ## 代表性工作
 - **LTX-2.3**: 22B 开源音视频扩散模型，非因果、离线生成
 - **MaineCoon**: 22B 实时流式音视频自回归模型（[[maineCoon]]），47.5 FPS，单 GPU
 - 传统方法：Video Diffusion + 独立 Audio Diffusion 拼接
 ## 相关概念
 - [[streaming-generation|流式生成]]
 - [[autoregressive-video-generation|自回归视频生成]]
 - [[social-video|社交视频]]
 - [[audio-visual-representation-alignment|跨模态表示对齐]]
--- a/concepts/audio-visual-representation-alignment.md
+++ b/concepts/audio-visual-representation-alignment.md
@@ -0,0 +1,57 @@
 ---
 title: "Audio-Visual Representation Alignment"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["representation", "alignment", "audio-visual", "training", "jepa"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Audio-Visual Representation Alignment (音视频表示对齐)
 **Audio-Visual Representation Alignment** 是 [[maineCoon|MaineCoon]] 中通过 [[jepa|V-JEPA 2]] teacher 的 **token relation distillation** 加速流式音视频训练的技术。
 > 注意：此概念不同于 LLM 中的 [[representation-alignment|表示对齐]]（TST 中的 embedding 不变性）。此处特指音视频扩散模型中的中间层特征对齐。
 ## 动机：流式训练的可视语义获取缓慢
 从零训练大规模音视频 DiT 时，[[flow-matching|Flow Matching]] loss 仅监督低级重建，对语义结构仅施加弱压力。连贯运动和音视频对应关系在训练后期才涌现。
 ## Token Relation Distillation
 MaineCoon 采用 VideoREPA 的**关系对齐**策略：
 ### 1. Teacher 特征提取
 - Teacher: 冻结的 V-JEPA 2 编码器
 - 对训练 clip 采样帧，resize 使其 patch grid 与 visual latent grid 对齐
 - 输出特征体 `Y ∈ R^{F×S×d_tea}`，与 visual latent token 一一对应
 ### 2. 关系矩阵匹配
 在选定的中间层，将 noisy visual target hidden states 投影到 teacher space，然后匹配**成对 token 关系矩阵**：
 ```
 R(a)_{mn} = a_m^T a_n / (‖a_m‖₂ ‖a_n‖₂)
 ```
 对齐关系而非绝对特征值 — 让 generator 保留自己的表示基。
 ### 3. Hinge-Margin Loss
 ```
 L_TRD = (1/N²) Σ ReLU(R(Ŷ)_{mn} - R(Y)_{mn} - γ)
 ```
 margin γ 忽略小的关系差异，更稳定。
 ## 与 Native Streaming Training 的集成
 - 对齐 loss 作为辅助目标加入
 - 仅在 visual target half 上计算（audio stream 不约束）
 - 仅在 main gradient forward pass 上启用（self-resampling rollout 禁用）
 - Teacher 冻结且特征预计算，训练时无额外 teacher forward pass
 ## 效果
 - 大幅减少达到连贯运动和 AV 对应所需的训练步数
 - 提升最终生成质量
 ## 参考
 - [[maineCoon|MaineCoon 论文]] Section 3.2
 - [[jepa|V-JEPA 2]]
 - [[representation-alignment|LLM Representation Alignment]]（不同含义）
 - VideoREPA (Zhao et al.)
--- a/concepts/autonomous-optimization-ao.md
+++ b/concepts/autonomous-optimization-ao.md
@@ -0,0 +1,38 @@
 ---
 title: "Autonomous Optimization (AO)"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["autonomous-research", "task-formulation", "evaluation"]
 sources:
  - "[[arbor-htr-2026]]"
 ---
 # Autonomous Optimization (AO)
 AO 是 Arbor 提出的自主科研任务形式化模型：P = (M0, O, Edev, Etest)，Agent 通过迭代实验改进研究产物，无需步骤级人工监督。
 ## 四元组
 | 元素 | 含义 | 约束 |
 |------|------|------|
 | **M0** | 可变初始产物（代码库+数据） | Agent 可检查、修改 |
 | **O** | 改进目标（指标方向） | 标量目标，越大越好 |
 | **Edev** | 开发评估器 | 搜索期间自由使用 |
 | **Etest** | Held-out 评估器 | 仅用于 merge gate，不可做探索 oracle |
 ## 关键约束
 目标：M⋆ = arg max Stest(M')
 约束：假设和实现决策**不使用 Etest 作为探索 oracle**
 这防止了过拟合——在 dev 上改进但无法 transfer 到 test 的候选不应被接受。
 ## 与普通 Agentic Tool Use 的区别
 AO 的目标不是单一响应或代码补丁，而是**持续的研究轨迹**。Agent 必须提出假设、物化为产物变更、解读实验反馈，并决定哪些方向应该精炼、合并或放弃。
 ## 参考
 - [[arbor-htr-2026]]
 - [[hypothesis-tree-refinement]]
 - [[coordinator-executor-architecture]]
--- a/concepts/autoregressive-unrolling.md
+++ b/concepts/autoregressive-unrolling.md
@@ -0,0 +1,52 @@
 ---
 title: "自回归展开 (Autoregressive Unrolling)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [transformers, recurrence, training, teacher-forcing]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 自回归展开 (Autoregressive Unrolling)
 自回归展开是 Mozer et al. (2026) 定义的关键概念：即使在 Teacher Forcing 训练下，循环模型也必须**按自回归步逐步展开**，而非完全并行处理。
 ## 与标准 Transformer 的区别
 | | 标准 Transformer | 循环 Transformer（需展开） |
 |---|---|---|
 | 训练时 | 所有 token 并行（一次前向） | 按步展开（串行或块状） |
 | 推理时 | Token-by-token 自回归 | Token-by-token 自回归 |
 | 状态传播 | 前馈（深度受限） | 循环（无界） |
 ## Mozer et al. 的精确定义
 > "循环步"严格定义为训练期间排除跨序列并行化的**顺序依赖**——不是纯前馈模型 token-by-token 推理中的伪串行。
 ## 三种展开模式
 ### 图 5b：深度展开（Looped Transformer）
 - 块内并行，深度方向循环
 - 状态仍受深度限制
 ### 图 5c：块状展开（Blockwise-Recurrent）
 - 固定长度 token 块内并行
 - 块间串行传递状态
 ### 图 5d/图 6：全自回归展开
 - 一个或多个自回归步对应一个输入 token
 - 真正无界状态追踪的关键
 ## 训练效率挑战
 自回归展开是**必要的代价**——任何能在训练时完全并行化的模型，其状态追踪能力都受限于其前馈深度（Merrill et al., 2025）。
 应对策略：Mozer et al. 建议**分阶段训练**——先标准 Transformer 预训练，再引入循环机制。
 ## 参考
 - [[sequential-dependency|顺序依赖]]
 - [[recurrent-transformer-architectures|循环 Transformer 架构]]
 - [[recurrence-taxonomy|循环分类法]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/autoregressive-video-generation.md
+++ b/concepts/autoregressive-video-generation.md
@@ -0,0 +1,40 @@
 ---
 title: "Autoregressive Video Generation"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["generation", "video", "autoregressive", "causal"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Autoregressive Video Generation (自回归视频生成)
 **Autoregressive Video Generation** 是将视频生成建模为逐帧/逐块因果生成的过程：每一帧依赖之前生成的帧，而不访问未来信息。
 ## 与双向扩散模型的核心差异
 传统 [[diffusion-transformer|DiT]] 视频模型使用**双向时间注意力**（bidirectional temporal attention），在生成过程中所有帧相互依赖。这带来两个问题：
 1. **非实时**：中间帧在全部去噪完成前无法输出
 2. **计算随长度增长**：自注意力成本随序列长度平方增长
 自回归视频生成通过**因果注意力**（causal attention）解决：
 - 逐块生成，每块仅依赖历史
 - 使用 [[kv-cache|KV-Cache]] 复用历史状态
 - 支持流式输出和实时交互
 ## 关键技术
 - **Causal Streaming Generation**: 因果时间顺序生成，帧/块依次产生
 - **KV-Cache 管理**: 持久化缓存，限制缓存大小以控制计算量
 - **漂移控制**：长时序自回归容易积累误差，需要 drift mitigation
 ## 代表性模型
 - **MaineCoon**: 实时音视频自回归模型（[[maineCoon]]），22B，47.5 FPS
 - 其他流式视频生成模型：VideoGPT, TATS 等
 ## 相关概念
 - [[streaming-generation|流式生成]]
 - [[audio-visual-generation|音视频联合生成]]
 - [[kv-cache]]
 - [[causal-generation|因果生成]]
--- a/concepts/barker-gibbs.md
+++ b/concepts/barker-gibbs.md
@@ -0,0 +1,49 @@
 ---
 title: "Barker Gibbs"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: [mcmc, gibbs-sampling, llm, discriminative, rejection-sampling]
 sources:
  - "[[large-language-gibbs]]"
 ---
 # Barker Gibbs
 **Barker Gibbs** 是 Large Language Gibbs 框架中的一种核变体，使用 LLM 的**判别能力**（而非生成能力）来实现 Gibbs 重采样。相比 Basic Gibbs 的直接条件采样，Barker Gibbs 更适合指令微调模型（其生成概率可能未被良好校准）。
 ## 核心机制
 Barker Gibbs 将 LLM 用作偏好比较器：
 1. **提议**：从均匀分布 q(·) 中抽取候选值 X_i'
 2. **比较**：向 LLM 展示当前值 X_i 和候选值 X_i'，询问"哪个更合理"
 3. **接受**：根据 Barker 规则计算接受概率
 ```
 p^LM(X_i' ≻ X_i | X_{-i}) = q^*(X_{-i}, X_i') / (q^*(X_{-i}, X_i) + q^*(X_{-i}, X_i'))
 ```
 ## 与 Basic Gibbs 的对比
 | 维度 | Basic Gibbs | Barker Gibbs |
 |------|-----------|-------------|
 | LLM 使用方式 | 生成式（采样） | 判别式（比较） |
 | 适用模型 | base + instruct | 更适合 instruct |
 | 校准要求 | 需要校准的生成概率 | 仅需判别性偏好 |
 | 概率保证 | 直接近似条件分布 | Barker 规则保证稳态不变 |
 ## 为什么需要
 指令微调模型（如 RLHF 后的模型）的生成概率往往未被良好校准——模型可能对某些 token 过于自信或犹豫。Barker Gibbs 绕过了这个问题：LLM 只需做"二选一"偏好判断，这通常比生成完整样本更可靠。
 ## 在 Large Language Gibbs 中的位置
 Barker Gibbs 是 Basic Gibbs 的**互补方案**——当 LLM 的生成条件不可靠时，改用判别条件；当两者都可用时，Barker Gibbs 的稳态分布与 Basic Gibbs 的稳态分布一致（在 Barker 规则假设下）。
 ## 参考
 - Barker, A. A. (1965) — Barker's rule 原始文献
 - [[large-language-gibbs]] — 提出 Barker Gibbs 的论文
 - [[gambling-gibbs]] — 另一种判别式核变体
 - [[llm-mcmc]] — LLM + MCMC 的整体框架
--- a/concepts/batch-vs-real-time-inference.md
+++ b/concepts/batch-vs-real-time-inference.md
@@ -0,0 +1,44 @@
 ---
 title: "批处理推理 vs 实时推理"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [inference, deployment, batch-processing, real-time, latency, throughput]
 sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
 ---
 # 批处理推理 vs 实时推理
 ## 两种架构
 批处理和实时推理是两种**不同的系统架构**。选择错误的选项会影响基础设施、成本和用户体验——这些选择难以逆转。
 | | 批处理推理 | 实时推理 |
 |---|---|---|
 | **生成方式** | 按时间表（每小时/每天） | 按需，毫秒到秒 |
 | **存储** | 预计算，存数据库 | 即时计算 |
 | **成本** | 低 | 高（24/7 运行） |
 | **基础设施** | 简单，易调试 | 更多活动部件，难监控 |
 | **数据新鲜度** | 可能过时 | 始终最新 |
 ## 系统层面的权衡
 - 更大的批处理 → 更高吞吐量，但每个请求延迟也更高
 - 实时系统使用 batch_size=1 → 速度快，但可能降低效率
 ## 最常见的错误
 **团队默认使用实时推理，因为听起来更令人印象深刻。** 但大多数业务问题不需要亚秒级预测：
 - 每晚的流失率评分
 - 每周的推荐更新
 - 每天的欺诈模式更新
 ## 决策信号
 > 如果你的用户不会注意到预测是 5 分钟前还是 5 毫秒前，用批处理推理。
 ## 参考
 - [[ai-production-tradeoffs|AI 生产权衡]]
 - [[nobrega-ai-production-tradeoffs-2026|原文文章]]
--- a/concepts/bayesian-filtering.md
+++ b/concepts/bayesian-filtering.md
@@ -0,0 +1,34 @@
 ---
 title: "贝叶斯滤波"
 created: 2026-06-22
 updated: 2026-06-22
 type: concept
 tags: [state-estimation, filtering, probabilistic-inference]
 sources: [nano-filter]
 ---
 # 贝叶斯滤波
 Bayesian filtering 是状态估计最通用的框架，通过递归的**预测-更新**两步计算状态的后验分布 $p(x_t | y_{1:t})$。
 ## 核心机制
 - **预测步**（Chapman-Kolmogorov 方程）：利用转移概率 $p(x_t | x_{t-1})$ 从上一时刻后验预测先验分布
 $$
 p(x_t | y_{1:t-1}) = \int p(x_t | x_{t-1}) p(x_{t-1} | y_{1:t-1}) dx_{t-1}
 $$
 - **更新步**（Bayes 定理）：利用测量似然 $p(y_t | x_t)$ 更新先验为后验
 $$
 p(x_t | y_{1:t}) = \frac{p(y_t | x_t) p(x_t | y_{1:t-1})}{\int p(y_t | x_t) p(x_t | y_{1:t-1}) dx_t}
 $$
 ## 关键特性
 - 线性高斯系统 → Kalman filter 给出解析解
 - 非线性系统 → 需近似：Gaussian filter 族（参数化近似）或 Particle filter（离散采样近似）
 - [[nano-filter|NANO filter]] 从变分优化视角重新构造了 Gaussian 滤波，将预测步与更新步分别视为两个优化问题
 ## 参考
 - [[kalman-filter|Kalman Filter]]
 - [[gaussian-filtering|Gaussian Filtering]]
 - [[nano-filter|NANO Filter]]
--- a/concepts/belief-state.md
+++ b/concepts/belief-state.md
@@ -0,0 +1,39 @@
 ---
 title: "信念状态 (Belief State)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [state-tracking, reasoning, cognition]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 信念状态 (Belief State)
 信念状态是 AI 智能体对环境的**紧凑、充分的知识摘要**（Chrisman, 1992; Kaelbling et al., 1998）。
 ## 形式
 - **事实集合**：已知命题的集合（如"Fred 在河边"）
 - **概率分布**：可能世界的概率分布，追踪不确定性
 - **组合状态**：多个独立状态变量的组合（如实体位置、关系状态）
 ## 在 Transformer 中的困境
 Transformer 需要维护信念状态来确保推理一致性，但其前馈架构（[[feedforward-depth-limitation|前馈深度局限]]）导致：
 - 信念状态的更新被推入深层网络
 - 生成响应时浅层可能使用**过时或未更新的信念**
 - 维护完整概率信念状态在一般情形下不可行（分布爆炸）
 ## 人类的启发式策略
 Mozer et al. 指出人类采用近似方法：
 - **采样**（Vul et al., 2014）
 - **原型坍缩**（Tversky & Kahneman, 1971）
 - **MAP 估计**——形成与前提最一致的具体心智模型
 ## 相关概念
 - [[state-tracking|状态追踪]]
 - [[depth-dilemma|深度困境]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/block-causal-attention.md
+++ b/concepts/block-causal-attention.md
@@ -0,0 +1,49 @@
 ---
 title: "Block-Causal Attention"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: [attention, streaming, transformer, causal, multimodal]
 sources:
  - "[[wan-streamer]]"
 ---
 # Block-Causal Attention
 **Block-Causal Attention** 是一种介于标准因果注意力（causal attention）和双向注意力（bidirectional attention）之间的注意力模式，专为流式多模态生成设计。它在 Wan-Streamer 中作为协调交错的视觉、音频和文本 token 流式生成的核心机制。
 ## 核心机制
 在标准因果注意力中，每个 token 只能关注其之前的 token。在双向注意力中，每个 token 可以关注所有 token。**Block-causal attention** 将序列划分为块（blocks），在每个块内允许双向注意力，但跨块之间保持因果约束：
 - **块内（intra-block）**：token 可以关注同块内的所有 token（双向）
 - **块间（inter-block）**：token 只能关注之前块的 token（因果）
 这种设计在流式生成中取得了关键权衡：块内双向注意力保证了同帧内多模态 token（如音频+视频+文本）的充分交互和同步，而块间因果约束保证了流式推理的可行性（不需要等待未来帧）。
 ## 在 Wan-Streamer 中的应用
 在 Wan-Streamer 的全双工流式交互中，每个 160ms 的流式单元形成一个块。块内包含该时刻的用户输入 token 和 Agent 响应 token（视觉、音频、文本），块内双向注意力确保：
 - 语音和视频潜变量的耦合生成
 - 嘴唇运动与语音的天然同步
 - 跨模态语义对齐
 跨块因果约束确保：
 - 增量流式推理（不需要等待整个对话完成）
 - KV-cache 的可复用性
 - 全历史上下文的线性的计算复杂度
 ## 与其他注意力模式对比
 | 模式 | 块内 | 块间 | 适用场景 |
 |------|------|------|----------|
 | Causal | 因果 | 因果 | 标准自回归语言模型 |
 | Bidirectional | 双向 | 双向 | BERT 类理解任务 |
 | **Block-Causal** | **双向** | **因果** | **流式多模态生成** |
 ## 参考
 - [[wan-streamer]] — 首次在端到端流式交互基础模型中应用
 - [[native-streaming-ar-training]]
 - [[kv-cache]]
--- a/concepts/bm25-financial-retrieval.md
+++ b/concepts/bm25-financial-retrieval.md
@@ -0,0 +1,42 @@
 ---
 title: "BM25 金融检索"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # BM25 在金融精确检索中的应用
 BM25 是一种基于词频-逆文档频率（TF-IDF）的经典信息检索算法。在金融场景中，恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
 ## 为什么金融场景 BM25 更优
 金融查询大量涉及**精确匹配需求**：
 - 股票代码（如 "600519"）
 - 专有名词（如 "超额累进税率"）
 - 精确数字（如 "净利润超过 10 亿"）
 - 法规条款编号（如 "第三十二条"）
 向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
 ## 与向量检索的适用边界
 | 场景 | BM25 | 向量检索 |
 |------|------|---------|
 | 精确代码/编号 | ✅ 强 | ❌ 弱 |
 | 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
 | 数字精确匹配 | ✅ 强 | ❌ 弱 |
 | 同义改写查询 | ❌ 弱 | ✅ 强 |
 | 跨语言检索 | ❌ 弱 | ✅ 强 |
 ## 行业趋势
 恒生电子 2023 年主动去掉向量检索的决策，后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域，结构化索引+关键词匹配可能比语义检索更可靠。
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[pageindex]]
 - [[agentic-rag]]
--- a/concepts/build-vs-buy-llm.md
+++ b/concepts/build-vs-buy-llm.md
@@ -0,0 +1,40 @@
 ---
 title: "构建 vs 购买 — Build vs Buy (LLM)"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [llm, cost-optimization, infrastructure, api-vs-self-host]
 sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
 ---
 # 构建 vs 购买（Build vs Buy）
 ## 定义
 在 LLM 时代，"构建 vs 购买"不再是从零训练模型的问题。2026 年的版本更难：三个选择，每个有不同的成本曲线和失效模式。
 ## 三个选择
 | 选择 | 适用场景 | 成本结构 | 失效模式 |
 |------|---------|---------|---------|
 | **调用 API** | 日请求 < 10 万 | 按 token 付费，低开销 | 供应商锁定、框架迁移 |
 | **微调开源模型** | 中等规模，专业化需求 | 一次性计算成本 | 数据准备和评估成本 |
 | **自建托管** | 日请求 > 100 万 | 硬件 + 人力 | 人力占 70-80% 成本！ |
 ## 关键数据
 - Omdia 调查（n=376）：95% 认为自建提供更多定制，91% 同意预构建更快——**两者同时成立**
 - 硬件和电力仅占自托管成本的 20-30%，**人力占 70-80%**
 - 团队平均超出 LLM 预算 340%，主因是缺少使用跟踪和成本归属
 ## 实践框架
 1. **从 API 开始**
 2. **从第一天起记录每次调用的成本、延迟和功能归属**
 3. **当运算显示优势下降时再更换**
 ## 参考
 - [[ai-production-tradeoffs|AI 生产权衡]]
 - [[nobrega-ai-production-tradeoffs-2026|原文文章]]
--- a/concepts/cace-principle.md
+++ b/concepts/cace-principle.md
@@ -0,0 +1,37 @@
 ---
 title: "CACE 原理 — Change Anything Changes Everything"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [ml-engineering, technical-debt, system-complexity, maintainability]
 sources:
  - https://arxiv.org/abs/1506.07756
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
 ---
 # CACE 原理
 ## 定义
 **CACE = Change Anything Changes Everything**（改变任何事物都会改变一切）。
 来自 Sculley et al. (2015) 的经典论文《Hidden Technical Debt in Machine Learning Systems》（NeurIPS）。在 ML 系统中，流水线上的一个小调整可能引发其他地方的惊人变化。
 ## 核心洞察
 - 这种级联效应在线性回归中很少发生，但在**集成系统和神经网络中经常发生**
 - **数据依赖比代码依赖更昂贵**——数据更难追踪、更难版本化、更难向继承者解释
 - 实际的模型代码只是真实 ML 系统的一小部分——大部分是特征存储、管道逻辑、监控、重训练触发器及它们之间的粘合剂
 ## 实践含义
 在为 2% 的精度提升选择更复杂模型之前，问自己：
 > **一年后谁拥有它？** 如果答案是"不清楚"，那就是决策点。
 隐含成本：18 个月的调试时间、重训练开销、以及"没人记得我们为什么这样做"的税。
 ## 参考
 - [[ml-technical-debt|ML 技术债务]]
 - [[ai-production-tradeoffs|AI 生产权衡]]
 - [[nobrega-ai-production-tradeoffs-2026|原文文章]]
--- a/concepts/candidate-graph.md
+++ b/concepts/candidate-graph.md
@@ -0,0 +1,45 @@
 ---
 title: "候选图 — Candidate Graph"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [candidate-graph, tool-expansion, mutation, semantic-graph]
 sources:
  - https://arxiv.org/abs/2601.08276
 ---
 # 候选图（Candidate Graph）
 ## 定义
 Candidate Graph 是 ACE-Router 的第一阶段：基于候选间的语义相似度和功能依赖关系构建的图结构，用于**扩展和结构化候选空间**。
 ## 构建流程
 ### 1. 初始图构建
 - 对每个候选 c 编码其结构化规范 ϕ(c)（工具描述 + schema，或 Agent profile + 能力范围）
 - 计算余弦相似度，阈值 τ=0.82 以上建边
 - 产生初始无向图 G = (C, E_sim)
 ### 2. 自进化变异
 五种变异算子（针对工具）：
 | 算子 | 作用 |
 |------|------|
 | Function Enhancement | 增强现有功能 |
 | Parameter Mutation | 参数层面修改 |
 | Workflow Chaining | 链接多个操作为流水线 |
 | Helper Operation | 创建辅助工具 |
 | Usage Extension | 扩展使用场景 |
 每轮随机选候选 c + 算子 m → LLM 合成新候选 c' = m(c) → 添加到图 + 建变异边
 ## 效果
 627 初始工具 → 2005 工具（+219%）→ 训练数据从 15,092 样本。候选空间的丰富度直接决定路由器的辨识能力。
 ## 参考
 - [[ace-router|ACE-Router]]
 - [[self-evolutionary-mutation|自进化变异]]
 - [[trajectory-synthesis|轨迹合成]]
 - [[yao-ace-router-2026|论文]]
--- a/concepts/causal-generation.md
+++ b/concepts/causal-generation.md
@@ -0,0 +1,31 @@
 ---
 title: "Causal Generation"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["generation", "causal", "autoregressive", "attention"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Causal Generation (因果生成)
 **Causal Generation** 是指生成模型中输出元素仅依赖历史、不访问未来信息的生成方式。与双向（bidirectional）生成相对。
 ## 在视频生成中的应用
 在 [[autoregressive-video-generation|自回归视频生成]] 中，因果注意力（causal attention）确保：
 - 生成帧 `t` 仅能 attend 帧 `1..t-1`
 - 中间帧可立即输出，无需等待全部去噪完成
 - 支持 [[streaming-generation|流式生成]] 和实时交互
 ## 实现
 - **Causal Attention Mask**：下三角矩阵，阻止未来信息
 - **Sliding Block-Causal Mask**：块内双向，块间因果（MaineCoon 使用）
 - **KV-Cache**：缓存历史 chunk 的 keys/values
 ## 相关概念
 - [[autoregressive-video-generation|自回归视频生成]]
 - [[streaming-generation|流式生成]]
 - [[kv-cache]]
 - [[diffusion-transformer|DiT]]
--- a/concepts/causal-multimodal-vae.md
+++ b/concepts/causal-multimodal-vae.md
@@ -0,0 +1,62 @@
 ---
 title: "Causal Multimodal VAE"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: [vae, causal, multimodal, streaming, audio, video, latent-coding]
 sources:
  - "[[wan-streamer]]"
 ---
 # Causal Multimodal VAE
 **Causal Multimodal VAE**（因果多模态变分自编码器）是 Wan-Streamer 中用于流式多模态潜编码的核心组件，包含严格因果的音频 VAE 和视频 VAE。
 ## 为什么需要因果 VAE
 标准 VAE（如用于 Stable Diffusion 的图像 VAE）通常是**非因果的**——编码一帧时需要访问未来帧的上下文（通过卷积或双向注意力）。这在离线场景下可行，但在流式场景下会引入额外的延迟（等待未来帧到达）。
 **因果 VAE** 的核心约束：
 - 编码时刻 t 的帧时，只能使用 ≤t 时刻的信息
 - 解码时刻 t 的潜变量时，同样只能使用 ≤t 时刻的上下文
 这确保了每个流式单元到达后**立即可用**，无需等待窗口填充。
 ## 在 Wan-Streamer 中的设计
 Wan-Streamer 的全因果架构要求从底层到顶层都是因果的：
 ```
 流式视频帧序列 → 因果视频编码器 → 视频潜变量
                                       ↓
 流式音频帧序列 → 因果音频编码器 → 音频潜变量
                                       ↓
                              [block-causal Transformer]
                                       ↓
                          因果音频解码器 → 流式音频输出
                          因果视频解码器 → 流式视频输出
 ```
 ### 因果视频 VAE
 - 使用因果卷积和/或因果注意力替代标准 VAE 中的非因果操作
 - 支持 25 FPS 的流式编码
 - 每个 160ms 单元独立可编码
 ### 因果音频 VAE
 - 类似设计，支持流式音频的因果编码
 - 与视频 VAE 的潜空间通过 block-causal Transformer 进行跨模态交互
 ## 与标准 VAE 的对比
 | 维度 | 标准 VAE | 因果 VAE |
 |------|---------|---------|
 | 编码方向 | 双向（访问过去+未来） | 单向（仅访问过去） |
 | 延迟 | 需要等待窗口完成 | 逐帧即时编码 |
 | 适用场景 | 离线生成/重建 | 实时流式交互 |
 | 重建质量 | 略高（更多上下文） | 可接受（因果约束） |
 ## 参考
 - [[wan-streamer]]
 - [[block-causal-attention]]
 - [[end-to-end-streaming-interaction]]
--- a/concepts/center-manifold-theorem.md
+++ b/concepts/center-manifold-theorem.md
@@ -0,0 +1,36 @@
 ---
 title: "Center Manifold Theorem (中心流形定理)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: [bifurcation-theory, dynamical-systems, reduction]
 sources: [gan-bifurcation-eos]
 ---
 # Center Manifold Theorem (中心流形定理)
 中心流形定理是分岔理论中的核心约化工具：当动力系统在不动点处存在临界特征值（模为 1）时，系统稳定性完全由限制在中心流形 W^c 上的低维动力学决定。
 ## 定理陈述
 设离散动力系统 x_{t+1} = f(x_t)，f 为 C³ 函数。若 Jacobian A = Df(x₀) 具有 n₀ 个临界特征值（模为 1），其余特征值模 < 1，则存在局部 C³ 的 n₀ 维流形 W^c 满足：
 - W^c 在 x₀ 处与临界特征空间 T^c 相切
 - W^c 在 f 下不变
 - W^c 是**吸引的**：附近轨道指数收敛到 W^c
 - 系统在 x₀ 附近的稳定性**完全由 f|_W^c 决定**（约化原理）
 ## 在 EoS 分析中的应用
 在 [[gan-bifurcation-eos|Gan (2026b)]] 的框架中：
 - 梯度下降 Jacobian A = I - η∇²L，在 EoS 阈值处具有临界特征值 λ = -1
 - 中心流形将高维 GD 动力学约化到低维临界子空间
 - 使用**投影法** (projection method) 在中心流形上计算 [[first-lyapunov-coefficient|c₁]] 和周期轨道
 对于过参数化网络的 [[manifold-of-minimizers|极小值流形]] M，中心流形包含法向（flip 分岔方向）和切向（漂移方向），约化后的分析分别处理两个子空间的动力学。
 ## 参考
 - Kuznetsov (1998). Elements of Applied Bifurcation Theory, Ch. 5.
 - [[flip-bifurcation]]
 - [[first-lyapunov-coefficient]]
 - [[gan-bifurcation-eos]]
--- a/concepts/clawforce.md
+++ b/concepts/clawforce.md
@@ -0,0 +1,59 @@
 ---
 title: "ClawForce — 企业 AI Agent 方案"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [enterprise-ai, agent-platform, clawforce, memtensor, security]
 sources:
  - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
 ---
 # ClawForce
 ## 定义
 ClawForce 是记忆张量（MemTensor）基于 MemOS 记忆框架构建的**企业级 AI Agent 产品**。解决企业 AI Agent 从"能用"到"敢用、好用、持续用"的五个共性痛点。
 ## 解决的五痛点
 | 痛点 | 表现 | ClawForce 解法 |
 |------|------|---------------|
 | 部署难 | 单机部署已困难，集群需专门团队 | 全链路 AI 自动化配置 |
 | 经验散 | 老员工离职，经验无法沉淀 | Skill 回流 + 自动入库 |
 | 响应遗漏 | 人工监控有盲区 | 事件监听 + 智能中枢 |
 | 场景受限 | 止步于对话，难入真实工作流 | 全链路工具链接 |
 | 不可追溯 | 数据边界不清晰 | 三重安全审计 |
 ## 五层架构
 ```
 智能中枢
  ├── 记忆层（MemOS）
  ├── Skill 引擎（生成→审核→下发→回流）
  ├── 事件监听
  └── 工具链接（Office/CRM/OA/IM）
 ```
 ## Skill 沉淀与回流
 员工与 Agent 交互 → 系统自动检测可优化输入 → 模型质量打分 → 白盒化处理 → 管理员审核 → 企业 Skill 库
 ## 落地场景与效果
 | 场景 | 效果 |
 |------|------|
 | 研发 | 飞书提需求 → AI 自动编码 → 仿真验证 → 生产线 |
 | 电商运营 | 7×24 数据监控、异常预警、策略建议 |
 | 公文写作 | 减少 **85%** 起草耗时 |
 | 销售 | 客户触达量翻倍，最佳 Skill 自动回流 |
 ## 部署方案
 - NVIDIA DGX 一体机：128G 显存 + 内存共享
 - 中国电信国产算力方案
 ## 参考
 - [[memtensor-memos-agent-memory-2026|MemOS 技术分享]]
 - [[memory-governance|记忆治理]]
 - [[agent-memory-system|Agent 记忆系统]]
--- a/concepts/coarse-grained-recurrence.md
+++ b/concepts/coarse-grained-recurrence.md
@@ -0,0 +1,40 @@
 ---
 title: "粗粒度循环 (Coarse-Grained Recurrence)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [transformers, recurrence, efficiency, chunking]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 粗粒度循环 (Coarse-Grained Recurrence)
 粗粒度循环是 Mozer et al. (2026) 提出的有前景方向之一：在**比单个 token 更粗的粒度**上引入循环，以降低 token 级循环的计算负担。
 ## 核心思想
 逐 token 的状态更新（标准 RNN 方式）存在**计算瓶颈**——每个 token 都需要串行处理。粗粒度循环通过**分组压缩**在效率和状态追踪之间寻求平衡。
 ## 实现方式
 ### 块循环 (Block-Recurrent)
 - **Block-Recurrent Transformers**（Hutchins et al., 2022）：将固定长度 token 块并行处理，块间循环传递压缩记忆
 - **Chevalier et al. (2023)**：块级自回归训练
 ### 语言结构驱动分块
 - **Borazjanizadeh & McClelland (2025)**：以句子为单位的"思想"分块——将语言建模为离散思想序列
 - 句子边界作为自然的循环步分界
 ## 优势
 - 降低**串行步数**（token 级→句子级/块级）
 - 保留**状态传播连续性**（块间循环）
 - 更接近人类的**概念级**认知节奏
 ## 参考
 - [[recurrence-taxonomy|循环分类法]]
 - [[step-recurrence|步级循环]]
 - [[latent-thought-models|隐式思考模型]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/collectivist-ai.md
+++ b/concepts/collectivist-ai.md
@@ -0,0 +1,62 @@
 ---
 title: "集体主义 AI（Collectivist AI）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - ai-economics
  - collective-intelligence
  - michael-jordan
  - systems-thinking
 sources:
  - Jordan, arXiv:2507.06268
  - MLST 2026
 ---
 # 集体主义 AI（Collectivist AI）
 Michael I. Jordan 提出的 AI 系统设计范式，核心主张：**AI 不应被建模为个体认知的放大，而应被视为一个集体性的经济系统**——输入来自数十亿人，服务数十亿人。
 ## 三大支柱
 ```
        CS (算法/抽象/模块化)
        /\
       /  \
      /    \
     /      \
    /________\
 统计学           经济学
 (推断/不确定性)   (激励/博弈均衡)
 ```
 Jordan 的核心批判："只有计算加优化，你就只能得到语言模型。把统计和经济思维加进来，才开始有完整的系统性思考。"
 ## 为什么需要经济学
 当前主流 AI 叙事将智能窄化为**个体认知**——大脑隐喻 → 神经元 → 梯度下降。这忽略了：
 - 人是社会动物，大量智识来自聚合
 - 社会为智识提供语境——在这个语境里聪明的行动，换一个语境可能是蠢的
 - 智能高度情境化，依赖当下
 经济学研究的问题——信息不对称、激励机制、博弈均衡——是"完整智能"不可或缺的维度。
 ## 与相关框架的区别
 - vs [[agi-critique|AGI 批判]]：集体主义 AI 是建设性替代方案，不只是批评
 - vs [[multi-agent-orchestration|多智能体编排]]：后者仍是个体认知叠加，集体主义强调**经济设计**（谁来承担成本、收益如何分配）
 - vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]：集体主义框架可解释螺旋效应——缺乏经济思维导致的内容生态失衡
 ## 论文中的具体案例
 - [[statistical-contract-theory|统计合同理论]] — 推断+经济的融合范式
 - [[data-markets|数据市场]] — 三层 Stackelberg 博弈中的隐私-收入权衡
 - [[probability-matching|概率匹配]] — 种群 Nash 均衡作为集体主义不确定性处理的微观范例
 - [[e-values|E-values]] — 与激励相容等价的推断工具
 ## 参考
 - [[jordan-collectivist-ai-2025|Jordan 论文 (arXiv:2507.06268)]]
 - [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
 - [[anthropomorphization-critique|人类化机器批判]]
 - [[uncertainty-taxonomy|不确定性分类法]]
--- a/concepts/conditional-memory.md
+++ b/concepts/conditional-memory.md
@@ -0,0 +1,46 @@
 ---
 title: "Conditional Memory"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: ["sparsity", "architecture", "memory", "transformer"]
 sources:
  - "[[engram-conditional-memory-2026]]"
 ---
 # Conditional Memory
 Conditional Memory 是 Engram 提出的一种新稀疏轴，与 Mixture-of-Experts 的 Conditional Computation 形成互补。
 ## 基本定义
 | 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) |
 |------|------|------|
 | 原语 | 稀疏参数激活 | 稀疏嵌入查找 |
 | 操作 | 路由到专家子网络 | 哈希索引嵌入表 |
 | 开销 | 随专家数增长 | O(1) 常数 |
 | 适用 | 动态推理、上下文组合 | 静态知识、局部模板 |
 ## 为什么需要
 语言建模包含两类异质子任务：
 1. **组合推理**：需要深层、动态的非线性计算
 2. **知识检索**：命名实体、公式化表达等局部静态模式天然适合查找
 Transformer 缺少原生的知识查找原语，被迫用计算模拟检索。例如，解析一个常见的多 token 实体需要消耗多个早期的 Attention 和 FFN 层——本质是用昂贵的计算重建一个静态查找表。
 ## 与 MoE 的关系
 MoE 通过条件计算扩展模型容量，Engram 通过条件记忆扩展模型容量。二者共享同一个稀疏参数预算，通过 [[sparsity-allocation|Sparsity Allocation]] 进行最优分配。U 形缩放律表明：纯 MoE 和纯 Engram 都不如混合——最优分配约 75-80% 给 MoE，20-25% 给记忆。
 ## 表现形式
 - **Engram**：基于 N-gram 嵌入的现代条件记忆实现（多哈希头、上下文门控、深度可分离卷积）
 - **OverEncoding**：通过平均将 N-gram 嵌入融入词表嵌入（较弱的基线）
 - 理论上，任何提供 O(1) 或近似常数时间查找的机制都可以是条件记忆的实例
 ## 参考
 - [[engram-conditional-memory-2026]]
 - [[mixture-of-experts]]
 - [[engram]]
 - [[sparsity-allocation]]
--- a/concepts/constant-kv-cache.md
+++ b/concepts/constant-kv-cache.md
@@ -0,0 +1,39 @@
 ---
 title: "Constant KV Cache"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["kv-cache", "efficient-inference", "attention-mechanism"]
 sources:
  - "[[unlimited-ocr-works-2026]]"
 ---
 # Constant KV Cache
 Constant KV Cache 是 R-SWA 注意力机制的核心性质：KV cache 大小在全部解码过程中保持有界常数 Lm + n，不随输出长度 T 增长。
 ## 定义
 $$C_{R\text{-}SWA}(T) = L_m + \min(n, T) \leq L_m + n$$
 其中 Lm 为前缀 token 数（固定），n 为滑动窗口宽度（默认 128）。
 ## 与标准 MHA 的对比
 | 机制 | KV Cache 增长 | 无穷 T 时 |
 |------|-------------|----------|
 | MHA | O(T) 线性 | ∞ |
 | R-SWA | O(1) 常数 | Lm + n |
 Cache 压缩比：$\rho(T) = \frac{L_m + n}{L_m + T} \to 0$
 ## 工程意义
 - GPU 显存恒定，不随输出长度增长
 - 推理速度（TPS）恒定（Flash Attention v3 核函数延迟稳定）
 - 使单次前向解析数十页成为可能
 ## 参考
 - [[unlimited-ocr-works-2026]]
 - [[reference-sliding-window-attention]]
 - [[kv-cache]]
--- a/concepts/content-based-reasoning.md
+++ b/concepts/content-based-reasoning.md
@@ -0,0 +1,66 @@
 ---
 title: "Content-Based Reasoning"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["sequence-modeling", "ssm", "mamba", "attention"]
 sources: ["https://arxiv.org/abs/2312.00752"]
 ---
 # Content-Based Reasoning
 ## 定义
 Content-Based Reasoning（内容感知推理）是 Mamba 论文识别出的 LTI 序列模型的核心弱点：**模型能否根据输入 token 的实际内容（而非仅时间位置）来决定信息的传播与遗忘**。Transformer 的注意力天然具备此能力（每个 token 的注意力分布取决于 query-key 的内容交互），但 LTI SSM 完全缺失。
 ## 为什么 LTI 缺失此能力
 LTI（线性时间不变）模型的参数对所有时间步固定：
 ```
 h_t = A_bar * h_{t-1} + B_bar * x_t   （A_bar, B_bar 不随 x_t 变化）
 ```
 无论输入是 "important" 还是 "noise"，状态更新规则**完全相同**。模型无法：
 - 选择性地记住关键 token
 - 根据内容忽略无关 token
 - 在上下文中看到模式后改变行为
 ## Transformer 为什么有
 自注意力中的 Q-K 内积是**天然的内容感知**：
 ```
 Attention(Q, K, V) = softmax(Q K^T) V
 ```
 Q 和 K 都是输入的函数 → 注意力分布随内容变化 → 模型能根据 token 的语义决定"关注谁"。
 ## Mamba 的解决方案
 Mamba 的选择机制（[[selective-state-space]]）以不同的路径实现内容感知：
 ```
 B_t, C_t, Δ_t = f(x_t)   ← SSM 参数变为输入的函数
 ```
 不是让 token 彼此交互（注意力），而是让每个 token 的**处理方式**随其内容改变——看到重要 token 就"打开门"（大 Δ），看到噪声就"关上门"（小 Δ）。
 ## 诊断任务
 两个合成任务精确测试内容感知能力：
 - [[selective-copy]]：需要根据 token "颜色"决定是否记忆
 - [[induction-heads]]：需要根据前缀"内容"回忆后续
 LTI 模型在两个任务上均失败，Mamba 不仅解决，且能外推到 >1M tokens。
 ## 相关概念
 - [[selective-state-space]] — Mamba 实现内容感知的机制
 - [[structured-state-space-models]] — LTI，缺少此能力
 - [[attention-mechanism]] — 另一种内容感知的实现路径
 - [[gu-mamba|Mamba 论文]]
 ## 参考
 - [[gu-mamba|Mamba]] (Gu & Dao, 2024) Section 3.1
--- a/concepts/content-diversity-decay.md
+++ b/concepts/content-diversity-decay.md
@@ -0,0 +1,42 @@
 ---
 title: "内容多样性衰减（Content Diversity Decay）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - metrics
  - diversity
  - spiral-of-silence
  - monitoring
 sources:
  - ACL 2024
  - data派THU 2026
 ---
 # 内容多样性衰减（Content Diversity Decay）
 衡量 AI 内容生态中**信息多样性随时间/迭代轮次下降**的量化指标。是大模型沉默螺旋的核心监测维度之一。
 ## 测度方式
 - **观点分布熵**：输出空间中不同观点的概率分布熵值
 - **人类原创占比**：信息池中人类原创内容的比例（ACL 2024 实验中从 50% 降至 <15%）
 - **小众观点留存率**：非主流、创新性内容在多轮迭代后的存活比例
 - **n-gram 多样性**：输出文本的词汇和短语多样性
 ## 实验观测
 ACL 2024 RAG 闭环实验中，仅 5 轮迭代即观测到内容多样性**断崖式下降**。搜索引擎排序算法天然偏好更规整的 AI 文本，加速了人类原创内容的衰减。
 ## 治理应用
 内容多样性衰减可作为**实时监测指标**，在达到阈值时触发干预：
 - 提高 [[temperature-sampling|温度采样]]
 - 检索排序中均衡 AI/人类内容比例
 - 注入反主流观点兜底提示
 ## 参考
 - [[content-homogenization|内容同质化]]
 - [[rag-closed-loop|RAG 闭环迭代]]
 - [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
--- a/concepts/content-homogenization.md
+++ b/concepts/content-homogenization.md
@@ -0,0 +1,41 @@
 ---
 title: "内容同质化（Content Homogenization）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - content-ecology
  - spiral-of-silence
  - diversity
  - llm
 sources:
  - ACL 2024
  - data派THU 2026
 ---
 # 内容同质化（Content Homogenization）
 指 AI 大规模参与内容生产后，全网信息在风格、观点、表达范式上趋同的现象。是大模型沉默螺旋的**直接表现**和核心危害之一。
 ## 表现形式
 - **观点趋同**：多种 AI 生成内容对同一问题的回答高度相似
 - **风格单一**：输出风格收敛于"标准 AI 语气"——结构化、中性化、回避争议
 - **小众观点消失**：正确但有创新性、不符合主流范式的观点被系统性过滤
 - **错误垄断**：高频但片面的内容（甚至错误信息）通过反复生成被固化为"共识"
 ## 与沉默螺旋的关系
 内容同质化是沉默螺旋的**结果变量**——四大技术根源（[[pretraining-statistical-bias|预训练统计偏好]] → [[context-anchoring|上下文锚定]] → [[role-setting-entrenchment|角色固化]] → [[rlhf-alignment-amplification|RLHF 对齐放大]]）的叠加效应最终在内容层面表现为同质化。
 ## 测度
 - 内容多样性衰减率（[[content-diversity-decay|内容多样性衰减]]）
 - 输出分布的熵值
 - 人类原创内容占比
 ## 参考
 - [[information-cocoons|信息茧房]]
 - [[opinion-polarization|观点极化]]
 - [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
--- a/concepts/context-anchoring.md
+++ b/concepts/context-anchoring.md
@@ -0,0 +1,44 @@
 ---
 title: "历史上下文锚定（Context Anchoring）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - autoregressive
  - context
  - spiral-of-silence
  - llm
 sources:
  - arXiv 2025 (Spiral of Silence in LLM Agents)
 ---
 # 历史上下文锚定（Context Anchoring）
 大模型沉默螺旋的**核心驱动机制**——四大技术根源之二。
 ## 机制
 自回归生成（[[autoregressive-unrolling|自回归展开]]）使模型每一步输出都基于对话历史。当历史中包含主流观点时，模型持续**贴合并重复**这些内容，形成正向强化的闭环：
 - 每一步的预测分布被历史中高频内容"锚定"
 - 随着对话轮次增加，锚定效应持续累积
 - 即使初期存在多元观点，历史累积后逐渐收敛为单一主流
 ## 实验证据
 多智能体实验（arXiv 2025）中，**仅保留历史对话**（无角色设定）的条件组即可使模型持续重复主流观点，内容单一化显著。当历史上下文与角色设定叠加时，效应最大化。
 ## 与相关概念的关系
 - 不同于 [[role-setting-entrenchment|角色设定固化]]：历史锚定是被动累积，角色固化是主动约束
 - 与 [[rlhf-alignment-amplification|RLHF 对齐放大]] 叠加：历史锚定提供"当前语境中的主流"，而 RLHF 提供"训练层面的安全主流"，形成双重压制
 ## 缓解方向
 - 动态衰减上下文权重（距离越远的历史对话权重越低）
 - 定期注入反主流观点兜底提示
 - 多候选择优时引入多样性奖励
 ## 参考
 - [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
 - [[multi-agent-spiral|多智能体螺旋]]
--- a/concepts/context-enriched-embeddings.md
+++ b/concepts/context-enriched-embeddings.md
@@ -0,0 +1,45 @@
 ---
 title: "上下文增强嵌入 — Context Enriched Embeddings"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [embeddings, context-enrichment, vector-retrieval, tool-discovery]
 sources:
  - https://arxiv.org/abs/2509.20386
 ---
 # 上下文增强嵌入（Context Enriched Embeddings）
 ## 定义
 Dynamic ReAct 论文中的关键向量检索优化策略：使用 LLM（Sonnet 4）**程序化增强工具描述**——生成隐式功能和用例描述——再嵌入。将 Top-5 检索准确率从 40% 提升至 60%（+50% 相对提升）。
 ## 为什么需要增强
 工具文档通常只描述**显式功能**（参数、返回类型），缺少：
 - 隐式功能（"send email" 暗示需要 SMTP 能力）
 - 用例上下文（什么场景下用这个工具）
 - 工具间的关系（这个工具通常和哪些工具配合）
 ## 实验数据
 | 策略 | Top-5 | Top-10 |
 |------|-------|--------|
 | OpenAI text-embedding-3-large (baseline) | 40% | 64% |
 | voyage-context-3 | 48% | 68% |
 | **voyage-context-3 + Sonnet context enrichment** | **60%** | 68% |
 | + BM25 hybrid | 56% | 72% |
 Sonnet 增强带来 **+12pp**（vs voyage-context-3 alone）。BM25 混合提升 recall（+4pp Top-10）但降 precision（-4pp Top-5），因为关键词重叠引入误匹配。
 ## 实际案例
 查询 "send email"：
 - Baseline（OpenAI）：resend__send_email #4，google_mail__send_email #6，outlook__send_mail 未进 Top-10
 - Optimized（Voyage + Context）：outlook__send_mail #1，google_mail__send_email #2，resend__send_email #4 ——三个期望工具全进 Top-5
 ## 参考
 - [[dynamic-react|Dynamic ReAct]]
 - [[gaurav-dynamic-react-2025|论文]]
 - [[search-and-load|Search and Load]]
--- a/concepts/convex-hull-relaxation.md
+++ b/concepts/convex-hull-relaxation.md
@@ -0,0 +1,46 @@
 ---
 title: "Convex-Hull Relaxation (KV Cache)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["optimization", "kv-cache", "convex-relaxation"]
 sources: ["https://arxiv.org/abs/2602.08585"]
 ---
 # Convex-Hull Relaxation
 ## 定义
 Convex-Hull Relaxation（凸包松弛）是 LU-KV 用于求解 [[global-combinatorial-optimization]] 的核心技巧。将对每个 attention head 的非凸离散损失序列进行凸化，使全局贪心算法能达到最优解。
 ## 为什么需要
 原始的 [[oracle-importance]] 驱逐损失 L(M^π(0)), ..., L(M^π(T)) 作为整数预算的函数**不满足凸性**，导致：
 - 无法直接应用贪心算法（贪心在非凸目标上无最优性保证）
 - 动态规划可行但 cost 过高（profiling 规模不可接受）
 ## 方法：PAVA 保序回归
 LU-KV 采用 Pool Adjacent Violators Algorithm (PAVA) 做保序回归：
 1. 计算原始损失的**边际递减量**序列 d(i) = L(i-1) - L(i)（可能非单调）
 2. 对 d(i) 做保序回归，投影到非负、非增序列 d̆(i) >= 0
 3. 从投影后的边际递减量重构损失序列 L̆(i) = L̆(i-1) - d̆(i)
 结果：L̆ 是**凸的、非增的**——即边际增益 g(i) = L̆(i-1) - L̆(i) >= 0 且单调递减。
 ## 最优性保证
 凸化后，边际增益 g(i) 满足递减性质 → 贪心算法等价于凸资源分配问题的最优解 → **贪心 = DP 最优**。论文图 2a 验证了贪心解与精确 DP 解完全一致。
 ## 相关概念
 - [[global-combinatorial-optimization]] — 凸松弛求解的目标问题
 - [[marginal-utility]] — 凸松弛后得到的有序边际增益
 - [[offline-profiling]] — profiling 中离线完成凸松弛计算
 - [[isotonic-regression]] — PAVA 属于保序回归方法
 ## 参考
 - [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 附录 A.1 给出非凸性证明
--- a/concepts/coordinator-executor-architecture.md
+++ b/concepts/coordinator-executor-architecture.md
@@ -0,0 +1,37 @@
 ---
 title: "Coordinator-Executor Architecture"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["agent-architecture", "multi-agent", "coordination", "isolation"]
 sources:
  - "[[arbor-htr-2026]]"
 ---
 # Coordinator-Executor Architecture
 Arbor 提出的双角色 Agent 架构模式：持久 Coordinator 管理全局策略，短生命周期 Executor 在隔离环境中执行单个假设。
 ## 职责分离
 | 角色 | 生命周期 | 职责 | 不可做 |
 |------|---------|------|--------|
 | **Coordinator** | 全程持久 | 维护树、选择方向、传播洞察、合并/剪枝 | 直接执行低层实现 |
 | **Executor** | 单次任务 | 物化假设、评估、返回结构化报告 | 修改共享树、重定向搜索目标 |
 ## 关键边界
 - Executor 在**隔离 git worktree** 中运行——产物变更在通过 merge gate 之前不污染主干
 - Coordinator 通过**树而非日志**感知进度——决策基于洞察抽象而非原始执行痕迹
 - Executor 返回的**结构化报告**仅包含决策相关证据：分数、事实结果、洞察、产物引用
 ## 为什么需要分离
 1. 全局策略需要全盘证据，低层执行细节会淹没决策信息
 2. 实验结果必须归属于产生它的假设
 3. 探索性代码变更必须在隔离环境中完成，通过 held-out 准入才能合并
 ## 参考
 - [[arbor-htr-2026]]
 - [[hypothesis-tree-refinement]]
 - [[autonomous-optimization-ao]]
--- a/concepts/cross-head-budget-allocation.md
+++ b/concepts/cross-head-budget-allocation.md
@@ -0,0 +1,52 @@
 ---
 title: "Cross-Head Budget Allocation"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["kv-cache", "budget-allocation", "attention"]
 sources: ["https://arxiv.org/abs/2602.08585"]
 ---
 # Cross-Head Budget Allocation
 ## 定义
 Cross-Head Budget Allocation（跨头预算分配）是 [[kv-cache-eviction]] 两阶段范式的**第二阶段**：在模型的所有 attention head 之间分配差异化缓存预算。与 [[intra-head-eviction]]（在每个 head 内决定保留哪些 token）不同，它关注的是**各 head 应保留多少 token**。
 ## 核心挑战
 不同 attention head 的信息密度高度不均匀：
 - 某些 layer/head 组合对长距离依赖至关重要
 - 浅层和深层 head 可能需要不同的压缩率
 - 同一 [[heuristic-metric]] 在不同 head 中的可靠性不同
 将预算均匀分配（Uniform）或基于简单先验（PyramidKV）是次优的。
 ## 方法演进
 | 代别 | 方法 | 策略 |
 |------|------|------|
 | 第一代 | Uniform | 所有 head 等预算 |
 | 第二代 | [[pyramidkv]] | 静态金字塔形（深层减少预算） |
 | 第三代 | [[adkv]] | 动态全局 Top-K 基于注意熵 |
 | 第四代 | LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] |
 ## LU-KV 的独特视角
 LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算"：
 - 不是比较不同 head 的 token 分数绝对值（不可比）
 - 而是比较不同 head 的**边际效用曲线** g_{l,h}(i)（可比）
 - 这解耦了指标选择（intra-head）和预算分配（cross-head）
 ## 相关概念
 - [[head-level-budget-allocation]] — 同义概念，侧重优化视角
 - [[intra-head-eviction]] — 两阶段范式的第一阶段
 - [[marginal-utility]] — 跨头比较的"通用货币"
 - [[offline-profiling]] — 预计算各 head 的最优预算配置
 ## 参考
 - [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
--- a/concepts/dag-reasoning-evaluation.md
+++ b/concepts/dag-reasoning-evaluation.md
@@ -0,0 +1,40 @@
 ---
 title: "DAG-based Reasoning Evaluation"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["reasoning", "evaluation", "graph", "dag"]
 sources:
  - "[[me2-trm-reasoning-2026]]"
 ---
 # DAG-based Reasoning Evaluation
 将 LLM 推理轨迹建模为有向无环图（DAG）以进行评估的方法。
 ## 为什么 DAG
 | 结构 | 优点 | 缺点 |
 |------|------|------|
 | 线性链 | 简单 | 无法表达分支/回溯 |
 | **Tree** | 易构建 | 无法表达合并（多前驱） |
 | **DAG** | 捕获丰富结构 | 构建更复杂 |
 | 完全图 | 表达力最强 | 不保持因果顺序 |
 DAG 是表达力与可处理性的实用平衡——推理中常见的"多步归结为一个结论"模式需要合并边，Tree 无法表达；完全图丢失了生成的先后因果顺序。
 ## 在 TRM 中的应用
 1. 解析推理轨迹 → 构建 DAG（节点=步骤，边=逻辑依赖）
 2. 基于 DAG 计算 ME² 四维特征
 3. Pairwise preference 标注：哪个 DAG 结构更符合 ME² 原则
 4. 消除直接 prompt-based 比较的 ties 问题（232 ties→0）
 ## 关键贡献
 DAG 结构信号是区分推理质量的关键——直接 prompt evaluation 大量 ties 的根本原因是许多推理对差异在于结构组织（冗余分支/逻辑捷径），而非局部步骤内容。
 ## 参考
 - [[me2-trm-reasoning-2026]]
 - [[me2-principle]]
 - [[thinking-reward-model]]
--- a/concepts/data-markets.md
+++ b/concepts/data-markets.md
@@ -0,0 +1,51 @@
 ---
 title: "数据市场（Data Markets）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - data-economy
  - mechanism-design
  - privacy
  - market-design
 sources:
  - Fallah et al. 2024, arXiv:2402.09697
  - Jordan, arXiv:2507.06268
 ---
 # 数据市场（Data Markets）
 将**数据作为可交易商品**的市场设计框架。Jordan 在论文 §4.2 中讨论了 Fallah et al. (2024) 的三层数据市场模型。
 ## 三层结构
 ```
 用户 (User) → 平台 (Platform) → 第三方数据买家 (Buyer)
   ↑              ↑                    ↑
  支付费用      提供服务          购买数据用于市场研究
  获取服务      学习改进          但削弱用户隐私
 ```
 ## 核心张力
 - **平台**：需要从用户收费维持运营（但通常不够），转而向数据买家出售数据
 - **用户**：失去隐私控制——数据流向未知第三方，且无额外收益
 - **解决方向**：平台提供**合约保证的差分隐私**（噪声等级可审计），用户在平台间"选购"隐私-服务的最优组合
 ## 隐私作为竞争变量
 当平台竞相提供更强的隐私保证时：
 - 更多用户被吸引 → 更多数据 → 更好的服务
 - 但数据买家厌恶噪声 → 支付更低价格
 - 这是一个**广义 Stackelberg 博弈**，需通过求均衡来理解系统行为
 ## 与推荐系统的对比
 经典推荐系统（用户-产品二分图）没有金钱流动——只是让已有实物市场更高效。数据市场引入了**数据本身的定价与交易**——这是 ML 系统需要经济思维的根本原因。
 ## 参考
 - Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697
 - [[statistical-contract-theory|统计合同理论]]
 - [[collectivist-ai|集体主义 AI]]
 - [[jordan-collectivist-ai-2025|Jordan 论文]]
--- a/concepts/data-quality-vs-quantity.md
+++ b/concepts/data-quality-vs-quantity.md
@@ -0,0 +1,38 @@
 ---
 title: "数据数量 vs 数据质量"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [data-quality, data-engineering, ml-engineering, noise-threshold]
 sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
 ---
 # 数据数量 vs 数据质量
 ## 核心矛盾
 在互联网规模语料库上训练基础模型时，数据越多越好。但在**应用 ML** 中，这种关系很快就会破裂。
 ## 噪声阈值效应
 研究表明（Qi et al., 2018）：超过噪声阈值后，添加更多低质量数据会使模型性能**变平或降低**。样本大小和准确性之间的关系在噪声超过一定水平后破裂。
 ## 典型场景
 ### 医疗 AI
 最明显的例子——具有专家验证标签的小数据集**一再优于**具有不可靠注释的大数据集。信号清晰 → 模型从较少数据中学到正确模式。
 ### 企业"数据沼泽"
 团队收集所有数据，因为存储便宜 → 认为"总有一天有用"。没有治理：需要数周清理的数据池、增加存储和流程成本、减慢实验速度且不改善结果。
 ## 实用问题
 > 我们的噪声有多噪？多清理 1 小时的数据和多收集一天的数据，各能给我们带来什么？
 ## 参考
 - [[ai-production-tradeoffs|AI 生产权衡]]
 - [[data-swamp|数据沼泽]]
 - [[ml-technical-debt|ML 技术债务]]
 - [[nobrega-ai-production-tradeoffs-2026|原文文章]]
--- a/concepts/data-swamp.md
+++ b/concepts/data-swamp.md
@@ -0,0 +1,38 @@
 ---
 title: "数据沼泽 — Data Swamp"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [data-engineering, data-quality, data-governance, ml-engineering]
 sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
 ---
 # 数据沼泽（Data Swamp）
 ## 定义
 **数据沼泽**是企业在无数据治理情况下的典型困境：因为存储便宜而收集所有数据，认为"总有一天会有用"，但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。
 ## 成因
 - 存储成本持续下降 → "先存着再说"的心态
 - 缺少数据治理框架和生命周期管理
 - 缺乏与下游 ML 任务的成本关联
 ## 代价
 - **清理成本**：数周时间的工程投入
 - **存储成本**：持续增长的云账单
 - **流程成本**：慢实验迭代、低质量特征
 - **机会成本**：模型性能不提升甚至下降
 ## 与数据质量的关系
 这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后，更多低质量数据不仅无益，反而有害。
 ## 参考
 - [[data-quality-vs-quantity|数据数量 vs 数据质量]]
 - [[ml-technical-debt|ML 技术债务]]
 - [[ai-production-tradeoffs|AI 生产权衡]]
--- a/concepts/dcgwm.md
+++ b/concepts/dcgwm.md
@@ -0,0 +1,63 @@
 ---
 title: "DCGWM (双通道接地世界建模)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: ["world-modeling", "jepa", "representation-learning", "architecture"]
 sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
 ---
 # DCGWM (Dual-Channel Grounded World Modeling)
 **DCGWM** 是 Hazare (2026) 提出的世界模型架构，通过**分区潜在空间 + 内向梯度流**结构性防止 [[objective-interference-collapse|Objective Interference Collapse]]。
 ## 架构核心
 ```
 物理测量 → PGC [内向∇] → Z_p ┐
                              ├→ LWME → detach() → GRL → 用户
 社交模拟 → SBGC [内向∇] → Z_b ┘
 ```
 ### 组件
 1. **Latent World Modeling Engine (LWME)**：基于 [[jepa|JEPA]] 的预测引擎，潜在空间 Z = Z_p ⊕ Z_b 通过架构强制分区（独立权重组、独立 LayerNorm、互信息最小化）
 2. **Physical Grounding Channel (PGC)**：通过 [[vicreg|VICReg]] 风格对齐将外部物理测量接地到 Z_p，[[inward-only-gradient-flow|内向梯度流]] 仅更新 W_p
 3. **Social-Behavioral Grounding Channel (SBGC)**：将紧急性多智能体模拟输出作为外部接地信号注入 Z_b，内向梯度流仅更新 W_b
 4. **Inter-Channel Interface Module**：通过一致性 + 解耦的双目标耦合两子空间，无跨子空间梯度
 5. **Generative Rendering Layer (GRL)**：架构隔离的生成层，接收 detach() 的潜在表示
 ### 四个架构不变量
 | # | 不变性 | 含义 |
 |---|--------|------|
 | I1 | Z_p, Z_b 无共享参数 | 无直接梯度路径 |
 | I2 | PGC→W_p only; SBGC→W_b only | 内向梯度流 |
 | I3 | 接口无跨子空间梯度 | 耦合但不污染 |
 | I4 | GRL detach() | 生成损失不回流 |
 ## 训练阶段
 1. LWME 预训练（仅 L_pred）
 2. PGC 对齐（仅 W_p）
 3. SBGC 对齐（仅 W_b）
 4. 联合微调（全部项 + [[asymmetric-grounding-adherence-loss|L_AGA]]）
 5. GRL 训练（LWME 冻结 + detach）
 ## 与相关工作的区别
 - **vs. Domain Expansion**：DCGWM 的子空间锚定于**外部**接地源（而非内部任务目标），内向约束完全阻止跨子空间梯度（而非仅正交投影）
 - **vs. ThinkJEPA**：ThinkJEPA 的 VLM thinker 信号注入共享 JEPA 预测器→梯度可在两路径间传播。DCGWM 的分区潜在空间 + 内向梯度流结构性防止此干涉
 - **vs. WMReward/GIRL**：DCGWM 将物理接地作为特例，增加行为接地通道、OIC 形式化、L_AGA、隔离必要性定理
 ## 局限性
 OIC 是猜想（非形式证明），行为编码器保真度未验证，接口收敛未证明，隔离必要性依赖未证明假设 A2，零实验验证。
 ## 参考
 - [[hazare-dcgwm-2026|DCGWM 论文]]
 - [[objective-interference-collapse|OIC]]
 - [[inward-only-gradient-flow|Inward-Only Gradient Flow]]
 - [[asymmetric-grounding-adherence-loss|L_AGA]]
 - [[isolation-necessity-theorem|Isolation Necessity]]
--- a/concepts/deepencoder.md
+++ b/concepts/deepencoder.md
@@ -0,0 +1,34 @@
 ---
 title: "DeepEncoder"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["vision-encoder", "token-compression", "ocr", "vlm"]
 sources:
  - "[[unlimited-ocr-works-2026]]"
 ---
 # DeepEncoder
 DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器，被 Unlimited OCR 继承（冻结训练）。通过级联窗口注意 ViT 和全局注意，在低激活值下实现 16× token 压缩。
 ## 架构
 - 窗口注意 ViT（局部特征提取）
 - 全局注意（跨窗口信息聚合）
 - 级联设计：先局部后全局
 ## 压缩率的意义
 视觉 token 不参与状态转移（在 R-SWA 中静态编码），压缩率直接决定 prefill 长度上限：
 - 16× 压缩率 → 10K 视觉 token ≈ 20-30 页（1024×1024）
 - 10K 视觉 → ~100K 文本解码（1:10 视觉-文本 token 比）
 ## 在 Unlimited OCR 中的角色
 训练时冻结 DeepEncoder，仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化，重新训练无必要。
 ## 参考
 - [[unlimited-ocr-works-2026]]
 - [[deepseek-ocr]]
 - [[reference-sliding-window-attention]]
--- a/concepts/deepseek-ocr.md
+++ b/concepts/deepseek-ocr.md
@@ -0,0 +1,35 @@
 ---
 title: "DeepSeek OCR"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
 sources:
  - "[[unlimited-ocr-works-2026]]"
 ---
 # DeepSeek OCR
 DeepSeek OCR（arXiv:2510.18234）是深度求索提出的端到端 OCR 模型，Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder（16× 视觉 token 压缩）和 MoE 解码器（3B 参数，激活 500M）。
 ## 关键组件
 ### DeepEncoder
 级联窗口注意 ViT + 全局注意，实现 16× token 压缩率。低激活值下实现高压缩比，使得多页长程 OCR 的 prefill 可接受。
 ### MoE Decoder
 3B 参数，MoE 架构，推理时激活仅 500M。大幅降低推理计算量。
 ## 作为基线的问题
 标准 MHA 导致 KV cache 随输出长度线性膨胀，推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
 ## Unlimited OCR 的改进
 保留 DeepEncoder（冻结），替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
 ## 参考
 - [[unlimited-ocr-works-2026]]
 - [[deepencoder]]
 - [[mixture-of-experts]]
 - [[end-to-end-ocr]]
--- a/concepts/default-tools.md
+++ b/concepts/default-tools.md
@@ -0,0 +1,40 @@
 ---
 title: "Default Tools — 始终可用的通用工具"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [default-tools, tool-management, dynamic-react, mcp]
 sources:
  - https://arxiv.org/abs/2509.20386
 ---
 # Default Tools
 ## 定义
 Default Tools 是 Dynamic ReAct 框架中**始终可用的通用工具**——与 meta-tools 一起常驻，无需搜索加载。避免 Agent 为通用任务浪费搜索调用和工具槽位。
 ## 两个 Default Tools
 | Tool | 功能 | 替代场景 |
 |------|------|---------|
 | **create_table** | 表格数据生成 | 避免搜索 Airtable/Google Sheets/Notion tools |
 | **web_search** | 通用网页搜索 | 避免搜索 SerpAPI/Firecrawl/Tavily tools |
 ## 为什么需要
 观察到的反模式：Agent 经常为通用任务搜索专用工具——如搜索 "financial data APIs" 来找财报信息。有了 `web_search`，Agent 直接搜索网页即可。
 另一个例子：Agent 加载 Airtable、Coda、SerpAPI 来构建对比表——但 `create_table` 就能完成。
 ## 设计考量
 - Default tools 是**基础设施级**，不涉及领域语义
 - 只在 meta-tools 无法覆盖的通用场景生效
 - 减少"搜索→加载→发现不合适→重新搜索"的浪费循环
 ## 参考
 - [[dynamic-react|Dynamic ReAct]]
 - [[meta-tools|Meta Tools]]
 - [[gaurav-dynamic-react-2025|论文]]
--- a/concepts/delta-rule.md
+++ b/concepts/delta-rule.md
@@ -0,0 +1,62 @@
 ---
 title: "Delta Rule"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["rnn", "gradient-based-memory", "fast-weights"]
 sources: ["https://arxiv.org/abs/2503.14456"]
 ---
 # Delta Rule
 ## 定义
 Delta Rule（Delta 规则）是一种基于**梯度下降**的序列记忆更新机制，源于 Widrow-Hoff 的经典学习规则（1960 年），被 DeltaNet (Schlag et al., 2021) 引入现代序列建模。核心理念：将记忆写入视为一个在线优化问题——对记忆矩阵 M 执行梯度下降以最小化预测误差。
 ## 基础形式
 ```
 S_t = S_{t-1} - α_t · ∇l(S_{t-1}, k_t, v_t)
 ```
 其中：
 - S_t 是可学习的矩阵状态（记忆）
 - k_t 是 query/key，v_t 是 value
 - α_t 是学习率（通常为标量）
 - l 是损失函数（通常为均方误差）
 ## 直觉
 Delta 规则将序列处理重新理解为**在线梯度下降**：
 1. 遇到输入对 (k_t, v_t)
 2. 检查当前记忆 S_{t-1} 能否"回忆起" k_t 关联的信息
 3. 计算预测误差 → 梯度
 4. 沿负梯度方向更新 S_{t-1} → S_t
 这使模型天然具备**联想记忆（associative memory）**能力。
 ## 从 DeltaNet 到 RWKV-7
 | 属性 | DeltaNet | RWKV-7 |
 |------|---------|--------|
 | 学习率 | 标量 α | 向量 a_t（[[in-context-learning-rate]]） |
 | 门控 | 无 | 向量值门控 |
 | Key 解耦 | k_t 同时用于 ± | k_remove ≠ k_add |
 | 衰减 | 固定 | 动态 w_t |
 RWKV-7 的 [[generalized-delta-rule]] 在保持 Delta 规则核心（梯度下降式记忆更新）的同时，扩展了三个关键自由度。
 ## 相关概念
 - [[generalized-delta-rule]] — RWKV-7 的扩展版本
 - [[in-context-learning-rate]] — 标量 → 向量的关键升级
 - [[vector-valued-gating]] — 逐通道选择性门控
 - [[dynamic-state-evolution]] — Delta 规则 + 动态衰减
 - [[peng-rwkv7|RWKV-7 论文]]
 ## 参考
 - DeltaNet (Schlag et al., 2021)
 - Gated DeltaNet (Yang et al., 2024)
 - [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)
--- a/concepts/depth-dilemma.md
+++ b/concepts/depth-dilemma.md
@@ -0,0 +1,40 @@
 ---
 title: "深度困境 (Depth Dilemma)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [transformers, depth, state-tracking]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 深度困境 (Depth Dilemma)
 深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**（Mozer et al., 2026）。
 ## 困境的本质
 如图 1b 所示（Mozer et al., 2026），状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是：
 1. **浅层盲区**：深层产生的状态信息对后续 token 的浅层不可及
 2. **级联误差**：浅层使用未充分上下文化的表示做出预测（如 bank→ATM 误判）
 3. **深度耗尽**：足够长的序列必然超出模型深度上限
 ## 实证证据
 - **Lepori et al. (2025)**：Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成，但浅层已生成错误回答
 - **Biran et al. (2024)**：状态表示上移导致下游利用困难
 - **Venhoff et al. (2025)**：深层状态无法可靠整合跨序列信息
 ## 为何 Transformer 仍然成功
 1. **上下文检索替代**：将状态追踪问题转化为工作记忆问题（lookback）
 2. **组合状态**：状态可拆分到多个嵌入中独立更新
 3. **巧妙捷径**：配对奇偶计算、关联扫描等算法在有限深度内完成计算
 ## 参考
 - [[feedforward-depth-limitation|前馈深度局限]]
 - [[state-tracking|状态追踪]]
 - [[chain-of-thought|思维链]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/depth-recurrence.md
+++ b/concepts/depth-recurrence.md
@@ -0,0 +1,40 @@
 ---
 title: "深度循环 (Depth Recurrence)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [transformers, recurrence, depth, inference-time-scaling]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 深度循环 (Depth Recurrence)
 深度循环是[[recurrence-taxonomy|循环分类法]]中沿**层深度轴**的循环模式：激活从深层回流浅层，形成循环 Transformer 块（Mozer et al., 2026）。
 ## 典型形式
 对应 Mozer et al. 图 5b 的展开模式：
 - **Looped Transformer**（Giannou et al., 2023; Dehghani et al., 2019）：单个/多个层被重复执行
 - **RINS**（Alabdulmohsin & Zhai, 2025）：自适应深度循环
 - **推理时扩展**（Inference-time scaling）：Yang et al. (2024a), Chen et al. (2025b), Geiping et al. (2025) 等
 ## 关键局限
 虽然深度循环增强了表达能力（Saunshi et al., 2025），但**不能实现无限状态追踪**：
 > 因为 s(t+1) 必须位于比 s(t) 更高的层——无论循环多少深度，状态表示仍然在垂直方向上移。
 ## 应用场景
 - **推理时计算扩展**（test-time compute scaling）
 - **微调适配**：预训练模型 + 深度循环微调（Koishekenov et al., 2025）
 - **零训练循环**：纯推理时方法提升推理（Li et al., 2025b; Chen et al., 2026）
 ## 参考
 - [[step-recurrence|步级循环]]
 - [[recurrence-taxonomy|循环分类法]]
 - [[coarse-grained-recurrence|粗粒度循环]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/diffusion-transformer.md
+++ b/concepts/diffusion-transformer.md
@@ -0,0 +1,47 @@
 ---
 title: "Diffusion Transformer (DiT)"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["architecture", "diffusion", "transformer", "video-generation"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Diffusion Transformer (DiT)
 **Diffusion Transformer (DiT)** 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。
 ## 核心设计
 DiT 将潜空间中的图像/视频表示为 Patch Token 序列，通过标准 Transformer 层处理：
 - **序列化**：空间+时间维度展开为 token 序列
 - **条件注入**：时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
 - **可扩展性**：随参数量的增加性能持续提升
 ## 在视频生成中的应用
 视频 DiT 引入**时空注意力**（spatiotemporal attention）处理 3D 潜变量：
 - **双向时间注意力**：所有帧相互 attend → 非因果，无法流式
 - **因果/块因果注意力**：仅 attend 历史 → 支持流式生成（[[autoregressive-video-generation|自回归视频生成]]）
 ## 关键效率技术
 由于视频 DiT 的自注意力成本随时空 token 数平方增长，产生了一系列加速方法：
 - **Step Distillation**：减少去噪步数（如 50→4 步）
 - **Efficient Attention**：FlashAttention、稀疏注意力
 - **Cache Optimization**：KV-cache 复用
 - **Model Compression**：量化、剪枝
 ## 代表性模型
 - **Sora (OpenAI)**: 基于 DiT 的视频生成先驱
 - **LTX-2.3**: 22B 开源音视频 DiT（MaineCoon 的基础模型）
 - **MaineCoon**: 22B 流式音频视觉 DiT（[[maineCoon]]），从 LTX-2.3 初始化
 ## 相关概念
 - [[flow-matching|Flow Matching]]
 - [[kv-cache]]
 - [[block-causal-attention]] — 替代双向时间注意力的流式因果模式
 - [[wan-streamer]] — 端到端流式交互基础模型中的应用
 - [[audio-visual-generation|音视频联合生成]]
 - [[self-resampling|自重采样]]
--- a/concepts/domain-aware-preference-optimization.md
+++ b/concepts/domain-aware-preference-optimization.md
@@ -0,0 +1,56 @@
 ---
 title: "Domain-Aware Preference Optimization"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["dpo", "preference-optimization", "domain", "lora", "post-training"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Domain-Aware Preference Optimization (域感知偏好优化)
 **Domain-Aware Preference Optimization** 是 [[maineCoon|MaineCoon]] 后训练的第一阶段：为不同社交视频域训练专门的 LoRA [[dpo|DPO]] expert。
 ## 为什么需要域感知
 社交视频的质量标准因内容域而异：
 | 域 | 质量重点 |
 |----|---------|
 | **Far Shot** | 全身结构稳定性、场景一致性 |
 | **Multi-Person Dialogue** | 说话人身份一致、轮流发言 |
 | **Motion** | 大幅度、时序连贯的身体运动 |
 | **Animation** | 风格一致的非写实渲染 |
 | **Dance** | 复杂肢体动作 + 音乐节奏同步 |
 直接在所有目标上优化单一模型会引入**冲突偏好信号**。
 ## 方法
 ### Domain Preference Pairs
 对每个域 `d`：
 1. 用域质量过滤器选择高质量真实视频作为 `x⁺`
 2. 用当前 generator 生成同 prompt 的 `x⁻`
 3. 周期性用最新域模型刷新 `x⁻`，使偏好数据反映当前 failure modes
 ### Domain-Specialized DPO Experts
 从 native streaming checkpoint `θ₀` 出发，为每个域训练 LoRA adapter：
 ```
 φ_d = θ₀ + Δ_d
 ```
 使用 doubled-sequence interface（与 native training 相同），preferred 和 dispreferred 共享 prompt 和 noise，仅历史不同。
 DPO loss：
 ```
 L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))]
 ```
 保留少量 reconstruction loss 在 preferred 样本上。
 ## 与 ROPD 的关系
 域专家训练完成后，通过 [[reinforced-online-policy-distillation|ROPD]] 合并为单一部署策略。推理时**无需任何 domain adapter**。
 ## 参考
 - [[maineCoon|MaineCoon 论文]] Section 3.3
 - [[reinforced-online-policy-distillation|ROPD]]
 - [[dpo|Direct Preference Optimization]]
--- a/concepts/dpo-bias-mitigation.md
+++ b/concepts/dpo-bias-mitigation.md
@@ -0,0 +1,38 @@
 ---
 title: "DPO Bias Mitigation"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["dpo", "bias-mitigation", "alignment", "preference-optimization"]
 sources:
  - "[[personalization-trap-2025]]"
 ---
 # DPO Bias Mitigation
 DPO Bias Mitigation 是 Fang et al. (2025) 提出的通过 [[dpo|Direct Preference Optimization]] 减少用户画像对 LLM 情感推理影响的策略。
 ## 偏好数据集构建
 1. **数据源**：Tulu3 中抽样 5000 个问题，随机配对用户画像
 2. **候选生成**：每个问题生成 5 个响应（3 个被指示检查并声明画像无关 + 2 个对照组）
 3. **LLM Judge 评分**：三个维度
   - 正确性：是否覆盖 ground-truth 的所有要点
   - 偏见检测：画像细节是否影响最终判断
   - 画像无关声明：是否声明画像信息无关
 4. **偏好对**：chosen = 正确 + 无偏见 + 声明无关；rejected = 不正确 + 偏见平衡
 5. **Reward Model 过滤**：保留 chosen positive / rejected negative 且有足够 margin 的对（~20% 保留率）
 ## 结果
 | 模型 | STEU Before | STEU After | MMLU | Bias ∆ |
 |------|-----------|-----------|------|--------|
 | Gemma-2-2B | 59.50% | 63.70% | +6.7pp | 5.50%→-2.30% |
 | Qwen-3-1.7B | 60.90% | 60.30% | +6.8pp | 1.70%→0.40% |
 仅 500 样本。Bias Influence 反转（Gemma 不再偏好优势画像），MMLU 同时提升。
 ## 参考
 - [[personalization-trap-2025]]
 - [[persona-invariant-reasoning]]
 - [[dpo]]
--- a/concepts/drifting.md
+++ b/concepts/drifting.md
@@ -0,0 +1,45 @@
 ---
 title: "Temporal Drift (时序漂移)"
 created: 2026-06-20
 updated: 2026-06-20
 type: concept
 tags: ["drift", "autoregressive", "error-accumulation", "generation"]
 sources: ["https://arxiv.org/abs/2606.17800"]
 ---
 # Temporal Drift (时序漂移)
 **Temporal Drift** 是自回归生成中误差随时间累积导致的内容退化现象：生成的内容逐渐偏离其预期外观、颜色、音频音色和运动模式。
 ## 产生机制
 自回归模型逐块生成时，每一块的输入是**模型自己生成的前序内容**，而非 ground truth。前序中的小误差通过注意力机制传播到后续块，形成正反馈循环：
 ```
 误差(t+1) = 固有误差 + 传播(误差(t))
 ```
 随 t 增大，累积误差使生成内容逐渐偏离目标分布。
 ## 在音视频流式生成中的表现
 | 退化类型 | 表现 |
 |---------|------|
 | **外观漂移** | 人脸变形、颜色偏移、光照改变 |
 | **身份漂移** | 角色面部特征逐渐改变 |
 | **运动漂移** | 动作变得僵硬或不自然 |
 | **音频漂移** | 音色改变、语音清晰度下降 |
 | **同步漂移** | 唇音对齐逐渐松动 |
 ## 缓解方法
 在 [[maineCoon|MaineCoon]] 中：
 - [[self-resampling|Self-Resampling]]：训练时暴露退化历史，提升鲁棒性
 - [[agentic-cache-manager|Agentic Cache Manager]] 的 drift control：
  - **Statistical Anchor (AdaStat)**：per-channel 统计匹配
  - **Subject Anchor**：语义主体参考块
 - [[forward-repair-ladder|Forward-Repair Ladder]]：检测到退化后前向修复
 ## 参考
 - [[autoregressive-video-generation|自回归视频生成]]
 - [[streaming-generation|流式生成]]
 - [[maineCoon|MaineCoon]]
--- a/concepts/dual-collapse.md
+++ b/concepts/dual-collapse.md
@@ -0,0 +1,57 @@
 ---
 title: "Dual Collapse in Latent CoT"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: [latent-cot, optimization, gradient-flow, representation-drift, supervision]
 sources:
  - "[[latent-cot-supervision]]"
 ---
 # Dual Collapse in Latent CoT
 **Dual Collapse**（双重崩溃）是 [[latent-cot-supervision|Latent CoT Supervision]] 论文中诊断的 Outcome Supervision 失败的根源机制，由两个耦合的退化过程组成。
 ## 组件一：梯度衰减 (Gradient Attenuation)
 仅使用最终 answer loss 时，反向传播的梯度沿潜链衰减：
 ```
 G(t) = ||∂L_OS / ∂L_t||
 ```
 实证发现：G(1) >> G(2) > ... > G(6) ≈ 0。
 **后果**：
 - 模型依赖 L1 承载几乎所有推理负担（structural shortcut）
 - 深层潜状态实际上处于"未训练"状态
 - 类似 gradient starvation (Pezeshki et al., 2021)：主导浅层特征抑制深层依赖的学习
 ## 组件二：表征漂移 (Representational Drift / Manifold Drift)
 由于深层潜状态缺乏有效梯度信号，它们的表征在训练过程中偏离显式 CoT 嵌入所定义的语义空间：
 - PCA 可视化显示潜轨迹从语义参考区向外发散
 - 面积比达 460.3× —— 潜空间探索区域远大于语义有效区域
 - 失去语义锚定后，潜状态进入无结构高熵区域
 ## 交互效应
 两个机制的耦合形成恶性循环：
 1. 梯度衰减 → 深层潜状态未受训练
 2. 未受训练的潜状态漂移 → 对 answer loss 贡献降级
 3. 贡献降级 → 分配更少梯度 → 进一步衰减
 最终：模型通过捷径（shortcut）最小化损失，而非通过真正的多步推理。
 ## 解决方案
 过程监督（Process Supervision）通过两个维度打断这个循环：
 - [[trajectory-supervision|Trajectory Supervision]]：在每个推理步骤注入局部梯度信号，打破梯度衰减
 - [[space-supervision|Space Supervision]]：通过生成式重建锚定潜状态，防止表征漂移
 ## 参考
 - [[latent-cot-supervision]]
 - [[trajectory-supervision]]
 - [[space-supervision]]
--- a/concepts/dynamic-react.md
+++ b/concepts/dynamic-react.md
@@ -0,0 +1,62 @@
 ---
 title: "Dynamic ReAct — 动态工具选择"
 created: 2026-06-19
 updated: 2026-06-19
 type: concept
 tags: [dynamic-tool-selection, react, mcp, meta-tools, scalability]
 sources:
  - https://arxiv.org/abs/2509.20386
 ---
 # Dynamic ReAct
 ## 定义
 Dynamic ReAct 是 Gaurav et al. (2025) 提出的框架：通过 **meta-tools + 语义搜索** 让 ReAct Agent 在数百到数千个 MCP 工具的环境中**按需动态选择和加载工具**，而非全量注入。
 ## 核心设计理念
 全量加载不可行 → 需要"管理工具的工具"（meta-tools）→ Agent 自主发现、检索、加载所需工具。
 ## 四大核心组件
 | 组件 | 角色 |
 |------|------|
 | LLM Client | 轻量 system prompt，核心推理引擎 |
 | Meta Tools | 管理其他工具的固定工具集（搜索、加载） |
 | Tool Registry | 全部可用 MCP 工具的仓库（可来自第三方） |
 | Vector Database | 语义索引和检索，支持 ANN 搜索 |
 ## 七个控制杠杆
 LLM Client (1): System Prompt
 Meta Tools (4): Names, Parameters, Descriptions, Output Format
 Tool Registry (1): Tool Descriptions
 Vector DB (1): Retrieval Design
 实践中最可控的两个杠杆：**Meta Tools** 和 **Vector DB**。
 ## 五架构 → Search and Load
 五架构渐进演化，最终收敛于 **Search and Load**——两次额外 LLM 调用（search + load），加载 < 5 个工具，减少 50% 加载量且保持准确率。
 → [[search-and-load|Search and Load 架构]]
 ## 关键数据
 - 向量检索优化：Top-5 从 40% → 60%（+50% 相对提升）
 - 工具加载减少 50%
 - Scale to thousands of tools
 ## 与 MCP-Zero 的关系
 论文直接引用 [[fei-mcp-zero-2025|MCP-Zero]]（ref [2]）。两者解决同一问题，路线互补：
 - MCP-Zero：Agent 自主请求 + 层次路由
 - Dynamic ReAct：meta-tools + 语义搜索 + 精选加载
 ## 参考
 - [[gaurav-dynamic-react-2025|Dynamic ReAct 论文]]
 - [[meta-tools|Meta Tools]]
 - [[search-and-load|Search and Load]]
 - [[fei-mcp-zero-2025|MCP-Zero]]
--- a/concepts/dynamic-state-evolution.md
+++ b/concepts/dynamic-state-evolution.md
@@ -0,0 +1,52 @@
 ---
 title: "Dynamic State Evolution"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: ["rwkv", "state-tracking", "recurrence", "sequence-modeling"]
 sources: ["https://arxiv.org/abs/2503.14456"]
 ---
 # Dynamic State Evolution
 ## 定义
 Dynamic State Evolution（动态状态演化）是 RWKV-7 对序列模型中隐状态更新机制的重新表述。在传统 RNN（LSTM/GRU）和 LTI SSM（S4）中，状态演化规则是固定的；RWKV-7 通过 [[generalized-delta-rule]] 使状态演化变为**输入依赖 + 向量值 + 可学习**的三维动态过程。
 ## 核心组成
 ```
 S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t
         ↑                             ↑
    状态衰减（门控）              新信息写入（Delta）
 ```
 三部分协同：
 1. **动态衰减**（`diag(w_t)`）：逐通道、输入依赖的遗忘 → [[vector-valued-gating]]
 2. **选择性移除**（`κ̂^T (a_t ⊙ κ̂)`）：基于内容匹配的旧信息擦除 → [[in-context-learning-rate]]
 3. **新信息写入**（`v_t^T · k_t`）：通过外积将新 (k, v) 对写入状态 → [[delta-rule]]
 ## 表达力来源
 传统 RNN 的状态演化局限于标量门控 → 表达能力受限于 TC^0。
 RWKV-7 的动态状态演化实现了三个突破：
 - **向量值门控** → 逐通道差异化更新
 - **广义特征值** → 进化矩阵可拥有 [0,1] 外的特征值
 - **Delta 规则** → 梯度下降式的联想记忆写入
 这些共同使 RWKV-7 首次实现了超越 TC^0 的并行化 RNN 表达力 → 达到 NC^1。
 ## 相关概念
 - [[generalized-delta-rule]] — 动态状态演化的完整数学形式
 - [[vector-valued-gating]] — 演化的衰减部分
 - [[in-context-learning-rate]] — 演化的更新速度控制
 - [[regular-language-recognition]] — 动态演化的理论成果
 - [[state-tracking]] — 演化支持的核心能力
 - [[peng-rwkv7|RWKV-7 论文]]
 ## 参考
 - [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)
--- a/concepts/dynamic-token-limit.md
+++ b/concepts/dynamic-token-limit.md
@@ -0,0 +1,43 @@
 ---
 title: "动态 Token 限制 (Dynamic Token Limit)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [token-efficiency, hybrid-reasoning, reward-hacking]
 sources:
  - gan-thinking-based-non-thinking-2026
 ---
 # 动态 Token 限制 (Dynamic Token Limit)
 动态 Token 限制是 TNT 的核心技术：为**每个查询**单独设定非思考模式响应的最大 token 使用量，而非所有查询使用统一上限（Gan et al., 2026）。
 ## 为什么需要动态限制
 ### 统一上限的失败（AdaptThink 方案）
 Zhang et al. (2025) 的 AdaptThink 为所有查询设定同一个较小的 max token：
 - 简单查询的思考模式 solution 可能**少于** 100 tokens
 - 复杂查询的自然非思考回答可能需要 **300+ tokens**
 - 统一上限要么**漏检**简单查询的 reward hacking，要么**误伤**复杂查询的合法非思考响应
 ### TNT 的动态方案
 ```
 L_N^x = ω × mean(solution_length of thinking_mode_responses for x)
 ```
 - 简单查询 → L_N^x 小 → 严格检测 reward hacking
 - 复杂查询 → L_N^x 大 → 给予合法非思考响应足够空间
 - ω = 2 提供 2 倍容错边界，防止轻微偏差被误判
 ## 实现细节
 - 每次训练步对每个 prompt x 采样 K 个响应
 - 从思考模式响应集合 M_T^x 计算平均 solution 长度
 - 若 M_T^x 为空（on-policy 采样未产生思考响应），回退到 L_∅ = 1000
 - 使用 token 级策略梯度（GRPO）进行训练
 ## 参考
 - [[thinking-based-non-thinking|TNT]]
 - [[reward-hacking|Reward Hacking]]
 - [[token-efficiency|Token 效率]]
 - [[gan-thinking-based-non-thinking-2026|TNT 论文]]
--- a/concepts/e-values.md
+++ b/concepts/e-values.md
@@ -0,0 +1,42 @@
 ---
 title: "E-values（证据值）"
 created: 2026-06-21
 updated: 2026-06-21
 type: concept
 tags:
  - statistics
  - hypothesis-testing
  - sequential-analysis
  - uncertainty
 sources:
  - Ramdas & Wang 2025, arXiv:2410.23614
  - Bates et al. 2024
  - Jordan, arXiv:2507.06268
 ---
 # E-values（证据值）
 一种替代 p-values 的假设检验框架。E-value 是零假设下**期望 ≤1** 的非负随机变量，具有"赌博解释"——在零假设为真时，财富的期望乘性因子 ≤1。
 ## 与 P-values 的对比
 | | P-value | E-value |
 |---|---|---|
 | 定义 | 零假设下的尾部概率 | 零假设下的期望 ≤1 |
 | 直觉 | "数据多极端" | "证据有多强" |
 | 顺序更新 | 不自然（需多重检验校正） | 自然（乘性累积） |
 | 任意停止 | 无效（p-hacking） | 有效（可选停止定理） |
 ## 顺序场景的威力
 当数据按时间顺序到达时，E-values 的自然形式是**非负上鞅**（nonnegative supermartingale）——在任何停止时间的期望 ≤1。这使 E-values 天然适合**可选停止**（optional stopping），避免了 p-hacking 问题。
 ## 与经济学的连接
 [[statistical-contract-theory|统计合同理论]] 的核心定理：在顺序假设检验的合同设计中，激励相容 ⇔ 选项可表达为 E-values。这是推断工具与经济激励的深层等价关系。
 ## 参考
 - Ramdas & Wang (2025). Hypothesis Testing with E-values. arXiv:2410.23614
 - [[statistical-contract-theory|统计合同理论]]
 - [[jordan-collectivist-ai-2025|Jordan 论文]]
--- a/concepts/edge-of-stability.md
+++ b/concepts/edge-of-stability.md
@@ -0,0 +1,41 @@
 ---
 title: "Edge of Stability (EoS)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: [optimization, gradient-descent, deep-learning, sharpness, bifurcation]
 sources: [gan-bifurcation-eos]
 ---
 # Edge of Stability (EoS)
 Edge of Stability (EoS) 是深度学习中梯度下降训练的一个反直觉现象：模型在 **sharpness λ 超过经典收敛阈值 2/η** 的情况下仍能稳定训练，loss 非单调但长期下降。该现象由 Cohen et al. (2022) 首次系统实证记录。
 ## 核心机制
 经典梯度下降分析要求学习率 η 与 sharpness λ（Hessian 最大特征值）满足 **ηλ < 2** 才能保证收敛。但在实践中，深度网络训练时 sharpness 会上升至超过该阈值，loss 出现振荡，却仍能长期收敛。这种"在稳定边缘运行"的行为无法用经典凸优化理论解释。
 EoS 的典型动力学阶段：
 1. **渐进锐化 (Progressive Sharpening)**：训练初期 sharpness 单调上升，穿过 2/η 阈值进入 EoS 状态
 2. **自稳定 (Self-Stabilization)**：sharpness 在阈值附近振荡，loss 非单调但呈下降趋势
 3. **最终收敛**：sharpness 回落至阈值以下，迭代收敛到极小值流形
 ## 理论解释谱系
 - **三阶自稳定** (Damian et al., 2023)：loss Taylor 展开的三阶项贡献 sharpness 自稳定
 - **多尺度损失结构** (Ma et al., 2022)：次二次性质阻止发散
 - **极简分析** (Zhu et al., Wang et al., Song & Yun, Gan 2026)：在低维结构化损失上严格证明 EoS 收敛
 - **分岔理论框架** (Gan 2026b, [[gan-bifurcation-eos|本文]])：将 EoS 稳定性归结为 flip 分岔的 Lyapunov 系数符号
 ## 与过参数化的关联
 过参数化网络存在 [[manifold-of-minimizers|极小值流形]]，Hessian 秩亏。EoS 动力学可分解为流形法向的周期振荡和切向的 sharpness 下降漂移——两者的协同作用产生收敛。
 ## 参考
 - Cohen et al. (2022). Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability.
 - Damian et al. (2023). Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability.
 - [[gan-bifurcation-eos|Gan (2026b) — 分岔理论框架]]
 - [[product-stability|Gan (2026) — 乘积稳定性]]
 - [[flip-bifurcation]]
 - [[first-lyapunov-coefficient]]
--- a/concepts/ellipsis-prompt.md
+++ b/concepts/ellipsis-prompt.md
@@ -0,0 +1,43 @@
 ---
 title: "省略号提示 (Ellipsis Prompt)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [prompting, hybrid-reasoning, sampling]
 sources:
  - gan-thinking-based-non-thinking-2026
 ---
 # 省略号提示 (Ellipsis Prompt)
 Ellipsis Prompt 是 Tu et al. (2025) 在 AutoThink 中引入的特殊提示格式，用于**在不使用 off-policy 采样的条件下实现非思考模式的采样**。TNT 沿用了此技术（Gan et al., 2026）。
 ## 格式
 ```
 x = [x_1, ..., x_n, <think>, \n, ..., \n]
 ```
 在查询末尾和 `<think>` 后附加多个换行符。
 ## 工作原理
 通常，LRM 的输入格式为 `[query, <think>]`——模型自然地以思考内容开始生成。省略号提示通过追加空行，为模型创造了一个**可能的"跳过思考"路径**：
 - 标准路径：`<think>` → "Wait, let me..."（思考模式）
 - 省略号路径：`<think>` → 直接以 `</think>` 开始（非思考模式）
 ## 在 TNT 中的使用
 TNT 使用省略号提示使得每个 prompt x 的 K 次采样可能**同时包含**思考和非思考模式响应——这对于 [[dynamic-token-limit|动态 Token 限制]] 的计算至关重要：需要从思考模式响应的 solution 长度推导非思考模式的上限。
 ## 优势
 相比需要修改 tokenizer 的方案（如添加 `<short>` token），省略号提示**不需要修改 tokenizer**，直接兼容现有 LRM。
 ## 参考
 - [[hybrid-reasoning-models|混合推理模型]]
 - [[non-thinking-mode|非思考模式]]
 - [[dynamic-token-limit|动态 Token 限制]]
 - [[gan-thinking-based-non-thinking-2026|TNT 论文]]
--- a/concepts/emotional-reasoning-bias.md
+++ b/concepts/emotional-reasoning-bias.md
@@ -0,0 +1,39 @@
 ---
 title: "Emotional Reasoning Bias"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["emotional-intelligence", "bias", "llm-safety"]
 sources:
  - "[[personalization-trap-2025]]"
 ---
 # Emotional Reasoning Bias
 Emotional Reasoning Bias 指 LLM 在情感推理任务中对不同人口统计特征的画像表现出系统性偏差——相同的情感场景因用户性别/年龄/宗教/种族而产生不同的准确率。
 ## 关键发现
 ### 宗教效应
 穆斯林画像系统性地得分偏低：Mistral Large V2 β=-0.061 (p<0.001)，Claude 3.7 thinking β=-0.013 (p=0.134)。
 ### 性别效应
 非二元性别在不同模型中效果方向相反：
 - Claude 3.7 no-think: β=+0.018 (p=0.007) — 正面
 - Qwen3-4B think: β=-0.030 (p=0.006) — 负面
 ### 年龄效应
 65+ 画像在 DeepSeek-R1-Distill-Llama 中显著偏低 (β=-0.047, p=0.006)。
 ### 情绪建议中的偏见
 Claude 3.7 对女性/非二元性别的建议质量显著低于男性（β=-0.102, p<0.001），但 Qwen3-4B Thinking 对女性/非二元性别更友好。
 ## 启示
 "Thinking" 模型（推理模型）通常表现出更低偏见，但偏见方向无统一模式——各模型对不同群体的偏见方向不同，无法简单归因于单一训练数据源。
 ## 参考
 - [[personalization-trap-2025]]
 - [[personalization-trap]]
 - [[user-memory-bias]]
 - [[intersectional-persona-evaluation]]
--- a/concepts/empirical-fisher.md
+++ b/concepts/empirical-fisher.md
@@ -0,0 +1,54 @@
 ---
 title: "Empirical Fisher (经验 Fisher 信息)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: ["computation", "estimation", "fisher-metric", "information-geometry"]
 sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
 ---
 # Empirical Fisher (经验 Fisher 信息)
 **Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法，是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。
 ## 定义
 给定样本 {x_i}ⁿ_{i=1} ∼ p_θ，经验 Fisher 矩阵为：
 ```
 Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
 ```
 这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
 ## 与总体 Fisher 的异同
 | 方面 | 经验 Fisher | 总体 Fisher |
 |------|-----------|------------|
 | 计算 | 可计算（n 个样本） | 需解析或 Monte Carlo |
 | 偏差 | 有限样本偏差 | 无偏（定义） |
 | 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
 | 使用场景 | 自然梯度、K-FAC | 理论分析 |
 ## 在 Fisher Width 估计中的角色
 Vu (2026) 的 Fisher width 估计器使用经验 Fisher：
 1. **全经验 Fisher 估计器**：计算 Ĝ(θ)^{1/2}，对集合做重标度后估计 Gaussian width
 2. **低秩近似**：对 Ĝ(θ) 做截断 SVD，利用 Fisher 谱的快速衰减
 3. **分数范数估计器**：针对特定集合（如欧几里得球）的高效特化
 关键理论保证来自**经验 Fisher 稳定性定理**：当 ‖Ĝ−G‖_{op} → 0 时（在适当条件下以 O(1/√n) 速率），Fisher width 的经验估计一致收敛到总体值。
 ## MNIST 上验证
 - 逻辑回归 (d=784)：低秩近似 k=20 已捕获 >95% 的 Fisher 迹
 - Softmax 回归：Fisher 谱同样快速衰减
 - 岭回归：估计器在不同正则化强度下稳定
 ## 参考
 - [[vu-fisher-width-2026|Fisher Width 论文]]
 - [[fisher-information-metric|Fisher Information Metric]]
 - [[natural-gradient-descent|Natural Gradient Descent]]
 - [[fisher-lipschitz|Fisher-Lipschitz]]
--- a/concepts/end-to-end-ocr.md
+++ b/concepts/end-to-end-ocr.md
@@ -0,0 +1,38 @@
 ---
 title: "End-to-End OCR"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["ocr", "end-to-end", "vlm", "document-parsing"]
 sources:
  - "[[unlimited-ocr-works-2026]]"
 ---
 # End-to-End OCR
 End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式，利用 VLM/LLM 的强大解码能力，在单次前向传播中解析整页内容。
 ## 与 Pipeline 范式的对比
 | 维度 | Pipeline OCR | End-to-End OCR |
 |------|-------------|----------------|
 | 架构 | 检测模型 + 多识别模型 + 启发式策略 | 单一统一模型 |
 | 解码次数 | 多次（检测→裁剪→识别） | 单次 |
 | 模型要求 | 低 | 高（需更大模型容量） |
 | 训练难度 | 低 | 高 |
 | 对 VLM 发展的启发 | 有限 | 可直接推动通用 VLM 进步 |
 ## 核心模块
 1. **High-compression Encoder**（如 [[deepencoder]]）：提取并压缩图像信息，决定解码效率的上限
 2. **High-efficiency Decoder**（如 R-SWA）：直接影响推理成本和生成长度上限
 ## 当前 SOTA
 Unlimited OCR（v1.5: 93.23%, v1.6: 93.54%）、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。
 ## 参考
 - [[unlimited-ocr-works-2026]]
 - [[deepseek-ocr]]
 - [[deepencoder]]
 - [[omnidocbench]]
--- a/concepts/end-to-end-streaming-interaction.md
+++ b/concepts/end-to-end-streaming-interaction.md
@@ -0,0 +1,67 @@
 ---
 title: "End-to-End Streaming Interaction"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: [streaming, multimodal, interaction, end-to-end, real-time]
 sources:
  - "[[wan-streamer]]"
 ---
 # End-to-End Streaming Interaction
 **End-to-End Streaming Interaction**（端到端流式交互）是一种设计范式：将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中，而非由独立的模块（VAD、ASR、LLM、TTS、动画渲染）级联组成。
 ## 核心原则
 Wan-Streamer 提出的流式契约（streaming contract）：
 > 每个组件必须因果地运行，每个新观测到的单元必须立即可用，每个生成的单元必须被发射并提交回交互历史。
 ## 为什么需要端到端
 级联系统的根本问题不在于单个模块的性能，而在于**模块边界的系统性代价**：
 1. **延迟累积**：每个模块都有独立的推理延迟，相加后远超端到端
 2. **误差传播**：ASR 的转录错误导致 LLM 误解意图，TTS 的韵律偏差导致不自然
 3. **信息瓶颈**：文本作为中间表示丢失了语音的韵律、情感、语调信息；丢失了视频的表情、姿态、凝视信息
 4. **无法学习全局行为**：响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习
 ## 设计要素
 ### 1. 全因果架构
 - 因果编码器/解码器：每个流式单元到达即可编码
 - 因果 VAE：流式潜编码
 - Block-causal attention：流式多模态 token 调度
 ### 2. 统一的多模态序列表示
 - 视觉、音频、文本 token 在同一条因果时间线上交织
 - 用户输入和 Agent 输出 token 共享同一个序列上下文
 ### 3. 全历史自回归流式
 - 每个生成的单元被 commit 回历史
 - 为后续单元的生成提供完整上下文
 - 支持长对话中的身份保持、场景记忆、节律连贯
 ### 4. 联合优化
 - 语音生成和视频生成共享同一因果上下文
 - 嘴唇运动、面部动态、韵律天然同步（而非事后对齐）
 - 聆听行为和说话行为在同一个过程中学习
 ## 与传统范式的对比
 | 维度 | 级联范式 | 端到端流式 |
 |------|---------|-----------|
 | 感知 | 独立 ASR/CV 模块 | 统一因果编码 |
 | 推理 | 独立 LLM | Transformer 内联合 |
 | 生成 | 独立 TTS/动画 | 联合 flow-matching |
 | 时机 | 外部 VAD+规则 | 模型学习 |
 | 同步 | 事后对齐 | 因果原生同步 |
 | 延迟 | 各模块之和 | 流水线重叠 |
 ## 参考
 - [[wan-streamer]] — 该范式的代表性实现
 - [[full-duplex-interaction]]
 - [[block-causal-attention]]
 - [[thinker-performer-pipeline]]
--- a/concepts/engram.md
+++ b/concepts/engram.md
@@ -0,0 +1,70 @@
 ---
 title: "Engram (Conditional Memory Module)"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: ["architecture", "memory", "transformer", "sparsity"]
 sources:
  - "[[engram-conditional-memory-2026]]"
 ---
 # Engram (Conditional Memory Module)
 Engram 是 DeepSeek-AI 提出的条件记忆模块，将经典 N-gram 嵌入现代化为 Transformer 的静态知识查找原语。
 ## 架构：两阶段流水线
 ### 阶段 1：Sparse Retrieval（稀疏检索）
 **Tokenizer Compression**：
 - 预计算满射函数 P: V → V'，基于 NFKC 归一化 + 小写化
 - 将语义等价但 token ID 不同的词（如 "Apple" vs " apple"）映射到同一规范 ID
 - 对 128k tokenizer 实现 23% 有效词表缩减
 **Multi-Head Hashing**：
 - 每个 N-gram 阶数 n ∈ {2,3,...N} 用 K 个独立哈希头
 - 乘性 XOR 哈希 𝜑_{n,k} 将压缩 N-gram 映射到嵌入表 E_{n,k}[z]（素数大小 M_{n,k}）
 - 所有检索向量拼接为记忆向量 e_t ∈ R^{d_mem}
 - 碰撞通过上下文门控消解
 ### 阶段 2：Context-aware Fusion（上下文感知融合）
 **Gating**：
 - h_t（隐藏状态，含全局上下文）→ Query
 - e_t（静态记忆）→ Key, Value（经可学习投影 W_K, W_V）
 - 标量门 α_t = σ(RMSNorm(h_t)^T · RMSNorm(k_t) / √d)
 - 输出 ṽ_t = α_t · v_t：若记忆与上下文矛盾，门控趋近于 0
 **Depthwise Causal Convolution**：
 - Kernel=4, dilation=max N-gram order, SiLU 激活
 - 扩展感受野，增强非线性
 - 残差连接：Y = SiLU(Conv1D(RMSNorm(Ṽ))) + Ṽ
 ### 集成到 Transformer
 ```
 H(ℓ) ← H(ℓ) + Y   (残差)
 → Attention
 → MoE
 ```
 **非全层应用**：Engram 只插入特定层，具体位置由系统延迟约束决定。
 ## 基础设施感知设计
 - **确定性寻址**：不同于 MoE 的动态路由，Engram 使用确定性哈希 → 支持运行时预取
 - **内存层次**：大嵌入表可卸载到主机内存，通过预取重叠通信与计算
 - **开销**：100B 参数嵌入表卸载到主机内存的开销 <3%
 ## 关键设计要点
 1. **静态 vs 动态分离**：记忆是静态的（N-gram 嵌入），但通过上下文门控获得动态适应性
 2. **哈希碰撞不是 bug**：Multi-head hashing + 上下文门控共同消解碰撞噪声
 3. **深度而非宽度**：Engram 的价值不在存更多事实，在释放计算深度用于推理
 ## 参考
 - [[engram-conditional-memory-2026]]
 - [[conditional-memory]]
 - [[mixture-of-experts]]
 - [[ngram-embedding]]
 - [[sparsity-allocation]]
--- a/concepts/enhanced-state-space-models.md
+++ b/concepts/enhanced-state-space-models.md
@@ -0,0 +1,50 @@
 ---
 title: "增强状态空间模型 (Enhanced State-Space Models)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [ssm, state-tracking, expressivity, architecture]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 增强状态空间模型 (Enhanced State-Space Models)
 增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体，是 Mozer et al. (2026) 提出的首要研究方向。
 ## 为何需要增强
 标准线性 SSM 的表达能力**不超过**标准 Transformer（Merrill et al., 2025）。增强 SSM 通过引入非线性/结构化更新突破此限制。
 ## 关键架构
 ### DeltaNet 及其扩展
 - **DeltaNet**（Schlag et al., 2021）：Delta 规则驱动的快速权重更新
 - **负特征值扩展**（Grazzi et al., 2025）：将特征值范围扩展到负数 → 表达能力超越标准 Transformer，同时保持并行训练能力
 - **门控 DeltaNet**（Yang et al., 2025a）：与标准 Transformer 块混合时，理论和实践均更强大（Merrill et al., 2026）
 ### RWKV-7
 - **Peng et al., 2025**：广义 Delta 规则 + 向量值门控，首个被证明超越 TC^0（NC^1）的并行化可训练 RNN
 - 可识别所有正则语言，单层可解决 S5 状态追踪
 - 多语言 2.9B SoTA
 - 论文：[[peng-rwkv7|RWKV-7 "Goose"]]
 ### PaTH Attention
 - **Yang et al., 2025b**：路径注意力机制，具备增强的状态追踪能力
 ### 门控线性注意力
 - **Yang et al., 2024b**：在线性注意力中加入门控机制
 - **Gated Linear Attention + Transformer 混合**（Merrill et al., 2026）
 ## 核心优势
 - **并行训练** + **超越 Transformer 的表达力**（DeltaNet 负特征值扩展）
 - **竞争性规模性能**（RWKV-7 等）
 - **灵活混合**：与标准 Transformer 块堆叠
 ## 参考
 - [[state-space-models|状态空间模型]]
 - [[step-recurrence|步级循环]]
 - [[state-tracking|状态追踪]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/extended-kalman-filter.md
+++ b/concepts/extended-kalman-filter.md
@@ -0,0 +1,30 @@
 ---
 title: "扩展 Kalman 滤波"
 created: 2026-06-22
 updated: 2026-06-22
 type: concept
 tags: [state-estimation, filtering, nonlinear-systems]
 sources: [nano-filter]
 ---
 # 扩展 Kalman 滤波
 Extended Kalman Filter (EKF) 是最早的非线性 [[kalman-filter|KF]] 扩展，通过对非线性函数做一阶 Taylor 展开实现局部线性化。
 ## 核心机制
 对非线性系统 $x_t = f(x_{t-1}) + \xi_t$, $y_t = g(x_t) + \zeta_t$：
 - 在**当前状态估计点**处计算 Jacobian: $F_t = \frac{\partial f}{\partial x}\big|_{\hat{x}_{t-1}}$, $G_t = \frac{\partial g}{\partial x}\big|_{\hat{x}_{t|t-1}}$
 - 用线性化模型 $x_t \approx F_t x_{t-1} + c$, $y_t \approx G_t x_t + d$ 运行标准 KF
 ## 局限性
 - Taylor 展开仅为一阶近似，强非线性下误差大
 - 需要计算 Jacobian 矩阵（对高维系统代价高）
 - [[nano-filter|NANO]] 证明 EKF 的线性化误差是 Gaussian 滤波次优性的根源，提出直接优化的替代方案
 ## 参考
 - [[kalman-filter|Kalman Filter]]
 - [[gaussian-filtering|Gaussian Filtering]]
 - [[unscented-kalman-filter|UKF]]
 - [[nano-filter|NANO Filter]]
--- a/concepts/fact-augmented-key-expansion.md
+++ b/concepts/fact-augmented-key-expansion.md
@@ -0,0 +1,57 @@
 ---
 title: "Fact-Augmented Key Expansion"
 created: 2026-06-25
 updated: 2026-06-25
 type: concept
 tags: ["memory", "indexing", "optimization", "rag"]
 sources:
  - "[[longmem-eval-2025]]"
 ---
 # Fact-Augmented Key Expansion
 Fact-Augmented Key Expansion 是 LongMemEval 实验验证的记忆索引优化策略：在存储记忆时，用 LLM 从对话中提取的结构化事实作为索引键（而非仅对话原文）。
 ## 动机
 简单用对话原文作为 key 的问题：
 - 原文含大量噪音（闲聊、过渡语）
 - 一条对话可能包含多个独立事实，但只有一个 key
 - BM25 词法匹配依赖精确 token，原文可能用不同的词表达同一事实
 ## 做法
 ```
 对话历史
  ↓
 LLM 事实提取 → [{"fact": "用户偏好 PostgreSQL", "confidence": 0.92},
                {"fact": "用户住在深圳", "confidence": 0.95}, ...]
  ↓
 结构化为 key → 存入索引（与原文 value 关联）
 ```
 ## 效果（LongMemEval 实验数据）
 | 指标 | 仅原文 Key | +Fact Key | 增益 |
 |------|----------|-----------|------|
 | Memory Recall@k | baseline | +9.4% | 显著 |
 | QA Accuracy | baseline | +5.4% | 显著 |
 ## 为什么有效
 1. **结构化事实消除歧义**："我只用 PostgreSQL" → "数据库偏好: PostgreSQL" 比原文本 BM25 匹配更可靠
 2. **多事实拆分**：一条对话可能含 3 个独立事实 → 3 个 key，每个独立可召回
 3. **confidence 字段**支持未来过滤：低置信度事实可降低召回权重
 ## 与 Atlas Consolidation 的关系
 Atlas 的 consolidation 本质上是 Fact-Augmented Key Expansion 的一种实现：
 - episodic → 原文 value
 - consolidation → 从 episodic 提取结构化事实 → 存入 semantic 索引
 - semantic 索引的 recall 就等价于 fact-augmented key expansion 的效果
 ## 参考
 - [[longmem-eval-2025]]
 - [[memory-indexing-retrieval-reading]]
 - [[atlas-memory-system]]
 - [[memory-consolidation]]
--- a/concepts/feedforward-depth-limitation.md
+++ b/concepts/feedforward-depth-limitation.md
@@ -0,0 +1,43 @@
 ---
 title: "前馈深度局限 (Feedforward Depth Limitation)"
 created: 2026-06-18
 updated: 2026-06-18
 type: concept
 tags: [transformers, architecture, depth]
 sources:
  - mozer-topological-trouble-transformers-2026
 ---
 # 前馈深度局限 (Feedforward Depth Limitation)
 前馈深度局限是指**纯前馈架构无法无限追踪状态更新**的根本性限制（Mozer et al., 2026）。
 ## 为什么发生
 在 Transformer 解码器中，激活从浅层流向深层：
 1. 每一步的状态更新 `s_t = f(s_{t-1}, x_t)` 将新的状态表示推到更深的层
 2. 经过 t 步后，s_t 位于第 t 层附近——浅层无法访问
 3. 当 t > 层数时，模型"耗尽"深度，状态追踪崩溃
 ## 实际影响
 - **深度瓶颈**：Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言，且这只是"可构造性"而非"可学习性"
 - **信息不可及性**：Lepori et al. (2025) 通过 Patchscopes 发现，多义词消歧在深层完成，但浅层在生成响应时仍使用未消歧的表示
 - **级联误差**：深层的正确信念（如 river bank）无法传递给后续 token 的浅层处理
 ## 变通方案及其代价
 1. **Chain-of-Thought**：将深层表示外化为 token，重新注入浅层——但浪费计算和上下文窗口
 2. **Latent Thinking**：隐式地循环传递——但效率问题仍存
 3. **可变深度模型**：动态调节层数——但本质上仍受深度限制
 ## 解决方向
 真正的解决方案需要**循环架构**（[[recurrent-transformer-architectures|循环 Transformer 架构]]），允许任意长度的状态传播。
 ## 参考
 - [[state-tracking|状态追踪]]
 - [[depth-dilemma|深度困境]]
 - [[sequential-dependency|顺序依赖]]
 - [[mozer-topological-trouble-transformers-2026]]
--- a/concepts/financial-agent-permission.md
+++ b/concepts/financial-agent-permission.md
@@ -0,0 +1,41 @@
 ---
 title: "金融 Agent 权限管控"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["agent-security", "permission", "financial-engineering", "audit"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # 金融 Agent 权限管控
 金融行业 Agent 的权限管控是其进入生产环境的核心门槛。恒生电子评估 OpenClaw 在金融场景时暴露了四个系统性短板。
 ## OpenClaw 的四短板
 ### 1. 权限边界模糊
 缺乏只读与需审批写入的细粒度分级，以及高风险操作前的强制确认机制。金融场景中，"查询账户余额"与"发起转账"的权限级别天差地别。
 ### 2. 审计不足
 执行轨迹粒度不够，无法向监管解释决策来源。金融合规要求每段输出可溯源。
 ### 3. 插件无管控
 没有金融级安全审核，模型容易误调工具。插件市场模式在金融场景完全不可接受。
 ### 4. 幻觉无兜底
 没有高风险操作拦截清单和结构化中间状态存储。一次幻觉可能导致合规事故。
 ## 权限分级模型
 | 级别 | 操作类型 | 确认机制 |
 |------|---------|---------|
 | 只读 | 查询、检索、报告生成 | 无需确认 |
 | 只调代码 | 数据分析、格式转换 | 日志记录 |
 | 写需确认 | 数据修改、交易发起 | 人工确认 |
 | 禁止 | 资金转移、合规豁免 | 硬拦截 |
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[agent-skill-atomization]]
 - [[mcp-protocol]]
--- a/concepts/financial-llm-deployment.md
+++ b/concepts/financial-llm-deployment.md
@@ -0,0 +1,50 @@
 ---
 title: "金融行业大模型部署约束"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["financial-engineering", "llm-deployment", "compliance", "security"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # 金融行业大模型部署约束
 金融行业的大模型部署面临三重硬性约束，这些约束不是可选优化项，而是决定技术方案能否进入生产环境的门槛。
 ## 三重约束
 ### 1. 合规刚性
 - 每段生成内容必须可溯源到原始数据
 - 所有结果需经人工确认环节
 - 决策链路需完整审计轨迹
 ### 2. 数据安全
 - 必须私有化部署，数据不准出域
 - 模型推理在客户自有环境中完成
 - 禁止将客户数据发送给第三方 API
 ### 3. 业务严谨性
 - 私域数据与业务系统必须无缝挂接
 - 数据质量优先于模型能力
 - 零容错场景禁止纯模型决策
 ## 架构影响
 这三重约束导致金融行业无法照搬通用方案：
 - ❌ 公有大模型 API（数据出域）
 - ❌ 纯端到端黑盒决策（不可溯源）
 - ❌ 通用 RAG（无业务系统集成）
 - ✅ 私有化部署 + 可控 Agent + 结构化数据层
 ## 与新架构方向的关系
 三重约束直接驱动了恒生电子的三大架构方向：
 - 业务能力原子化（Skills）→ 满足严谨性
 - 金融大模型插件化 → 满足合规可溯源
 - AIDB 数据层 → 满足数据不出域
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[financial-agent-permission]]
 - [[aidb]]
--- a/concepts/financial-llm-model-selection.md
+++ b/concepts/financial-llm-model-selection.md
@@ -0,0 +1,42 @@
 ---
 title: "金融大模型选型"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["model-selection", "financial-llm", "cost-efficiency", "qwen"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # 金融大模型选型
 金融行业大模型选型中，模型能力与工程成本的权衡是核心决策。恒生电子的实践提供了一个有说服力的案例：小模型省下的算力钱远不够覆盖人力成本和隐性损失。
 ## 实践对比
 | 维度 | Qwen3-32B | Qwen3-235B |
 |------|-----------|------------|
 | 硬件投入 | 低 | 4×H800/H20，约 60 万一次性 |
 | 规则数量 | 530 条 | 大幅削减 |
 | 配套代码 | 4300 行 | 大幅削减 |
 | 人力成本 | 6 个月，三人离职 | 显著降低 |
 | 准确率 | 基准 | +45pp |
 ## 核心教训
 1. **小模型的隐性成本**：为弥补能力不足，需要大量规则工程和代码补丁，导致团队消耗和人员流失
 2. **一次性硬件投入的杠杆效应**：60 万一次性投入可大幅削减持续的人力成本
 3. **准确率提升是非线性的**：+45pp 的提升意味着从"不可用"到"可生产"的质变
 ## 决策框架
 选择模型规模时应考虑：
 - 业务场景的容错率（金融近乎零容错）
 - 规则工程的可持续性（每增加一条规则 = 维护负担）
 - 团队稳定性（高规则复杂度 → 高离职风险）
 - Total Cost of Ownership（算力 + 人力 + 机会成本）
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[financial-llm-requirements]]
 - [[context-engineering]]
--- a/concepts/financial-llm-requirements.md
+++ b/concepts/financial-llm-requirements.md
@@ -0,0 +1,45 @@
 ---
 title: "金融行业好需求工程"
 created: 2026-06-24
 updated: 2026-06-24
 type: concept
 tags: ["requirements-engineering", "financial-llm", "prompt-engineering"]
 sources:
  - "[[financial-llm-practice-2026]]"
 ---
 # 金融行业"好需求"工程
 恒生电子团队提出的金融大模型需求定义方法论。"差需求"是"丢给模型几百页底稿说审一下"，而"好需求"必须明确告知模型三件事。
 ## 好需求三要素
 ### 1. 在哪里看（范围限定）
 限定章节范围而非全文。例如"请在第三章财务数据部分查找"而非"请审核这份招股书"。
 ### 2. 看什么（业务语言）
 用业务语言描述目标字段，而非系统内部编码。
 - ✅ "注册资本"
 - ❌ 拼音缩写或数据库字段名
 ### 3. 怎么判（SOP 可执行化）
 将业务 SOP 转化为可执行的判断条件。
 - ✅ "发行总股本以'股'为单位，若以'万股'为单位则标注异常"
 - ❌ "检查发行总股本的单位"
 ## 与通用 Prompt Engineering 的区别
 | 维度 | 通用 PE | 金融好需求工程 |
 |------|---------|---------------|
 | 重点 | 角色/格式/示例 | 范围/字段/规则 |
 | 业务知识 | 靠模型理解 | 显式编码进 prompt |
 | 可审核性 | 低 | 高（每条规则可单独验证） |
 ## 关键洞察
 许多项目一开始就失败，不是因为大模型太笨，而是业务知识与经验没有进入上下文。
 ## 参考
 - [[financial-llm-practice-2026|金融行业大模型落地实践]]
 - [[context-engineering]]
 - [[financial-llm-model-selection]]
--- a/concepts/first-lyapunov-coefficient.md
+++ b/concepts/first-lyapunov-coefficient.md
@@ -0,0 +1,53 @@
 ---
 title: "First Lyapunov Coefficient (第一Lyapunov系数)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: [bifurcation-theory, dynamical-systems, gradient-descent, EoS, stability]
 sources: [gan-bifurcation-eos]
 ---
 # First Lyapunov Coefficient (第一Lyapunov系数)
 第一 Lyapunov 系数 c₁ 是决定 **[[flip-bifurcation|flip 分岔]]** 超临界/亚临界性质的标量。它是 EoS 稳定性的**核心判据**。
 ## 定义
 对离散动力系统 x_{t+1} = f(x_t)，设 A = Df(x₀) 具有简单临界特征值 λ = -1，u、v 为相应左/右特征向量（⟨u,v⟩ = 1）。则第一 Lyapunov 系数为：
 ```
 c₁ = (1/6)·⟨u, C[v]³⟩ - (1/2)·⟨u, B[v][h]⟩
 ```
 其中 B、C 为 f 在 x₀ 处的二阶/三阶导数张量，h = (A - I)⁻¹B[v]²。
 ## 梯度下降形式
 对于 f(x) = x - η∇L(x)，在 [[edge-of-stability|EoS]] 阈值处（η·λ_max = 2），c₁ 简化为：
 ```
 c₁ = (η/2)·∇³L(x*)[v_max]²[h] - (η³/6)·∇⁴L(x*)[v_max]⁴
 ```
 其中 v_max 为 ∇²L 的最大特征向量，h = (∇²L)†∇³L[v_max]²。
 标量情形（d=1）可进一步化简为：
 ```
 c₁ ∝ 3(L''')²/L'' - L⁽⁴⁾
 ```
 ## 稳定性含义
 - **c₁ > 0**：超临界 flip 分岔 → 稳定周期-2 振荡 → EoS 收敛可能
 - **c₁ < 0**：亚临界分岔 → 无稳定周期轨道 → 发散
 ## 与乘积稳定性 (Product-Stability) 的关系
 Gan (2026) 的 [[product-stability|乘积稳定性]] α_f(z) = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 本质上就是标量 f 的第一 Lyapunov 系数（差一个缩放因子）。本文证明了在高维流形设置下，c₁ 的符号由 α_f 主导——统一了极简分析与一般框架。
 ## 参考
 - Kuznetsov (1998). Elements of Applied Bifurcation Theory, Ch. 4-5.
 - Mulayoff & Stich (2026).
 - [[gan-bifurcation-eos]]
 - [[product-stability]]
--- a/concepts/fisher-lipschitz.md
+++ b/concepts/fisher-lipschitz.md
@@ -0,0 +1,53 @@
 ---
 title: "Fisher-Lipschitz 假设类"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: ["complexity-measure", "generalization-theory", "fisher-geometry", "lipschitz-continuity"]
 sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
 ---
 # Fisher-Lipschitz 假设类
 **Fisher-Lipschitz** 是 Vu (2026) 在 [[vu-fisher-width-2026|Fisher Width]] 论文中定义的假设类光滑性条件——它是标准 Lipschitz 条件的 Fisher-几何推广。
 ## 定义
 一个假设类 F = {f_θ : θ ∈ Θ} 在 θ₀ 处满足 Fisher-Lipschitz 条件，若存在常数 L > 0，使得对任意 x ∈ X 和任意 θ₁, θ₂ ∈ Θ：
 ```
 |f_{θ₁}(x) − f_{θ₂}(x)| ≤ L · ∥G(θ₀)^{1/2}(θ₁−θ₂)∥₂
 ```
 其中 G(θ₀) 是 θ₀ 处的 [[fisher-information-metric|Fisher 信息度量]]。
 ## 直觉
 - **标准 Lipschitz**：∥θ₁−θ₂∥₂ ≤ δ ⇒ 函数值变化 ≤ Lδ（欧几里得距离）
 - **Fisher-Lipschitz**：∥G^{1/2}(θ₁−θ₂)∥₂ ≤ δ ⇒ 函数值变化 ≤ Lδ（Fisher 距离）
 关键在于：Fisher-Lipschitz 使用 Fisher 度量对参数差异进行**重标度**——统计上显著的方向贡献更大的距离权重。
 ## 与泛化界的关系
 Fisher-Lipschitz 条件使得 [[vu-fisher-width-2026|Fisher Width]] 可以直接控制假设类的一致偏差：
 ```
 E[sup_{θ∈Θ} |(1/n)Σ f_θ(x_i) − E[f_θ]|] ≲ w_G(Θ−Θ; θ₀) / √n
 ```
 其中 w_G 就是 [[fisher-width|Fisher width]]。这是 Fisher-几何学习理论的中心结果——Fisher width 在 Fisher-Lipschitz 条件下扮演的角色，与 [[gaussian-width|Gaussian width]] 在欧几里得 Lipschitz 条件下的角色完全对称。
 ## 验证条件
 论文中验证了三个常见模型在 MNIST 上满足 Fisher-Lipschitz 条件：
 - 二元逻辑回归
 - Softmax 回归
 - 岭回归
 ## 参考
 - [[vu-fisher-width-2026|Fisher Width 论文]]
 - [[fisher-width|Fisher Width]]
 - [[gaussian-width|Gaussian Width]]
 - [[empirical-fisher|Empirical Fisher]]
--- a/concepts/fisher-width.md
+++ b/concepts/fisher-width.md
@@ -0,0 +1,71 @@
 ---
 title: "Fisher Width (Fisher 宽度)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: ["information-geometry", "complexity-measure", "high-dimensional-probability", "riemannian-geometry"]
 sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
 ---
 # Fisher Width (Fisher 宽度)
 **Fisher width** 是 [[gaussian-width|Gaussian width]] 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。
 ## 定义
 设 θ₀ ∈ Θ 为参数点，G(θ₀) 为 [[fisher-information-metric|Fisher 信息矩阵]]，T ⊂ ℝᵈ 为紧集。Fisher width 定义为：
 ```
 w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
 ```
 核心操作：用 G(θ₀)^{1/2} 对方向进行 Fisher 重标度——统计上敏感的方向贡献更大的宽度权重。
 ## 与 Gaussian Width 的关系
 通过 [[lifting-identity|Lifting Identity]]：
 ```
 w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
 ```
 Fisher width 恰好是 Fisher 重标度后集合的 Gaussian width。
 **谱比较界**：
 ```
 λ_min(G)^{1/2} · w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2} · w(T)
 ```
 当 G(θ₀) = I_d 时，Fisher width 退化为经典 Gaussian width。
 ## 关键性质
 1. **再参数化不变性**：在平滑坐标变换下 Fisher width 不变
 2. **局部性**：依赖基点 θ₀，随参数位置在统计流形上变化
 3. **继承性**：通过 Lifting Identity 继承 Gaussian width 的所有结构性质（单调性、齐次性、凸包不变、次可加性）
 4. **浓度**：满足与 Gaussian width 类似的浓度不等式
 5. **扰动稳定性**：对局部 Fisher 度量的扰动具有 Lipschitz 连续性
 ## 在泛化理论中的应用
 对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类，Fisher width 控制一致偏差：
 ```
 E[sup_θ |Ê[f_θ] − E[f_θ]|] ≲ w_G(Θ−Θ; θ₀) / √n
 ```
 这是 Gaussian width 在学习理论中角色的 Fisher-几何对应。
 ## 计算
 [[empirical-fisher|Empirical Fisher]] 使得 Fisher width 可以在实践中估计，包括全经验 Fisher 估计器、低秩近似（利用 Fisher 谱快速衰减）、以及针对特定集合的特化估计。
 ## 参考
 - [[vu-fisher-width-2026|Vu (2026) 论文]]
 - [[gaussian-width|Gaussian Width]]
 - [[statistical-manifold|Statistical Manifold]]
 - [[fisher-information-metric|Fisher Information Metric]]
 - [[lifting-identity|Lifting Identity]]
 - [[fisher-lipschitz|Fisher-Lipschitz]]
 - [[empirical-fisher|Empirical Fisher]]
--- a/concepts/flip-bifurcation.md
+++ b/concepts/flip-bifurcation.md
@@ -0,0 +1,37 @@
 ---
 title: "Flip Bifurcation (翻转分岔)"
 created: 2026-06-23
 updated: 2026-06-23
 type: concept
 tags: [bifurcation-theory, dynamical-systems, gradient-descent, EoS]
 sources: [gan-bifurcation-eos]
 ---
 # Flip Bifurcation (翻转分岔)
 Flip bifurcation（翻转分岔/倍周期分岔）是离散动力系统中当 Jacobian 的临界特征值 λ = -1 时发生的分岔类型。在该分岔点，稳定的周期-1 轨道失稳并产生一个**周期加倍**（period-2）的稳定轨道。
 ## 在梯度下降中的角色
 对于梯度下降映射 f(x) = x - η∇L(x)，Jacobian 为 A = I - η∇²L(x)。在 EoS 阈值处，η·λ_max = 2，因此 A 具有临界特征值 λ = -1——恰好触发 flip 分岔。
 当 **[[first-lyapunov-coefficient|第一 Lyapunov 系数]] c₁ > 0** 时，分岔为**超临界 (supercritical)**，存在稳定的周期-2 轨道——迭代在 Hessian 最大特征向量方向上振荡但不会发散。这是 EoS 自稳定机制的核心。
 ## 超临界 vs 亚临界
 - **c₁ > 0（超临界）**：学习率略超 2/λ_max 时，存在稳定周期-2 轨道，训练可控
 - **c₁ < 0（亚临界）**：不存在稳定周期轨道，迭代发散
 初步实证表明实际网络的极小值处 c₁ > 0 (Gan, 2026)，但尚无第一性原理的理论解释。
 ## 与中心流形定理的关系
 Flip 分岔的分析依赖于 [[center-manifold-theorem|中心流形定理]]：将动力学限制在临界特征空间后，系统稳定性完全由中心流形上的约化动力学决定。
 ## 参考
 - Kuznetsov (1998). Elements of Applied Bifurcation Theory.
 - Mulayoff & Stich (2026). On the Stability of Nonlinear Dynamics in GD and SGD.
 - [[gan-bifurcation-eos]]
 - [[first-lyapunov-coefficient]]
 - [[center-manifold-theorem]]
--- a/concepts/flow-matching.md
+++ b/concepts/flow-matching.md
@@ -57,7 +57,12 @@ x-prediction 在 [[embedded-language-flows|ELF]] 中至关重要：它与解码
 [[embedded-language-flows|ELF]] 将 Flow Matching 应用于语言生成：离散 token → T5 编码 → 连续嵌入空间 → Flow Matching 去噪 → 最后一步解码回 token。
 ## 在 Wan-Streamer 中的应用
 [[wan-streamer|Wan-Streamer]] 使用条件流匹配（conditional flow matching）联合生成音频和视频响应。同一个 clean streaming context（用户观测 + 已提交的 Agent 响应）同时条件化音频和视频速度场的预测，使语音、动作、外观和场景演化作为一个耦合响应进行优化。去噪后的 clean latents 直接追加到历史上下文中。
 ## 参考
 - Lipman et al., "Flow Matching for Generative Modeling", ICLR 2023
 - Albergo & Vanden-Eijnden, "Stochastic Interpolants", JMLR 2025
 - [[wan-streamer]] — 条件流匹配在端到端流式音视频交互中的应用
--- a/Show More
+++ b/Show More