20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/advances-temporal-point-processes-2026.md
+++ b/papers/advances-temporal-point-processes-2026.md
@@ -0,0 +1,58 @@
+---
+title: "Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches"
+created: 2026-06-16
+updated: 2026-06-16
+type: paper
+tags: [survey, temporal-point-process, bayesian, deep-learning, llm]
+sources: [raw/papers/advances-temporal-point-processes-2026.md]
+---
+
+# Advances in Temporal Point Processes
+
+**作者:** Feng Zhou, Quyu Kong, Jie Qiao, Cheng Wan, Yixuan Zhang, Ruichu Cai  
+**发表:** TMLR, 2026年6月  
+**来源:** [OpenReview](https://openreview.net/forum?id=SXgGKkShhT) | [原始存档](raw/papers/advances-temporal-point-processes-2026.md)
+
+## 核心问题
+
+如何用统一的视角理解时间点过程（TPP）从传统统计到深度学习再到LLM时代的演进？本文是首篇同时覆盖 Bayesian、Neural、LLM 三大范式的综述，尤其弥补了 Bayesian nonparametric TPP 被忽视的历史，以及 LLM-based TPP 尚未被系统综述的空白。
+
+## 方法贡献
+
+论文构建了一个清晰的三维分类法：
+
+1. **Bayesian TPPs** — 参数化贝叶斯方法 + 非参数贝叶斯方法（GP-modulated Poisson、非参数 Hawkes）
+2. **Neural TPPs** — RNN-based → Transformer-based → Diffusion-based，以及四种参数化选择（强度函数、密度函数、累积强度、逆CDF）
+3. **LLM-based TPPs** — LLM-inspired（PromptTPP、LAMP）vs Direct Integration（TPP-LLM、Language-TPP）
+
+训练方法方面系统比较了 MLE、Wasserstein、NCE、Score Matching 四种目标函数的统计效率与计算开销。
+
+## 关键发现
+
+- **Neural TPP 在下一事件预测上普遍优于经典参数模型**，但在长程预测中自回归误差累积仍是瓶颈
+- **Intensity-free 参数化**（直接建模条件密度/累积强度）通常比 intensity-based 方法训练效率更高
+- **LLM-based TPP** 在语义理解任务上有优势，但在纯时间预测 benchmark 上优势不明显——研究重点正从"事件发生过程建模"转向"带时间戳事件数据理解"
+- **扩散模型** 为非自回归序列生成提供了新范式，但存在时序一致性弱和训练成本高的问题
+
+## 核心概念
+
+- [[temporal-point-process|时间点过程]] — 建模连续时间事件序列的随机过程
+- [[conditional-intensity-function|条件强度函数]] — TPP 的核心数学工具
+- [[hawkes-process|Hawkes 过程]] — 自激励过程模型
+- [[neural-temporal-point-process|神经时间点过程]] — 深度学习驱动的 TPP
+- [[bayesian-nonparametric-tpp|贝叶斯非参数 TPP]] — 灵活的非参数先验
+- [[llm-based-temporal-point-process|LLM 时间点过程]] — 大语言模型驱动的 TPP
+- [[marked-temporal-point-process|标记时间点过程]] — 多类型事件 TPP
+- [[granger-causality-tpp|Granger 因果发现]] — TPP 中的因果推断
+- [[intensity-free-modeling|Intensity-free 建模]] — 绕过强度积分的参数化
+- [[diffusion-based-tpp|扩散时间点过程]] — 扩散生成式 TPP
+- [[tpp-training-methods|TPP 训练方法]] — MLE、NCE、Score Matching
+- [[tpp-applications|TPP 应用场景]] — 社交网络、金融、神经科学
+
+## 挑战与展望
+
+- 数据异构性：缺乏标准化 benchmark，数据预处理差异导致不可复现
+- 模型可解释性：神经 TPP 的隐式表征难以对应物理意义
+- 可扩展性：长序列 + 连续时间积分的双重计算瓶颈
+- 采样效率：thinning 等方法需反复评估强度函数
+- 多模态建模：连续时间表征与离散模态（文本、图像）的融合仍是开放问题
--- a/papers/bellman-taylor-score-decoding.md
+++ b/papers/bellman-taylor-score-decoding.md
@@ -0,0 +1,79 @@
+---
+title: "Bellman–Taylor Score Decoding for MDPs with State-Dependent Feasible Action Sets"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reinforcement-learning, operations-research, mdp, action-interface, queueing]
+sources: [raw/papers/chen-bellman-taylor-score-2026.md]
+confidence: high
+---
+
+# Bellman–Taylor 得分解码：为状态依赖可行动作集 MDP 连接标准 DRL
+
+> Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST, 2026
+> arXiv: [2606.10979](https://arxiv.org/abs/2606.10979)
+
+## 核心问题
+
+运筹学中的 MDP 有**状态依赖、隐式定义的可行动作集**——由容量、兼容性和整数约束定义，不能简单枚举或嵌入欧氏空间。标准 DRL 假设固定的有限动作目录或连续欧氏空间，两者都不匹配。如何不改 DRL 算法而解决此接口不兼容？
+
+## 方法论
+
+### Bellman-Taylor 得分解码
+
+核心思路：**标准化学习接口，而非操作动作空间**。
+
+1. 对最优 Q 函数做 Taylor 展开：
+   ```
+   Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s(x_ref), φ_s(a)⟩ + const
+   ```
+2. 定义**动作解码器** `Γ(s,z) = argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]`
+3. 策略学习得分向量 z ∈ R^d（无约束欧氏空间）
+4. 解码器在**前向传播**中将 z 映射为可行动作 a
+
+### 潜在得分 MDP
+
+通过解码器诱导出 `M̃ = (S, Z, P̃, r̃, γ)`：
+- 动作空间从 A(s) 变为 Z ⊆ R^d
+- `r̃(s,z) = r(s, Γ(s,z))`
+- `P̃(s'|s,z) = P(s'|s, Γ(s,z))`
+
+标准 PPO 可直接在 M̃ 上训练，**无需对解码器求导**。
+
+### 性能保证
+
+最优性差距分解为两项：
+```
+J(π*) - J(π_decode) ≤ ε_approx + ε_learn
+```
+- `ε_approx`：Taylor 余项控制的**结构近似误差**
+- `ε_learn`：标准 DRL 的**算法学习误差**
+
+### 高阶推广
+
+保留 Taylor 展开的高阶项 → 更丰富的解码器特征 → 更好地逼近非线性延续价值函数。
+
+## 应用：排队网络控制
+
+应用于多类别多服务池排队系统：
+- 策略学到**状态依赖的指数型调度规则**
+- 解码器按总得分最大原则选择可行的调度动作
+- 不引入任何排队特化的方差削减技术
+- 小规模实例接近最优，大规模系统显著优于基准
+
+## 关键优势
+
+| 特性 | 传统方案 | BTSD |
+|------|---------|------|
+| 动作空间 | 需枚举/嵌入 | 欧氏得分空间 |
+| 可行性 | 掩码/投影/修复 | 解码器精确保证 |
+| 训练 | 需对优化层求导 | 前向解码，无需梯度 |
+| 通用性 | 问题特化架构 | 同一框架适配 |
+
+## 参考
+
+- [[bellman-taylor-score-decoding|BTSD 框架]]
+- [[latent-score-mdp|潜在得分 MDP]]
+- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
+- [[queueing-network-control|排队网络控制]]
+- 来源：[原始存档](raw/papers/chen-bellman-taylor-score-2026.md)
--- a/papers/chen-token-economics-llm-agents.md
+++ b/papers/chen-token-economics-llm-agents.md
@@ -0,0 +1,54 @@
+---
+title: "Token Economics for LLM Agents"
+created: 2026-06-05
+updated: 2026-06-05
+type: paper
+tags: [survey, token-economics, agent, efficiency, security]
+sources: [arxiv:2605.09104]
+---
+
+# Token Economics for LLM Agents
+
+> Chen et al., arXiv:2605.09104 (May 2026) — 首篇 Token Economics 综述
+
+## 核心命题
+
+历史上每个技术时代都由其基础经济原语定义：工业时代的千瓦时（kWh）、信息时代的网络带宽（GB）。**智能时代的原语是 Token**——它不再仅仅是计算的技术单位，而是 Agentic AI 的[[token-as-economic-primitive|经济原语]]：智能的生产要素、交换媒介和计价单位。
+
+## 四维分类法
+
+本文提出统一的 Token Economics 框架，跨越计算机科学和经济学：
+
+| 层次 | 对象 | 经济学理论 | 核心问题 |
+|------|------|-----------|---------|
+| **Micro** | 单 Agent | 新古典企业理论 | 预算约束下的要素替代优化（推理、记忆、工具、规划） |
+| **Meso** | 多 Agent 系统 | 交易成本理论 + 委托代理理论 | 协作摩擦最小化（通信、编排、记忆共享） |
+| **Macro** | Agent 生态 | 机制设计理论 + 拥堵外部性 | 定价、垄断/寡头竞争、监管政策 |
+| **Security** | 跨层威胁 | 外部性内部化 | 对抗攻击作为内生经济约束的成本建模 |
+
+## 六大趋势 (T1-T6)
+
+| 趋势 | 描述 |
+|------|------|
+| T1 | 高效 Agent 推理与系统设计 |
+| T2 | 自适应和预算感知的 Token 分配 |
+| T3 | 记忆作为持久资本，具有复利回报 |
+| T4 | 从文本 Token 到表征 Token 交换 |
+| T5 | 安全开销作为内生效率约束 |
+| T6 | 更高性价比的硬件芯片 |
+
+## 五大前沿方向 (O1-O5)
+
+- **O1**: [[differentiable-token-budgeting|可微分 Token 预算]] — 使 Token 预算成为可学习参数
+- **O2**: 标准化 Benchmark 和成本归因
+- **O3**: [[token-market-dynamics|实时 Token 市场与动态定价]]
+- **O4**: Agent 系统的 Token 级 Scaling Laws
+- **O5**: 安全感知的 Token 预算
+
+## 已有的连接
+
+本文的 token 经济视角与 wiki 中已有概念紧密关联：
+- [[token-efficiency|Token 效率]] 对应 Micro 层的计算和推理效率
+- [[cost-quality-speed-trilemma|成本-质量-速度三元悖论]] 对应预算约束下的权衡
+- [[token-superposition-training|TST]] 和 [[token-duplication|Token Duplication]] 是训练侧的 token 经济优化
+- [[agent-harness-safety|Agent 骨架安全]] 的安全约束可以与 Security 层的经济约束对齐
--- a/papers/claw-swe-bench.md
+++ b/papers/claw-swe-bench.md
@@ -0,0 +1,87 @@
+---
+title: "Claw-SWE-Bench: OpenClaw 风格 Agent Harness 的代码任务基准评测"
+created: 2026-06-15
+updated: 2026-06-15
+type: paper
+tags: [benchmark, coding-agent, evaluation, multi-agent]
+sources: [raw/papers/zheng-claw-swe-bench-2026.md]
+---
+
+# Claw-SWE-Bench
+
+## 基本信息
+
+- **论文:** Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
+- **作者:** Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang
+- **机构:** TokenRhythm, Infinigence AI, CityU HK, SEE Fund, 北大, 上海交大, 北京交大, 清华
+- **arXiv:** [2606.12344](https://arxiv.org/abs/2606.12344v1) | **日期:** 2026-06-10
+- **资源:** [GitHub](https://github.com/opensquilla/claw-swe-bench) | [HuggingFace](https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)
+
+## 核心问题
+
+通用 agent（如 [[openclaw|OpenClaw]]）作为自主工具使用者日益普及，但它们在真实代码任务上的能力难以用 [[swe-bench|SWE-bench]] 标准评测。通用 agent 本身不满足 SWE-bench 所需的 Docker 工作空间、patch 和预测合约。Claw-SWE-Bench 将 **agent harness（claw）** 作为受控实验变量，通过统一的 [[adapter-protocol|适配器协议]] 使异构 harness 在公平条件下可比较。
+
+## 方法贡献
+
+### 1. 适配器协议 (Adapter Protocol)
+通过标准化的生命周期方法（`create_agent`, `send_task`, `backup_session`, `delete_agent`, `get_docker_args`）将异构 harness 连接到统一的评测管道。关键设计：
+- **Full Adapter:** 让 agent 通过工具编辑仓库文件，runner 从 Git 状态导出 patch
+- **Bare Adapter:** 仅最小集成，要求模型直接输出 unified diff
+- Full adapter 将 Apply Failed 从 69.1% 降至 <1.5%，Pass@1 从 19.1% 提升至 73.4%
+
+### 2. 标准化执行管道
+- 统一 prompt 模板、3600s 超时、3 并发 worker
+- [[future-commit-cleanup|Future-Commit 清理]]：对非 Python 实例移除 base_commit 之后的可达 Git 历史
+- Patch 从仓库状态收集而非从 agent 消息解析
+
+### 3. Claw-SWE-Bench Lite
+80-instance 低代价子集（每语言 10 个），通过 [[cost-aware-benchmarking|代价感知]]、排序感知的 17 列校准选择，保留 full-350 的 Pass@1 尺度、语言分布和代价结构。Lite 运行代价约为 full 的 22.9%。
+
+## 关键发现
+
+### LLM 轴变化（9 模型 × OpenClaw）
+| 模型 | Pass@1 | 总 API 代价 |
+|------|--------|------------|
+| GPT 5.5 | 78.0% | $1,399 |
+| Claude Opus 4.7 | 77.1% | $1,082 |
+| GLM 5.1 | 73.4% | $277 |
+| DeepSeek-V4 Pro | 71.7% | $81 |
+| DeepSeek-V4 Flash | 70.3% | $8.2 |
+| Qwen 3.6-flash | 66.0% | $71.5 |
+
+→ 模型选择产生 **29.4 pp** 的 Pass@1 差距；相似准确率对应**数量级差异**的 API 代价。
+
+### Claw 轴变化（5 Claw × 2 Model）
+| Claw | GLM 5.1 Pass@1 | Qwen 3.6-flash Pass@1 |
+|------|----------------|----------------------|
+| OpenClaw | 73.4% | 66.0% |
+| Hermes-Agent | 71.1% | 62.6% |
+| ZeroClaw | 70.3% | 58.3% |
+| Generic Agent | 63.1% | 38.6% |
+| NanoBot | 60.9% | 47.4% |
+
+→ Harness 选择产生 **12.5-27.4 pp** 的 Pass@1 差距，足以重排 Leaderboard。
+
+### Future-Commit 清理影响
+清理后 Pass@1 从不上涨；Claude Opus 4.7 下降最多（−8.0 pp），GPT 5.5 仅下降 ~1 pp——不同模型对信息泄露的敏感度不同。
+
+## 核心洞察
+
+1. **Adapter 设计不是工程包装，是评分可靠性的必要条件。** Bare adapter 下 69.1% 的 patch 无法 apply，说明直接生成 unified diff 是脆弱的。
+
+2. **Harness 是第一序变量。** 在固定模型下，不同 harness 的 Pass@1 差距可达 27.4 pp——如果 harness 未被控制，Leaderboard 结论可能被颠覆。
+
+3. **准确率 ≠ 代价。** [[pareto-frontier-evaluation|Pareto 前沿]]分析表明，某些组合在更低代价下达到相似准确率。DeepSeek-V4 Flash 以 $8.2 达到 70.3%，GPT 5.5 以 $1,399 达到 78.0%——代价相差 170 倍。
+
+4. **代价会计是第一等评测轴。** 仅报告 Resolved Rate 会奖励更长探索/更高预算的系统，掩盖更便宜但更脆弱的系统。
+
+## 相关概念
+- [[adapter-protocol]] — 适配器协议的设计与实现
+- [[cost-aware-benchmarking]] — 代价感知的基准评测方法论
+- [[pareto-frontier-evaluation]] — 准确率-代价 Pareto 前沿分析
+- [[future-commit-cleanup]] — Future-commit 清理策略
+- [[patch-based-evaluation]] — 基于 patch 的评测合约
+- [[harness-model-interaction]] — Harness × Model 交互效应
+- [[claw-swe-bench-lite]] — Lite 子集的设计与验证
+- [[swe-bench]] — SWE-bench 评测体系
+- [[openclaw]] — OpenClaw 通用 agent
--- a/papers/dead-directions-geometric-singular-learning.md
+++ b/papers/dead-directions-geometric-singular-learning.md
@@ -0,0 +1,63 @@
+---
+title: "Dead Directions: 几何奇异学习理论"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: ["singular-learning-theory", "information-geometry", "fisher-metric", "deep-learning-theory", "optimization"]
+sources: ["https://arxiv.org/abs/2606.05957"]
+---
+
+# Dead Directions: Geometric Singular Learning
+
+**Author**: Tejas Pradeep Shirodkar (IIIT Hyderabad)
+**Venue**: arXiv:2606.05957v1 [cs.LG, stat.ML], 2026 | 139 pages
+
+## 核心问题
+
+[[singular-learning-theory|奇异学习理论]]（Watanabe）和 [[information-geometry|信息几何]]（Amari）研究同一参数空间，但使用几乎不相交的词汇表：
+- **SLT**：在解析坐标中计算贝叶斯不变量（需要广中平祐消解）
+- **信息几何**：在原始坐标中工作，假设 Fisher 度量非退化——过参数化模型经常违反此假设
+
+**鸿沟**：奇异结构的信息存在于 Watanabe 框架中，但不在实践者可用的坐标中。
+
+## Dead Direction：桥接原语
+
+**[[dead-direction|Dead Direction]]** 是 Fisher 度量退化方向上的单位向量——同时是 Amari 的"核逼近方向"和 Watanabe 的"解析奇异集的切向量"。
+
+核心洞察：KL 阶 k 可从方向 Fisher 曲率的衰减率恢复，在原始参数坐标中，无需广中平祐消解。
+
+## 三大支柱
+
+### 1. 静态速率（Static Rate）
+沿 dead direction，方向 Fisher 二次型满足：
+```
+u^T F(theta(t)) u = Theta(t^{2(k-1)})
+```
+KL 阶 k 直接从 Fisher 特征值的衰减斜率读出。
+
+### 2. 深度网络 K-FAC 分解
+多层 K-FAC 将 Fisher 块写为激活侧速率 × 梯度侧速率的乘积，二者互为对偶。实例化到现代网络原语：残差流、层归一化、注意力。
+
+### 3. Gauge 商定理
+在 G-不变度量上的梯度流下，速率可传递到商空间 Theta/G：
+- **SGD** 符合条件（其隐式正则化保持对称性）
+- **标准 Adam 不符合**
+- 构造 **[[ddcadam|DDCAdam]]**（Dead-Direction-Calibrated Adam）：G-等变的 Adam 族预条件子
+
+## 实践意义
+
+**从单个 checkpoint 读出 Watanabe 三元组**：通过一次前向和反向传播计算 (lambda, m, nu)，无需后验采样——这对大规模网络的实用 SLT 分析具有突破性意义。
+
+## 相关概念
+- [[dead-direction|Dead Direction]]
+- [[singular-learning-theory|Singular Learning Theory]]
+- [[information-geometry|Information Geometry]]
+- [[fisher-information-metric|Fisher Information Metric]]
+- [[real-log-canonical-threshold|RLCT]]
+- [[kl-order|KL Order]]
+- [[watanabe-triple|Watanabe's Triple]]
+- [[ddcadam|DDCAdam]]
+
+## 来源
+- [arXiv](https://arxiv.org/abs/2606.05957)
+- [原始存档](raw/papers/shirodkar-dead-directions-2026.md)
--- a/papers/flex4dhuman.md
+++ b/papers/flex4dhuman.md
@@ -0,0 +1,58 @@
+---
+title: "Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建"
+created: 2026-06-13
+updated: 2026-06-13
+type: paper
+tags: [computer-vision, video-generation, 3d-reconstruction, diffusion-model, human-modeling]
+sources: [raw/papers/cheng-flex4dhuman-2026.md]
+---
+
+# Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建
+
+**arXiv:** 2606.13655 · **分类:** cs.CV / cs.GR · **发布日期:** 2026-06-11  
+**作者:** Jen-Hao Cheng, Yipeng Wang, Hao Zhang, Gengshan Yang (World Labs), Jenq-Neng Hwang (UW)
+
+## 核心问题
+
+如何从单目或稀疏多视角视频中生成同步的密集多视角视频，进而重建动态 4D 资产——且不依赖人体骨骼、深度图、法线图或任何显式几何先验？
+
+## 方法论
+
+Flex4DHuman 将 Wan 2.1 1.3B 文本到视频 DiT 改造为多视角视频生成器，**仅通过相对相机位姿编码**来条件化生成过程：
+
+1. **[[five-axis-positional-encoding|五轴位置编码]]**：扩展 RoPE 为 (time, view, SE(3), h, w) 五维编码——时间轴被重新分配为时间帧索引、视角槽索引、连续 SE(3) 相机几何编码
+2. **[[se3-relative-camera-encoding|SE(3) 相对相机编码]]**：基于 [[prope|PRoPE]]，将相机位姿编码直接注入自注意力机制，无需额外可学习参数
+3. **[[clean-conditioning-mask|清洁条件掩码]]**：通过 36 通道输入（16 noisy latent + 16 clean latent + 4 mask）区分参考视图和目标视图
+4. **[[three-stage-curriculum-training|三阶段课程训练]]**：
+   - Stage 1: 单参考单目标，适应新位置编码
+   - Stage 2: 动态参考视图数 + 背景丢弃增强
+   - Stage 3: 动态时间窗口 + [[teacher-forced-history|教师强制历史]]
+5. **[[temporal-rollout|时间滚动展开]]**：分块推理，每块与前一块有 O 帧重叠，历史帧作为清洁条件
+6. **[[multi-view-captioning|多视角字幕]]**：利用 Gemini 3 Flash 为每段视频生成外观描述（共 25,031 条，平均 268 词），在训练和推理时提供文本控制
+
+## 关键发现
+
+- **无几何先验胜有先验**：不使用骨骼/深度/法线，超越 Diffuman4D-GT-skeleton（+1.21 dB PSNR）
+- **参考视角鲁棒**：四个方位角（前/右/后/左）的 PSNR 波动 <1 dB
+- **视角数可扩展**：从 1→2→4 个参考视角，PSNR 从 25.21→28.62→31.90 dB 单调提升
+- **跨域泛化**：同一架构微调后支持动物类别（DFA 数据集，跨物种泛化仅降 1.8 dB）
+- **零样本跨设备**：零样本 ActorsHQ 评估中，比依赖单目骨骼估计的基线高 +3.35 dB PSNR
+
+## 应用管线
+
+单目视频 → Flex4DHuman 多视角生成 → MatAnyone2 前景分割 → [[freetimegs|FreeTimeGS]] 4D 重建 → [[4d-gaussian-splatting|动态高斯泼溅]] → 组合到 Marble 场景 → SparkJS 浏览器渲染
+
+## 实验结果
+
+| 数据集 | 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
+|--------|------|--------|--------|---------|
+| DNA-Rendering | Diffuman4D-GT-skeleton | 24.23 | 0.9479 | 0.0744 |
+| DNA-Rendering | **Flex4DHuman-fg** | **25.44** | **0.9516** | **0.0617** |
+| ActorsHQ (零样本) | Diffuman4D-mono-skeleton | 17.97 | 0.815 | 0.307 |
+| ActorsHQ (零样本) | **Flex4DHuman-fg** | **21.32** | **0.856** | **0.277** |
+
+## 参考
+
+- 原始存档: [raw/papers/cheng-flex4dhuman-2026.md](raw/papers/cheng-flex4dhuman-2026.md)
+- 代码: 论文声称开源（Code available）
+- 项目页: 论文中提供 Project Page 链接
--- a/papers/geometric-sae-concepts.md
+++ b/papers/geometric-sae-concepts.md
@@ -0,0 +1,84 @@
+---
+title: "A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [interpretability, mechanistic-interpretability, sparse-autoencoder, geometry, concept-learning]
+sources: [raw/papers/zhang-geometric-sae-2026.md]
+confidence: high
+---
+
+# 稀疏自编码器中概念学习与神经元解释的几何视角
+
+> Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026
+> arXiv: [2606.07007](https://arxiv.org/abs/2606.07007)
+
+## 核心问题
+
+[[sparse-autoencoder|稀疏自编码器（SAE）]] 通过学习过完备稀疏表征改善了神经网络的可解释性，但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念？神经元解释和概念学习是一回事吗？
+
+本文提出一个统一的集合论与几何框架来回答这些问题。
+
+## 方法论核心
+
+### 概念 = 数据点集合
+
+从**数据扎根（data-grounded）**视角，概念被形式化为输入空间中的可测集合 `C ⊆ X`：
+
+- **人类概念** `C`：人可通过示例定义的概念集合
+- **模型概念** `θ_M`：SAE 神经元集合 M 的联合激活区域
+- **概念学习**：人类概念 C 与模型概念 θ 之间的**集合对齐**问题
+
+### SAE 门控分类
+
+将 SAE 架构分为两类，对后续几何分析至关重要：
+
+- **[[absolute-gating|绝对门控]]**：每个神经元的激活独立于其他神经元（ReLU SAE、Gated SAE、JumpReLU SAE）
+- **[[absolute-gating|相对门控]]**（relative gating）：神经元的激活依赖于其他神经元（Top-K SAE、Matching Pursuit SAE、SPaDE）
+
+绝对门控下，神经元激活区域 `N_i = H_i^+` 是半空间；相对门控下，`N_i ⊆ H_i^+` 且通常是超平面排列区域的子集。
+
+### 概念学习的三个层次
+
+1. **概念检测（Concept Detection）**：θ 覆盖 C（最弱：`µ(C\θ)=0`）
+2. **概念分离（Concept Separation）**：θ 在数据支持上独占 C
+3. **概念近似（Concept Approximation）**：θ 在环境空间上紧致包围 C（最强，支持新概念发现）
+
+### 关键定理
+
+- **Theorem 5.2**：单神经元分离 C ↔ `Conv(C) ∩ Conv(N) = ∅`
+- **Theorem 5.4**：多神经元单元分离 C ↔ `Conv(C) ∩ N = ∅`
+- **Theorem 5.8**：C 可被任意好近似 ↔ C 是凸集（up to ν-null set）
+- **Theorem 5.10**：组合容量约束 `d ≳ (k_c! |C|)^{1/k_c}`
+
+## SAE 现象的统一解释
+
+| 现象 | 集合论表述 |
+|------|-----------|
+| [[polysemanticity|多义性]] | 神经元 R 关联多个不相关概念 |
+| [[feature-splitting|特征分裂]] | `θ ≈ ∪ θ_j`，θ_j 近似不交 |
+| [[feature-absorption|特征吸收]] | `µ(C_i ∩ θ_{C_j}^c) > 0`（稀疏惩罚阻止父子同激活） |
+| [[feature-family|特征家族]] | `∩ θ_l ≠ ∅`（协同激活） |
+| 层级概念 | `C_i ⊂ C_j` 期望 `θ_{C_i} ⊂ θ_{C_j}` |
+
+## 概念学习 ≠ 神经元解释
+
+通过 [[formal-concept-analysis|形式概念分析（FCA）]]，两者是关系 `R ⊆ C × N` 的两个方向：
+
+- **概念学习**：给定概念 C，找对应的神经元集合 M（正向映射 f）
+- **神经元解释**：给定神经元集合 M，描述它们共同表征的概念（反向映射 g）
+- 两者通过 [[concept-lattice|概念格]] 组织多对多语义结构
+
+## 实验验证
+
+在合成数据上使用 ReLU SAE 和 Top-K SAE 验证：
+- SNTA（单神经元总激活区域）和 TNSA（总神经元单激活）的几何形状
+- SAE 大小和稀疏度对概念学习能力的影响
+
+## 参考
+
+- [[sparse-autoencoder|SAE]]
+- [[linear-representation-hypothesis|线性表征假设]]
+- [[mechanistic-interpretability|机制可解释性]]
+- [[superposition|叠加]]
+- 来源：[原始存档](raw/papers/zhang-geometric-sae-2026.md)
--- a/papers/goru-one-pass-to-reason-2025.md
+++ b/papers/goru-one-pass-to-reason-2025.md
@@ -0,0 +1,106 @@
+---
+title: "One-Pass to Reason: 多轮推理的高效单遍微调"
+authors: "Ritesh Goru, Shanay Mehta, Prateek Jain (DevRev)"
+venue: "ICML 2025 Workshop — Efficient Systems for Foundational Models"
+arxiv: "2504.18246"
+code: "https://github.com/devrev/One-Pass-to-Reason"
+dataset: "https://huggingface.co/datasets/devrev-research/MathChatSync-reasoning"
+year: 2025
+type: paper
+tags: [efficient-fine-tuning, multi-turn-reasoning, attention-mask]
+---
+
+# One-Pass to Reason
+
+> **核心思想**：通过 token 复制 + 分块稀疏注意力掩码，将多轮推理对话的 N 遍训练压缩为单遍，时间复杂度从 O(N³) 降至 O(N²)。
+
+## 问题背景
+
+推理模型（如 DeepSeek-R1）遵循行业惯例：生成推理 token → 输出回复 → 在后续轮次中**丢弃推理 token**。这导致多轮对话微调时，每个对话需要 N 次独立前向传播（N = 对话轮数）。
+
+两个核心约束：
+1. **[[visibility-constraint|可见性约束]]**：推理 token 在生成时必须可见，但在后续轮次中必须隐藏
+2. **[[position-id-discrepancy|位置 ID 偏差]]**：回复 token 在生成时紧跟推理 token，但在上下文中的位置紧接着人类消息
+
+## 方法
+
+### Token 复制 ([[token-duplication]])
+
+将每个助手回复的 response token 复制为两份：
+- **ri_in**（上下文副本）：不关注推理 token，作为后续轮次的纯上下文
+- **ri_out**（生成副本）：关注推理 token，参与 loss 计算
+
+### 分块稀疏注意力掩码 ([[block-sparse-attention]])
+
+定义每种 token 类型（hi, ti, ri_in, ri_out）的可见性规则：
+- `hi → A(H<i)` — 人类消息只看历史
+- `ti → A(H<i, hi)` — 推理 token 看历史+当前人类消息
+- `ri_in → A(H<i, hi)` — 上下文副本不看推理
+- `ri_out → A(H<i, hi, ti)` — 生成副本看全部包括推理
+
+### 位置 ID 策略
+
+```python
+s_ti = s_ri_in = e_hi + 1   # 推理和上下文副本从人类消息后开始
+s_ri_out = e_ti + 1          # 生成副本从推理后开始
+s_h_{i+1} = e_ri_in + 1     # 下一轮人类消息从上下文副本后开始
+```
+
+### 理论保证（[[one-pass-fine-tuning|Theorem 2.1]]）
+
+**1-Pass 与 N-Pass 的 loss 完全等价**：
+$$L_{\text{N-Pass}}(c) = L_{\text{1-Pass}}(c)$$
+
+证明分三部分：位置编码等价 → 注意力模式等价 → loss 函数等价。
+
+## 复杂度分析
+
+| 方法 | 时间复杂度 | 空间复杂度 |
+|------|-----------|-----------|
+| N-Pass | O(N³ℓ²d) | O(Nℓ²) |
+| **1-Pass** | **O(N²ℓ²d)** | O(Nℓ²) |
+
+响应 token 复制带来约 33% 的额外内存开销（因为 ri 被存了两份），但渐进复杂度相同。
+
+## 实验结果
+
+在 Qwen-3 (4B / 8B / 32B) 上使用 QLoRA + 8×H100：
+
+**训练加速**（Flex-Pack-1-Pass vs FA2-Pack-N-Pass）：
+- 4B: **1.05×**
+- 8B: **1.21×**
+- 32B: **1.22×**
+
+vs FlexAttention N-Pass：**1.44×–1.54×**
+
+**深度扩展**：对话越长加速越明显（验证了 O(N²) vs O(N³) 理论优势）
+
+**K-Pass 中间方案** ([[k-pass-training]])：
+- K=1：最快，+33% 内存
+- K=2：1.30×–1.37× 加速，+20% 内存
+- K>4：收益递减
+
+## 数据集
+
+**[[mathchatsync-reasoning|MathChatSync Reasoning]]**：首个公开的多轮推理数据集，基于 MathChatSync，用 GPT-4.1-mini 为每个助手回复生成推理 token。
+
+## 实现细节
+
+- 基于 LLaMA-Factory ([[llama-factory]])
+- 使用 [[flex-attention|PyTorch FlexAttention]]（FlashAttention-2 不支持自定义掩码）
+- 掩码生成在 GPU 上向量化执行，用卡诺图化简布尔逻辑
+- 支持序列打包 ([[sequence-packing]]) 叠加自定义掩码
+
+## 关键洞察
+
+1. **从 O(N³) 到 O(N²)** 的复杂度降低意味着：对话越长，单遍训练的优势越大
+2. Token 复制的本质是**用空间换时间**：多存一份 response 换来一个数量级的加速
+3. K-Pass 提供了一个优雅的连续统：从完全节省内存（N-Pass）到完全节省时间（1-Pass）
+
+## 相关概念
+
+- [[deepseek-r1]] — 典型推理模型
+- [[qlora]] — 实验所用的高效微调方法
+- [[flash-attention]] — 快速注意力实现
+- [[llama-factory]] — 微调框架
+- [[multi-turn-reasoning]] — 多轮推理训练问题域
--- a/papers/liu-auditing-agent-harness-safety.md
+++ b/papers/liu-auditing-agent-harness-safety.md
@@ -0,0 +1,52 @@
+---
+title: "Auditing Agent Harness Safety"
+created: 2026-06-05
+updated: 2026-06-05
+type: paper
+tags: [agent-safety, harness, trajectory-audit, multi-agent, benchmark]
+sources: [arxiv:2605.14271]
+---
+
+# Auditing Agent Harness Safety
+
+> Liu et al., arXiv:2605.14271 (May 2026)
+
+## 核心问题
+
+现代 LLM Agent 运行在 **执行骨架（execution harness）** 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是：**骨架可以在返回正确、良性的最终答案的同时，在过程中越权访问资源或将上下文泄露给错误的 Agent**。仅评测最终输出无法发现这些问题。本文提出将 **Agent Safety 的评测对象从"回答"转移到"骨架"本身**，并对**完整执行轨迹**进行审计。
+
+## 方法论贡献
+
+### 1. HarnessAudit 框架
+
+将 Agent 骨架形式化为一个 **[[policy-constrained-execution|策略约束的执行系统]]** H = (A, T, R, Π, Φ, Σ)，并沿三个层次审计完整执行轨迹：
+
+- **[[boundary-compliance|L1 边界合规]]**：工具调用是否越权？资源访问是否超出范围？信息流是否违反约束？
+- **[[execution-fidelity|L2 执行忠实度]]**：中间步骤是否有效？任务检查点是否达成？
+- **[[system-stability|L3 系统稳定性]]**：在间接注入、模糊目标、工具错误等扰动下，L1 和 L2 是否保持？
+
+核心设计：所有证据来自 Agent **不可见、不可操纵**的 [[hidden-audit-channel|隐藏审计通道]]，而非 Agent 自报。
+
+### 2. HarnessAudit-Bench
+
+- 210 个任务，覆盖 8 个真实场景（金融、电商、医疗、法律、软件工程、办公、日常、社交）
+- 单 Agent 和 多 Agent 两种配置
+- 嵌入式安全约束，含真实工具接口和状态动态
+
+### 3. 实验评估
+
+评测 10 种骨架配置（OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型）和 3 种多 Agent 框架（Claw-Team, Google ADK, OpenAI Agent SDK）。
+
+## 关键发现
+
+| 发现 | 描述 |
+|------|------|
+| **能力与安全失配** | 最强系统总体得分仅 0.32；高任务完成率不保证安全执行 |
+| **资源访问是主要违规面** | 多数配置下资源安全远弱于工具安全和信息流安全 |
+| **多 Agent 放大风险** | 多 Agent 的 SAR 全面低于单 Agent（tool: 0.64 vs 0.91, resource: 0.63 vs 0.85）|
+| **扰动下脆弱** | 间接注入导致最大性能下降；系统稳定性与正常任务完成性能明显分离 |
+| **骨架设计决定安全上限** | Claude Code 相较 OpenClaw 同步提升了完成度和安全性；Codex 则在提升完成度的同时降低了安全性 |
+
+## 相关概念网络
+
+本论文与 [[agent-harness-engineering|Agent 执行骨架工程]]密切相关，提出了骨架安全的**三层审计框架**。[[trajectory-auditing|轨迹级审计]]方法与 [[agent-safety-evaluation|Agent 安全评测]]的演进方向一致——从输出评测转向过程审计。[[multi-agent-safety|多 Agent 安全]]揭示了 agent 协作中 [[information-flow-control|信息流控制]] 和 [[resource-access-control|资源访问控制]]的系统性缺陷。[[safety-adherence-rate|安全遵守率 (SAR)]]作为乘法性安全门控的设计，与 [[harness-as-policy|Harness-as-Policy]] 的约束执行理念对齐。
--- a/papers/ma-intragent-2026.md
+++ b/papers/ma-intragent-2026.md
@@ -0,0 +1,58 @@
+---
+title: "IntrAgent: Content-Grounded Literature Information Retrieval"
+type: paper
+arxiv: "2604.22861"
+authors: "Fengbo Ma, Zixin Rao, Xiaoting Li, Zhetao Chen, Hongyue Sun, Yiping Zhao, Xianyan Chen, Zhen Xiang"
+venue: "arXiv 2026"
+created: 2026-06-04
+tags: [llm-agent, information-retrieval, scientific-literature, rag, hallucination-mitigation]
+code: "https://github.com/FengboMa/IntrAgent"
+---
+
+# IntrAgent: Content-Grounded Literature Information Retrieval
+
+**核心问题**：如何从科学文献中精确、高效地提取信息，且严格锚定于文献内容，避免幻觉？
+
+## 问题定义
+
+论文提出了 **[[intraview|IntraView]]** 任务：给定一篇科学文献和一个信息检索查询，从文献中提取并综合信息，忠实于所提供的内容。与一般的 [[content-question-answering|CQA]] 不同，IntraView 要求：(1) 提供完整文献而非预选段落，(2) 处理需要跨节交叉引用的领域特定查询，(3) 当信息不存在时明确承认而非编造。
+
+## 方法论：IntrAgent
+
+[[intragent]] 模拟人类阅读文献获取信息的行为——先定位相关章节，再逐步提取关键细节。包含两阶段管道：
+
+### 阶段一：[[section-ranking|章节排序]]
+
+1. **章节标题解析**：通过 [[mineru]] 将 PDF 文献转换为 Markdown 格式
+2. **[[hierarchy-preservation|层级保持]]**：LLM 推导章节层级关系，构建章节树
+3. **推理排序**：基于结构感知推理对章节按相关性排序
+
+### 阶段二：[[iterative-reading|迭代阅读]]
+
+- **重排序章节访问**：按相关性降序依次读取章节
+- **章节细节提取**：提取术语、数值、实验设置、统计指标等关键细节
+- **[[sufficiency-check|充分性检查]]**：LLM 判断已积累信息是否足以回答问题——这是抑制幻觉的关键机制
+- **三种阅读风格**：保守型、平衡型（默认）、激进型——控制操作开销
+- **最终答案合成**：从累积的细节中综合生成答案
+
+## 评估基准
+
+[[intrabench|IntraBench]]：315 个测试实例，覆盖物理、地球科学、公共卫生、工程、材料科学 5 个 STEM 领域。采用 LLM 锚定的多选题评估方式处理科学术语的同义词/缩写挑战。
+
+## 核心结果
+
+- 在 7 个 backbone LLM 上，IntrAgent 平均比 SOTA RAG 和研究 Agent baseline 高 13.2% 跨领域准确率
+- 结构知识（章节层级）是准确章节排序的关键——仅靠语义相似度不足
+- [[sufficiency-check|充分性检查]] 同时防止幻觉（证据不足时过早回答）和过度阅读
+
+## 设计启示
+
+> 从"平面检索-生成"到"结构感知的渐进式阅读"——IntrAgent 证明，模仿人类阅读行为的 agent 设计能显著提升科学文献信息检索的准确性和忠实性。
+
+## 相关概念
+
+- [[rag|RAG]] — 传统检索增强生成 vs 结构感知推理排序
+- [[hallucination-mitigation]] — 充分性检查作为幻觉抑制机制
+- [[content-grounded-retrieval]] — 内容锚定检索的范式要求
+- [[scientific-literature-qa]] — 科学文献问答的任务空间
+- [[agent-harness-engineering]] — Agent 设计方法论
--- a/papers/maes-leworldmodel-2026.md
+++ b/papers/maes-leworldmodel-2026.md
@@ -0,0 +1,88 @@
+---
+title: "LeWorldModel: Stable End-to-End JEPA from Pixels"
+created: 2026-06-08
+updated: 2026-06-08
+type: paper
+tags: [world-model, JEPA, LeCun, SIGReg, end-to-end, planning]
+sources: [https://arxiv.org/abs/2603.19312]
+arxiv: "2603.19312v3"
+venue: "Preprint, 2026"
+---
+
+# LeWorldModel: Stable End-to-End JEPA from Pixels
+
+> **作者**: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
+> **机构**: Mila/UdeM, NYU, Samsung SAIL, Brown University
+> **完整摘要**: [raw/papers/maes-leworldmodel-2026.md](raw/papers/maes-leworldmodel-2026.md)
+
+## 一句话
+
+**首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型**——仅 2 个损失项 + 1 个超参，15M 参数单 GPU 数小时训练，规划速度比 DINO-WM 快 48×，Push-T 成功率 96%。
+
+## 核心贡献
+
+1. **消除训练启发式**：无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
+2. **极简训练目标**：预测损失 + [[sigreg|SIGReg]] 正则化，超参从 6 → 1
+3. **速度与性能兼得**：规划速度 DINO-WM 的 48×，控制任务与 SOTA 持平或更优
+4. **物理理解**：潜在空间编码有意义的物理量，可靠检测物理不合理事件（surprise evaluation）
+
+## 技术要点
+
+### 架构（15M 参数）
+- **编码器**: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
+- **预测器**: Transformer (10M), AdaLN 注入动作条件，时间因果掩码自回归
+- **训练**: $\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)$
+
+### 关键设计决策
+| 设计 | 理由 |
+|------|------|
+| BatchNorm 非 LayerNorm | LN 限制表示分布方差，阻碍 SIGReg 优化 |
+| AdaLN 零初始化 | 动作条件渐进式影响，避免剧烈改变预测器行为 |
+| Epps-Pulley 检验 | 基于特征函数的正态性检验，对厚尾、多峰敏感 |
+| 无 stop-gradient | 区别于 I-JEPA/V-JEPA，简化训练流程 |
+
+### 对比定位
+
+```
+PLDM           DINO-WM        LeWM
+ 端到端 ✓        冻结编码器      端到端 ✓
+ 6 超参          预训练依赖      1 超参 ✓
+ 多损失拉扯      速度快但受限    单调收敛 ✓
+ 无防坍塌保证     无端到端学习    可证明防坍塌 ✓
+```
+
+## 实验结果
+
+- **Push-T**: 96.0%（PLDM 78%，提升 18%）
+- **Reacher / TwoRoom**: 与 SOTA 持平或更优
+- **OGBench-Cube**: 略逊 DINO-WM（后者受益于 DINOv2 1.24亿图像预训练）
+- **规划速度**: DINO-WM 的 48×（token 数减少 ~200×）
+- **物理 probing**: 潜在空间可线性 probe 出旋转量、位置等物理量
+- **Surprise 评估**: 可靠检测物理不合理轨迹（violation of expectation）
+
+## 局限
+
+1. 短视界规划——自回归误差随步长累积
+2. 依赖离线数据集，简单场景 SIGReg 可能过度正则化
+3. 需显式动作标签
+4. 实验限于低维受控任务，未在开放世界验证
+
+## 概念网络
+
+```
+[[leworldmodel|LeWorldModel]]
+├── [[jepa|JEPA]]（架构基础）
+├── [[sigreg|SIGReg]]（防坍塌核心）
+├── [[pldm|PLDM]]（唯一端到端替代）
+├── [[representation-collapse|表征坍缩]]
+├── [[abstract-representation-space|抽象表征空间]]
+├── [[world-model-lecun|LeCun 世界模型]]
+└── [[objective-driven-ai|目标驱动AI]]
+```
+
+## 阅读路径
+
+- 理解 JEPA 基础 → [[jepa]]
+- 理解防坍塌机制 → [[sigreg]], [[representation-collapse]]
+- 对比替代方案 → [[pldm]]
+- 宏观视角 → [[world-model-lecun]], [[lecun-llm-boundary-future]]
--- a/papers/minimax-policy-regret-pomg.md
+++ b/papers/minimax-policy-regret-pomg.md
@@ -0,0 +1,75 @@
+---
+title: "Minimax-Optimal Policy Regret in Partially Observable Markov Games"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: ["multi-agent-rl", "partial-observability", "regret-analysis", "markov-games", "theory"]
+sources: ["https://arxiv.org/abs/2606.02363"]
+---
+
+# Minimax-Optimal Policy Regret in POMGs
+
+**Author**: Raman Arora (Johns Hopkins University)
+**Venue**: ICML 2026 [cs.LG, stat.ML]
+
+## 核心问题
+
+在实际多智能体场景中（自动驾驶、算法交易、网络安全），智能体面对的是**部分可观测**且**策略性响应**的对手。传统的 external regret 假设对手行为在反事实情况下不变——这在自适应对手面前失效。
+
+本文在**部分可观测马尔可夫博弈**（[[partially-observable-markov-game|POMG]]）框架下，研究 minimax 最优策略后悔。
+
+## 方法论贡献
+
+### 1. 形式化与结构假设
+
+**[[posterior-lipschitz-adversary|Posterior-Lipschitz 对手]]**：对手响应随学习者策略平滑变化，排除不连续跳跃。使用参考后验预测算子 S_ref 进行解耦。
+
+**[[weak-revealing-condition|Weak Revealing 条件]]**：观测的信息量足够在 kappa 步窗口内识别世界动力学差异，排除观测完全无信息的退化 POMG。
+
+### 2. [[causal-decomposition-pomg|因果分解]]
+
+将 [[observable-operator-model|OOM]] 算子分解为两个独立组件：
+- **世界通道** (W_h)：转移 + 发射核
+- **对手聚合** (G_h)：对手响应模型
+
+### 3. [[epoch-based-optimistic-mle|Epoch-based Optimistic MLE 算法]]
+
+核心机制：
+- 几何增长的 epoch：T_e = 2^e
+- 每个 epoch 开始时构建 MLE 置信集
+- 整个 epoch 执行单一乐观策略
+- 仅 O(log T) 个不同策略被部署 → 传输成本保持 polylogarithmic
+
+## 核心定理
+
+**上界**：策略后悔 PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog 项
+
+**下界**：任何算法必须承担 Omega(sqrt(d_E * T)) 策略后悔
+
+→ **Minimax 最优**（匹配 sqrt(T) 和 d_E 依赖性）
+
+其中 d_E 是 uniform [[eluder-dimension|Eluder 维度]]，对 tabular/linear/low-rank 模型类有显式界。
+
+## 扩展
+
+- 未知时间范围的 horizon-adaptive 保证
+- 无界但**几何衰减记忆**的对手（[[fading-memory|Fading Memory]]）
+
+## 关键技术概念
+
+| 概念 | 角色 |
+|------|------|
+| [[policy-regret|Policy Regret]] | 反事实性能度量 |
+| [[eluder-dimension|Eluder Dimension]] | 函数类顺序复杂度 |
+| [[observable-operator-model|OOM]] | POMG 的可处理表示 |
+| [[posterior-lipschitz-adversary|Posterior-Lipschitz]] | 对手平滑性 |
+| [[weak-revealing-condition|Weak Revealing]] | 观测信息量 |
+| [[causal-decomposition-pomg|Causal Decomposition]] | 世界 vs 对手分离 |
+
+## 与已有文献的关系
+
+从单智能体 [[pomdp|POMDP]]（Liu et al. 2022a）扩展到博弈论设定，从 bandit policy regret（Arora et al. 2012）扩展到结构化部分可观测动力学。
+
+## 来源
+- [arXiv](https://arxiv.org/abs/2606.02363)
+- [原始存档](raw/papers/arora-minimax-policy-regret-pomg-2026.md)
--- a/papers/niu-stem-causal-sparse-attention.md
+++ b/papers/niu-stem-causal-sparse-attention.md
@@ -0,0 +1,48 @@
+---
+title: "Stem: Rethinking Causal Information Flow in Sparse Attention"
+created: 2026-06-05
+updated: 2026-06-05
+type: paper
+tags: [sparse-attention, causal, information-flow, pre-filling, training-free]
+sources: [arxiv:2603.06274]
+---
+
+# Stem: Rethinking Causal Information Flow in Sparse Attention
+
+> Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)
+
+## 核心问题
+
+Self-attention 的二次复杂度是 LLM 长上下文推理（特别是 pre-filling 阶段）的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题：
+
+1. **统一 top-k**：对一层内所有 token 位置应用相同的稀疏预算，忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构
+2. **仅靠注意力分数**：基于模拟的注意力分数选 token，忽略了 token 的实际信息贡献（Value 信息）
+
+## 关键洞察：因果架构中的 Token 不对称性
+
+在因果注意力中，第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算，而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大：
+
+> Pruning V₁ → 全局失真（影响每个后续 token）  
+> Pruning V_N → 局部误差（仅影响尾部）
+
+因此，对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。
+
+## Stem 框架
+
+| 组件 | 机制 | 解决的问题 |
+|------|------|-----------|
+| **[[token-position-decay|TPD]]** | 位置依赖的 top-k：前面多保留，后面激进稀疏化 | 保护递归依赖链的完整性 |
+| **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择（引入 Value 信息） | 超越仅靠注意力分数的盲目选择 |
+
+## 关键特性
+
+- **Training-free**：无需微调，即插即用
+- **可叠加**：可作为插件集成到训练型稀疏模型（DeepSeek-V3.2、MiniCPM-4.1）中进一步压缩
+- **Triton 实现**：基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行
+- **实验验证**：RULER + LongBench，Llama3.1-8B + Qwen3-8B
+
+## 与其他稀疏注意力方法的关系
+
+- [[native-sparse-attention|NSA]]（DeepSeek）是训练型稀疏注意力，Stem 可以叠加其上进一步压缩
+- [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核
+- [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略，Stem 的创新在于将选择策略对齐到信息流结构
--- a/papers/onereason.md
+++ b/papers/onereason.md
@@ -0,0 +1,56 @@
+---
+title: "OneReason: 生成式推荐中的推理能力解锁"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: [recommendation, reasoning, chain-of-thought, generative-model, rl]
+sources: [raw/papers/onereason-team-onereason-2026.md]
+confidence: high
+---
+
+# OneReason: 生成式推荐中的推理能力解锁
+
+> **arXiv:2606.06260** | OneRec Team (Kuaishou) | 2026-06-04
+> 从「缩放优势」到「推理优势」——让生成式推荐模型真正学会「先思考再推荐」
+
+## 核心问题
+
+[[onerec|OneRec]] 系列生成式推荐模型在工业界（快手短视频、直播、广告、电商）已广泛部署，但这些模型只能享受 **Scaling 红利**，推理能力难以激活——因为纯 [[itemic-tokens|itemic token]] 序列无法构造有意义的 [[chain-of-thought|思维链 (CoT)]]。
+
+初步探索（OneRec-Think、OpenOneRec）虽成功将「think before answer」范式推广到推荐任务，却出现**意外现象：thinking mode 并不优于 non-thinking mode**。
+
+## 方法论贡献
+
+借鉴多模态 LLM 中 CoT 鲁棒性的研究，本文提出推荐推理的两大支柱：
+
+1. **[[perception-cognition-recommendation|Perception (感知)]]**：将 itemic token 深度对齐到其底层语言语义，使其成为可指称、可组合的语义单元
+2. **[[perception-cognition-recommendation|Cognition (认知)]]**：设计推荐专用的三层 CoT 结构来支撑审慎推理
+
+基于此提出 **OneReason**，包含三个技术阶段：
+
+| 阶段 | 技术 | 目标 |
+|------|------|------|
+| Pre-training | 强化 [[itemic-text-alignment|itemic-text 对齐]] | 建立强 item perception |
+| SFT | 三层 [[recommendation-cot|cognition-enhanced CoT]] | 构建推荐推理能力 |
+| RL | [[specialize-then-unify-rl|specialize-then-unify]] | 增强 thinking 优势 |
+
+## 关键发现
+
+- **Specialize-then-Unify**：多域混合 RL 下 thinking mode 仍落后于 non-thinking mode，但单域 RL 下 consistently 超越。因此先做域内专项 RL，再通过 [[rejection-sampling-fine-tuning|Rejection Sampling FT]] 或 [[multi-teacher-on-policy-distillation|Multi-Teacher On-Policy Distillation]] 做跨域平衡
+- **[[thinking-supervision-transfer|Thinking Supervision Transfer]]**：用 CoT 监督数据替换 unCoT 数据可提升 non-thinking mode 性能——CoT 监督信号可能迁移到直接解码
+- **[[abductive-reasoning-recommendation|Abductive Reasoning]]**：推荐推理是溯因而非演绎——从行为序列反推隐含兴趣点
+
+## 评估体系
+
+[[onereason-bench|OneReason-Bench]] 按 R0→R3 四层递进评估推荐推理能力。
+
+## 开源
+
+OneReason-8B 和 OneReason-0.8B 模型将开源。
+
+## 参考
+
+- [[onerec|OneRec 生成式推荐]]
+- [[chain-of-thought|思维链 (CoT)]]
+- [[generative-recommendation|生成式推荐]]
+- [原始存档](raw/papers/onereason-team-onereason-2026.md)
--- a/papers/ortega-phd-thesis.md
+++ b/papers/ortega-phd-thesis.md
@@ -0,0 +1,67 @@
+---
+title: "Uncertainty Estimation and Generalization Bounds for Modern Deep Learning"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [bayesian-deep-learning, generalization, uncertainty, pac-bayesian, gaussian-process]
+sources: [raw/papers/ortega-phd-thesis-2026.md]
+confidence: high
+---
+
+# 现代深度学习中的不确定性估计与泛化界
+
+> Luis A. Ortega Andrés — PhD Thesis, Autonomous University of Madrid, 2026
+> Supervisor: Daniel Hernández-Lobato | arXiv: [2606.13818](https://arxiv.org/abs/2606.13818)
+
+## 核心问题
+
+神经网络预测性能强大，但**泛化能力与不确定性量化**仍理解不完整。本论文从方法论和理论两个角度，在统一的概率视角下连接 Bayesian 推断、函数空间建模和大偏差理论。
+
+## 方法论贡献
+
+### Deep Variational Implicit Process ([[deep-variational-implicit-process|DVIP]])
+
+- 将[[implicit-processes|隐式过程]]扩展到深度架构的可扩展 Bayesian 框架
+- 建模**易采样但无显式密度**的函数分布
+- 在深度高斯过程 1/10 的计算代价下达到竞争性能
+
+### 后处理方法
+
+| 方法 | 全称 | 机制 |
+|------|------|------|
+| [[variational-linearized-laplace-approximation|VaLLA]] | Variational Linearized Laplace | 变分 + 线性化 Laplace 后验 |
+| [[fixed-mean-gaussian-process|FMGP]] | Fixed-Mean Gaussian Process | 冻结均值 + GP 协方差校准 |
+
+两者均为预训练确定性网络**附加校准的不确定性估计**，桥接确定性与 Bayesian 深度学习。
+
+## 理论贡献
+
+### 统一泛化框架
+
+在 [[pac-bayesian-bounds|PAC-Bayesian]] 和大偏差理论下连接三个泛化机制：
+
+1. **多样性（Diversity）**：集成成员的函数独立性降低泛化误差
+2. **光滑性（Smoothness）**：损失景观曲率放大经验损失的集中率函数
+3. **随机性（Stochasticity）**：SGD 噪声作为隐式正则化 → 偏向平坦极小值
+
+### PAC-Chernoff 界
+
+- 在**插值区间**仍有意义（传统界在此失效）
+- 提供对 [[double-descent|双下降]] 的定量、分布依赖解释
+
+## 论文结构
+
+| 章节 | 内容 |
+|------|------|
+| Ch 2 | Bayesian 推断基础 + GP + 泛化界 |
+| Ch 3 | DVIP: 可扩展隐式过程 Bayesian 推断 |
+| Ch 4 | VaLLA + FMGP: 后验不确定性校准 |
+| Ch 5 | PAC-Bayes + 大偏差泛化框架 |
+| Ch 6 | SGD 隐式正则化的概率分析 |
+
+## 参考
+
+- [[bayesian-deep-learning|Bayesian 深度学习]]
+- [[deep-gaussian-process|深度高斯过程]]
+- [[generalization-bounds|泛化界]]
+- 来源：[原始存档](raw/papers/ortega-phd-thesis-2026.md)
--- a/papers/predictive-representations-scalable-mtrl.md
+++ b/papers/predictive-representations-scalable-mtrl.md
@@ -0,0 +1,72 @@
+---
+title: "预测表征驱动可扩展多任务深度强化学习"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: ["deep-rl", "multitask-learning", "representation-learning", "model-free-rl", "scaling"]
+sources: ["https://arxiv.org/abs/2606.05555"]
+---
+
+# 预测表征驱动可扩展多任务深度RL
+
+**Authors**: Johan Obando-Ceron, Lu Li, Scott Fujimoto, Pierre-Luc Bacon, Aaron Courville, Pablo Samuel Castro
+**Venue**: arXiv:2606.05555v1 [cs.LG, cs.AI], 2026
+**Affiliations**: Mila, UdeM, McGill, Google DeepMind
+
+## 核心假说
+
+多任务RL的可扩展性驱动力不是 model-based 规划，而是**预测性表征学习**。将 model-based 的预测表征与高容量价值函数近似结合，即使不做规划，也足以获得强大性能。
+
+## 背景：Model-Based vs Model-Free 的争论
+
+近年多任务RL的重大进展主要由 [[world-models-rl|world model]] 方法驱动（Dreamer, TD-MPC2, Newt），但这些方法捆绑了多个组件：预测建模 + 潜空间规划 + 大共享架构。问题是——**哪一部分真正驱动了性能提升？**
+
+本文的核心洞察：规划本身引入计算开销、超参数敏感性和模型误差累积。真正的好处来自预测目标学习的表征。
+
+## MR.Q 算法
+
+[[mrq-algorithm|MR.Q]]（Fujimoto et al., 2025）是一个纯粹的 model-free agent，将预测目标整合进 TD 学习：
+
+- 基于 TD3 (Fujimoto et al., 2018) 的 actor-critic 架构
+- 编码器将观测+任务信息映射到潜空间 z_t
+- [[auxiliary-predictive-objectives|辅助预测目标]]：预测 (z_{t+1}, r_t, d_t) 从 (z_t, a_t)
+- 预测梯度回传至编码器，塑造表征
+- **不做规划**——学习到的模型仅用于表征塑造
+
+## 关键实验结果
+
+### 单任务 Scaling（Fig. 1）
+- 标准 PPO 随模型增大无收益甚至退化
+- PPO + 预测表征 → 持续随规模提升
+- 表征质量是 scaling 的瓶颈
+
+### 多任务 MMBench（10M steps）
+- MR.Q 在全部 10 个域上一致超越 Newt（world-model baseline）
+- 显著降低计算开销，提升 wall-clock 效率
+- 更强的零样本迁移和少样本微调能力
+
+### Ablation
+- 移除预测目标后性能大幅退化，即使模型规模很大
+- 预测表征学习是关键——不是可选的辅助
+
+## 核心论点
+
+```
+预测表征学习 → 更好的潜空间结构 → 稳定的 TD 学习 → 可扩展多任务 RL
+```
+
+规划不是必需的——预测建模的真正价值在于它提供的**丰富监督信号**，而非显式的未来模拟。
+
+## 相关概念
+- [[predictive-representation-learning|预测表征学习]]
+- [[mrq-algorithm|MR.Q]]
+- [[multitask-rl|多任务RL]]
+- [[representation-learning-rl|RL中的表征学习]]
+- [[auxiliary-predictive-objectives|辅助预测目标]]
+- [[world-models-rl|World Models]]
+- [[model-free-rl|Model-Free RL]]
+- [[deep-rl-scaling|扩展深度RL]]
+
+## 来源
+- [arXiv](https://arxiv.org/abs/2606.05555)
+- [原始存档](raw/papers/obando-ceron-predictive-representations-mtrl-2026.md)
--- a/papers/principled-uncertainty-clinical-ai.md
+++ b/papers/principled-uncertainty-clinical-ai.md
@@ -0,0 +1,69 @@
+---
+title: "Principled Uncertainty in Clinical AI: Bayesian Modelling and Equity Auditing"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: ["bayesian-deep-learning", "uncertainty-quantification", "algorithmic-equity", "clinical-ai", "multimodal-fusion"]
+sources: ["https://arxiv.org/abs/2606.09789"]
+---
+
+# Principled Uncertainty in Clinical AI
+
+**Authors**: Oladimeji Anthonio, Dimeji Abdulsobur Olawuyi, Oloruntoba Ajayi, Temiloluwa Aderemi, Joseph Odamo
+**Venue**: arXiv:2606.09789v1 [cs.CY], 2026
+**Affiliation**: Centre for Algorithmic Health Equity, Ibadan, Nigeria
+
+## 核心问题
+
+临床 AI 系统大量生产确定性预测（点估计），却不提供任何置信度或可靠性度量。这导致两个后果：技术上，模型无法区分高置信场景与分布外输入；公平性上，系统性地对弱势群体的失败完全不可见。
+
+## 方法论贡献
+
+提出了**端到端贝叶斯不确定性建模框架**，将分布表示传播到多模态预测管线的每一个阶段：
+
+1. **模态特定变分编码器**（[[variational-autoencoder|VAE]] 基础）：将 EHR（32维）、医学影像特征（128维）、临床文本嵌入（64维）映射到共享 16 维潜空间
+2. **精度加权晚期融合**（[[precision-weighted-fusion]]）：利用各模态精度 Λ_m = 1/σ²_m 进行加权组合，缺失模态自动排除（log σ² → 10.0）
+3. **分解不确定性输出头**（[[uncertainty-quantification]]）：分离 [[aleatoric-uncertainty]]（Softplus 激活）和 [[epistemic-uncertainty]]（[[mc-dropout]] T 次前向传播方差）
+4. **复合贝叶斯损失**：L_total = L_pred + β_KL·L_KL + β_unc·L_unc
+
+## 关键发现
+
+**校准性能**：ECE = 0.096，缺失影像数据患者不确定性提升 +42.2%
+
+**公平性审计**（核心贡献）——将校准后的不确定性作为算法公平性的形式化度量：
+
+| 子群体轴 | UEG | p 值 | 效应量 r |
+|---------|-----|------|---------|
+| 设施类型（初级/农村 vs 三级） | 15.3% | <0.001 | 0.698 |
+| 社会经济地位（低 vs 高 SES） | 6.8% | <0.001 | 0.617 |
+| 年龄组（老年 vs 成人） | 3.9% | <0.001 | 0.575 |
+| 生物性别 | 0.5% | 0.909 | — |
+
+标准准确率指标无法检测这些差异（农村 85.5% vs 三级 82.6%，仅差 2.9pp），而不确定性差距高达 15.3%。
+
+## 核心论点
+
+**不确定性不是需要最小化的局限，而是需要度量、报告并采取行动的公平性信号。** 高认知不确定性标志着模型训练数据未能充分代表该患者——在数据质量与资源可用性相关的医疗体系中，这反映了历史性健康不平等的部分映射。
+
+## 局限性
+- 合成数据评估（1,000 患者），外部效度有限
+- 固定潜空间维度，未采用层次化潜空间
+- 公平性指标量化差异但未归因到具体原因
+
+## 相关概念
+- [[epistemic-uncertainty|认知不确定性]]
+- [[aleatoric-uncertainty|随机不确定性]]
+- [[uncertainty-quantification|不确定性量化]]
+- [[bayesian-deep-learning|贝叶斯深度学习]]
+- [[expected-calibration-error|预期校准误差]]
+- [[uncertainty-equity-gap|不确定性公平性差距]]
+- [[uncertainty-disparity-ratio|不确定性差异比]]
+- [[precision-weighted-fusion|精度加权融合]]
+- [[mc-dropout|MC Dropout]]
+- [[algorithmic-equity|算法公平性]]
+- [[clinical-ai|临床人工智能]]
+- [[variational-autoencoder|变分自编码器]]
+
+## 来源
+- [arXiv](https://arxiv.org/abs/2606.09789)
+- [原始存档](raw/papers/anthonio-principled-uncertainty-clinical-ai-2026.md)
--- a/papers/procedural-skills-to-strategy-genes.md
+++ b/papers/procedural-skills-to-strategy-genes.md
@@ -0,0 +1,54 @@
+---
+title: "From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution"
+created: 2026-06-14
+updated: 2026-06-14
+type: paper
+tags: [agent, experience-reuse, test-time-adaptation, representation]
+sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
+confidence: high
+---
+
+# From Procedural Skills to Strategy Genes
+
+> 从过程技能到策略基因：走向经验驱动的测试时进化
+
+**作者:** Junjie Wang, Yiming Ren, Haoyang Zhang (清华大学, EvoMap)
+**发表:** arXiv 2604.15097v2, 2026年4月 (v2: 2026年6月)
+**领域:** cs.SE, cs.CL | 代码: [skill2gep](https://github.com/EvoMap/skill2gep), [evolver](https://github.com/EvoMap/evolver)
+
+## 核心问题
+
+这篇论文提出了一个**表示层面的问题**：可复用经验应该如何被编码，才能在推理时作为有效的控制信号，并作为迭代进化的基底？传统方法将经验视为"内容对象"——存储、检索、重放，但本文追问：这种经验能否在测试时真正起到**稳定且有效的控制作用**？
+
+## 方法
+
+在 45 个科学代码求解场景上进行 4,590 次受控试验，设计三类分析探针：
+
+- **[[skill-probe|技能探针]]** — 分析过程技能为何无法提供稳定的测试时控制
+- **[[gene-probe|基因探针]]** — 分析策略基因为何是更好的经验表示
+- **[[evolution-probe|进化探针]]** — 分析基因作为迭代进化基底的属性
+
+## 核心发现
+
+1. **文档导向的技能与控制需求不匹配**：技能包（~2,500 tokens）的控制信号稀疏，仅集中在 Workflow 等窄片段中；扩展为完整文档反而降低整体表现（-1.1pp vs 基线）。
+2. **表示本身是一阶因素**：在经验内容大致相同的情况下，如何包装、组织、暴露经验给模型会产生实质性差异。Gene（~230 tokens, +3.0pp）远超 Skill，且重新添加文档材料通常削弱而非增强 Gene。
+3. **Gene 是更好的经验积累载体**：附加的失败历史在 Gene 中比在 Skill 或自由文本中更有效，可编辑结构优于纯文本，失败信息压缩为紧凑警告比朴素追加更有用。
+4. **进化结果**：在 CritPt 基准上，gene-evolved 系统分别从 9.1% → 18.57% 和 17.7% → 27.14%。
+
+## 关键贡献
+
+1. 将可复用经验从"存储与调用内容"重新塑造为"表示测试时控制信号"的问题
+2. 识别出影响经验复用的对象层面因素：信息过载、表示包装效应、结构鲁棒性、有界复用、选择性积累
+3. 引入 [[strategy-gene|策略基因]] 和 [[gene-evolution-protocol|GEP协议]] 作为协议化的控制表示
+
+## 相关概念
+
+- [[strategy-gene|策略基因]] — 紧凑的控制导向经验表示
+- [[procedural-skill|过程技能]] — 文档导向的经验包
+- [[gene-evolution-protocol|基因进化协议 (GEP)]] — 协议层
+- [[test-time-control|测试时控制]] — 表示对模型行为的推理时影响
+- [[experience-representation|经验表示]] — 经验如何被形式化编码
+- [[experience-distillation|经验蒸馏]] — 压缩经验为控制信号
+- [[bounded-reuse|有界复用]] — 复用存在范围边界
+- [[gene-bench|Gene-Bench]] — 45场景基准
+- [[critpt|CritPt]] — 外部物理学推理基准
--- a/papers/relu-neuromanifolds-semi-algebraicity.md
+++ b/papers/relu-neuromanifolds-semi-algebraicity.md
@@ -0,0 +1,72 @@
+---
+title: "ReLU 神经流形的纤维与半代数性"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: ["neuroalgebraic-geometry", "algebraic-geometry", "neural-networks", "relu", "semi-algebraic"]
+sources: ["https://arxiv.org/abs/2606.02826"]
+---
+
+# ReLU 神经流形的纤维与半代数性
+
+**Authors**: Axel Flinth, Stefano Mereta, Michele Pernice (KTH / WASP)
+**arXiv**: 2606.02826v1 [math.AG], 2026
+
+## 核心问题
+
+神经网络的训练在权重空间上进行，但优化目标（损失函数）定义在**神经流形**（[[neuromanifold|neuromanifold]]）——网络能表示的所有函数的空间。参数化映射 Phi: R^M -> M_d 的非单射性（多个权重映射到同一函数）导致：
+
+- 虚假临界点（权重空间中的临界点并非函数空间中的临界点）
+- 奇点和边界点更容易成为临界点
+
+理解神经流形的几何结构对理解训练动力学至关重要。
+
+## 三大核心贡献
+
+### 1. ReLU 神经流形不是半代数商（Theorem 1）
+
+**定理**：ReLU 网络的神经流形 M_d **不是**权重空间在半代数范畴中的商。
+
+即：不存在"好"的半代数结构使得 M_d 成为 R^M / E_Phi 的几何商。反例在浅层网络中构造。
+
+### 2. Honest 开子集与隐藏对称性（Conjecture 2）
+
+引入 **[[honest-open-subset|honest 开子集]]** 概念——参数化映射在该区域无隐藏对称性（所有对称性都是平凡缩放+置换）。
+
+三种强度：
+- **weakly honest**：Pr(d) 在区域内传递作用于纤维
+- **honest**：Pr(d) 在区域内满射到纤维
+- **strongly honest**：Pr(d) 同构于纤维
+
+**猜想**：对任意架构，最大 honest 开集是半代数的。
+
+### 3. 浅层网络的 Zariski 开性（Theorem 3）
+
+对于浅层网络（L=1），最大 honest 开集是 **Zariski 开集**——比半代数更强的结论。
+
+## 方法论
+
+- **点态半代数性**：通过逐点评价值定义无穷维空间上的半代数结构
+- **Pro-半代数结构**：将神经流形视为有限维半代数空间的范畴极限
+- **群胚视角**：用等价关系 E_Phi 的语言处理商存在性问题（Scheiderer 1989 定理）
+
+## 与已有工作的关系
+
+- [[neuroalgebraic-geometry|神经代数几何]] 对多项式激活函数已有良好理解（[MSM+25] 综述）
+- 非多项式激活（ReLU）几乎未知——本文填补此空白
+- 与 [GLR23, GM26] 独立工作，用代数几何替代多面体组合学
+- 与 [AM25] 的输出簇（output varieties）互补——后者固定有限输入集
+
+## 相关概念
+- [[neuromanifold|神经流形]]
+- [[neuroalgebraic-geometry|神经代数几何]]
+- [[semi-algebraic-set|半代数集]]
+- [[honest-open-subset|Honest 开子集]]
+- [[hidden-symmetries-neural|隐藏对称性]]
+- [[parametrization-map|参数化映射]]
+- [[scaling-permutation-symmetry|缩放与置换对称性]]
+- [[fiber-of-parametrization|参数化纤维]]
+
+## 来源
+- [arXiv](https://arxiv.org/abs/2606.02826)
+- [原始存档](raw/papers/flinth-relu-neuromanifolds-2026.md)
--- a/papers/repmt-sac.md
+++ b/papers/repmt-sac.md
@@ -0,0 +1,77 @@
+---
+title: "Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reinforcement-learning, multi-task, robot-control, representation-learning, transfer-learning]
+sources: [raw/papers/naveen-repmt-sac-2026.md]
+confidence: high
+---
+
+# RepMT-SAC: 基于表征的多任务强化学习技能迁移
+
+> Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS, 2026
+> arXiv: [2606.12890](https://arxiv.org/abs/2606.12890) | cs.RO
+
+## 核心问题
+
+多任务 RL 中不同任务共享相同动力学（如四旋翼在不同轨迹上的飞行动力学相同），但标准 RL 将各任务独立训练，导致**无法复用共享结构**。如何分离任务不变动力学与任务特定奖励，实现跨任务知识复用？
+
+## 方法论：RepMT-SAC
+
+### 谱 MDP 分解
+
+将任务条件 Q 函数分解为：
+
+```
+Q^π(s, a; τ) = ⟨φ(s, a), w^π(τ)⟩
+```
+
+- **φ(s, a)**：[[task-invariant-representation|任务不变表征]]——捕获共享动力学
+- **w^π(τ)**：[[task-conditioned-policy|任务条件权重]]——编码任务特定奖励
+
+关键创新：φ 与 w 被**明确解耦**——以往方法或混在一起、或通过隐式嵌入学习。
+
+### 两阶段学习
+
+**上游阶段（Upstream）**：
+
+1. 从回放缓冲区联合学习 φ(s,a) 和 µ(s')（谱条件密度估计）
+2. 任务编码 w(τ;θ) 通过 TD 目标更新（φ 冻结后是**线性回归**，极稳定）
+3. 最大熵策略 π(a|s,τ) 从线性 Q 导出
+
+**下游阶段（Downstream）**：
+
+1. **冻结** φ 和 µ（任务不变动力学）
+2. 仅**微调** w(τ_new) 和 π_new
+3. 大幅减少可训练参数 → 快速少样本适应
+
+## 实验：四旋翼轨迹跟踪
+
+在 IsaacSim 上评估 [[quadrotor-trajectory-following|四旋翼轨迹跟踪]]：
+
+- 任务 τ = Legendre 多项式系数（轨迹参数化）
+- 源任务 = 低阶多项式基
+- ID 任务 = 基的凸组合
+- OOD 任务 = 高阶 Legendre 多项式（外推）
+
+| 方法 | 源任务奖励 | ID 零样本 | OOD 少样本 |
+|------|----------|----------|----------|
+| SAC | 基线 | 泛化差 | 需重训 |
+| CTRL-SAC | 较好 | 中等 | 中等 |
+| **RepMT-SAC** | **最优** | **+30%** | **最快适应** |
+
+## 优势分析
+
+- **线性 Q 评估**：φ 冻结后 Q 学习变为线性回归，训练极稳定
+- **知识复用**：φ 一次性学好，所有任务受益
+- **快速适应**：OOD 任务仅需微调 w 和 π 的小参数集
+- **理论基础**：谱分解保证表示的可迁移性
+
+## 参考
+
+- [[spectral-mdp-decomposition|谱 MDP 分解]]
+- [[multitask-rl|多任务 RL]]
+- [[soft-actor-critic|SAC]]
+- [[few-shot-learning|少样本学习]]
+- 来源：[原始存档](raw/papers/naveen-repmt-sac-2026.md)
--- a/papers/tarpo.md
+++ b/papers/tarpo.md
@@ -0,0 +1,67 @@
+---
+title: "TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reasoning, reinforcement-learning, latent-reasoning, architecture, training]
+sources: [raw/papers/zhang-tarpo-2026.md]
+confidence: high
+---
+
+# TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
+
+> Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — Nankai University, 2026
+> arXiv: [2606.05859](https://arxiv.org/abs/2606.05859) | Code: [NKU-LITI/TARPO-master](https://github.com/NKU-LITI/TARPO-master)
+
+## 核心问题
+
+[[chain-of-thought|思维链（CoT）]] 依赖于离散 token 生成，导致高维隐藏状态必须在每一步坍缩为单个 token——这构成了信息瓶颈。[[latent-reasoning|潜在推理]] 通过在连续空间中操作克服了这一限制，但连续表征的固有确定性又限制了 [[reinforcement-learning|强化学习]] 中的策略探索。
+
+TARPO 解决的核心矛盾：**如何在保持 RL 探索随机性的同时利用连续表征的表达力？**
+
+## 方法论
+
+TARPO 是一个纯 RL 框架，在每个 token 步自适应地在离散 token 生成（hard）和连续潜在推理（soft）之间切换：
+
+1. **[[action-head-router|动作头路由器]]**：一个轻量级线性投影层，将当前隐藏状态映射到二元的 `{hard, soft}` 决策空间
+2. **[[action-routing-policy|动作路由策略]]**：将推理模式选择形式化为可学习的离散路由策略 ρ_θ
+3. **[[token-wise-routing|逐 token 路由]]**：每一步独立决定下一个推理单元是离散 token embedding 还是连续 [[soft-token]]
+4. **联合优化**：LLM 骨干和路由器使用共享的 [[group-relative-policy-optimization|Group Relative Advantage]] 信号端到端训练
+
+### 关键公式
+
+路由策略参数化为 `ρ_θ(·|h_t) = Softmax(W_r h_t + b_r)`，其中 `W_r ∈ R^{2×d}`。
+
+动作空间定义为 `A = {soft} ∪ ({hard} × V)`，将路由选择和 token 采样统一在一个框架中。
+
+总损失 `L_TARPO = L_tok + λ L_act + β L_KL`，同时优化 token 生成目标和路由策略目标。
+
+## 关键发现
+
+### 性能提升
+- 在 Qwen2.5 (1.5B/3B/7B) 上平均超越 [[grpo|GRPO]] 0.52% Pass@1 和 1.22% Pass@32
+- 超越 [[hrpo|HRPO]] 0.37% Pass@1 和 1.76% Pass@32
+- 跨架构泛化：Llama-3.1-8B 上同样领先
+
+### OOD 泛化
+- HumanEval 上超越 GRPO 4.76%
+- 生成 token 数从 400+ 降至 337.9，token 效率大幅提升
+
+### 自适应路由行为
+- 路由器学会了在关键数学 token（方程、运算符）上分配更高 soft 概率
+- 在结构转换词（"will", "now we need"）上保持 hard 模式
+- 训练动态稳定，未出现 [[hrpo|HRPO]] 在后期训练中的熵飙升
+
+### 消融实验
+- w/ Pure Latent（全 soft token）→ Pass@32 从 82.80% 降至 54.07%（确定性限制探索）
+- w/ Entropy Routing（固定启发式阈值）→ 不如可学习的自适应路由
+
+## 参考
+
+- [[latent-reasoning|潜在推理]]
+- [[continuous-representation|连续表征]]
+- [[hybrid-reasoning|混合推理]]
+- [[reparameterization-exploration|重参数化探索]]
+- [[gumbel-softmax|Gumbel-Softmax]]
+- [[coconut|COCONUT]]
+- 来源：[原始存档](raw/papers/zhang-tarpo-2026.md)
--- a/papers/ticks-to-flows.md
+++ b/papers/ticks-to-flows.md
@@ -0,0 +1,73 @@
+---
+title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic]
+sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
+confidence: high
+---
+
+# From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
+
+> Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026
+> arXiv: [2606.04275](https://arxiv.org/abs/2606.04275)
+
+## 核心问题
+
+[[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证，但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是：RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。
+
+本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]]，在[[two-time-scale-process|双时间尺度]]（环境时间 + 梯度时间）下分析学习动态。
+
+## 方法论
+
+### 探索动力学
+
+提出基于 [[stochastic-differential-equation|SDE]] 的探索模型：
+
+```
+ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
+```
+
+其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立，避免传统加性噪声在确定性环境中探索消失的问题。
+
+### 双时间尺度公式化
+
+- **环境时间** (t)：agent 与环境交互的时间尺度（快）
+- **梯度时间** (τ)：参数更新的时间尺度（慢）
+- 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化
+
+### 理论分析框架
+
+1. **[[linearized-neural-network|线性化 NN]]**：在 [[infinite-width-limit|无限宽度极限]] 下，使用 [[neural-tangent-kernel|NTK]] 线性化
+2. **[[ito-calculus|Itô-Taylor 展开]]**：将状态表示为 NN 参数的多项式
+3. **[[martingale-clt|鞅 CLT]]**：推导条件高斯极限
+
+## 主要结果（Theorem 6.1）
+
+在无限宽单隐层 NN 下，actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述：
+
+```
+Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
+```
+
+这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。
+
+## 实验验证
+
+- [[linear-quadratic-regulator|LQR]] 环境（ds=1,2,8,32）上验证 episodic continuous-time actor-critic 能学到接近最优策略
+- 探索动力学 > 加性 Wiener 噪声（更好的状态-动作覆盖）
+- 理论模型（Theorem 6.1）与经验算法高度一致
+
+## 局限与展望
+
+- 当前限于光滑动力学、单隐层、渐进宽度
+- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向
+
+## 参考
+
+- [[continuous-time-rl|连续时间 RL]]
+- [[stochastic-differential-equation|SDE]]
+- [[reinforcement-learning|强化学习]]
+- [[neural-tangent-kernel|NTK]]
+- 来源：[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)
--- a/papers/weighted-uat-manifolds.md
+++ b/papers/weighted-uat-manifolds.md
@@ -0,0 +1,73 @@
+---
+title: "Weighted Universal Approximation of Differentiable Maps on Infinite-Dimensional Manifolds"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [mathematics, functional-analysis, approximation-theory, neural-networks, rough-paths]
+sources: [raw/papers/schmocker-weighted-uat-2026.md]
+confidence: high
+---
+
+# 无限维流形上可微映射的加权通用逼近
+
+> Philipp Schmocker, Josef Teichmann — 2026
+> arXiv: [2606.09820](https://arxiv.org/abs/2606.09820) | math.FA + cs.LG + math.PR + q-fin.MF | 77页
+
+## 核心问题
+
+经典[[universal-approximation-theorem|通用逼近定理（UAT）]]保证神经网络可以在紧集上逼近任意连续函数，但它有两个局限：
+
+1. **只在紧集上**：无法处理随机过程的非紧路径空间
+2. **不含导数逼近**：不能逼近可微映射的导数信息
+
+本文将 UAT 推广到**无限维流形上的可微映射**，同时逼近函数值和方向导数，且**不限于紧集**。
+
+## 方法论
+
+### 函数输入神经网络 (FNN)
+
+```
+输入 (无穷维流形 M)  →  隐藏层 (R^h, 标量激活 σ)  →  输出 (Banach 空间 Y)
+                         ↑ 线性读出层
+```
+
+FNN 的数学形式：`NN(x) = Σ c_k · σ(ℓ_k(x))`，其中 `ℓ_k` 是连续线性泛函。
+
+### 加权 Nachbin 定理
+
+核心理论贡献：将经典 [[nachbin-theorem|Nachbin 定理]]（带导数的 Stone-Weierstrass 推广）推广到**加权设置**和**无限维流形**上。
+
+- **权重函数** Ψ 控制函数和导数在大紧集外的增长
+- 通过 [[bastiani-calculus|Bastiani 微积分]] 适配 σ-紧空间
+- **有界逼近性质（BAP）** 将有限维结果提升到无穷维
+
+### 两大应用
+
+1. **[[non-anticipative-functionals|非预期泛函]]**：包括水平导数和垂直导数的逼近 → 随机过程/随机微分方程
+2. **[[signature|签名 (Signature)]]** 的线性函数 → 逼近路径空间泛函及其方向导数
+
+## 理论贡献
+
+| 定理 | 内容 |
+|------|------|
+| Nachbin 定理（§3） | 加权子代数稠密 ↔ 分离点 + 非消没 + 包含导数 |
+| FNN UAT（§4） | FNN 在加权可微函数空间中稠密 |
+| 非预期 UAT（§5） | 逼近非预期泛函的水平/垂直导数 |
+| Signature UAT（§6） | Signature 线性函数逼近路径泛函 + 导数 |
+
+## 数值实验
+
+两个数值例子验证理论：FNN 在加权设置下逼近可微映射。
+
+## 与机器学习的关系
+
+这是一篇 **math.FA 核心论文**——为 neural operators（DeepONets、FNO 等）和 signature methods 提供严格的数学基础。77页的完全自包含证明不依赖数值启发式。
+
+## 参考
+
+- [[functional-input-neural-networks|FNN]]
+- [[universal-approximation-theorem|UAT]]
+- [[nachbin-theorem|Nachbin 定理]]
+- [[signature|Signature]]
+- [[infinite-dimensional-manifolds|无限维流形]]
+- 来源：[原始存档](raw/papers/schmocker-weighted-uat-2026.md)
--- a/papers/xu-life-harness.md
+++ b/papers/xu-life-harness.md
@@ -0,0 +1,61 @@
+---
+title: "Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents"
+created: 2026-06-11
+updated: 2026-06-11
+type: paper
+tags: [agent, harness, runtime-adaptation, deterministic, cross-model]
+sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md]
+confidence: high
+---
+
+# Life-Harness：适配接口而非模型
+
+> Xu, Wen, Li (Peking University, 2026). arXiv:2605.22166 [cs.AI].
+> 不更新模型权重，而是进化 Runtime Harness（运行时骨架）——在模型-环境接口层进行生命周期感知的适配。
+
+## 核心问题
+
+LLM Agent 的行为由两部分决定：模型本身 **+** 包裹模型的 Runtime Harness（观察传递、工具调用、动作执行、反馈解释、轨迹控制）。现有方法主要改进模型参数（SFT/RL/Distill），但在**确定性、规则驱动的领域**中，大量失败源于模型-环境**接口层的不匹配**（工具契约误解、不可执行动作、退化轨迹）——而非模型推理能力不足。
+
+核心问题：**能否将训练轨迹中反复出现的接口失败模式，转化为固定的 Runtime 接口干预，在不更新模型权重的前提下提升 Agent 表现？**
+
+## 方法：Life-Harness 生命周期四层架构
+
+Life-Harness 将 Agent 交互生命周期分为四个阶段，每层负责一类特定干预：
+
+### ❶ [[environment-contract-layer|环境契约层]]（交互前）
+在模型开始交互前，校准并增强环境可见的契约 C′：补充工具使用规则、策略约束、常见陷阱提示。
+
+### ❷ [[procedural-skill-layer|程序技能层]]（任务条件化时）
+从训练轨迹中构建技能记忆库 S，基于当前任务描述 BM25 检索相关技能，注入到 system prompt 中提供非参数指导。
+
+### ❸ [[action-realization-layer|动作实现层]]（动作生成后、执行前）
+基于确定性的环境约束（tool schema、合法动作集、参数要求），对模型输出进行**可执行性验证和规范化**，阻断确定会失败的动作。
+
+### ❹ [[trajectory-regulation-layer|轨迹调控层]]（执行后）
+监控执行后轨迹，检测**重复、停滞、无效重试、预算耗尽**等退化模式，触发恢复干预。
+
+四层在不同阶段协同，模型权重冻结、评估环境不变，仅通过接口层适配实现改进。
+
+## 实验亮点
+
+- **7 个环境 × 18 个模型**：τ-bench、τ²-bench、AgentBench（Airline/Retail/Telecom/ALFWorld/WebShop/OS/DBBench）
+- **116/126 组设置提升**，平均相对增益 **88.5%**
+- **跨模型迁移**：仅在 Qwen3-4B-Instruct 上训练的 harness，直接复用于另外 17 个模型
+- **互补于模型训练**：使 Qwen2.5-32B-Instruct 超越其工具微调衍生版 xLAM2-32b-fc-r
+
+## 失败诊断分类
+
+- **动作实现失败**（~23%）：意图合理但格式不可执行
+- **环境契约不匹配**（~33%）：语法正确但违反调用协议
+- **轨迹退化**（~17%）：单步有效但整体陷入重复/停滞
+- **一般推理失败**（~27%）：推理或决策本身错误
+
+## 关键洞察
+
+这一定位了 [[runtime-interface-adaptation|运行时接口适配]] 作为 [[agent-harness-engineering|模型中心训练]]的互补范式：在确定性领域中，大量"Agent 失败"本质上是**接口工程问题**，而非模型能力问题。
+
+## 参考
+- [原始论文存档](raw/papers/xu-life-harness-runtime-adaptation-2026.md)
+- 代码: https://github.com/Tianshi-Xu/Life-Harness
+- 相关工作: [[agent-harness-engineering|Agent Harness Engineering]]、[[agent-harness-mini|Mini Agent Harness]]
--- a/papers/xu-why-steering-works.md
+++ b/papers/xu-why-steering-works.md
@@ -0,0 +1,104 @@
+---
+title: "Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics"
+created: 2026-06-01
+updated: 2026-06-01
+type: paper
+tags: [steering, interpretability, controllability, llm-dynamics]
+sources: [raw/papers/xu-why-steering-works-2026.md]
+---
+
+# Why Steering Works: 语言模型参数动态的统一视角
+
+## 核心问题
+
+LLM 控制方法（权重微调、LoRA、激活导向）各自孤立发展，缺少统一的比较框架。本文提出一个统一的动态权重更新视角，将这些方法纳入同一数学框架，并揭示它们共享的 preference–utility 折衷规律。
+
+## 统一公式
+
+所有干预方法可统一表达为动态权重更新：
+
+$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
+
+| 方法 | 统一仿射形式 | 激活影响 Δh | 参数规模 |
+|------|------------|-----------|---------|
+| Local Weight | $(W + m\Delta W)h_i + (b + m\Delta b)$ | $m(\Delta W h_i + \Delta b)$ | $d_{in}\times d_{out} + d_{out}$ |
+| LoRA | $(W + mBA)h_i + b$ | $m(BA h_i)$ | $d_{in}\times r + r\times d_{out}$ |
+| Steering Vector | $Wh_i + (b + m\Delta b)$ | $m\Delta b$ | $d_{out}$ |
+
+## Preference–Utility 分析
+
+控制效果被分解为两个独立维度：
+
+- **Preference（偏好）**：模型对目标概念的内在倾向，通过 PrefOdds(q) = log[P(p_p|q)/P(p_n|q)] 量化
+- **Utility（效用）**：模型的通用任务能力（连贯性、指令遵循），通过 UtilOdds(q) 量化
+
+两者在 log-odds 共享尺度上测量，使用极性对比示例对 (A_p, A_n)。
+
+### 关键发现：三阶段统一动态
+
+所有干预形式在 m 变化时呈现一致的动态模式：
+1. **线性区**（|m| 小）：偏好 log-odds 随 m 近似线性增长
+2. **过渡区**：趋势明显变化
+3. **收敛区**：曲线平坦化、稳定
+
+效用 log-odds 在 m≈0 附近达到峰值，随 |m| 增大逐渐下降。
+
+## 激活流形假说 [[activation-manifold]]
+
+训练引起的激活流形 M_l：对稳定处理的输入，中间层激活高概率位于低维流形 M_l 上或其附近。
+
+**有效性衰减**：导向干预将隐藏状态沿固定方向平移。小幅平移可定向调整行为；大幅平移将表示推出训练期间学到的高密度区域，导致解码器失配 → 效用崩溃。
+
+定量建模使用 Rational Quadratic (RQ) 衰减形式：
+
+$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$
+
+### 偏好 log-odds 拟合
+
+$$\log\frac{P(p_p|\tilde{h}(m))}{1-P(p_p|\tilde{h}(m))} = (\alpha_p m + \beta_p) D_p(m) + b_p$$
+
+- α_p 测量导向方向与偏好向量的对齐度
+- 拟合 R² > 0.95（绝大多数设置）
+
+### 效用 log-odds 拟合
+
+$$\log\frac{P(u|\tilde{h}(m))}{1-P(u|\tilde{h}(m))} = \beta_u D_u(m) + b_u$$
+
+- 对于偏好导向方向，ω_u^T Δh ≈ 0，效用仅通过有效性衰减受影响
+- 拟合 R² > 0.97
+
+## SPLIT 方法 [[split-steering]]
+
+基于机制分析，提出 **S**teering with **P**reference–Uti**L**ity **I**nterven**T**ion：
+
+- **效用损失**：$L_{util} = \lambda_p L_p + \lambda_n L_n$ — 同时在正负样本上训练以保持通用能力
+- **偏好损失**：$L_{pref} = γ·σ(θ - (L_n - L_p))$ — Hinge margin loss 最大化偏好 gap
+- **联合目标**：$L = L_{util} + L_{pref}$
+
+在三种干预形式（Local Weight、LoRA、Vector）上均优于 SFT 和 RePS 基线。
+
+## 核心贡献
+
+1. **统一动态权重更新视角** — 首次将权重微调、LoRA、激活导向纳入同一数学框架
+2. **Preference–Utility 解耦分析** — 在共享 log-odds 尺度上定量刻画控制效果
+3. **激活流形假说** — 将 utility 退化解释为偏离流形导致的有效性衰减
+4. **SPLIT 优化方法** — 联合优化偏好与效用，在多种干预形式上取得最优
+
+## 关键概念
+
+- [[dynamic-weight-updates]] — 统一的动态权重更新公式
+- [[preference-utility-analysis]] — 偏好与效用的解耦分析框架
+- [[activation-manifold]] — 训练引起的低维激活流形
+- [[validity-decay]] — 偏离流形导致的有效性衰减
+- [[steering-dynamics]] — 三阶段统一导向动态
+- [[split-steering]] — SPLIT 联合优化方法
+- [[preference-log-odds]] — 偏好 log-odds 度量
+- [[intervention-multiplier]] — 干预乘子 m
+- [[lora]] — 低秩适配
+- [[activation-steering]] — 激活导向
+- [[linear-representation-hypothesis]] — 线性表示假说
+
+## 相关
+
+- [[representation-validity]] — 表示有效性与解码器匹配
+- [[model-steering]] — 模型导向控制的更广泛文献
--- a/papers/yang-skillopt-2026.md
+++ b/papers/yang-skillopt-2026.md
@@ -8,11 +8,13 @@ authors: ["Yifan Yang", "Ziyang Gong", "Weiquan Huang", "Qihao Yang", "Ziwei Zho
 venue: "arXiv cs.AI, May 2026"
 tags: ["agent", "skill", "optimization", "text-space", "self-evolving"]
 sources: ["https://arxiv.org/abs/2605.23904"]
+code: "https://github.com/microsoft/SkillOpt"
 ---

 # SkillOpt: Agent Skill 的文本空间优化器

 > **论文**: Yang et al. (Microsoft, SJTU, Tongji, Fudan, 2026) — arXiv:2605.23904
+> **代码**: https://github.com/microsoft/SkillOpt (MIT, 3.7k stars)

 ## 核心问题

--- a/papers/zhang-reconciling-sft-interaction-2026.md
+++ b/papers/zhang-reconciling-sft-interaction-2026.md
@@ -0,0 +1,88 @@
+---
+title: "Reconciling Contradictory Views on the Effectiveness of SFT in LLMs"
+created: 2026-06-03
+updated: 2026-06-03
+type: paper
+arxiv_id: "2605.17967"
+authors:
+  - "Junpeng Zhang"
+  - "Lei Cheng"
+  - "Guoxi Zhang"
+  - "Hua Cai"
+  - "Qing Xu"
+  - "Quanshi Zhang"
+tags: [SFT, interactions, LLM, fine-tuning, interpretability, overfitting, early-stopping]
+source: "https://arxiv.org/abs/2605.17967"
+---
+
+# Reconciling Contradictory Views on the Effectiveness of SFT in LLMs
+
+**从交互视角调和 LLM 中 SFT 有效性的矛盾观点**
+
+## 核心问题
+
+监督微调（[[supervised-fine-tuning|SFT]]）在小型深度神经网络上广泛有效，但在大语言模型上却表现出不一致甚至有害的效果——有时提升指令遵循能力，有时导致过拟合和泛化能力下降。本文追问的核心科学问题是：**什么内部因素导致了 SFT 在不同 LLM 上效果的不一致？**
+
+## 方法论：交互基解释
+
+作者采用 [[interaction-based-explanation|交互基解释]] 框架，将 LLM 的推理模式分解为一组 [[and-or-interactions|AND-OR 交互]]。每个交互表示输入 token 之间的短语模式——例如 "laws"、"of"、"motion" 三个词共同激活一个交互，为预测 "acceleration" 贡献 +0.41 的置信度。
+
+通过构建由 AND-OR 交互组成的 [[logical-model-interaction|逻辑模型]]，可以以高保真度逼近 LLM 的输出分数。这种分解使得追踪 SFT 过程中推理模式的演变成为可能。
+
+## 三类交互分析
+
+作者将 SFT 过程中的交互变化分为三类：
+
+| 类型 | 定义 | 特征 |
+|------|------|------|
+| **[[interaction-types-sft|Removed（被移除）]]** | SFT 前存在，训练中被消除 | 高阶、非泛化、正负效应相互抵消（噪声） |
+| **[[interaction-types-sft|Preserved（被保留）]]** | SFT 前后始终存在 | 低阶、泛化性强、未抵消效应比例高（可靠信号） |
+| **[[interaction-types-sft|Newly Emerged（新涌现）]]** | SFT 中新习得 | 早期涌现的较可靠；后期涌现的类似噪声 |
+
+## 核心发现：SFT 的两阶段动力学
+
+### 第一阶段：极短的去噪阶段（~1000 步）
+
+- LLM 在此阶段**主要移除噪声交互**，而非学习新的可靠交互
+- 被移除的交互具有三个噪声特征：高阶复杂、跨模型不泛化（[[interaction-generalizability|γ ≈ 0]]）、正负效应抵消（[[uncancelled-interaction-effects|ρ ≈ 0]]）
+- 仅少量低阶交互被保留下来
+- 这是 SFT **唯一有效的阶段**
+
+### 第二阶段：漫长的过拟合阶段
+
+- LLM 开始大量学习新的交互，但这些交互大多是**高阶、非泛化的噪声模式**
+- 此阶段涌现的交互与训练-测试损失差距增大强相关
+- 继续训练几乎不再移除交互
+- **持续微调主要引入过拟合模式**
+
+这一两阶段动力学的关键洞察被称为 [[sft-denoising-stage|SFT 去噪阶段]] 理论。
+
+## 保留交互是推理支柱
+
+作者进一步验证了 [[preserved-interactions-backbone|保留交互作为推理支柱]] 的假说：
+
+1. **未抵消效应**：保留交互的 ρ 值最高（正负效应很少抵消），而移除和新涌现的交互 ρ ≈ 0
+2. **单交互贡献**：保留交互和早期涌现交互对目标 token 预测的贡献远大于其他交互
+3. **独立推理能力**：仅使用保留交互进行预测时，测试交叉熵损失最低——甚至优于仅使用新涌现交互
+
+> **结论**：SFT 的本质不是"教会 LLM 新能力"，而是"清除预训练中的噪声模式，并巩固已有的可靠推理骨架"。
+
+## 实验验证
+
+- **模型**：Qwen2.5-3B/7B-Instruct, Llama-2-7B-Chat, Llama-3-8B-Instruct, Gemma-3-4B-it
+- **数据集**：GoEmotions, Unilaw-R1-Data, Databricks-Dolly-15k
+- **微调方法**：LoRA
+- **交互提取**：AND-OR 分解 + LASSO 稀疏化
+
+## 实践启示
+
+1. **[[sft-early-stopping|SFT 早停策略]]**：交互可作为一种原则性的早停信号——当去噪阶段结束（交互移除趋于饱和），应立即停止训练
+2. **数据规模反思**：收集大规模 SFT 数据的边际价值有限——极少量样本就足以完成去噪
+3. **诊断工具**：交互演变为监控 SFT 提供了可解释、可验证的量化指标
+
+## 与现有工作的关联
+
+- 与 [[supervised-fine-tuning]] 的争议性文献对话（SFT 提升指令遵循 vs. SFT 导致灾难性遗忘）
+- 与 [[interaction-based-explanation]] 的理论基础衔接（Ren et al., Chen et al.）
+- 与 [[lora]] 参数高效微调实践兼容
+- 与 [[rlhf]]、[[dpo]] 等替代性后训练范式构成对照