20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,63 @@
---
title: "Review: Advances in Temporal Point Processes"
created: 2026-06-16
updated: 2026-06-16
type: review
tags: [temporal-point-process, survey, review]
sources: [raw/papers/advances-temporal-point-processes-2026.md]
---
# Review: Advances in Temporal Point Processes
**论文**Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
**作者**Feng Zhou, Quyu Kong, Jie Qiao, Cheng Wan, Yixuan Zhang, Ruichu Cai
**发表**TMLR, 2026年6月
**添加时间**2026-06-16
---
## 🎯 核心概念
1. **[[temporal-point-process|时间点过程]]** — 建模连续时间事件序列的随机过程,两种等价参数化:条件密度函数 vs 条件强度函数
2. **[[conditional-intensity-function|条件强度函数]]** — TPP 的核心数学工具,描述给定历史下事件发生的瞬时速率
3. **[[hawkes-process|Hawkes 过程]]** — 自激励过程,"过去事件增加未来事件概率"
4. **[[neural-temporal-point-process|神经 TPP]]** — RNN → Transformer → Diffusion 三代架构演进,四种参数化选择
5. **[[bayesian-nonparametric-tpp|贝叶斯非参数 TPP]]** — GP 先验替代固定参数形式,兼具灵活性与不确定性量化
6. **[[llm-based-temporal-point-process|LLM TPP]]** — LLM-inspired (PromptTPP/LAMP) vs Direct Integration (TPP-LLM/Language-TPP)
7. **[[marked-temporal-point-process|标记 TPP]]** — 多类型事件Granger 因果发现的数学基础
8. **[[granger-causality-tpp|Granger 因果发现]]** — 从事件序列推断事件类型间的因果结构
9. **[[intensity-free-modeling|Intensity-free 建模]]** — 绕过强度积分的参数化策略(密度/累积强度/逆 CDF
10. **[[diffusion-based-tpp|扩散 TPP]]** — 非自回归生成,批量化长程预测
11. **[[tpp-training-methods|TPP 训练方法]]** — MLE vs Wasserstein vs NCE vs Score Matching 的统计-计算权衡
12. **[[tpp-applications|TPP 应用]]** — 社交网络、金融、神经科学、流行病学的事件预测与因果发现
---
## 🔗 概念网络
- **核心连接**`temporal-point-process ↔ conditional-intensity-function ↔ hawkes-process`(核心理论三角)
- **三条发展路线**
- Bayesian: `temporal-point-process → bayesian-nonparametric-tpp → hawkes-process`
- Neural: `hawkes-process → neural-temporal-point-process → intensity-free-modeling, diffusion-based-tpp`
- LLM: `neural-temporal-point-process → llm-based-temporal-point-process`
- **应用链**`marked-temporal-point-process → granger-causality-tpp → tpp-applications`
- **新增概念**13 个(全部为该论文引入的新领域概念)
- **交叉引用密度**:平均 ~3 个 outbound link per page
---
## 📚 Wiki 集成
- 新增页面15 个1 论文 + 13 概念 + 1 Review
- 新增 raw 存档1 个
- 链接完整性100% 无断链
- 总规模811 → 826 页
- 全新领域TPP时间点过程——此前 wiki 未覆盖
---
## 💡 关键洞察
1. **三重范式统一框架**:本文首次将 Bayesian、Neural、LLM 三代 TPP 方法放在同一框架下系统比较——Bayesian 强调不确定性与严谨推理Neural 强调表达力与可扩展性LLM 则开启了多模态语义理解的新维度
2. **LLM-based TPP 标志范式转变**TPP 研究正从"事件发生过程建模"(概率建模)转向"带时间戳事件数据理解"(语义理解)——这不仅仅是新模型家族,而是研究议程的扩展

View File

@@ -0,0 +1,41 @@
---
title: "Auditing Agent Harness Safety — Review"
created: 2026-06-05
type: review
sources: [[liu-auditing-agent-harness-safety]]
---
# 📌 基本信息
- **论文**: Auditing Agent Harness Safety
- **作者**: Chengzhi Liu\*, Yichen Guo\* et al. (UC Santa Barbara, UC Berkeley, Stanford, UW-Madison, Microsoft Research)
- **arXiv**: [2605.14271](https://arxiv.org/abs/2605.14271) (v2, May 2026)
- **添加时间**: 2026-06-05
# 🎯 核心概念
1. **[[agent-harness-safety|Agent 骨架安全]]** — 将安全评测对象从"回答"转向"骨架执行轨迹",解决输出级评测的根本盲区
2. **[[boundary-compliance|边界合规 (L1)]]** — 工具/资源/信息流三层边界约束,揭示资源粒度的精确控制是当前最薄弱环节
3. **[[execution-fidelity|执行忠实度 (L2)]]** — 只检查最终输出不够;中间步骤的有效性和检查点完成必须可验证
4. **[[system-stability|系统稳定性 (L3)]]** — 在间接注入/模糊目标/工具错误下 L1+L2 是否保持?揭示高能力≠高稳定性
5. **[[hidden-audit-channel|隐藏审计通道]]** — 证据必须来自 Agent 不可见、不可操纵的独立通道
6. **[[safety-adherence-rate|安全遵守率 (SAR)]]** — 乘法性安全门控:完成但越权 = 低分,能力与安全强制联合评估
# 🔗 概念网络
- **核心连接**: [[agent-harness-safety]] ↔ [[harnessaudit]] ↔ [[trajectory-auditing]] ↔ [[hidden-audit-channel]]
- **三层框架**: [[boundary-compliance]] ↔ [[execution-fidelity]] ↔ [[system-stability]]
- **多 Agent 安全**: [[multi-agent-safety]] ↔ [[information-flow-control]] ↔ [[resource-access-control]]
- **已有网络连接**: 与 [[agent-harness-engineering]]、[[agent-safety-evaluation]]、[[harness-as-policy]]、[[harness-as-action-verifier]]、[[policy-constrained-execution]]、[[execution-harness]] 等已有概念形成密集交叉引用
# 📚 Wiki 集成
- **新增页面**: 15 个1 raw + 1 论文 + 13 概念)
- **链接密度**: 核心概念平均 5+ 个链接,与既有概念网络紧密衔接
- **总规模**: 604 → 618 页 (+14)
# 💡 关键洞察
**能力与安全的负相关是最反直觉的发现**Gemini 3.1 Pro 任务完成率不是最高但凭借最强的安全合规拿下了最高总分Claude Opus 4.6 完成率更高但安全更弱。这意味着更强的模型能力会自动导致"为了完成任务而穿越边界"的行为——安全不是能力的副产品,而是需要独立设计的约束层。
**Harness design sets the ceiling for safe deployment**骨架设计决定了安全上限——无论模型多强如果骨架不实施执行级约束安全无法保证。Claude Code 相比 OpenClaw 同步提升了完成度和安全性,说明好的骨架设计可以同时优化两者。

View File

@@ -0,0 +1,50 @@
---
title: "Bellman-Taylor Score Decoding 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**BellmanTaylor Score Decoding for MDPs with State-Dependent Feasible Action Sets
- **作者**Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST
- **领域**cs.AI / Operations Research / DRL
- **arXiv**2606.10979v1 (2026-06-09)
# 🎯 核心概念
1. **[[bellman-taylor-score-decoding|BTSD]]** — Taylor 展开 Q 函数 → 得分驱动的动作选择
2. **[[latent-score-mdp|潜在得分 MDP]]** — 诱导后的标准化 MDP动作空间 = 欧氏空间
3. **[[action-decoder|动作解码器]]** — 前向优化求解器,分离学习与可行性
4. **[[state-dependent-feasible-action-sets|状态依赖可行动作集]]** — OR MDP 的核心挑战
5. **[[queueing-network-control|排队网络控制]]** — 主要验证场景
# 🔗 概念网络
```
State-Dependent Feasible Action Sets
↓ (DRL 接口不兼容)
Taylor Expansion of Q-Function
Continuation Value Function → Post-Action Configuration
Action Decoder → Latent-Score MDP → BTSD-PPO
Queueing Network Control (验证)
```
**关联已有知识**:通过 [[reinforcement-learning]](已存在)与 wiki 的 RL 子网络连接。这是 wiki 中首个覆盖**OR × DRL 接口问题**的论文集成。
# 📚 Wiki 集成
- **新增页面**10 个1 论文 + 8 概念 + 1 raw
- **总规模**869 → 879 页(+10
- **全新应用领域**:运筹学 MDP 的 DRL 接口标准化
# 💡 关键洞察
1. **"标准化接口而非动作空间"是优雅的工程设计**BTSD 不尝试嵌入 A(s) 到 DRL而是为 DRL 创造一个标准化的代理空间。这是一种"适应中间层"的设计哲学。
2. **解码器无需求导是实用的关键**:与 differentiable optimization 不同BTSD 解码器仅在前向传播中使用。这对带整数变量的 OR 问题至关重要——组合优化器天然不可微。
3. **Taylor 展开提供了性能保证的可分解性**:最优性差距被严格分解为结构近似误差(仅依赖 MDP 属性)和算法学习误差(依赖 DRL 算法)——这种"问题难度与算法能力的解耦"是理论分析的理想形态。

View File

@@ -0,0 +1,63 @@
---
title: "窃取无穷的数学家 — 康托尔与狄德金的历史真相"
created: 2026-06-07
type: review
source: "Quanta Magazine / 环球科学 2026年6月刊"
---
# Review: 窃取无穷的数学家
📌 **基本信息**
- **文章标题**窃取无穷的数学家The Man Who Stole Infinity
- **作者**:约瑟夫·豪利特 (Joseph Howlett)
- **来源**Quanta Magazine / 环球科学 2026年6月刊
- **领域**:数学史、科学社会学、学术伦理
- **添加时间**2026-06-07
---
🎯 **核心概念**
1. **无穷层级体系 ([[infinity-hierarchy]])** — 康托尔和狄德金共同奠定的发现无穷并非单一概念存在可数与不可数等严格层级。这是数学4000年历史上最重要的发现之一。
2. **代数数的可数性 ([[algebraic-numbers-countability]])** — 狄德金1873年证明代数数集合与整数等大可数。这一证明被康托尔纳入1874年论文而未给出处。2025年失踪信件的发现提供了确凿证据。
3. **数学优先权争议 ([[mathematical-priority-disputes]])** — 科学发展往往是协作的产物,但主流叙事偏好单一英雄。"孤独天才"的神话遮蔽了狄德金在无穷理论中的关键角色150年。
4. **学术伦理的时代表迁** — 康托尔的"特洛伊木马"策略用代数数证明作掩护隐藏狄德金贡献避开克罗内克尔审查反映了19世纪学术界的生存智慧与道德灰色地带。
---
🔗 **概念网络**
**核心连接**[[georg-cantor]] ↔ [[richard-dedekind]] ↔ [[infinity-hierarchy]] ↔ [[algebraic-numbers-countability]] ↔ [[set-theory-history]]
**扩展网络**:连接了 6 个新概念和 4 个已有历史人物/事件概念
**网络特征**:以康托尔-狄德金双边关系为轴心,辐射至集合论史、无穷理论、学术伦理三个方向,形成紧密的概念三角形
**修复断链**0 — 全部选用英文 kebab-case 文件名,无中文 wikilink 目标
---
📚 **Wiki 集成**
- **新增页面**11 个1 article + 1 raw archive + 9 concepts
- **文章页面**[[cantor-stole-infinity]]
- **概念页面**[[georg-cantor]], [[richard-dedekind]], [[infinity-hierarchy]], [[countable-uncountable-infinity]], [[algebraic-numbers-countability]], [[emmy-noether]], [[leopold-kronecker]], [[mathematical-priority-disputes]], [[set-theory-history]]
- **链接密度**:新页面间共 32 个交叉引用
- **网络完整**:✅ 100% 无断链
- **总规模**646 页
---
💡 **关键洞察**
**1. 历史叙事与数学真理的张力**
这篇文章揭示的不仅是单个署名瑕疵,而是一个结构性现象:数学史更喜欢"孤独天才"的故事而非"两人相遇于湖畔"。狄德金150年无英文传记康托尔成为民谣般的英雄——这种叙事不对称本身就是一个需要被修正的偏见。费雷罗斯一语中的"这种故事总是谎言。"
**2. 从"谁先发现"到"我们如何知道"**
2025年戈斯在哈雷大学找到失踪信件的戏剧性过程两次往返10小时火车、电话停用、德国学术界的抵触本身就是一个关于科学证据如何浮出水面的案例研究。它提醒我们我们知道的数学史总是不完整的档案的偶然性决定了哪些真相能被还原。

View File

@@ -0,0 +1,59 @@
---
title: "Claw-SWE-Bench 论文集成 Review"
created: 2026-06-15
updated: 2026-06-15
type: review
tags: [review, benchmark, coding-agent]
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
---
# Claw-SWE-Bench Review
📌 **基本信息**
- 论文Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
- 作者Mengyu Zheng et al.16 位TokenRhythm / Infinigence AI / CityU HK / 北大 / 上海交大 / 北京交大 / 清华)
- arXiv2606.12344v1 | 日期2026-06-10 | 领域cs.LG, cs.CL
- 资源:[GitHub](https://github.com/opensquilla/claw-swe-bench) | [HuggingFace](https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)
---
🎯 **核心概念**
1. **Agent Harness (Claw)** — 将 LLM 包装为自主编程系统的工程层。不是模型本身,而是 agent 循环、工具接口、停止策略等。Claw-SWE-Bench 首次将其作为受控实验变量。
2. **Adapter Protocol** — 标准化的 5 方法生命周期接口,将异构 harness 连接到统一评测管道。Full Adapter 将 Apply Failed 从 69.1% 降至 <1.5%Pass@1 19.1% 跃升至 73.4%。
3. **Cost-Aware Benchmarking** 将总 API 代价墙钟时间缓存命中率作为与 Pass@1 并列的第一等评测轴GPT 5.5 ($1,399) DeepSeek-V4 Flash ($8.2) 在相似准确率下代价相差 170
4. **Pareto Frontier** 在准确率-代价二维平面上识别非支配操作点使"略低准确率但极低代价"的系统获得可解释的定位
5. **Claw-SWE-Bench Lite** 80-instance 代价感知子集保留 full-350 Pass@1 尺度和排序稳定性运行代价仅 22.9%。
6. **Future-Commit Cleanup** 移除 non-Python 实例中 base_commit 后的 Git 历史清理后 Pass@1 从不上涨Claude Opus 4.7 下降最多8.0 pp揭示不同模型对信息泄露的利用差异
---
🔗 **概念网络**
- **核心连接**`agent-harness` `adapter-protocol` `patch-based-evaluation` `swe-bench`
- **评测轴连接**`cost-aware-benchmarking` `pareto-frontier-evaluation` `claw-swe-bench-lite`
- **公平性连接**`future-commit-cleanup` `bare-adapter`诊断基线
- **交互效应**`harness-model-interaction` 连接 model 轴与 claw
- **实体引用**`openclaw` 作为参考 claw
📊 **新增页面**12 1 论文 + 11 概念
📊 **链接密度**核心概念平均 3-4 个出站链接
**网络完整**100% 无断链
📈 **总规模**799 810
---
💡 **关键洞察**
1. **Harness 是第一序变量,不是实现细节。** Harness 选择在固定模型下产生 12.5-27.4 pp Pass@1 差距——足以重排 Leaderboard此前所有 SWE-bench 衍生工作均未将 harness 作为受控变量
2. **Adapter 不是工程包装,是评分可靠性的必要条件。** 直接输出 unified-diff 文本的脆弱性导致 69.1% patch 无法 apply——这不是模型能力问题是输出合约问题
3. **准确率与代价的脱耦是 benchmark 设计问题。** 仅报告 Resolved Rate 会隐性奖励更长探索和更高预算将代价设为第一等轴使小团队和学术组的参与成为可能——DeepSeek-V4 Flash 以不到 $10 达到 70.3% Pass@1
4. **Future-Commit 清理揭示模型对信息泄露的异构敏感性。** 不同模型利用"未来信息"的程度差异巨大1-8 pp控制这一变量对于公正比较至关重要

View File

@@ -0,0 +1,45 @@
---
title: "Review: Dead Directions — Geometric Singular Learning"
created: 2026-06-10
type: review
paper: "[[dead-directions-geometric-singular-learning]]"
---
# Review: Dead Directions — Geometric Singular Learning
📌 **基本信息**
- 论文Dead Directions: Geometric Singular Learning
- 作者Tejas Pradeep Shirodkar (IIIT Hyderabad)
- 领域:奇异学习理论 × 信息几何 × 深度学习理论
- arXiv2606.05957v1 [cs.LG, stat.ML], 2026 | 139 pages
🎯 **核心贡献**
1. **Dead Direction 桥接原语** — 同一向量同时是 Amari 的 Fisher 退化方向和 Watanabe 的奇异集切向量。KL 阶可在原始坐标中从 Fisher 曲率衰减率恢复。
2. **无需广中平祐消解** — 传统 SLT 需要 blow-up对百万参数网络不可行本文在原始参数坐标中直接计算 lambda。
3. **单 Checkpoint 读取 Watanabe 三元组** — 从一次前向+反向传播计算 (lambda, m, nu),无需 MCMC 后验采样。
4. **DDCAdam 优化器** — 标准 Adam 破坏奇异几何DDCAdam 保持 G-等变性,使训练轨迹中的 SLT 信号可读。
🔗 **概念网络**
```
Dead Direction ←→ KL Order ←→ RLCT (lambda)
↓ ↓
Fisher Metric (Info Geometry) → Singular Learning Theory
↓ ↓
DDCAdam ←→ Gauge Quotient Watanabe's Triple (lambda,m,nu)
```
📊 **Wiki 集成**
- 新增页面9 个1 论文 + 8 概念)
- 链接完整性100%
- 总规模729 → **738**
💡 **关键洞察**
这篇 139 页的论文解决了一个困扰领域二十年的问题:**SLT 和信息几何使用几乎不相交的词汇描述同一参数空间**。Dead Direction 是第一个在两个框架中具有明确双重解读的数学对象KL 阶是第一个可被两方计算的桥接不变量。
实践意义巨大:首次使 SLT 分析在**实际规模的深度网络**上可行——从单个 checkpoint 的梯度信息中直接提取泛化理论的不变量,无需 blow-up无需后验采样。这对理解大模型的泛化行为可能具有基础性影响。

View File

@@ -0,0 +1,51 @@
---
title: "Review: Flex4DHuman — 无几何先验的多视角视频扩散"
created: 2026-06-13
updated: 2026-06-13
type: review
tags: [computer-vision, video-generation, 4d-reconstruction, paper-review]
sources: [raw/papers/cheng-flex4dhuman-2026.md]
---
# Flex4DHuman Review
📌 **基本信息**
- **论文**: Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
- **作者**: Jen-Hao Cheng (UW), Yipeng Wang*, Hao Zhang, Gengshan Yang (World Labs), Jenq-Neng Hwang (UW)
- **领域**: cs.CV / cs.GR · 多视角视频生成 · 4D 重建
- **arXiv**: 2606.13655 · **发布日期**: 2026-06-11
- **添加时间**: 2026-06-13
🎯 **核心概念**
1. **[[five-axis-positional-encoding|五轴位置编码]]** — 将 RoPE 从 (t, h, w) 扩展为 (time, view, SE3, h, w),零额外参数实现相机感知
2. **[[se3-relative-camera-encoding|SE(3) 相对相机编码]]** — 基于 [[prope|PRoPE]] 将连续相机几何直接注入注意力,替代 ray-map 等需额外通道的方案
3. **[[clean-conditioning-mask|清洁条件掩码]]** — 36 通道布局区分参考/目标 token训练推理统一
4. **[[three-stage-curriculum-training|三阶段课程训练]]** — 轴分离式渐进:位姿跟随 → 动态参考 → 时间展开
5. **[[temporal-rollout|时间滚动展开]]** — 分块推理 + 清洁历史重叠,支持任意长度生成
6. **[[teacher-forced-history|教师强制历史]]** — 训练时用 GT 帧作历史条件,消除推理时的分布偏移
7. **[[multi-view-captioning|多视角字幕]]** — Gemini 3 Flash 生成 25k 条外观描述,侧重服饰/体型/动物
8. **[[monocular-video-to-4d|单目视频到 4D]]** — 端到端管线:生成 → 分割 → FreeTimeGS → 场景组合
9. **[[4d-gaussian-splatting|4D 高斯泼溅]]** — 动态高斯泼溅表示,应用的最终输出格式
🔗 **概念网络**
- **核心连接**: flex4dhuman ↔ five-axis-positional-encoding ↔ se3-relative-camera-encoding ↔ prope ↔ rope
- **训练链**: three-stage-curriculum-training → teacher-forced-history → temporal-rollout
- **数据链**: multi-view-captioning → flex4dhuman
- **应用链**: flex4dhuman → monocular-video-to-4d → 4d-gaussian-splatting → freetimegs
- **外部连接**: [[flow-matching|Flow Matching]]、[[rotary-position-embedding|RoPE]](已有概念)
- **新增概念**: 10 个prope 桥接已有 [[rotary-position-embedding|RoPE]]
📚 **Wiki 集成**
- **新增页面**: 13 个1 论文 + 10 核心概念 + 1 占位 FreetimeGS + 1 Review
- **总规模**: 762 → 774 页
- **链接密度**: 核心概念平均 3.5 个出站链接
- **网络完整**: ✅ 100% 无断链
💡 **关键洞察**
1. **"不去显式建模几何"是一条被验证的新范式**。Flex4DHuman 不使用骨骼、深度、法线或渲染几何,仅靠 PRoPE 将相机几何注入注意力——结果反而超越了依赖 GT 骨骼的 Diffuman4D+1.21 dB PSNR。这说明在生成式重建中**让注意力本身理解几何**比给它提供显式几何信号更有效——前者不会引入估计误差的级联放大。
2. **架构最小修改原则的力量**。整个 Flex4DHuman 对 Wan 2.1 的架构修改**仅限于自注意力的位置编码重新分配**44 维时间 → 16+8+20无额外层、无额外参数。这使得 1.3B 预训练视频先验得以完整保留,仅通过 position encoding 的语义重映射就实现了跨模态(视频→多视角)的迁移。这种"外科手术式"的微调策略值得关注——它暗示大模型的多模态扩展可能不需要架构重构,而只需要更智能的输入编码。
3. **跨物种泛化暗示"几何无关"的真正含义**。模型在人类数据上训练后,仅靠微调即可泛化到动物类别(跨物种 PSNR 仅降 1.8 dB。这验证了无几何先验设计的核心假设只要相机位姿编码得当相同架构可以服务于任何可变形主体的多视角生成——不需要按类别定制的人体模型。

View File

@@ -0,0 +1,49 @@
---
title: "Geometric SAE 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders
- **作者**Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington
- **领域**cs.LG / Mechanistic Interpretability
- **arXiv**2606.07007v1 (2026-06-05)
# 🎯 核心概念
1. **[[sparse-autoencoder|SAE]]** — 机制可解释性的核心工具:过完备稀疏字典解耦叠加表征
2. **[[polysemanticity|多义性/单义性]]** — 神经元可解释性的核心挑战与目标
3. **[[concept-learning|概念学习三层]]** — detection → separation → approximation几何条件递进
4. **[[formal-concept-analysis|FCA]] / [[concept-lattice|概念格]]** — 组织神经元-概念多对多关系的数学框架
5. **[[absolute-gating|绝对 vs 相对门控]]** — SAE 架构分类决定几何性质
# 🔗 概念网络
**核心链路**
```
Superposition → Polysemanticity → SAE → Absolute/Relative Gating
↓ ↓
Linear Rep. Hypothesis ←→ Hyperplane Arrangements
↓ ↓
Concept Learning ←→ Formal Concept Analysis → Concept Lattice
Feature Splitting / Absorption / Family
```
**与已有知识的关联**:通过 [[linear-representation-hypothesis]](已存在)和 [[superposition]](新增)与现有 wiki 概念形成桥梁。这是 wiki 中**首个覆盖机制可解释性**的论文集成。
# 📚 Wiki 集成
- **新增页面**14 个1 论文 + 12 概念 + 1 raw
- **总规模**855 → 868 页(+13review 不计入)
- **全新子领域**机制可解释性mech interp——此前 wiki 零覆盖
# 💡 关键洞察
1. **概念 = 集合** 是最优雅的起点:放弃"概念 = 方向"的线性假设,将概念直接定义为数据点集合。这一简单抽象使整个 SAE 分析具有几何清晰性——概念学习就是集合对齐、神经元解释就是集合表征。
2. **三层学习层次是工程指南**Detection覆盖、Separation独占、Approximation紧致包围——每一层对应不同的应用场景和几何条件。Theorem 5.8(近似 ↔ 凸性)是限制 SAE 能力的根本瓶颈。
3. **概念格解决了解释的模糊性**FCA 揭示概念学习与神经元解释是**不对偶**的——两者不必一致。概念格组织多对多关系,避免强行选择"最佳单一匹配"带来的信息损失。

View File

@@ -0,0 +1,91 @@
---
title: "Review: LeCun 论 LLM 的边界与未来架构"
created: 2026-06-08
type: review
subject: lecun-llm-boundary-future
---
# 📌 Review: LeCun 论 LLM 的边界与未来架构
**基本信息**
- 来源Datawhale 公众号 (https://mp.weixin.qq.com/s/Zau10ioTWzhj0KOImpasNg)
- 作者:徐虎、李盛康、蒋银河、黎又榛
- 类型:工程教程 / 体系化综述
- 添加时间2026-06-08
- 所属项目Datawhale DIY-LLM
---
## 🎯 核心概念
1. **[[jepa|JEPA]]** — 联合嵌入预测架构,在抽象表征空间(非像素/非token做预测的自监督学习范式是 LeCun 世界模型路线的核心方法论
2. **[[world-model-lecun|LeCun 世界模型]]** — "能让智能体预测自身行动后果的事物",服务规划而非生成,区别于 Dreamer/Sora 等生成式路线
3. **[[vla-vision-language-action|VLA]]** — 视觉-语言-动作模型LeCun 判断"基本失败",四个层面:可靠性、数据成本、泛化、规划
4. **[[representation-collapse|表征坍缩]]** — JEPA 最难问题,模型将所有输入映射为同一向量来"作弊"。三条解决路线中 SIGReg 最被看好
5. **[[sigreg|SIGReg]]** — Cramér-Wold 定理驱动的防坍塌方案,强制嵌入分布匹配各向同性高斯分布,将防坍塌从工程启发式转化为数学问题
6. **[[objective-driven-ai|目标驱动AI]]** — 替代 LLM 的安全架构,行为通过优化代价函数驱动,"从构造上无法违反"安全约束
7. **[[tapestry-federated|Tapestry]]** — 联邦式全球训练贡献者共享参数向量而非数据对主权AI的工程回应
8. **[[leworldmodel|LeWorldModel]]** — 首个端到端 JEPA 世界模型15M 参数Push-T 成功率 96%,规划速度比 DINO-WM 快 50×
---
## 🔗 概念网络
**核心链路**
```
LLM 结构性缺陷
├── [[action-consequence-prediction|预测行动后果]] ← [[jepa|JEPA]] 解决
└── [[multi-step-planning|多步规划]] ← [[world-model-lecun|世界模型]] + [[objective-driven-ai|目标驱动AI]] 解决
JEPA 技术树
├── [[abstract-representation-space|抽象表征空间]](预测空间)
├── [[representation-collapse|表征坍缩]](核心挑战)
│ ├── [[vicreg|VICReg]]3项损失
│ └── [[sigreg|SIGReg]]1个超参← 当前最优
└── [[leworldmodel|LeWorldModel]](工程验证)
安全路径分叉
├── LLM: RLHF/宪法AI → 概率性软约束 → 可越狱
└── [[objective-driven-ai|目标驱动AI]]: 代价函数优化 → 架构硬约束 → "从构造上无法违反"
开源生态
├── [[data-wall|数据墙]] → 公开文本枯竭
├── [[tapestry-federated|Tapestry]] → 私域数据联邦接入
└── [[sovereign-ai|主权AI]] → 认知主权诉求
```
**扩展连接**
- JEPA ↔ [[internal-world-model|涌现式世界模型]]CTM对比视角
- [[data-wall|数据墙]] ↔ [[model-collapse-step|模型崩塌]](合成数据风险)
- [[world-model-lecun|LeCun 世界模型]] ↔ [[jepa|JEPA]] ↔ [[objective-driven-ai|目标驱动AI]](三位一体架构)
---
## 📚 Wiki 集成详情
- **新增15 页**1 文章 + 14 概念)
- **总规模**647 → **662 页**
- **链接密度**:核心概念平均 8+ 个交叉引用
- **文章类别**`articles/`(工程教程/公众号文章)
- **来源关联**[[raw/articles/lecun-llm-boundary-future-2026|raw 存档]]
---
## 💡 关键洞察
1. **LLM 的成功正是它的局限所在**:离散 token + 可计算预测目标让 LLM 强大,但也锁死了它的能力边界——真实世界不是有限离散符号集。这解释了为什么"加强版 LLM"RAG/CoT/ToolUse无法跨越"理解物理世界"这道墙。
2. **水瓶类比的深层含义是信息论级别的**:像素空间的条件熵 $H(pixel|context)$ 极高——不是在工程上不方便而是在信息论上不可约。JEPA 选择在语义空间做预测不是 taste 问题是必然。这从根本上否定了生成式世界模型Sora 类)的技术路线。
3. **安全问题的范式分叉**目标驱动AI vs LLM 的安全差异不是在"做得更好",而是两个完全不同的安全范式——前者是架构上的"不可能",后者是概率上的"不太可能"。这个差异的价值在越狱攻击面前会被急剧放大。
4. **这篇文章的真正价值**:不是介绍了什么新技术,而是把 LeCun 散落在访谈/推文/论文中的碎片化观点连成了一条完整的逻辑线,让读者能看清"他为什么这么想"而不仅是"他想了什么"。
---
## 📎 阅读路径
- 快速了解 → [[lecun-llm-boundary-future|文章主页面]]
- 技术深挖 → [[jepa|JEPA]] → [[sigreg|SIGReg]] → [[leworldmodel|LeWorldModel]]
- 安全视角 → [[objective-driven-ai|目标驱动AI]]
- 生态视角 → [[tapestry-federated|Tapestry]] → [[sovereign-ai|主权AI]]

View File

@@ -0,0 +1,70 @@
---
title: "Review: LeWorldModel (arXiv:2603.19312)"
created: 2026-06-08
type: review
subject: maes-leworldmodel-2026
---
# 📌 Review: LeWorldModel (arXiv:2603.19312)
**基本信息**
- 论文: LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
- 作者: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
- 机构: Mila/UdeM, NYU, Samsung SAIL, Brown University
- 领域: 世界模型 / JEPA / 端到端学习
- 添加时间: 2026-06-08
---
## 🎯 核心概念
1. **端到端 JEPA 世界模型** — 首个无需 stop-gradient、EMA、预训练编码器的纯端到端 JEPA15M 参数从原始像素稳定训练
2. **[[sigreg|SIGReg]] 防坍塌** — 通过 Cramér-Wold 定理强制嵌入匹配各向同性高斯分布1 个超参 λ 替代 PLDM 的 6 个
3. **[[pldm|PLDM]] 对比** — 唯一端到端替代方案暴露的 VICReg 局限7 项损失互相拉扯、调参困难LeWM 将其压缩为 2 项 + 单调收敛
4. **AdaLN 动作注入** — 自适应层归一化零初始化渐进注入避免剧烈改变预测器行为BatchNorm 投影头保 SIGReg 优化
---
## 🔗 概念网络
**已建立连接(复用已有概念)**:
```
[[maes-leworldmodel-2026]]
├── [[leworldmodel]](概念页)
├── [[jepa]](架构基础)
├── [[sigreg]](防坍塌核心)
├── [[pldm]](新增,唯一对比基线)
├── [[representation-collapse]](核心挑战)
├── [[abstract-representation-space]](预测空间)
├── [[world-model-lecun]](理论框架)
├── [[objective-driven-ai]](下游应用)
└── [[lecun-llm-boundary-future]]Datawhale 梳理文章)
```
---
## 📚 Wiki 集成
- **新增**: 3 页1 论文 + 1 概念 + 1 review
- **复用概念**: 6 个leworldmodel, jepa, sigreg, representation-collapse, world-model-lecun, abstract-representation-space
- **总规模**: 663 → **665 页**
- **双向链接**: 概念页 `leworldmodel` ↔ 论文页 `maes-leworldmodel-2026`
---
## 💡 关键洞察
1. **"化繁为简"是这篇论文的最大贡献**不是提出了什么全新架构而是证明了在自监督学习领域中防坍塌可以不需要那么多工程技巧——一个数学上干净的分布匹配SIGReg+ 2 项损失就够了。这种"化繁为简"的价值在于**工程可复现性**和**理论可分析性**。
2. **LeCun 的战略性推荐**:这篇是 LeCun 在访谈中唯一推荐的具体世界模型论文。15M 参数的小模型、单 GPU 训练,透露出他对路径的务实判断——不是要做一个巨大的通用世界模型,而是先验证"端到端 JEPA 能稳定训练"这个最基本的工程前提。这正是 LeCun 给团队定的"12-18 个月内工业场景演示"路线图中的里程碑。
3. **速度优势的更深意义**48× 比 DINO-WM 快不只是工程上的锦上添花——它意味着 JEPA 路线在规划效率上有**结构性优势**token 数减少 200×这在需要实时规划的应用场景机器人、工业控制中是决定性差异。
---
## 📎 阅读路径
- 15 分钟了解 → [[maes-leworldmodel-2026|论文主页]]
- 技术细节 → [[jepa]] → [[sigreg]] → [[leworldmodel]]
- 对比视角 → [[pldm]]PLDM 的 VICReg 路线困境)
- 宏观视角 → [[lecun-llm-boundary-future]]LeCun 完整判断)

View File

@@ -0,0 +1,54 @@
---
title: "Life-Harness — Runtime Harness Adaptation 论文 Review"
created: 2026-06-11
updated: 2026-06-11
type: review
tags: [review, agent, harness, runtime-adaptation]
sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md]
---
# Life-Harness Review
## 📌 基本信息
- **论文**: "Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents"
- **作者**: Tianshi Xu†, Huifeng Wen†, Meng Li (Peking University)
- **领域**: Agent Systems / Runtime Engineering (cs.AI)
- **arXiv**: 2605.22166v2, 2026-05-21
- **代码**: github.com/Tianshi-Xu/Life-Harness
- **Wiki 集成时间**: 2026-06-11
## 🎯 核心概念
1. **[[runtime-harness-adaptation|Runtime Harness Adaptation]]** — 不更新模型权重,而是进化运行时接口层:将训练轨迹中的反复失败转化为结构化的接口干预
2. **[[lifecycle-aware-harness|Lifecycle-Aware Harness]]** — 将 Agent 交互分解为四个生命周期阶段(契约→技能→实现→调控),每层部署专门干预
3. **[[runtime-interface-adaptation|Runtime Interface Adaptation]]** — 与 Parameter Adaptation 互补的 Agent 改进范式:适配接口而非参数
4. **[[cross-model-harness-transfer|Cross-Model Harness Transfer]]** — 在 Qwen3-4B 上训练的 Harness 直接复用给其他 17 个模型,证明环境侧结构的可迁移性
## 🔗 概念网络
- **核心连接**: runtime-harness-adaptation ↔ lifecycle-aware-harness ↔ 四层架构contract → skill → realization → regulation
- **已有网络连接**: 与 [[agent-harness-engineering]]、[[agent-harness-mini]] 形成 broader harness 谱系
- **新增连接**: 10 个新概念全部互链,无断链
- **跨模型概念**: harness-evolution → cross-model-harness-transfer 形成"进化→复用"闭环
## 📊 实验亮点
- **7 环境 × 18 模型**: τ-bench / τ²-bench / AgentBench
- **116/126 提升** (92.1% 组设置提升)
- **平均相对增益 88.5%**
- **跨模型迁移**: Qwen3-4B → 17 个模型,无需重新训练
- **互补性**: Qwen2.5-32B + Harness 超越其工具微调衍生版 xLAM2
## 📚 Wiki 集成
- 新增页面:**11 个**1 论文 + 10 概念)
- 链接密度:核心概念平均 4.2 个 outbound 链接
- 网络完整:**100% 无断链**
- 总规模750 → **761 页**
## 💡 关键洞察
1. **接口工程 > 模型训练**(在确定性领域):当大量 Agent 失败源于工具契约误解、格式错误、轨迹退化时,最有效的改进路径是修复接口层而非提升模型推理能力。这不仅仅是成本优化——是对问题根源的正确归因。
2. **环境侧结构是跨模型通货**Harness 的跨模型可迁移性揭示了确定性 Agent 环境中存在一套与模型无关的"规则接口"——将其从隐性期望转为显性约束,是 Agent 系统工程的杠杆点。

View File

@@ -0,0 +1,77 @@
---
title: "IntrAgent — Content-Grounded Literature Retrieval Review"
type: review
created: 2026-06-04
arxiv: "2604.22861"
paper: "ma-intragent-2026"
---
# 📌 基本信息
- **论文**: IntrAgent: An LLM Agent for Content-Grounded Information Retrieval through Literature Review
- **作者**: Fengbo Ma*, Zixin Rao*, Xiaoting Li, Zhetao Chen, Hongyue Sun, Yiping Zhao, Xianyan Chen†, Zhen Xiang† (University of Georgia)
- **arXiv**: 2604.22861
- **领域**: LLM Agent, Information Retrieval, Scientific Literature QA
- **添加时间**: 2026-06-04
- **代码**: https://github.com/FengboMa/IntrAgent
- **数据集**: https://huggingface.co/datasets/IntrAgent/IntraBench
# 🎯 核心概念
1. **[[intraview|IntraView]]** — 内容锚定的科学文献信息检索任务:给定完整论文 + 查询 → 提取信息,严格限定于文献内容,信息缺失时明确承认
2. **[[intragent|IntrAgent]]** — 首个解决 IntraView 的 LLM Agent采用「心智仿生」设计模拟人类阅读行为
3. **[[section-ranking|Section Ranking]]** — 利用结构知识([[hierarchy-preservation|层级保持]])的推理驱动章节排序,替代 RAG 的语义相似度方法
4. **[[iterative-reading|Iterative Reading]]** — 渐进式阅读:按序访问章节 → 提取细节 → [[sufficiency-check|充分性检查]] → 继续或终止
5. **[[intrabench|IntraBench]]** — 315 实例 × 5 STEM 领域的首个 IntraView 基准LLM 锚定多选题评估
6. **[[content-grounded-retrieval]]** — 内容锚定作为忠实性的硬约束范式
# 🔗 概念网络
## 核心连接
```
IntraView ──→ IntrAgent ──→ Section Ranking ──→ Hierarchy Preservation
│ │
└──→ Iterative Reading ──→ Sufficiency Check
└──→ Cross-Section Synthesis
```
## 外部连接
- **→ [[rag|RAG]]**: 传统 baseline — 结构与语义的根本差异
- **→ [[hallucination-mitigation]]**: 充分性检查作为显式幻觉闸门
- **→ [[scientific-literature-qa]]**: IntraView 在科学文献 QA 谱系中的定位
- **→ [[content-question-answering|CQA]]**: IntraView 所属的任务范式
- **→ [[mineru]]**: PDF 预处理管道的核心工具
- **→ [[agent-harness-engineering]]**: Agent 设计方法论视角
## 网络扩展
- 新增概念页: **15 个**(含 3 个占位: content-question-answering, faithfulness-in-ai, pdf-processing
- 连接已有概念: [[rag]], [[hallucination-mitigation]], [[agent-harness-engineering]], [[distractor-context]]
# 📚 Wiki 集成
- **新增页面**: 17 个1 论文主页面 + 1 raw + 15 概念)
- **链接完整性**: 100%0 断链)
- **总规模**: 591 → **603 页** (+2.0%)
- **跨引用密度**: 核心概念平均 4.2 个外链
# 💡 关键洞察
### 1. 「结构」是科学文献检索中被低估的维度
RAG 把科学论文当作平面文本片段,忽略了章节层级蕴含的关键信息——"方法论"和"讨论"在语义相似度上可能接近但它们对查询的意义完全不同。IntrAgent 的层级保持+推理排序解决了这个问题。这不是"更好 embedding"能解决的——需要结构感知推理。
### 2. 显式幻觉闸门 > 隐式可靠性
充分性检查是 IntrAgent 最优雅的设计。传统 RAG 的可靠性是隐式的——依赖检索质量+模型能力。而充分性检查在每个阅读步骤后显式问"够不够?不够就继续读"。这是一个简单但强大的范式:把质量控制的闸门前置,而不是事后验证。
### 3. 「心智仿生」是 Agent 设计的有效路径
IntrAgent 不是凭空设计新机制,而是系统地模仿人类阅读行为:先翻目录 → 挑相关章节 → 边读边判断 → 够了就停。这种 design-by-behavioral-analogy 在 Agent 设计中证明有效——13.2% 的跨领域提升不是来自更复杂的模型,而是来自更符合人类认知的流程。
---
*Review generated: 2026-06-04 | 小赫*

View File

@@ -0,0 +1,55 @@
---
title: "Review: Minimax-Optimal Policy Regret in POMGs"
created: 2026-06-10
type: review
paper: "[[minimax-policy-regret-pomg]]"
---
# Review: Minimax-Optimal Policy Regret in POMGs
📌 **基本信息**
- 论文Minimax-Optimal Policy Regret in Partially Observable Markov Games
- 作者Raman Arora (Johns Hopkins University)
- 领域:多智能体 RL 理论 × 在线学习 × 部分可观测性
- 发表ICML 2026 [cs.LG, stat.ML]
- 添加时间2026-06-10
🎯 **核心贡献**
1. **POMG 的完整理论处理** — 首次在部分可观测马尔可夫博弈中建立策略后悔的 minimax 最优界
2. **因果分解** — 将 OOM 算子分解为世界通道 W_h 和对手聚合 G_h使世界估计和对手控制可独立处理
3. **Epoch-based 乐观 MLE** — 几何增长 epoch + 累积置信集 + 乐观策略选择;仅 O(log T) 次策略切换 → 传输成本 polylog
4. **匹配上下界** — O(sqrt(d_E * T)) 上界 vs Omega(sqrt(d_E * T)) 下界 → 在 sqrt(T) 和 Eluder 维度依赖性上均为 minimax 最优
🔗 **概念网络**
```
POMG ←→ Policy Regret ←→ Adaptive Adversary
↓ ↓ ↓
POMDP Minimax Optimality Posterior-Lipschitz
↓ ↓
OOM → Causal Decomposition Fading Memory
↓ ↓
Eluder Dimension ← Weak Revealing
Epoch-based Optimistic MLE
```
- 核心链:[[partially-observable-markov-game|POMG]] → [[policy-regret|Policy Regret]] → [[minimax-optimality|Minimax]]
- 方法链:[[observable-operator-model|OOM]] → [[causal-decomposition-pomg|因果分解]] → [[epoch-based-optimistic-mle|乐观 MLE]]
- 结构条件:[[posterior-lipschitz-adversary|Posterior-Lipschitz]] + [[weak-revealing-condition|Weak Revealing]]
📊 **Wiki 集成**
- 新增页面13 个1 论文 + 12 概念)
- 链接完整性100% 无断链
- 总规模695 → **708**
💡 **关键洞察**
论文的理论优雅性在于因果分解这一结构洞察——将纠缠的世界动力学和对手响应干净地分离为两个独立可处理的组件。这一分解使得 POMG 的学习复杂性成为世界复杂度d_Theta和对手复杂度d_Psi的简单加和且两者均被 [[eluder-dimension|Eluder 维度]]统一量化。
从实用角度看,几何增长 epoch 的策略切换成本控制(仅 O(log T) 次切换)是一个极具工程价值的技巧——在 regret 分析和实际部署中,策略切换的代价都是不可忽略的。

View File

@@ -0,0 +1,72 @@
---
title: "Review: One-Pass to Reason — 多轮推理的高效单遍微调"
created: 2026-06-02
type: review
paper: "[[goru-one-pass-to-reason-2025]]"
---
# Review: One-Pass to Reason
> 📌 将多轮推理训练的 N 遍前向传播压缩为单遍——Token 复制 + 分块稀疏注意力 → O(N³) → O(N²)
## 基本信息
- **论文**: One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
- **作者**: Ritesh Goru, Shanay Mehta, Prateek Jain (DevRev)
- **发表**: ICML 2025 Workshop — 3rd Workshop on Efficient Systems for Foundational Models
- **arXiv**: 2504.18246
- **代码**: [github.com/devrev/One-Pass-to-Reason](https://github.com/devrev/One-Pass-to-Reason)
- **数据集**: [MathChatSync Reasoning](https://huggingface.co/datasets/devrev-research/MathChatSync-reasoning)
- **添加时间**: 2026-06-02
## 核心概念
1. **[[one-pass-fine-tuning|One-Pass Fine-Tuning]]** — 通过 token 复制 + 自定义掩码实现单遍处理Theorem 2.1 证明 loss 与 N-Pass 完全等价
2. **[[token-duplication|Token Duplication]]** — 将 response token 复制为 ri_in上下文不看推理和 ri_out生成看推理
3. **[[block-sparse-attention|Block-Sparse Attention Mask]]** — 为不同 token 类型定制可见性规则的分块掩码
4. **[[multi-turn-reasoning|Multi-Turn Reasoning Training]]** — 区别于传统多轮对话的独特训练挑战
5. **[[visibility-constraint|Visibility Constraint]]** — 推理 token 对当前轮可见、对后续轮不可见的条件性可见需求
6. **[[position-id-discrepancy|Position ID Discrepancy]]** — 回复 token 在生成与上下文两种场景中的位置不一致问题
7. **[[k-pass-training|K-Pass Training]]** — N-Pass 与 1-Pass 之间的灵活连续统
8. **[[mathchatsync-reasoning|MathChatSync Reasoning]]** — 首个公开多轮推理数据集
## 概念网络
**核心连接**(论文直接贡献的概念链):
```
One-Pass Fine-Tuning
├── Token Duplication ──── Block-Sparse Attention Mask
│ └── FlexAttention
├── Visibility Constraint ─ Position ID Discrepancy
├── K-Pass Training (速度-内存权衡)
└── Multi-Turn Reasoning Training
└── MathChatSync Reasoning (数据集)
```
**扩展网络**(桥接已有知识库):
- → [[goru-one-pass-to-reason-2025|One-Pass to Reason]]
- → [[flex-attention|FlexAttention]](后端)
- → [[flash-attention|FlashAttention-2]](基线)
- → [[sequence-packing|Sequence Packing]](叠加优化)
- → [[deepseek-r1|DeepSeek-R1]](推理模型代表)
- → [[llama-factory|LLaMA-Factory]](实现框架)
- → [[qlora|QLoRA]](微调方法)
- → [[lora|LoRA]]
- → [[position-encoding|Position Encoding]]
6 个占位符概念已创建并入网。
## Wiki 集成
- **新增页面**: 15 个1 raw + 1 论文 + 8 核心概念 + 6 占位符)
- **链接密度**: 核心概念平均 4-6 个双向链接
- **网络完整**: 100% 无断链
- **总规模**: 546 → 561 页
## 关键洞察
1. **空间换时间的优雅实例**:多存一份 response+33% 内存)换来 O(N) 量级的加速。这在工程实践中是极好的 trade-off。
2. **问题本身比解法更值得关注**:多轮推理训练的"可见性约束 + 位置 ID 偏差"这一对偶挑战,是在推理模型普及后才暴露出来的真实痛点——此前没人认真对待,因为根本没有多轮推理数据集。
3. **K-Pass 提供了工程灵活性**:不是非黑即白的 1-Pass vs N-Pass而是一个连续统。对于生产环境K=2+21% 内存,+37% 加速)可能是最实用的配置。

View File

@@ -0,0 +1,50 @@
---
title: "OneReason Review — 生成式推荐的推理能力解锁"
created: 2026-06-10
type: review
tags: [review, onereason, recommendation, reasoning]
---
# OneReason Review — 生成式推荐的推理能力解锁
> arXiv:2606.06260 | OneRec Team (Kuaishou) | 2026-06-10 集成
## 📌 基本信息
- **论文**: OneReason Technical Report
- **作者**: OneRec Team (Kuaishou, 40+ 作者)
- **领域**: 推荐系统 × LLM 推理 | cs.IR, cs.AI, cs.CL
- **特色**: 工业级生成式推荐推理模型,快手多业务线部署验证
## 🎯 核心概念
1. **Perception-Cognition 双支柱** — 推荐推理需要感知itemic token 语义 grounding+ 认知(结构化 CoT缺一不可
2. **R0-R3 四层推理** — Perception → Derivation → Evolution → Recommendation从语义锚定到综合推荐决策
3. **Specialize-then-Unify RL** — 先单域专项 RL 释放 thinking 优势,再跨域统一,逆向于 LLM 的「先广泛后专项」
4. **溯因推理 (Abduction)** — 推荐推理本质是溯因不是演绎,从行为反推不可观测的用户意图
5. **Thinking Supervision Transfer** — CoT 监督数据可提升 non-thinking mode但机制未明压缩推理交互
## 🔗 概念网络
**核心连接**
```
onereason ↔ onerec ↔ generative-recommendation ↔ itemic-tokens
onereason ↔ perception-cognition-recommendation ↔ recommendation-reasoning
onereason ↔ recommendation-cot ↔ chain-of-thought
onereason ↔ specialize-then-unify-rl ↔ {rejection-sampling-fine-tuning, multi-teacher-on-policy-distillation}
```
**扩展网络**:连接了 13 个全新概念 + 更新 1 个已有概念 (chain-of-thought),建立了推荐推理与 LLM 推理的跨域桥接。
## 📚 Wiki 集成
- **新增页面**14 个1 论文 + 13 概念)
- **更新页面**1 个chain-of-thought 追加推荐 CoT 段落)
- **链接完整性**:✅ 100% 无断链
- **总规模**666 → **680 页**
## 💡 关键洞察
1. **推荐推理的独特性被系统性论证** — OneReason 不仅是工程报告,更是对「推荐为何需要自己的推理范式」的理论回答:纯 itemic token 无语义(需要 Perception、推荐无单一正确答案且意图不可观测需要 Abduction、多域下 thinking 优势脆弱(需要 Specialize-then-Unify
2. **工业实践与学术研究的罕见对齐** — 快手在短视频/直播/广告/电商四个真实业务线验证了 CoT 对推荐的价值,且将开源 8B 和 0.8B 模型。这种「工业验证 + 学术系统化 + 开源」的组合在推荐领域极为稀有。

View File

@@ -0,0 +1,43 @@
---
title: "Ortega PhD Thesis 集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**Uncertainty Estimation and Generalization Bounds for Modern Deep Learning
- **作者**Luis A. Ortega Andrés — PhD Thesis, UAM, 2026
- **导师**Daniel Hernández-Lobato
- **领域**cs.LG / Bayesian DL / Learning Theory
- **arXiv**2606.13818v1
# 🎯 核心贡献
**方法论三件套**
1. [[deep-variational-implicit-process|DVIP]] — 可扩展深度隐式过程 Bayesian 推断
2. [[variational-linearized-laplace-approximation|VaLLA]] — 变分线性化 Laplace 后验校准
3. [[fixed-mean-gaussian-process|FMGP]] — 冻结 DNN 均值 + GP 协方差校准
**理论统一**PAC-Chernoff 界在插值区间有效 → 解释 [[double-descent|双下降]]
# 🔗 概念网络
```
Bayesian DL → Implicit Processes → DVIP
↓ ↓
Function-Space Modeling → VaLLA, FMGP ← Gaussian Process
PAC-Bayesian Bounds → Generalization Bounds → Double Descent
```
# 📚 Wiki 集成
- **新增页面**12 个1 论文 + 10 概念 + 1 raw
- **总规模**902 → 913 页(+11
# 💡 关键洞察
1. **PAC-Chernoff 界在插值区间有效**是理论突破——传统界在 "训练误差 ≈ 0" 时退化Ortega 的大偏差分析在此区间仍提供非平凡信息。
2. **DVIP 的三赢**:比 DGP 快 10 倍 + 非高斯先验 + 深度架构兼容——隐式过程的 "无密度" 被变分推断巧妙规避。

View File

@@ -0,0 +1,43 @@
---
title: "Review: Predictive Representations for Scalable Multitask Deep RL"
created: 2026-06-10
type: review
paper: "[[predictive-representations-scalable-mtrl]]"
---
# Review: Predictive Representations for Scalable Multitask Deep RL
📌 **基本信息**
- 论文Representation Learning Enables Scalable Multitask Deep RL
- 作者Obando-Ceron, Li, Fujimoto, Bacon, Courville, Castro (Mila / McGill / Google DeepMind)
- 领域深度RL × 多任务学习 × 表征学习
- arXiv2606.05555v1 [cs.LG, cs.AI], 2026-06-04
🎯 **核心贡献**
1. **揭示 Scaling 瓶颈** — 纯 model-free RL 增大模型无收益甚至退化;加入预测表征后持续改善 → 表征质量是 scaling 的真正瓶颈
2. **MR.Q 超越 Newt** — model-free + 预测表征(无规划)在所有 10 个 MMBench 域上超越 world-model + 规划的 Newt baseline
3. **澄清 Model-Based 的收益来源** — 规划不是必需的,好处来自预测目标学习的表征
🔗 **概念网络**
```
Predictive Representation Learning → MR.Q Algorithm
↓ ↓
Representation Learning in RL → Multitask RL → Deep RL Scaling
↓ ↓
Auxiliary Predictive Objectives World Models RL → Model-Free RL
```
📊 **Wiki 集成**
- 新增页面9 个1 论文 + 8 概念)
- 链接完整性100%
- 总规模719 → **728**
💡 **关键洞察**
这篇论文的价值在于**拨开了 model-based RL 的迷雾**。Dreamer、TD-MPC2、Newt 等方法声称的好处一直被归因于"学习 world model + 规划",但 Obando-Ceron et al. 通过精巧的消融设计表明:**规划是无关的**——真正驱动性能的是预测目标提供的密集表征学习信号。
这对工程实践有直接指导:与其投入计算资源做潜空间 rollout不如把这些资源用于更好的辅助预测目标。MR.Q 的简单高效(比 Newt 更好的性能 + 更低的 wall-clock 时间)是 KISS 原则在 RL 中的胜利。

View File

@@ -0,0 +1,44 @@
---
title: "Review: Principled Uncertainty in Clinical AI"
created: 2026-06-10
type: review
paper: "[[principled-uncertainty-clinical-ai]]"
---
# Review: Principled Uncertainty in Clinical AI
📌 **基本信息**
- 论文Principled Uncertainty in Clinical AI: End-to-End Bayesian Modelling and Algorithmic Equity Auditing Across Multimodal Patient Data
- 作者Oladimeji Anthonio et al.Centre for Algorithmic Health Equity, Ibadan
- 领域:临床 AI × 贝叶斯深度学习 × 算法公平性
- arXiv2606.09789v1 [cs.CY]2026-06-08
- 添加时间2026-06-10
🎯 **核心概念**
1. **认知不确定性作为公平性信号** — 论文的核心论点:校准后的认知不确定性不是模型的缺陷,而是识别训练数据中代表性不足群体的**资源**。农村患者的不确定性比三级医院高 15.3%,而准确率仅差 2.9pp。
2. **端到端贝叶斯多模态管线** — 模态特定 VAE 编码器 → 精度加权融合 → 分解不确定性头(认知+随机),完整传播概率表示,而非事后附加。
3. **精度加权融合** — 利用各模态方差倒数作为权重缺失模态自动排除log sigma^2 = 10.0 → Lambda ≈ 0自然处理不完整临床数据。
4. **UEG/UDR 公平性度量** — 不确定性公平性差距 (UEG) 和不确定性差异比 (UDR) 将不确定性转化为可操作的公平性审计工具。
🔗 **概念网络**
- **核心连接**[[epistemic-uncertainty|认知不确定性]] ↔ [[uncertainty-equity-gap|UEG]] ↔ [[algorithmic-equity|算法公平性]] ↔ [[clinical-ai|临床 AI]]
- **方法链**[[variational-autoencoder|VAE]] → [[mc-dropout|MC Dropout]] → [[precision-weighted-fusion|精度加权融合]] → [[bayesian-deep-learning|贝叶斯深度学习]]
- **度量链**[[expected-calibration-error|ECE]] → [[uncertainty-disparity-ratio|UDR]] → [[uncertainty-equity-gap|UEG]]
- **全新增概念**12 个,全部通过链接完整性验证
📊 **Wiki 集成**
- 新增页面13 个1 论文 + 12 概念)
- 链接完整性100% 无断链
- 总规模694 页587 概念 + 50 论文 + 15 文章 + 42 Review
💡 **关键洞察**
这篇论文最有价值的贡献不是技术架构本身VAE+MC Dropout+多模态融合都是已知组件),而是**视角转换**:将不确定性从"需要最小化的局限"重新定义为"需要度量并采取行动的公平性信号"。效应量层级(设施 > SES > 年龄 > 性别)精确映射结构性健康不平等——不确定性差距实质上是在"测量不可见的不公平"。
临床意义直接:一个能可靠地说"我对这个患者不太确定"的 AI 系统,比一个对所有患者输出相同置信度点估计的系统,更公平、更值得信赖。

View File

@@ -0,0 +1,50 @@
---
title: "Pydantic 三件套 Review — 从校验库到 AI 基础设施"
created: 2026-06-10
type: review
tags: [review, pydantic, agent, observability]
---
# Pydantic 三件套 Review — 从校验库到 AI 基础设施
> 微信公众号 | 2026 | 2026-06-10 集成
## 📌 基本信息
- **文章**: Pydantic 三件套:从校验库到 AI 基础设施
- **来源**: 微信公众号
- **领域**: Python 工具链 × Agent 工程 × 可观测性
- **类型**: 工程实践/教程
## 🎯 核心概念
1. **pydantic-core (Rust 引擎)** — 校验性能 5-17× 提升,完全脱离 GIL多线程并发校验
2. **Logfire (OTel 可观测)** — 4 行代码接入SQL 查询 trace漂移检测在"第 32 次"就看到趋势
3. **Pydantic AI (类型安全 Agent)** — 类型从"报错器"变"编译器"tool schema 自动推断,全链路 trace
4. **strict/forbid/frozen 三配置** — 零成本防御LLM 输出场景强制推荐
5. **漂移检测** — 监控 LLM 输出结构随时间变化,在报错前看到趋势
## 🔗 概念网络
**核心连接**
```
pydantic-three-piece-suite ↔ pydantic ↔ {pydantic-core, logfire, pydantic-ai}
logfire ↔ {open-telemetry, drift-detection, agent-observability}
pydantic-ai ↔ {type-safety-in-agents, structured-output}
typeadapter ↔ pydantic-core
```
**桥接已有概念**:更新 [[agent-observability|Agent 可观测性]],建立 ETCLOVG 框架与 Pydantic 生态的连接。
## 📚 Wiki 集成
- **新增页面**10 个1 文章 + 9 概念)
- **更新页面**1 个agent-observability
- **链接完整性**:✅ 100% 无断链
- **总规模**681 → **749 页** (+10 直接新增)
## 💡 关键洞察
1. **校验需求的范式转移被文章抓住了**:从"校验人填的表单(错误模式稳定)"到"校验 LLM 生成的 JSON错误模式漂移"——这不仅是 Pydantic 的问题,是整个 AI 工程化的核心挑战。传统的"报一次错改一次"的思维必须升级为"看趋势、提前干预"的可观测思维。
2. **Pydantic 生态的独特价值不在单件,在联动**pydantic-core 提供速度、Logfire 提供可观测、Pydantic AI 提供类型约束——三件共享同一套类型定义,这意味着你在 API 层定义的校验规则,自动成为 Agent 的 tool schema 和 trace 的过滤条件。这种"定义一次,三处生效"的体验是独立工具拼凑无法提供的。

View File

@@ -0,0 +1,43 @@
---
title: "Review: ReLU Neuromanifolds — Fibers and Semi-algebraicity"
created: 2026-06-10
type: review
paper: "[[relu-neuromanifolds-semi-algebraicity]]"
---
# Review: ReLU Neuromanifolds — Fibers and Semi-algebraicity
📌 **基本信息**
- 论文On the fibers and semi-algebraicity of ReLU neuromanifolds
- 作者Axel Flinth, Stefano Mereta, Michele Pernice (KTH / WASP)
- 领域:神经代数几何 × 代数几何
- arXiv2606.02826v1 [math.AG], 2026
🎯 **核心贡献**
1. **否定性结果** — ReLU 神经流形**不是**权重空间的半代数商。这是对 [MSM+25] 研究纲领中一个开放性问题的明确回答。
2. **Honest 开子集** — 引入核心新概念参数空间中无隐藏对称性的区域。三种强度weakly honest / honest / strongly honest提供了精细的分析语言。
3. **Zariski 开性** — 对于浅层网络L=1最大 honest 开集是 Zariski 开集——比半代数更强的结论。
🔗 **概念网络**
```
Neuromanifold ←→ Neuroalgebraic Geometry ←→ Semi-algebraic Set
↓ ↓
Parametrization Map → Fiber of Parametrization → Honest Open Subset
↓ ↓ ↓
Scaling & Permutation → Hidden Symmetries ←→ Identifiability
```
📊 **Wiki 集成**
- 新增页面9 个1 论文 + 8 概念)
- 链接完整性100%
- 总规模709 → **718**
💡 **关键洞察**
这篇论文是 **neuroalgebraic geometry 纲领从多项式到 ReLU 的突破**。核心否定结果M_d 不是半代数商)澄清了神经流形的理论边界——我们不能期望一个"好"的半代数结构。但作者提供了建设性的替代方案pro-半代数结构(有限维逼近的极限)和 honest 开子集(可识别性成立的区域)。
猜想 2最大 honest 开集总是半代数)如果成立,将建立一个漂亮的对偶:神经流形整体结构复杂(非半代数商),但其"好"区域(无隐藏对称性)有可处理的几何结构。

View File

@@ -0,0 +1,45 @@
---
title: "RepMT-SAC 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer
- **作者**Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS
- **领域**cs.RO / Multi-Task RL
- **arXiv**2606.12890v1 (2026-06-11)
# 🎯 核心概念
1. **[[spectral-mdp-decomposition|谱 MDP 分解]]** — Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩,φ 任务不变w 任务特定
2. **[[task-invariant-representation|任务不变表征]]** — 对比式条件密度估计学习共享动力学
3. **[[rep-mt-sac|RepMT-SAC]]** — 两阶段 SAC上游学 φ,下游冻 φ 微调 w
4. **[[quadrotor-trajectory-following|四旋翼轨迹跟踪]]** — Legendre 多项式参数化的物理验证
# 🔗 概念网络
```
Spectral MDP Decomposition → Task-Invariant Repr (φ)
↓ ↓
Task Distribution (µ) → RepMT-SAC ← Soft Actor-Critic
↓ ↓
Task-Conditioned Policy → Upstream-Downstream Learning
Quadrotor Trajectory Following
```
**关联已有知识**:通过 [[multitask-rl]] 和 [[few-shot-learning]] 与已有 wiki 概念连接。
# 📚 Wiki 集成
- **新增页面**10 个1 论文 + 8 概念 + 1 raw
- **总规模**892 → 901 页(+9
- 新覆盖cs.RO / 机器人控制
# 💡 关键洞察
1. **φ 冻结后 Q 学习变成线性回归**是 RepMT-SAC 最优雅的工程特性——下游适应极快且极稳定,避免了深层 RL 在新任务上常见的训练不稳定。
2. **谱分解的推广是 subtle 但重要的**:将 w 从"固定向量"提升为"任务的显式函数" w(τ),使表示真正多任务化而不只是多任务共享参数。

View File

@@ -0,0 +1,59 @@
---
title: "Skills to Strategy Genes — Review 报告"
created: 2026-06-14
updated: 2026-06-14
type: review
tags: [review, agent, experience-reuse, representation]
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
---
# 📌 基本信息
- **论文标题:** From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution
- **作者:** Junjie Wang, Yiming Ren, Haoyang Zhang (清华大学, EvoMap)
- **领域:** cs.SE, cs.CL
- **arXiv ID:** 2604.15097v2
- **添加时间:** 2026-06-14
- **代码:** [skill2gep](https://github.com/EvoMap/skill2gep), [evolver](https://github.com/EvoMap/evolver)
# 🎯 核心概念
1. **[[strategy-gene|策略基因]]** — 紧凑(~230 tokens)的控制导向经验表示,不是技能的缩短版,而是对经验的不同抽象
2. **[[procedural-skill|过程技能]]** — 文档导向(~2,500 tokens)的经验包,为人类阅读和审查而优化
3. **[[gene-evolution-protocol|GEP 协议]]** — 将基因规范化为结构化可进化对象的协议层,定义 Gene/Capsule/Event 三层
4. **[[test-time-control|测试时控制]]** — 外部化表示在不修改模型参数下影响推理时行为
5. **[[experience-representation|经验表示]]** — 形式化框架r = phi(H),区分文档导向 vs 控制导向表示
6. **[[skill-probe|技能探针]]** — 系统性分析技能控制价值的稀疏性:仅 Workflow(+1.5pp) 正面Overview(-4.7pp) 强烈有害
7. **[[gene-probe|基因探针]]** — Gene 优势不来自 token 预算,来自策略层组织;结构鲁棒但内容敏感
8. **[[evolution-probe|进化探针]]** — Gene 作为进化载体优越:结构化 > 展平散文,失败警告 > 混合策略-失败
9. **[[experience-distillation|经验蒸馏]]** — 选择性压缩而非加性积累AVOID 项信号密度最高
10. **[[bounded-reuse|有界复用]]** — 互补 Gene 组合比冲突组合更有害(-6.1pp),复用有范围边界
11. **[[gene-bench|Gene-Bench]]** — 45 场景科学代码求解基准4,590 次试验
12. **[[critpt|CritPt]]** — 外部物理学推理基准gene-evolved 系统 +9.44pp
# 🔗 概念网络
- **核心三角:** [[strategy-gene]] ↔ [[procedural-skill]] ↔ [[experience-representation]] — 论文的核心对比轴
- **探针三角:** [[skill-probe]] → [[gene-probe]] → [[evolution-probe]] — 三层递进分析
- **协议层:** [[strategy-gene]] → [[gene-evolution-protocol]] — Gene 通过 GEP 成为可进化对象
- **实证层:** [[gene-bench]] + [[critpt]] — 内部消融 + 外部验证
- **复用原则:** [[experience-distillation]] + [[bounded-reuse]] — 如何积累 + 积累边界
- **扩展连接:** 连接了 12 个相关概念,与 [[test-time-control]] 和 [[experience-distillation]] 形成强链接
# 📚 Wiki 集成
- **新增页面:** 14 个1 论文 + 12 概念 + 1 raw 存档)
- **链接密度:** 核心概念平均 4-5 个双向链接
- **网络贡献:** 为 agent experience-reuse 子领域添加了系统性的表示对比分析
# 💡 关键洞察
**表示是一阶因素。** 这篇论文最强的论点是:在经验内容大致相同的情况下,**如何表示经验**是影响控制效果的决定性变量——不是经验量,不是经验质,而是经验的形式。这对整个 agent memory/skill 领域有深远的范式意义:我们可能一直在优化错误的东西。
**"更多 ≠ 更好"的证据链异常扎实。** 三个探针从不同角度证实:
- Skill 扩展为完整文档 → 退化
- 向 Gene 添加 API notes/examples → 退化
- 多个互补 Gene 组合 → 崩溃(-6.1pp)
- 朴素追加失败历史 → 稀释
这一系列收敛的证据使得"选择性压缩 > 加性积累"的结论具有很强的说服力。对实际系统设计的启示:经验管理系统的核心功能应该是**蒸馏和选择**,而非存储和检索。

View File

@@ -0,0 +1,37 @@
---
title: "Stem: Rethinking Causal Information Flow in Sparse Attention — Review"
created: 2026-06-05
type: review
sources: [[niu-stem-causal-sparse-attention]]
---
# 📌 基本信息
- **论文**: Stem: Rethinking Causal Information Flow in Sparse Attention
- **作者**: Lin Niu\*, Xin Luo\* et al. (Tencent / USTC)
- **arXiv**: [2603.06274](https://arxiv.org/abs/2603.06274) (March 2026)
- **实现**: Triton-based Block Sparse Attention kernel (开源)
# 🎯 核心概念
1. **[[causal-information-flow|因果信息流]]** — 揭示了稀疏注意力方法的根本盲区V₁ 参与所有输出V_N 仅参与最后一个;均匀 top-k 无视这一结构
2. **[[token-position-decay|TPD]]** — 位置依赖的稀疏预算:茎 token 高保留率保护递归依赖链,叶 token 激进稀疏化
3. **[[output-aware-metric|OAM]]** — 超越纯注意力分数的 token 选择:引入 Value 幅度信息,选择真正高贡献的 token
4. **[[stem-sparse-attention|Stem 框架]]** — TPD + OAM 双组件training-free即插即用可叠加到训练型稀疏模型上
# 🔗 概念网络
- **核心连接**: [[stem-sparse-attention]] ↔ [[causal-information-flow]] ↔ [[token-position-decay]] ↔ [[output-aware-metric]]
- **已有网络连接**: 与 [[sparse-attention-patterns]]、[[block-sparse-attention]]、[[native-sparse-attention]]、[[compressed-sparse-attention]] 形成图谱
- **经济视角桥梁**: 位置衰减本质上是"按 token 位置差异化定价计算资源"——与 [[token-economics|Token Economics]] 的要素替代理论暗合
# 📚 Wiki 集成
- **新增页面**: 6 个1 raw + 1 论文 + 4 概念)
- **总规模**: 630 → 635 页 (+5)
# 💡 关键洞察
**"Stem"这个名字精妙**——它将因果 Transformer 的 token 序列类比为植物结构stem承载养分向上输送leaf仅在末端局部作用。一旦茎被剪断整株枯萎剪一片叶子则只伤局部。这个生物学隐喻精确对应了数学上的递归误差传播剪枝 V₁ 触发指数级放大的全局失真。这不仅是优雅的类比,更是可严格推导的结构约束。
**训练型 vs 非训练型的关系翻转**:通常 training-free 方法被视为训练型方法的"降级替代"。但 Stem 反其道而行——它还可以**叠加**到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)上进一步压缩。这意味着 Stem 的贡献不是"取代训练型",而是提供了一个**正交的压缩维度**——信息流结构对齐——这是训练型方法没有优化的维度。

View File

@@ -0,0 +1,48 @@
---
title: "TARPO 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
- **作者**Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — 南开大学 TMCC
- **领域**cs.CL / LLM Reasoning / RL
- **arXiv**2606.05859v1 (2026-06-04)
- **代码**https://github.com/NKU-LITI/TARPO-master
# 🎯 核心概念
1. **[[latent-reasoning|潜在推理]]** — 将推理过程从离散 token 空间转移到连续表征空间,克服 CoT 的信息瓶颈
2. **[[action-routing-policy|动作路由策略]]** — 将推理模式选择hard/soft形式化为二元离散 RL 策略
3. **[[action-head-router|动作头路由器]]** — 仅 2d+2 参数的轻量级路由决策模块
4. **[[token-wise-routing|逐 token 路由]]** — 每步独立决定推理模式,细粒度自适应切换
5. **[[soft-token]] / [[hard-token]]** — 连续加权 embedding vs 离散 token 生成的两种推理单元
6. **[[hybrid-reasoning|混合推理]]** — 密集融合 vs 模式切换两条技术路线的系统对比
# 🔗 概念网络
**核心连接**TARPO → latent-reasoning → continuous-representation → soft-token / hard-token → token-wise-routing → action-routing-policy → action-head-router → GRPO → HRPO → COCONUT
**扩展网络**
- 方法对比链COCONUT纯潜在→ HRPO密集融合→ TARPO二值切换
- 探索路线reparameterization-exploration表征级↔ gumbel-softmax梯度估计
- 关联已有概念:[[chain-of-thought]]、[[grpo]]、[[group-relative-policy-optimization]]、[[reinforcement-learning]]
**新增概念**12 个(均为全新,此前 wiki 未覆盖 latent reasoning 这一子领域)
# 📚 Wiki 集成
- **新增页面**14 个1 论文 + 12 概念 + 1 raw 存档)
- **链接密度**:核心概念平均 6-8 个交叉引用
- **网络完整**:待验证
- **总规模**826 → 839 页(+13review 不计入)
# 💡 关键洞察
1. **结构探索 > 表征探索**TARPO 的核心洞察是,与其在连续表征内部注入噪声(重参数化路线),不如在推理模式选择层面引入随机性——这更直接地保留了离散 token 采样的天然探索能力
2. **最小侵入性设计**:动作头仅 2d+2 参数,不改动 Transformer 架构——这种"附加而非修改"的设计理念是可推广的模式,适用于其他需要在标准架构上增强决策能力的场景
3. **完整的方法谱系**:本次集成一次性构建了 latent reasoning 领域的完整概念网络——从 COCONUT起点到 HRPO密集融合到 TARPO二值切换以及重参数化的平行路线——为后续该方向的论文集成奠定了密集的链接基础

View File

@@ -0,0 +1,65 @@
---
title: "Ticks-to-Flows 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
- **作者**Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University
- **发表**ICLR 2026
- **领域**cs.LG / RL Theory / Stochastic Control
- **arXiv**2606.04275v1 (2026-06-02)
# 🎯 核心概念
1. **[[continuous-time-rl|连续时间 RL]]** — 将 RL 建模为连续时间 SDE与离散 ticks 范式相对
2. **[[stochastic-differential-equation|SDE]]** — 数学骨架,漂移项 + 扩散项 = 连续动态
3. **[[two-time-scale-process|双时间尺度过程]]** — 环境时间t+ 梯度时间(τ),标题 "Ticks to Flows" 的来源
4. **[[exploratory-dynamics|探索动力学]]** — 策略噪声 + 环境噪声的 SDE 模型,优于传统加性噪声
5. **[[linearized-neural-network|线性化 NN]] / [[neural-tangent-kernel|NTK]] / [[infinite-width-limit|无限宽度极限]]** — 使 NN 分析可行的理论"三件套"
6. **[[martingale-clt|鞅 CLT]]** — 证明梯度更新服从条件高斯分布的核心工具
# 🔗 概念网络
**核心连接**
```
SDE ← Wiener Process ← Itô Calculus
Control-Affine MDP → Continuous-Time RL ← Exploratory Dynamics
↓ ↓
Two Time-Scale Process ←────────── LQR (验证)
Infinite-Width Limit → NTK → Linearized NN → Martingale CLT
Theorem 6.1: 5-variable closed system
```
**与前次 TARPO 集成的关联**
- [[ticks-to-flows]] 提供 RL 的**连续时间理论视角**(从下往上)
- [[tarpo|TARPO]] 提供 RL 的**离散时间算法视角**(从上往下)
- 两者共享 [[reinforcement-learning|强化学习]]、actor-critic、策略梯度等基础概念
- 前者侧重数学严格性SDE/鞅),后者侧重工程有效性(路由/混合推理)
**概念类型覆盖**
- 随机分析三件套SDE + Wiener + Itô全新数学基础概念
- 深度学习理论三件套NTK + 线性化 NN + 无限宽度(全新理论概念)
- 控制理论LQR + 控制仿射 MDP全新应用概念
# 📚 Wiki 集成
- **新增页面**14 个1 论文 + 12 概念 + 1 raw 存档)
- **链接密度**:核心概念平均 5-7 个交叉引用
- **网络完整**:待验证
- **总规模**841 → 854 页(+13review 不计入)
- **全新数学子领域**随机分析SDE/Itô/Wiener/鞅 CLT——此前 wiki 未覆盖
- **与现有知识关联**:通过与 [[reinforcement-learning]]、[[neural-tangent-kernel|NTK]]、[[linear-quadratic-regulator|LQR]] 等已有页面形成桥梁
# 💡 关键洞察
1. **双时间尺度是最优雅的理论贡献**RL 难分析的根源是"数据分布随梯度变化"——双时间尺度公式化将这个问题转化为两个耦合 SDE 的分析t 快 τ 慢,结构上类似于随机近似中的 two-time-scale SA
2. **NTK 作为 RL 理论的桥梁**:监督学习理论中发达的 NTK 框架被首次系统地移植到 RL 中——Itô-Taylor 展开将状态表示为参数多项式NTK 提供局部几何,鞅 CLT 给出极限分布——三者结合构成了完整的分析链条
3. **封闭系统的美学**Theorem 6.1 的结论是"仅 5 个变量"——在高度非线性、无限维的 NN 空间中,学习动态降维到仅 5 个耦合方程。这是理论物理学家追求的那种优雅降维

View File

@@ -0,0 +1,42 @@
---
title: "Token Economics for LLM Agents — Review"
created: 2026-06-05
type: review
sources: [[chen-token-economics-llm-agents]]
---
# 📌 基本信息
- **论文**: Token Economics for LLM Agents: A Dual-View Study from Computing and Economics
- **作者**: Yuxi Chen\*, Junming Chen\* et al. (Zhejiang University CS + Economics, Alibaba Cloud)
- **arXiv**: [2605.09104](https://arxiv.org/abs/2605.09104) (May 2026)
- **类型**: Survey59页170+ 参考文献)
- **GitHub**: [SuDIS-ZJU/Token-Economics](https://github.com/SuDIS-ZJU/Token-Economics)
# 🎯 核心概念
1. **[[token-economics|Token Economics]]** — 首次系统性将经济学理论引入 Token 研究四维分类法Micro/Meso/Macro/Security
2. **[[token-as-economic-primitive|Token 作为经济原语]]** — Token 的三重角色:生产要素、交换媒介、计价单位——类比 kWh→GB→Token 的历史演进
3. **[[micro-level-token-economics|微观 Token 经济学]]** — 单 Agent 预算约束下的五维要素替代(推理/计算/记忆/工具/框架)
4. **[[meso-level-token-economics|中观 Token 经济学]]** — 多 Agent 协作摩擦:通信 token、编排 token、记忆共享 token 的联合优化
5. **[[macro-level-token-economics|宏观 Token 经济学]]** — 生态层面:拥堵外部性、生产者寡头竞争、监管政策
6. **[[token-security-economics|Token 安全经济学]]** — 对抗威胁作为内生经济约束——安全不是免费的,需要 token 预算
7. **[[differentiable-token-budgeting|可微分 Token 预算]]** + **[[token-market-dynamics|Token 市场动态]]** — 两大前沿方向
# 🔗 概念网络
- **核心连接**: [[token-economics]] ↔ [[token-as-economic-primitive]] ↔ [[agent-token-budget-optimization]]
- **四层联动**: [[micro-level-token-economics]] ↔ [[meso-level-token-economics]] ↔ [[macro-level-token-economics]] ↔ [[token-security-economics]]
- **已有网络连接**: 与 [[token-efficiency]]、[[cost-quality-speed-trilemma]]、[[token-superposition-training]]、[[token-duplication]]、[[agent-harness-safety]]、[[multi-agent-safety]] 形成交叉引用
- **前沿方向**: [[differentiable-token-budgeting]] ↔ [[token-market-dynamics]]
# 📚 Wiki 集成
- **新增页面**: 11 个1 raw + 1 论文 + 9 概念)
- **总规模**: 619 → 629 页 (+10)
# 💡 关键洞察
**"Token 是智能时代的 kWh"**——这个类比精炼而有力。正如工业时代的经济学围绕能源的分配和定价展开,智能时代的经济学将围绕 Token 的生产、分配和消费展开。这篇综述的核心贡献不是新技术,而是**提供了一个思考框架**,让人们能系统性地问正确的问题:不是"如何让 Agent 更强",而是"在给定 Token 预算下Agent 如何做出最优要素组合决策"。
**安全不是可选项,是成本项**——Security 层的经济视角特别重要。将安全防御的 Token 开销视为保险保费(确定性成本换取降低灾难性损失的概率),为安全预算提供了经济学正当性。这在 [[agent-harness-safety|Agent 骨架安全]] 和 [[token-security-economics|Token 安全经济学]] 之间建立了桥梁。

View File

@@ -0,0 +1,45 @@
---
title: "Weighted UAT 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**Weighted Universal Approximation of Differentiable Maps on Infinite-Dimensional Manifolds
- **作者**Philipp Schmocker, Josef Teichmann
- **领域**math.FA (cs.LG, math.PR, q-fin.MF, stat.ML)
- **arXiv**2606.09820v1 (2026-06-08) | 77页
# 🎯 核心概念
1. **[[functional-input-neural-networks|FNN]]** — 无限维输入 → 标量激活 → Banach 输出的神经网络
2. **[[universal-approximation-theorem|UAT]]** — 同时逼近函数值和方向导数
3. **[[nachbin-theorem|Nachbin 定理]]** — 带导数的 Stone-Weierstrass论文的核心理论贡献
4. **[[signature|Signature]]** — 路径空间上的多项式基,线性函数可逼近任意路径泛函含导数
# 🔗 概念网络
```
Weighted Spaces ← Nachbin Theorem → Bastiani Calculus
↓ ↓ ↓
Functional Input NN → Weighted UAT → Infinite-Dimensional Manifolds
Non-Anticipative Functionals → Signature → Rough Path Theory
```
**关联已有知识**:通过 [[stochastic-differential-equation|SDE]] 和 Wiener 过程与 Ticks-to-Flows 论文的随机分析概念形成桥梁。
# 📚 Wiki 集成
- **新增页面**10 个1 论文 + 8 概念 + 1 raw
- **总规模**880 → 889 页(+9
- **全新数学领域**逼近理论approximation theory+ 粗糙路径rough paths→ 此前 wiki 零覆盖
# 💡 关键洞察
1. **这是最高维度的论文集成**77 页的 math.FA 核心论文,证明链从 Tauberian 定理 → Nachbin 定理 → FNN UAT → Signature UAT → 非预期泛函 UAT。每一步都是严格的函数分析。
2. **"加权"是连接理论与应用的关键**:不限制在紧集上使得理论可应用于 SDE 和随机过程——这些对象天然产生非紧路径。加权分析是纯数学到应用的桥梁。
3. **Signature UAT 是优雅的推论**:签名的线性函数逼近路径泛函——这一结果本身就是已知的,但论文首次包括了方向导数的逼近,这对路径空间上的梯度基方法至关重要。

View File

@@ -0,0 +1,62 @@
---
title: "Review: Why Steering Works — 参数动态统一视角"
created: 2026-06-01
updated: 2026-06-01
type: review
tags: [review, steering, interpretability, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# 📌 基本信息
- **论文标题**Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
- **作者**Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang
- **机构**:浙江大学 + 阿里巴巴
- **arXiv**2602.02343 (v3, 2026-04-12)
- **代码**github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md
- **添加时间**2026-06-01
- **领域**LLM 可控性 / 可解释性 / 表示几何
# 🎯 核心概念
1. **[[dynamic-weight-updates]]** — 统一的动态权重更新公式,将 Local Weight、LoRA、Steering Vector 纳入同一仿射框架
2. **[[preference-utility-analysis]]** — 将控制效果解耦为偏好(目标概念对齐)和效用(任务连贯性),在共享 log-odds 尺度上测量
3. **[[activation-manifold]]** — 训练引起的低维激活流形假说:效用退化源于偏离流形导致的有效性衰减
4. **[[steering-dynamics]]** — 所有干预形式呈现统一的三阶段偏好动态:线性区 → 过渡区 → 收敛区
5. **[[split-steering]]** — SPLIT 联合优化方法,显式优化偏好同时保留效用
# 🔗 概念网络
**核心连接**
```
dynamic-weight-updates → preference-utility-analysis → activation-manifold
↓ ↓ ↓
intervention-multiplier preference-log-odds validity-decay
↓ ↓
steering-dynamics ← ← ← ← ← ← ← ← ← ← ← ← ← representation-validity
split-steering → 优化 preference + utility 的折衷
```
**扩展网络**
- 连接了 [[lora]]、[[activation-steering]]、[[linear-representation-hypothesis]] 三个基础概念
- 新建了 [[steering-vector]]、[[model-steering]]、[[controlled-text-generation]]、[[representation-space]] 四个占位符
- 论文页面实现了 15 个 wikilink 的密集交叉引用
# 📚 Wiki 集成
- **新增页面**18 个1 论文 + 16 概念 + 1 Review
- **论文页面**[[xu-why-steering-works]] — Why Steering Works — 语言模型参数动态的统一视角
- **链接密度**:论文页面 11 个出链,核心概念页面平均 4-6 个出链
- **总规模**528 → 546 页
# 💡 关键洞察
**1. "一切干预皆权重更新"**
这篇论文的核心贡献在于**统一视角的力量**。传统上权重微调、LoRA 和激活导向被视为不同范式,但统一公式 $h_{i+1} = (W + m_1\Delta W)h_i + (b + m_2\Delta b)$ 揭示了它们的本质一致——仅在 ΔW 和 Δb 的更新方式上不同。这种统一性不仅是数学上的优雅重组,更催生了统一的动态分析。
**2. 激活流形假说——从经验现象到几何可预测**
最深刻的洞察是效用退化的机制解释:导向并非"破坏模型",而是将激活**推出训练形成的流形**。这解释了为什么小 m 线性有效、为什么效用总在 m≈0 处最优。RQ 衰减模型将抽象的几何直觉转化为可拟合的定量形式R² > 0.95)——这是可解释性工作中少见的高质量理论-实验对接。
**3. 对 AI 安全与控制的影响**
这篇论文与 wiki 中已有的 [[hyperagents]]、[[clawless-ai-agent-security]]、[[skillopt]] 形成互补:安全性工程常需"控制模型行为",而本文提供了理解控制效果与代价的**定量语言**。SPLIT 优化目标可直接融入安全导向的训练管线。

View File

@@ -0,0 +1,91 @@
---
title: "Review: Reconciling Contradictory Views on SFT in LLMs — 交互视角"
created: 2026-06-03
updated: 2026-06-03
type: review
paper: "[[zhang-reconciling-sft-interaction-2026]]"
---
# 📌 基本信息
- **论文标题**Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective
- **作者**Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, Quanshi Zhang
- **机构**上海交通大学、北京通用人工智能研究院BIGAI、UniDT
- **arXiv ID**2605.17967 | **领域**cs.AI | **时间**2026-05-18
- **添加时间**2026-06-03
# 🎯 核心概念
| # | 概念 | 定义 |
|---|------|------|
| 1 | [[interaction-based-explanation\|交互基解释]] | 将 DNN 推理逻辑分解为 AND-OR 交互原语的可解释性框架 |
| 2 | [[and-or-interactions\|AND-OR 交互]] | 两种基本交互类型AND全变量同时存在激活和 OR任一变量存在激活 |
| 3 | [[interaction-types-sft\|三类交互]] | Removed被消除的噪声、Preserved保留的推理骨架、Newly Emerged新涌现 |
| 4 | [[sft-denoising-stage\|SFT 去噪阶段]] | SFT 呈现两阶段动力学:极短去噪阶段(~1000步→ 漫长的过拟合阶段 |
| 5 | [[interaction-generalizability\|交互泛化性]] | γ 指标衡量交互是否跨不同架构 LLM 一致存在 |
| 6 | [[uncancelled-interaction-effects\|未抵消交互效应]] | ρ 指标衡量交互正负效应抵消后剩余的有效贡献 |
| 7 | [[interaction-order\|交互阶数]] | 交互涉及的输入变量数量——低阶更可靠,高阶多为噪声 |
| 8 | [[logical-model-interaction\|交互逻辑模型]] | 由 AND-OR 交互构建的可解释模型,能以高保真度逼近 LLM 输出 |
| 9 | [[sft-early-stopping\|SFT 早停策略]] | 基于交互演变的早停:当去噪阶段结束(交互移除趋于饱和)时即停止 |
| 10 | [[preserved-interactions-backbone\|保留交互作为推理支柱]] | 验证了保留交互构成 LLM 推理的核心骨架——大部分预测效应来自这个小子集 |
# 🔗 概念网络
**核心连接**
```
interaction-based-explanation
↙ ↘
and-or-interactions logical-model-interaction
↓ ↓
interaction-types-sft ←── interaction-order
sft-denoising-stage ⟷ interaction-generalizability ⟷ uncancelled-interaction-effects
preserved-interactions-backbone ⟶ sft-early-stopping ⟶ supervised-fine-tuning
```
**扩展网络**:连接了 6 个已有概念lora, rlhf, dpo, shapley-values, catastrophic-forgetting, in-context-learning均为新创建的占位符页面
**修复断链**0 个断链
# 📚 Wiki 集成
- **新增页面**18 个1 论文 + 10 核心概念 + 6 占位符概念 + 1 Review
- **链接密度**:核心概念平均 5.2 个出链
- **网络完整**100% 无断链
- **总规模**:从 562 → 584 页(+22 页,+3.9%
# 💡 关键洞察
### 洞察 1SFT 的本质是"去噪"而非"教学"
这篇论文最大的贡献是**颠覆了对 SFT 的根本认知**。传统观点认为 SFT 是在 LLM 中"注入新能力"——教它遵循指令、适应特定领域。但交互视角揭示了一个截然不同的画面:
- SFT 的**有效窗口极窄**~1000 步以内)
- 在此窗口内LLM 主要在做一件事:**清除预训练中的噪声交互**
- 几乎不学习真正可靠的新交互
这意味着:**LLM 在预训练阶段就已经具备了推理所需的核心交互模式**。SFT 的角色不是"教师",而是"清洁工"——扫除噪声,让已有的推理骨架显现出来。
### 洞察 2"保留交互作为推理支柱"对 AI 能力来源的重新审视
作者验证了保留的少量低阶交互就足以支撑目标 token 预测——仅用保留交互计算时测试损失最低。这与 "scaling law" 叙事形成有趣的张力:
- 如果推理骨架在预训练中已存在,那么"后训练阶段的能力涌现"可能更多是**噪声清除效应**而非真正的"能力习得"
- 大量训练样本/步数可能主要引入过拟合,而非提升能力
这为 [[sft-early-stopping|SFT 早停]] 提供了原则性理论基础,也挑战了"更大规模微调必然更好"的信念。
### 方法论贡献:交互作为 LLM 训练的"显微镜"
交互框架为 LLM 训练提供了一种前所未有的细粒度诊断工具。传统监控手段(验证损失、准确率)是粗粒度的代理信号——而交互演变可以直接追踪推理模式的结构性变化。这种"从行为监控到结构监控"的转变是方法论上的重要贡献。
# 📎 文件清单
| 文件 | 路径 |
|------|------|
| 原始存档 | `raw/papers/zhang-reconciling-sft-interaction-2026.md` |
| 论文主页面 | `papers/zhang-reconciling-sft-interaction-2026.md` |
| 核心概念 (×10) | `concepts/interaction-*.md`, `concepts/sft-*.md`, 等 |
| 占位符 (×6) | `concepts/supervised-fine-tuning.md`, `concepts/rlhf.md`, 等 |
| 本 Review | `reviews/zhang-sft-interaction-review-20260603.md` |