20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/papers/behrouz-memory-caching-rnn.md
+++ b/papers/behrouz-memory-caching-rnn.md
@@ -0,0 +1,43 @@
+---
+title: "Memory Caching: RNNs with Growing Memory"
+created: 2026-04-19
+updated: 2026-04-19
+type: paper
+tags: [llm, architecture, deep-learning]
+sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
+---
+
+# Memory Caching: RNNs with Growing Memory
+
+**arXiv:** 2602.24281 [cs.LG] · 2026-02-27
+**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
+
+## 核心贡献
+
+提出 **Memory Caching (MC)** 技术，通过缓存 RNN 隐藏状态的检查点，使 RNN 的有效记忆容量随序列长度增长。这一技术在 RNN 的固定记忆 $O(L)$ 和 Transformer 的增长记忆 $O(L^2)$ 之间提供了一个灵活的插值权衡。
+
+## 关键发现
+
+- RNN 在回忆密集型任务中表现不佳的原因通常归因于**固定大小的记忆**
+- MC 通过缓存隐藏状态的检查点，允许 RNN 有效记忆容量增长
+- 提出四种 MC 变体：包括门控聚合和稀疏选择机制
+- 适用于线性和深层记忆模块
+- 实验结果：MC 提升了 RNN 在语言建模和长上下文理解任务上的性能
+- 在上下文回忆任务中，MC 变体表现接近 Transformer，优于当前最优 RNN 模型
+
+## 复杂度分析
+
+| 模型类型 | 记忆复杂度 | 记忆特性 |
+|----------|-----------|----------|
+| 传统 RNN | $O(L)$ | 固定大小记忆 |
+| Transformer | $O(L^2)$ | 随上下文增长 |
+| MC-RNN | $O(L)$ ~ $O(L^2)$ | 可调节的灵活插值 |
+
+## 相关概念
+
+- [[rnn-memory-caching]] — Memory Caching 技术详解
+- [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案
+
+## 来源
+
+- arXiv: https://arxiv.org/abs/2602.24281
--- a/papers/li-amd-human-perception.md
+++ b/papers/li-amd-human-perception.md
@@ -0,0 +1,36 @@
+---
+title: ""Are You Sure?": Human Perception Vulnerability in LLM Agents"
+created: 2026-04-19
+updated: 2026-04-19
+type: paper
+tags: [llm, alignment, benchmark, research]
+sources: [raw/papers/li-amd-human-perception-2026.md]
+---
+
+# "Are You Sure?": Human Perception Vulnerability in LLM Agents
+
+**arXiv:** 2602.21127 [cs.HC] · 2026-02-24
+**作者:** Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang
+
+## 核心贡献
+
+首次大规模实证研究（303名参与者）揭示了人类对**代理中介欺骗（Agent-Mediated Deception, AMD）**的脆弱性。当 LLM Agent 被攻破或劫持后，它可能成为攻击用户的武器，而人类对此类欺骗的感知率极低（仅 8.6%）。
+
+## 关键发现
+
+- **AMD 定义**： compromised agents 被武器化对抗其人类用户
+- **感知率极低**：仅 8.6% 的参与者能察觉到 AMD 攻击
+- **领域专家更易受骗**：在某些场景中，领域专家表现出更高的易感性（可能源于过度信任工具）
+- **6 种认知失败模式**：识别了用户在面对欺骗性 Agent 时的认知失效路径
+- **意识-行为鸿沟**：风险意识往往无法转化为保护性行为
+- **有效防御特征**：有效的警告应**中断工作流**且具有**低验证成本**
+- **经验学习有效**：基于 HAT-Lab 的体验学习后，>90% 感知到风险的用户报告了对 AMD 的警惕性提高
+
+## 研究平台：HAT-Lab
+
+开发了 **HAT-Lab (Human-Agent Trust Laboratory)**，一个高保真研究平台，包含 9 个精心设计的场景，覆盖日常和专业领域（医疗、软件开发、人力资源等）。
+
+## 相关概念
+
+- [[agent-mediated-deception]] — AMD 攻击模式与防御
+- [[human-agent-trust]] — 人机信任与脆弱性研究
--- a/papers/odrzywolek-eml-single-operator.md
+++ b/papers/odrzywolek-eml-single-operator.md
@@ -0,0 +1,89 @@
+---
+title: "All elementary functions from a single binary operator"
+created: 2026-04-16
+updated: 2026-04-16
+type: paper
+tags: [paper, algorithm, concept]
+sources: [raw/papers/odrzywolek-eml-single-operator-2026.md]
+---
+
+# All elementary functions from a single binary operator
+
+**arXiv:** [2603.21852](https://arxiv.org/abs/2603.21852) [cs.SC]  
+**作者:** [[andrzej-odrzywolek]]  
+**发表日期:** 2026-03-23 (v1), 2026-04-04 (v2)
+
+## 核心贡献
+
+本文发现了**连续数学中的 Sheffer 算子**：单一二元算子
+
+$$\text{eml}(x,y) = \exp(x) - \ln(y)$$
+
+配合常数 $1$，足以生成科学计算器的所有初等函数。这类似于数字电路中 NAND 门对所有布尔逻辑的完备性。
+
+## 关键结果
+
+### EML 完备性
+- **两按钮计算器** (1, eml) 可替代 36 按钮科学计算器
+- 生成所有算术运算 ($+,-,\times,/$)、超越函数 ($\sin,\cos,\log,\exp$)、常数 ($e,\pi,i$)
+- 例如：$\exp(x) = \text{eml}(x,1)$，$\ln(x) = \text{eml}(1,\text{eml}(\text{eml}(1,x),1))$
+
+### 二叉树语法
+每个 EML 表达式是同质节点的二叉树，语法极简：
+
+$$S \to 1 \mid \text{eml}(S,S)$$
+
+这与满二叉树和 Catalan 结构同构。
+
+### 符号回归
+- EML 树可作为可训练电路，用 Adam 等优化器进行梯度优化
+- 在树深 ≤4 时，可从数值数据中精确恢复闭式初等函数
+- 成功率：深度 2 为 100%，深度 3-4 约 25%，深度 5 <1%
+
+## 约化历程
+
+| 配置 | 常量 | 一元 | 二元 | 计数 |
+|------|------|------|------|------|
+| Base-36 | 8 | 20 | 8 | 36 |
+| Wolfram | $\pi,e,i$ | $\ln$ | $+,\times,\wedge$ | 7 |
+| Calc 3 | none | $\exp,\ln,-x,1/x$ | $+$ | 6 |
+| Calc 2 | none | $\exp,\ln$ | $-$ | 4 |
+| Calc 1 | $e$ 或 $\pi$ | none | $x^y,\log_x y$ | 4 |
+| Calc 0 | none | $\exp$ | $\log_x y$ | 3 |
+| **EML** | **1** | **none** | **eml** | **2** |
+
+## 相关算子
+
+$$\begin{align}
+\text{eml}(x,y) &= \exp(x) - \ln(y) & \text{常量 } 1 \\
+\text{edl}(x,y) &= \exp(x) / \ln(y) & \text{常量 } e \\
+-\text{eml}(y,x) &= \ln(x) - \exp(y) & \text{常量 } -\infty
+\end{align}$$
+
+## 复杂度示例
+
+| 函数 | EML 编译器 | 直接搜索 |
+|------|-----------|---------|
+| $e^x$ | 3 | 3 |
+| $\ln x$ | 7 | 7 |
+| $x+y$ | 27 | 19 |
+| $x\times y$ | 41 | 17 |
+| $\pi$ | 193 | >53 |
+
+## 应用方向
+
+1. **EML 编译器** — 将公式编译为纯 EML 形式
+2. **模拟电路** — EML 作为模拟计算的基本构建块
+3. **符号回归** — 基于梯度优化的"主公式"方法
+4. **神经网络可解释性** — 训练权重可"吸附"到精确符号值
+
+## 开放问题
+
+- 是否存在不需要区分常量的二元 Sheffer 算子？
+- 是否存在同时作为神经激活函数和初等函数生成器的一元 Sheffer 算子？
+- 是否存在具有更好性质（非指数渐近、无定义域问题）的类似算子？
+
+## 相关页面
+
+- [[andrzej-odrzywolek]] — 作者
+- [[eml-operator]] — 核心数学概念
--- a/papers/qin-prfaas-cross-datacenter.md
+++ b/papers/qin-prfaas-cross-datacenter.md
@@ -0,0 +1,38 @@
+---
+title: "Prefill-as-a-Service: KVCache Goes Cross-Datacenter"
+created: 2026-04-19
+updated: 2026-04-19
+type: paper
+tags: [inference, architecture, system-design, llm]
+sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
+---
+
+# Prefill-as-a-Service: KVCache Goes Cross-Datacenter
+
+**arXiv:** 2604.15039 [cs.DC] · 2026-04-16
+**作者:** Ruoyu Qin, Weiran He, Yaoyu Wang, Zheming Li, Xinran Xu, Yongwei Wu, Weimin Zheng, Mingxing Zhang
+
+## 核心贡献
+
+提出 **Prefill-as-a-Service (PrfaaS)**，一种跨数据中心的 LLM 服务架构。通过选择性地将长上下文 prefill 卸载到独立的计算密集型集群，并通过商用以太网将 KVCache 传输到本地 PD 集群进行 decode，实现了 prefill 和 decode 容量的独立扩展。
+
+## 关键发现
+
+- **传统 PD 分离的局限**：dense-attention 模型产生巨大的 KVCache 流量，迫使 prefill 和 decode 紧耦合在同一高带宽网络域内
+- **混合注意力架构的机遇**：大幅减少 KVCache 大小，使跨集群 KVCache 传输变得可行
+- **仅减少 KVCache 不足**：真实负载突发、请求长度高度偏斜、前缀缓存分布不均、跨集群带宽波动
+- **PrfaaS 设计**：
+  - 选择性卸载长上下文 prefill 到独立集群
+  - 通过商用以太网传输 KVCache
+  - 结合模型侧 KV 效率与系统侧选择性卸载、带宽感知调度和缓存感知请求放置
+  - 消除对低延迟 RDMA fabric 的依赖
+- **性能提升**（基于内部 1T 参数混合模型的案例研究）：
+  - 比同构 PD 部署吞吐量提高 **54%**
+  - 比朴素异构基线吞吐量提高 **32%**
+  - 仅消耗适度的跨数据中心带宽
+
+## 相关概念
+
+- [[prefill-as-a-service]] — PrfaaS 架构详解
+- [[prefill-decode-disaggregation]] — PD 分离架构演进
+- [[kvcache-transfer]] — KVCache 传输与优化
--- a/papers/zhu-moda-mixture-of-depths.md
+++ b/papers/zhu-moda-mixture-of-depths.md
@@ -0,0 +1,39 @@
+---
+title: "Mixture-of-Depths Attention (MoDA)"
+created: 2026-04-19
+updated: 2026-04-19
+type: paper
+tags: [llm, architecture, deep-learning, transformer]
+sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md]
+---
+
+# Mixture-of-Depths Attention (MoDA)
+
+**arXiv:** 2603.15619 [cs.LG] · 2026-03-26
+**作者:** Lianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang
+**代码:** https://github.com/hustvl/MoDA
+
+## 核心贡献
+
+提出 **Mixture-of-Depths Attention (MoDA)**，一种解决大模型深度扩展中**信号退化 (Signal Degradation)** 问题的注意力机制。MoDA 允许每个注意力头同时关注当前层的序列 KV 对和前序层的深度 KV 对，从而在深层网络中保留浅层形成的信息特征。
+
+## 关键发现
+
+- **信号退化问题**：随着 LLM 变深，浅层形成的信息特征在多次残差更新中被稀释，深层难以恢复
+- **MoDA 机制**：
+  - 每个注意力头混合关注：当前层序列 KV + 前序层深度 KV
+  - 类似于跨层的"快捷通道"，但基于注意力机制而非简单残差连接
+- **硬件高效实现**：
+  - 解决了非连续内存访问模式问题
+  - 在 64K 序列长度下达到 FlashAttention-2 **97.3%** 的效率
+  - 仅增加 **3.7%** 的 FLOPs 计算开销
+- **实验结果**（1.5B 参数模型）：
+  - 平均困惑度 (Perplexity) 在 10 个验证基准上改善 **0.2**
+  - 10 个下游任务平均性能提升 **2.11%**
+- **归一化位置**：MoDA + **Post-Norm** 表现优于 Pre-Norm
+
+## 相关概念
+
+- [[mixture-of-depths-attention]] — MoDA 机制详解
+- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战
+- [[signal-degradation]] — 深层网络中的信号退化问题