20260420:first commit

This commit is contained in:
2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions

View File

@@ -0,0 +1,43 @@
---
title: "Memory Caching: RNNs with Growing Memory"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [llm, architecture, deep-learning]
sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
---
# Memory Caching: RNNs with Growing Memory
**arXiv:** 2602.24281 [cs.LG] · 2026-02-27
**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
## 核心贡献
提出 **Memory Caching (MC)** 技术,通过缓存 RNN 隐藏状态的检查点,使 RNN 的有效记忆容量随序列长度增长。这一技术在 RNN 的固定记忆 $O(L)$ 和 Transformer 的增长记忆 $O(L^2)$ 之间提供了一个灵活的插值权衡。
## 关键发现
- RNN 在回忆密集型任务中表现不佳的原因通常归因于**固定大小的记忆**
- MC 通过缓存隐藏状态的检查点,允许 RNN 有效记忆容量增长
- 提出四种 MC 变体:包括门控聚合和稀疏选择机制
- 适用于线性和深层记忆模块
- 实验结果MC 提升了 RNN 在语言建模和长上下文理解任务上的性能
- 在上下文回忆任务中MC 变体表现接近 Transformer优于当前最优 RNN 模型
## 复杂度分析
| 模型类型 | 记忆复杂度 | 记忆特性 |
|----------|-----------|----------|
| 传统 RNN | $O(L)$ | 固定大小记忆 |
| Transformer | $O(L^2)$ | 随上下文增长 |
| MC-RNN | $O(L)$ ~ $O(L^2)$ | 可调节的灵活插值 |
## 相关概念
- [[rnn-memory-caching]] — Memory Caching 技术详解
- [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案
## 来源
- arXiv: https://arxiv.org/abs/2602.24281

View File

@@ -0,0 +1,36 @@
---
title: ""Are You Sure?": Human Perception Vulnerability in LLM Agents"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [llm, alignment, benchmark, research]
sources: [raw/papers/li-amd-human-perception-2026.md]
---
# "Are You Sure?": Human Perception Vulnerability in LLM Agents
**arXiv:** 2602.21127 [cs.HC] · 2026-02-24
**作者:** Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang
## 核心贡献
首次大规模实证研究303名参与者揭示了人类对**代理中介欺骗Agent-Mediated Deception, AMD**的脆弱性。当 LLM Agent 被攻破或劫持后,它可能成为攻击用户的武器,而人类对此类欺骗的感知率极低(仅 8.6%)。
## 关键发现
- **AMD 定义** compromised agents 被武器化对抗其人类用户
- **感知率极低**:仅 8.6% 的参与者能察觉到 AMD 攻击
- **领域专家更易受骗**:在某些场景中,领域专家表现出更高的易感性(可能源于过度信任工具)
- **6 种认知失败模式**:识别了用户在面对欺骗性 Agent 时的认知失效路径
- **意识-行为鸿沟**:风险意识往往无法转化为保护性行为
- **有效防御特征**:有效的警告应**中断工作流**且具有**低验证成本**
- **经验学习有效**:基于 HAT-Lab 的体验学习后,>90% 感知到风险的用户报告了对 AMD 的警惕性提高
## 研究平台HAT-Lab
开发了 **HAT-Lab (Human-Agent Trust Laboratory)**,一个高保真研究平台,包含 9 个精心设计的场景,覆盖日常和专业领域(医疗、软件开发、人力资源等)。
## 相关概念
- [[agent-mediated-deception]] — AMD 攻击模式与防御
- [[human-agent-trust]] — 人机信任与脆弱性研究

View File

@@ -0,0 +1,89 @@
---
title: "All elementary functions from a single binary operator"
created: 2026-04-16
updated: 2026-04-16
type: paper
tags: [paper, algorithm, concept]
sources: [raw/papers/odrzywolek-eml-single-operator-2026.md]
---
# All elementary functions from a single binary operator
**arXiv:** [2603.21852](https://arxiv.org/abs/2603.21852) [cs.SC]
**作者:** [[andrzej-odrzywolek]]
**发表日期:** 2026-03-23 (v1), 2026-04-04 (v2)
## 核心贡献
本文发现了**连续数学中的 Sheffer 算子**:单一二元算子
$$\text{eml}(x,y) = \exp(x) - \ln(y)$$
配合常数 $1$,足以生成科学计算器的所有初等函数。这类似于数字电路中 NAND 门对所有布尔逻辑的完备性。
## 关键结果
### EML 完备性
- **两按钮计算器** (1, eml) 可替代 36 按钮科学计算器
- 生成所有算术运算 ($+,-,\times,/$)、超越函数 ($\sin,\cos,\log,\exp$)、常数 ($e,\pi,i$)
- 例如:$\exp(x) = \text{eml}(x,1)$$\ln(x) = \text{eml}(1,\text{eml}(\text{eml}(1,x),1))$
### 二叉树语法
每个 EML 表达式是同质节点的二叉树,语法极简:
$$S \to 1 \mid \text{eml}(S,S)$$
这与满二叉树和 Catalan 结构同构。
### 符号回归
- EML 树可作为可训练电路,用 Adam 等优化器进行梯度优化
- 在树深 ≤4 时,可从数值数据中精确恢复闭式初等函数
- 成功率:深度 2 为 100%,深度 3-4 约 25%,深度 5 <1%
## 约化历程
| 配置 | 常量 | 一元 | 二元 | 计数 |
|------|------|------|------|------|
| Base-36 | 8 | 20 | 8 | 36 |
| Wolfram | $\pi,e,i$ | $\ln$ | $+,\times,\wedge$ | 7 |
| Calc 3 | none | $\exp,\ln,-x,1/x$ | $+$ | 6 |
| Calc 2 | none | $\exp,\ln$ | $-$ | 4 |
| Calc 1 | $e$ $\pi$ | none | $x^y,\log_x y$ | 4 |
| Calc 0 | none | $\exp$ | $\log_x y$ | 3 |
| **EML** | **1** | **none** | **eml** | **2** |
## 相关算子
$$\begin{align}
\text{eml}(x,y) &= \exp(x) - \ln(y) & \text{常量 } 1 \\
\text{edl}(x,y) &= \exp(x) / \ln(y) & \text{常量 } e \\
-\text{eml}(y,x) &= \ln(x) - \exp(y) & \text{常量 } -\infty
\end{align}$$
## 复杂度示例
| 函数 | EML 编译器 | 直接搜索 |
|------|-----------|---------|
| $e^x$ | 3 | 3 |
| $\ln x$ | 7 | 7 |
| $x+y$ | 27 | 19 |
| $x\times y$ | 41 | 17 |
| $\pi$ | 193 | >53 |
## 应用方向
1. **EML 编译器** — 将公式编译为纯 EML 形式
2. **模拟电路** — EML 作为模拟计算的基本构建块
3. **符号回归** — 基于梯度优化的"主公式"方法
4. **神经网络可解释性** — 训练权重可"吸附"到精确符号值
## 开放问题
- 是否存在不需要区分常量的二元 Sheffer 算子?
- 是否存在同时作为神经激活函数和初等函数生成器的一元 Sheffer 算子?
- 是否存在具有更好性质(非指数渐近、无定义域问题)的类似算子?
## 相关页面
- [[andrzej-odrzywolek]] — 作者
- [[eml-operator]] — 核心数学概念

View File

@@ -0,0 +1,38 @@
---
title: "Prefill-as-a-Service: KVCache Goes Cross-Datacenter"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [inference, architecture, system-design, llm]
sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
---
# Prefill-as-a-Service: KVCache Goes Cross-Datacenter
**arXiv:** 2604.15039 [cs.DC] · 2026-04-16
**作者:** Ruoyu Qin, Weiran He, Yaoyu Wang, Zheming Li, Xinran Xu, Yongwei Wu, Weimin Zheng, Mingxing Zhang
## 核心贡献
提出 **Prefill-as-a-Service (PrfaaS)**,一种跨数据中心的 LLM 服务架构。通过选择性地将长上下文 prefill 卸载到独立的计算密集型集群,并通过商用以太网将 KVCache 传输到本地 PD 集群进行 decode实现了 prefill 和 decode 容量的独立扩展。
## 关键发现
- **传统 PD 分离的局限**dense-attention 模型产生巨大的 KVCache 流量,迫使 prefill 和 decode 紧耦合在同一高带宽网络域内
- **混合注意力架构的机遇**:大幅减少 KVCache 大小,使跨集群 KVCache 传输变得可行
- **仅减少 KVCache 不足**:真实负载突发、请求长度高度偏斜、前缀缓存分布不均、跨集群带宽波动
- **PrfaaS 设计**
- 选择性卸载长上下文 prefill 到独立集群
- 通过商用以太网传输 KVCache
- 结合模型侧 KV 效率与系统侧选择性卸载、带宽感知调度和缓存感知请求放置
- 消除对低延迟 RDMA fabric 的依赖
- **性能提升**(基于内部 1T 参数混合模型的案例研究):
- 比同构 PD 部署吞吐量提高 **54%**
- 比朴素异构基线吞吐量提高 **32%**
- 仅消耗适度的跨数据中心带宽
## 相关概念
- [[prefill-as-a-service]] — PrfaaS 架构详解
- [[prefill-decode-disaggregation]] — PD 分离架构演进
- [[kvcache-transfer]] — KVCache 传输与优化

View File

@@ -0,0 +1,39 @@
---
title: "Mixture-of-Depths Attention (MoDA)"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [llm, architecture, deep-learning, transformer]
sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md]
---
# Mixture-of-Depths Attention (MoDA)
**arXiv:** 2603.15619 [cs.LG] · 2026-03-26
**作者:** Lianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang
**代码:** https://github.com/hustvl/MoDA
## 核心贡献
提出 **Mixture-of-Depths Attention (MoDA)**,一种解决大模型深度扩展中**信号退化 (Signal Degradation)** 问题的注意力机制。MoDA 允许每个注意力头同时关注当前层的序列 KV 对和前序层的深度 KV 对,从而在深层网络中保留浅层形成的信息特征。
## 关键发现
- **信号退化问题**:随着 LLM 变深,浅层形成的信息特征在多次残差更新中被稀释,深层难以恢复
- **MoDA 机制**
- 每个注意力头混合关注:当前层序列 KV + 前序层深度 KV
- 类似于跨层的"快捷通道",但基于注意力机制而非简单残差连接
- **硬件高效实现**
- 解决了非连续内存访问模式问题
- 在 64K 序列长度下达到 FlashAttention-2 **97.3%** 的效率
- 仅增加 **3.7%** 的 FLOPs 计算开销
- **实验结果**1.5B 参数模型):
- 平均困惑度 (Perplexity) 在 10 个验证基准上改善 **0.2**
- 10 个下游任务平均性能提升 **2.11%**
- **归一化位置**MoDA + **Post-Norm** 表现优于 Pre-Norm
## 相关概念
- [[mixture-of-depths-attention]] — MoDA 机制详解
- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战
- [[signal-degradation]] — 深层网络中的信号退化问题