20260420:first commit
This commit is contained in:
43
papers/behrouz-memory-caching-rnn.md
Normal file
43
papers/behrouz-memory-caching-rnn.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "Memory Caching: RNNs with Growing Memory"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: paper
|
||||
tags: [llm, architecture, deep-learning]
|
||||
sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
|
||||
---
|
||||
|
||||
# Memory Caching: RNNs with Growing Memory
|
||||
|
||||
**arXiv:** 2602.24281 [cs.LG] · 2026-02-27
|
||||
**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
|
||||
|
||||
## 核心贡献
|
||||
|
||||
提出 **Memory Caching (MC)** 技术,通过缓存 RNN 隐藏状态的检查点,使 RNN 的有效记忆容量随序列长度增长。这一技术在 RNN 的固定记忆 $O(L)$ 和 Transformer 的增长记忆 $O(L^2)$ 之间提供了一个灵活的插值权衡。
|
||||
|
||||
## 关键发现
|
||||
|
||||
- RNN 在回忆密集型任务中表现不佳的原因通常归因于**固定大小的记忆**
|
||||
- MC 通过缓存隐藏状态的检查点,允许 RNN 有效记忆容量增长
|
||||
- 提出四种 MC 变体:包括门控聚合和稀疏选择机制
|
||||
- 适用于线性和深层记忆模块
|
||||
- 实验结果:MC 提升了 RNN 在语言建模和长上下文理解任务上的性能
|
||||
- 在上下文回忆任务中,MC 变体表现接近 Transformer,优于当前最优 RNN 模型
|
||||
|
||||
## 复杂度分析
|
||||
|
||||
| 模型类型 | 记忆复杂度 | 记忆特性 |
|
||||
|----------|-----------|----------|
|
||||
| 传统 RNN | $O(L)$ | 固定大小记忆 |
|
||||
| Transformer | $O(L^2)$ | 随上下文增长 |
|
||||
| MC-RNN | $O(L)$ ~ $O(L^2)$ | 可调节的灵活插值 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[rnn-memory-caching]] — Memory Caching 技术详解
|
||||
- [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案
|
||||
|
||||
## 来源
|
||||
|
||||
- arXiv: https://arxiv.org/abs/2602.24281
|
||||
36
papers/li-amd-human-perception.md
Normal file
36
papers/li-amd-human-perception.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: ""Are You Sure?": Human Perception Vulnerability in LLM Agents"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: paper
|
||||
tags: [llm, alignment, benchmark, research]
|
||||
sources: [raw/papers/li-amd-human-perception-2026.md]
|
||||
---
|
||||
|
||||
# "Are You Sure?": Human Perception Vulnerability in LLM Agents
|
||||
|
||||
**arXiv:** 2602.21127 [cs.HC] · 2026-02-24
|
||||
**作者:** Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang
|
||||
|
||||
## 核心贡献
|
||||
|
||||
首次大规模实证研究(303名参与者)揭示了人类对**代理中介欺骗(Agent-Mediated Deception, AMD)**的脆弱性。当 LLM Agent 被攻破或劫持后,它可能成为攻击用户的武器,而人类对此类欺骗的感知率极低(仅 8.6%)。
|
||||
|
||||
## 关键发现
|
||||
|
||||
- **AMD 定义**: compromised agents 被武器化对抗其人类用户
|
||||
- **感知率极低**:仅 8.6% 的参与者能察觉到 AMD 攻击
|
||||
- **领域专家更易受骗**:在某些场景中,领域专家表现出更高的易感性(可能源于过度信任工具)
|
||||
- **6 种认知失败模式**:识别了用户在面对欺骗性 Agent 时的认知失效路径
|
||||
- **意识-行为鸿沟**:风险意识往往无法转化为保护性行为
|
||||
- **有效防御特征**:有效的警告应**中断工作流**且具有**低验证成本**
|
||||
- **经验学习有效**:基于 HAT-Lab 的体验学习后,>90% 感知到风险的用户报告了对 AMD 的警惕性提高
|
||||
|
||||
## 研究平台:HAT-Lab
|
||||
|
||||
开发了 **HAT-Lab (Human-Agent Trust Laboratory)**,一个高保真研究平台,包含 9 个精心设计的场景,覆盖日常和专业领域(医疗、软件开发、人力资源等)。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[agent-mediated-deception]] — AMD 攻击模式与防御
|
||||
- [[human-agent-trust]] — 人机信任与脆弱性研究
|
||||
89
papers/odrzywolek-eml-single-operator.md
Normal file
89
papers/odrzywolek-eml-single-operator.md
Normal file
@@ -0,0 +1,89 @@
|
||||
---
|
||||
title: "All elementary functions from a single binary operator"
|
||||
created: 2026-04-16
|
||||
updated: 2026-04-16
|
||||
type: paper
|
||||
tags: [paper, algorithm, concept]
|
||||
sources: [raw/papers/odrzywolek-eml-single-operator-2026.md]
|
||||
---
|
||||
|
||||
# All elementary functions from a single binary operator
|
||||
|
||||
**arXiv:** [2603.21852](https://arxiv.org/abs/2603.21852) [cs.SC]
|
||||
**作者:** [[andrzej-odrzywolek]]
|
||||
**发表日期:** 2026-03-23 (v1), 2026-04-04 (v2)
|
||||
|
||||
## 核心贡献
|
||||
|
||||
本文发现了**连续数学中的 Sheffer 算子**:单一二元算子
|
||||
|
||||
$$\text{eml}(x,y) = \exp(x) - \ln(y)$$
|
||||
|
||||
配合常数 $1$,足以生成科学计算器的所有初等函数。这类似于数字电路中 NAND 门对所有布尔逻辑的完备性。
|
||||
|
||||
## 关键结果
|
||||
|
||||
### EML 完备性
|
||||
- **两按钮计算器** (1, eml) 可替代 36 按钮科学计算器
|
||||
- 生成所有算术运算 ($+,-,\times,/$)、超越函数 ($\sin,\cos,\log,\exp$)、常数 ($e,\pi,i$)
|
||||
- 例如:$\exp(x) = \text{eml}(x,1)$,$\ln(x) = \text{eml}(1,\text{eml}(\text{eml}(1,x),1))$
|
||||
|
||||
### 二叉树语法
|
||||
每个 EML 表达式是同质节点的二叉树,语法极简:
|
||||
|
||||
$$S \to 1 \mid \text{eml}(S,S)$$
|
||||
|
||||
这与满二叉树和 Catalan 结构同构。
|
||||
|
||||
### 符号回归
|
||||
- EML 树可作为可训练电路,用 Adam 等优化器进行梯度优化
|
||||
- 在树深 ≤4 时,可从数值数据中精确恢复闭式初等函数
|
||||
- 成功率:深度 2 为 100%,深度 3-4 约 25%,深度 5 <1%
|
||||
|
||||
## 约化历程
|
||||
|
||||
| 配置 | 常量 | 一元 | 二元 | 计数 |
|
||||
|------|------|------|------|------|
|
||||
| Base-36 | 8 | 20 | 8 | 36 |
|
||||
| Wolfram | $\pi,e,i$ | $\ln$ | $+,\times,\wedge$ | 7 |
|
||||
| Calc 3 | none | $\exp,\ln,-x,1/x$ | $+$ | 6 |
|
||||
| Calc 2 | none | $\exp,\ln$ | $-$ | 4 |
|
||||
| Calc 1 | $e$ 或 $\pi$ | none | $x^y,\log_x y$ | 4 |
|
||||
| Calc 0 | none | $\exp$ | $\log_x y$ | 3 |
|
||||
| **EML** | **1** | **none** | **eml** | **2** |
|
||||
|
||||
## 相关算子
|
||||
|
||||
$$\begin{align}
|
||||
\text{eml}(x,y) &= \exp(x) - \ln(y) & \text{常量 } 1 \\
|
||||
\text{edl}(x,y) &= \exp(x) / \ln(y) & \text{常量 } e \\
|
||||
-\text{eml}(y,x) &= \ln(x) - \exp(y) & \text{常量 } -\infty
|
||||
\end{align}$$
|
||||
|
||||
## 复杂度示例
|
||||
|
||||
| 函数 | EML 编译器 | 直接搜索 |
|
||||
|------|-----------|---------|
|
||||
| $e^x$ | 3 | 3 |
|
||||
| $\ln x$ | 7 | 7 |
|
||||
| $x+y$ | 27 | 19 |
|
||||
| $x\times y$ | 41 | 17 |
|
||||
| $\pi$ | 193 | >53 |
|
||||
|
||||
## 应用方向
|
||||
|
||||
1. **EML 编译器** — 将公式编译为纯 EML 形式
|
||||
2. **模拟电路** — EML 作为模拟计算的基本构建块
|
||||
3. **符号回归** — 基于梯度优化的"主公式"方法
|
||||
4. **神经网络可解释性** — 训练权重可"吸附"到精确符号值
|
||||
|
||||
## 开放问题
|
||||
|
||||
- 是否存在不需要区分常量的二元 Sheffer 算子?
|
||||
- 是否存在同时作为神经激活函数和初等函数生成器的一元 Sheffer 算子?
|
||||
- 是否存在具有更好性质(非指数渐近、无定义域问题)的类似算子?
|
||||
|
||||
## 相关页面
|
||||
|
||||
- [[andrzej-odrzywolek]] — 作者
|
||||
- [[eml-operator]] — 核心数学概念
|
||||
38
papers/qin-prfaas-cross-datacenter.md
Normal file
38
papers/qin-prfaas-cross-datacenter.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "Prefill-as-a-Service: KVCache Goes Cross-Datacenter"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: paper
|
||||
tags: [inference, architecture, system-design, llm]
|
||||
sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
|
||||
---
|
||||
|
||||
# Prefill-as-a-Service: KVCache Goes Cross-Datacenter
|
||||
|
||||
**arXiv:** 2604.15039 [cs.DC] · 2026-04-16
|
||||
**作者:** Ruoyu Qin, Weiran He, Yaoyu Wang, Zheming Li, Xinran Xu, Yongwei Wu, Weimin Zheng, Mingxing Zhang
|
||||
|
||||
## 核心贡献
|
||||
|
||||
提出 **Prefill-as-a-Service (PrfaaS)**,一种跨数据中心的 LLM 服务架构。通过选择性地将长上下文 prefill 卸载到独立的计算密集型集群,并通过商用以太网将 KVCache 传输到本地 PD 集群进行 decode,实现了 prefill 和 decode 容量的独立扩展。
|
||||
|
||||
## 关键发现
|
||||
|
||||
- **传统 PD 分离的局限**:dense-attention 模型产生巨大的 KVCache 流量,迫使 prefill 和 decode 紧耦合在同一高带宽网络域内
|
||||
- **混合注意力架构的机遇**:大幅减少 KVCache 大小,使跨集群 KVCache 传输变得可行
|
||||
- **仅减少 KVCache 不足**:真实负载突发、请求长度高度偏斜、前缀缓存分布不均、跨集群带宽波动
|
||||
- **PrfaaS 设计**:
|
||||
- 选择性卸载长上下文 prefill 到独立集群
|
||||
- 通过商用以太网传输 KVCache
|
||||
- 结合模型侧 KV 效率与系统侧选择性卸载、带宽感知调度和缓存感知请求放置
|
||||
- 消除对低延迟 RDMA fabric 的依赖
|
||||
- **性能提升**(基于内部 1T 参数混合模型的案例研究):
|
||||
- 比同构 PD 部署吞吐量提高 **54%**
|
||||
- 比朴素异构基线吞吐量提高 **32%**
|
||||
- 仅消耗适度的跨数据中心带宽
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[prefill-as-a-service]] — PrfaaS 架构详解
|
||||
- [[prefill-decode-disaggregation]] — PD 分离架构演进
|
||||
- [[kvcache-transfer]] — KVCache 传输与优化
|
||||
39
papers/zhu-moda-mixture-of-depths.md
Normal file
39
papers/zhu-moda-mixture-of-depths.md
Normal file
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: "Mixture-of-Depths Attention (MoDA)"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: paper
|
||||
tags: [llm, architecture, deep-learning, transformer]
|
||||
sources: [raw/papers/zhu-moda-mixture-of-depths-2026.md]
|
||||
---
|
||||
|
||||
# Mixture-of-Depths Attention (MoDA)
|
||||
|
||||
**arXiv:** 2603.15619 [cs.LG] · 2026-03-26
|
||||
**作者:** Lianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang
|
||||
**代码:** https://github.com/hustvl/MoDA
|
||||
|
||||
## 核心贡献
|
||||
|
||||
提出 **Mixture-of-Depths Attention (MoDA)**,一种解决大模型深度扩展中**信号退化 (Signal Degradation)** 问题的注意力机制。MoDA 允许每个注意力头同时关注当前层的序列 KV 对和前序层的深度 KV 对,从而在深层网络中保留浅层形成的信息特征。
|
||||
|
||||
## 关键发现
|
||||
|
||||
- **信号退化问题**:随着 LLM 变深,浅层形成的信息特征在多次残差更新中被稀释,深层难以恢复
|
||||
- **MoDA 机制**:
|
||||
- 每个注意力头混合关注:当前层序列 KV + 前序层深度 KV
|
||||
- 类似于跨层的"快捷通道",但基于注意力机制而非简单残差连接
|
||||
- **硬件高效实现**:
|
||||
- 解决了非连续内存访问模式问题
|
||||
- 在 64K 序列长度下达到 FlashAttention-2 **97.3%** 的效率
|
||||
- 仅增加 **3.7%** 的 FLOPs 计算开销
|
||||
- **实验结果**(1.5B 参数模型):
|
||||
- 平均困惑度 (Perplexity) 在 10 个验证基准上改善 **0.2**
|
||||
- 10 个下游任务平均性能提升 **2.11%**
|
||||
- **归一化位置**:MoDA + **Post-Norm** 表现优于 Pre-Norm
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[mixture-of-depths-attention]] — MoDA 机制详解
|
||||
- [[depth-scaling-llms]] — LLM 深度扩展技术与挑战
|
||||
- [[signal-degradation]] — 深层网络中的信号退化问题
|
||||
Reference in New Issue
Block a user