2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Selective Copying | 2026-06-18 | 2026-06-18 | concept |
|
|
Selective Copying
定义
Selective Copying(选择性复制)是 Mamba 论文中用于诊断序列模型内容感知能力的合成任务。它修改了经典的 Copying 任务(Arjovsky et al., 2016),使待复制 token 的位置随机变化,要求模型根据 token 内容判断"哪些该记住、哪些该忽略"。
任务设置
给定一个输入序列,其中:
- 有色 token(如蓝色/红色)是需要复制的目标
- 白色 token 是需要忽略的填充
输出:仅复制有色 token,跳过白色 token。与经典 Copying 的关键区别:有色 token 之间的间距是随机且变化的。
为什么揭示 LTI 弱点
- 经典 Copying 的 token 间距固定 → 全局卷积可以学习固定的"延迟"模式 → LTI(时间不变)模型能解决
- Selective Copying 的间距随机 → 卷积核无法捕捉变化的时间模式 → 只有内容感知(时间变化)的模型能解决
经典 Copying: [A] . . . . [A] [B] . . . . [B] ← 固定间距
Selective: [A] . . [B] . . . . [A] . . . [B] ← 随机间距
在 Mamba 中的作用
Mamba 论文将此作为核心动机之一:S4(LTI)无法解决 Selective Copying,而 S6(选择性,通过 selective-state-space)不仅解决了,还能无限外推到超过 1M token——因为模型学会了内容感知的泛化规则,而非仅学习固定时间模式。
相关概念
- induction-heads — 另一个诊断 LLM 能力的合成任务
- content-based-reasoning — Selective Copying 测试的核心能力
- selective-state-space — Mamba 解决此任务的关键机制
- structured-state-space-models — S4(LTI)在此任务上失败
参考
- Arjovsky et al. (2016) — 原始 Copying 任务
- gu-mamba (Gu & Dao, 2024) Section 3.1