Files
myWiki/concepts/selective-copy.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Selective Copying 2026-06-18 2026-06-18 concept
synthetic-task
sequence-modeling
content-awareness
https://arxiv.org/abs/2312.00752

Selective Copying

定义

Selective Copying选择性复制是 Mamba 论文中用于诊断序列模型内容感知能力的合成任务。它修改了经典的 Copying 任务Arjovsky et al., 2016使待复制 token 的位置随机变化,要求模型根据 token 内容判断"哪些该记住、哪些该忽略"。

任务设置

给定一个输入序列,其中:

  • 有色 token(如蓝色/红色)是需要复制的目标
  • 白色 token 是需要忽略的填充

输出:仅复制有色 token跳过白色 token。与经典 Copying 的关键区别:有色 token 之间的间距是随机且变化的

为什么揭示 LTI 弱点

  • 经典 Copying 的 token 间距固定 → 全局卷积可以学习固定的"延迟"模式 → LTI时间不变模型能解决
  • Selective Copying 的间距随机 → 卷积核无法捕捉变化的时间模式 → 只有内容感知(时间变化)的模型能解决
经典 Copying:  [A] . . . . [A] [B] . . . . [B]  ← 固定间距
Selective:     [A] . . [B] . . . . [A] . . . [B]  ← 随机间距

在 Mamba 中的作用

Mamba 论文将此作为核心动机之一S4LTI无法解决 Selective Copying而 S6选择性通过 selective-state-space)不仅解决了,还能无限外推到超过 1M token——因为模型学会了内容感知的泛化规则而非仅学习固定时间模式。

相关概念

参考

  • Arjovsky et al. (2016) — 原始 Copying 任务
  • gu-mamba (Gu & Dao, 2024) Section 3.1