Output-Aware Metric (OAM)

Output-Aware Metric 是 stem-sparse-attention 框架的第二个核心组件，解决传统稀疏注意力仅靠注意力分数选 token 的盲区。

传统方法的局限

现有稀疏注意力（如 sparse-attention-patterns）的标准流程：

问题：P_{i,j} 只反映了 query i 对 key j 的相关性（"我想关注这个 token"），但不反映 token j 的 Value 向量 V_j 对最终输出的实际贡献度（"这个 token 的信息是否重要"）。

OAM 在 token 选择时引入 Value 信息：

score(j) = f(P_{i,j}, ||V_j||)

不仅看 query-key 匹配度（注意力分数），还看 Value 向量的近似输出幅度（||V_j||）。高注意力分数 + 低 Value 幅度的 token 可能不如中等注意力 + 高 Value 幅度的 token 重要。

组件	解决的问题	决策粒度
[[token-position-decay	TPD]]	全局结构：茎 vs 叶的预算分配
OAM	局部选择：在每个位置选哪些 token	Token 级

TPD 决定"这个位置可以保留多少个 token"（How many），OAM 决定"保留哪几个 token"（Which ones）。二者协同覆盖了稀疏化的结构层面和信息层面。

在 LongBench 上，OAM 使 Stem 在相同稀疏率下比纯注意力分数选 token 的方案提升 2-5% 的准确率，特别是在需要精确信息检索的长上下文任务（如 KV 检索）中优势最明显。