--- title: "Block-Sparse Attention Mask (分块稀疏注意力掩码)" created: 2025-06-02 updated: 2025-06-02 type: concept tags: [attention, training-optimization, multi-turn-reasoning] sources: ["[[goru-one-pass-to-reason-2025]]"] --- # Block-Sparse Attention Mask > [[goru-one-pass-to-reason-2025|One-Pass to Reason]] 中设计的自定义注意力掩码,通过为不同 token 类型指定不同的可见性规则,在单次前向传播中同时满足"生成时可见、上下文时隐藏"的冲突需求。 ## 可见性规则 在多轮推理对话中,token 被分为四种角色: | Token 类型 | 角色 | 可见范围 | |-----------|------|---------| | hi | 人类消息 | A(H_{