--- title: "Rejected-Edit Buffer (拒绝编辑缓冲)" created: 2026-05-29 updated: 2026-05-29 type: concept tags: ["optimization", "negative-feedback", "skill", "buffer"] sources: ["https://arxiv.org/abs/2605.23904"] --- # Rejected-Edit Buffer (拒绝编辑缓冲) **Rejected-Edit Buffer** 是 [[skillopt|SkillOpt]] 中的负反馈机制:被 [[held-out-validation-gate|Validation Gate]] 拒绝的编辑被记录为 epoch-local buffer,作为后续优化步骤的**负反馈信号**。它是深度学习中负梯度在文本空间的对应。 ## 记录内容 Buffer 包含: - 观察到的失败模式 - 被尝试但被拒绝的编辑 - 编辑造成的 score drop ## 如何使用 后续 reflection 调用在同一 epoch 内接收此 buffer,使 optimizer 能够: - **避免重复失败的编辑** - **聚焦于尚未解决的失败** - 从"什么不行"中学习 ## 与正反馈的配合 | 信号类型 | 来源 | 作用 | |----------|------|------| | 正反馈 | Accepted edits | 保留、强化 | | 负反馈 | Rejected edits (buffer) | 避免重复、引导新方向 | ## 关键优势 - **训练时使用,推理时零成本**:Buffer 只在优化阶段存在,不增加部署开销 - **epoch-local**:每个 epoch 独立 buffer,避免跨 epoch 的过时信息污染 ## 相关 - [[held-out-validation-gate]] — 产生拒绝的 gate - [[skillopt]] — 使用 buffer 的方法 - [[text-space-optimizer]] — 文本空间优化范式