1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Rejected-Edit Buffer (拒绝编辑缓冲) | 2026-05-29 | 2026-05-29 | concept |
|
|
Rejected-Edit Buffer (拒绝编辑缓冲)
Rejected-Edit Buffer 是 skillopt 中的负反馈机制:被 held-out-validation-gate 拒绝的编辑被记录为 epoch-local buffer,作为后续优化步骤的负反馈信号。它是深度学习中负梯度在文本空间的对应。
记录内容
Buffer 包含:
- 观察到的失败模式
- 被尝试但被拒绝的编辑
- 编辑造成的 score drop
如何使用
后续 reflection 调用在同一 epoch 内接收此 buffer,使 optimizer 能够:
- 避免重复失败的编辑
- 聚焦于尚未解决的失败
- 从"什么不行"中学习
与正反馈的配合
| 信号类型 | 来源 | 作用 |
|---|---|---|
| 正反馈 | Accepted edits | 保留、强化 |
| 负反馈 | Rejected edits (buffer) | 避免重复、引导新方向 |
关键优势
- 训练时使用,推理时零成本:Buffer 只在优化阶段存在,不增加部署开销
- epoch-local:每个 epoch 独立 buffer,避免跨 epoch 的过时信息污染
相关
- held-out-validation-gate — 产生拒绝的 gate
- skillopt — 使用 buffer 的方法
- text-space-optimizer — 文本空间优化范式