1.1 KiB
1.1 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Width-Based Scaling(宽度扩展) | 2026-05-23 | 2026-05-23 | concept |
|
|
medium |
Width-Based Scaling
GRAM 引入的新扩展维度:通过增加并行采样的潜在推理轨迹数量来提升推理性能,而不增加模型大小或序列长度。
工作原理
- 从 stochastic-latent-trajectory 分布中采样 K 条轨迹
- K 条轨迹可以完全并行运行(天然 batch)
- 最终预测 = 聚合 K 条轨迹的结果
宽度 vs 深度
- 深度:单条轨迹的推理质量(精炼程度)
- 宽度:轨迹覆盖的多样性(探索广度)
- 两者正交,可以独立调参
与 Ensemble 的区别
GRAM 的宽度扩展 != 传统 Ensemble:
- Ensemble 需要多个独立模型
- GRAM 的宽度 = 同一模型的多个随机实现
- 单一模型参数,多条推理路径