20260601
This commit is contained in:
73
papers/gram-generative-recursive-reasoning-paper.md
Normal file
73
papers/gram-generative-recursive-reasoning-paper.md
Normal file
@@ -0,0 +1,73 @@
|
||||
---
|
||||
title: "Generative Recursive Reasoning (GRAM)"
|
||||
created: 2026-05-23
|
||||
updated: 2026-05-23
|
||||
type: paper
|
||||
tags: [reasoning, recursive, generative, latent-variable, inference-scaling]
|
||||
sources: [raw/papers/gram-generative-recursive-reasoning-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# Generative Recursive Reasoning
|
||||
|
||||
> 核心问题:未来的神经推理系统如何实现**扩展计算**?答案:将递归推理从确定性**单轨迹**升级为概率性**多轨迹**计算。
|
||||
|
||||
## 基本信息
|
||||
|
||||
- **作者**: Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn(KAIST x Mila x NYU x UdeM)
|
||||
- **arXiv**: [2605.19376](https://arxiv.org/abs/2605.19376) (v2, 2026-05-19)
|
||||
- **领域**: cs.AI
|
||||
- **项目页**: https://ahn-ml.github.io/gram-website
|
||||
|
||||
## 动机:RRM 的确定性困境
|
||||
|
||||
**[[recursive-reasoning-models|RRM]]**(如 HRM、TRM)通过共享转移函数的迭代潜在状态精炼来实现扩展计算,而非像自回归模型那样延长生成序列。但现有 RRM 是**确定性的**——相同输入总是产生相同的单条推理路径,收敛到唯一预测。
|
||||
|
||||
这在需要**多假设探索**和**多解恢复**的问题中是致命的:
|
||||
- 单一精炼路径可能被困在次优推理轨迹中
|
||||
- 无法在推理时进行并行扩展
|
||||
|
||||
## GRAM:概率性递归推理
|
||||
|
||||
**[[gram-generative-recursive-reasoning|GRAM]]** 的核心将推理过程重新定义为**随机潜在轨迹**([[stochastic-latent-trajectory]]):
|
||||
|
||||
- 每个递归步采样一个**条件于输入和当前状态的转移**,而非确定性更新
|
||||
- 重复过程 -> 推理轨迹上的**分布**
|
||||
- 通过**边缘化**所有轨迹得到最终预测
|
||||
|
||||
### 三种关键能力
|
||||
|
||||
| 能力 | 实现方式 |
|
||||
|------|---------|
|
||||
| 多假设维持 | 从分布中采样多条推理路径 |
|
||||
| 替代策略探索 | 不同轨迹探索不同解空间 |
|
||||
| [[inference-time-scaling]] | 增加递归深度 + 并行采样轨迹 |
|
||||
|
||||
### 双向生成能力
|
||||
|
||||
- **条件推理**: p_theta(y|x) — 给定输入,边缘化推理轨迹
|
||||
- **无条件生成**: p_theta(x) — 固定/缺失输入时,同一个递归过程可生成数据
|
||||
|
||||
## 架构:双层嵌套递归
|
||||
|
||||
- **内层(Inner Loop)**: K 次低层精炼,产生确定性提议 u_t,加上随机引导 eps_t -> h_t = u_t + eps_t
|
||||
- **外层(Outer Loop)**: N_sup 个 supervision step 递归叠加
|
||||
- 训练: [[amortized-variational-inference|摊销变分推断]](CE loss + KL divergence)
|
||||
|
||||
## 实验
|
||||
|
||||
| 任务 | 考察维度 |
|
||||
|------|---------|
|
||||
| Sudoku-Extreme | 硬约束下的结构化推理 |
|
||||
| ARC-AGI | 抽象变换 |
|
||||
| N-Queens + Graph Coloring | [[multi-solution-recovery|多解恢复]] |
|
||||
| Binarized MNIST | 无条件生成能力 |
|
||||
|
||||
## 与推理扩展方向的关系
|
||||
|
||||
GRAM 提供了一条与 Chain-of-Thought 和扩散推理都**互补**的路径:
|
||||
- CoT = 显式 token 级扩展
|
||||
- Diffusion Reasoning = 连续空间扩散
|
||||
- GRAM = **离散潜在空间中的随机递归**
|
||||
|
||||
详见 [[deep-and-wide-reasoning]]
|
||||
Reference in New Issue
Block a user