myWiki/concepts/amortized-variational-inference.md

---
title: "Amortized Variational Inference（摊销变分推断）"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [training, variational-inference, probabilistic, vae]
sources: [raw/papers/gram-generative-recursive-reasoning-2026.md]
confidence: medium
---

# Amortized Variational Inference

> GRAM 的训练方法：使用编码器（后验）和生成器（先验）来优化 ELBO，CE loss 驱动预测 + KL divergence 规范潜在空间。

## GRAM 中的实现

- **后验 q_phi(z_t | z_{t-1}, y)**：知道答案时的推理轨迹
- **先验 p_theta(z_t | z_{t-1}, e_x)**：不知道答案时的推理轨迹
- **训练目标**: ELBO = E_q[log p(y|z_T)] - KL(q||p)
- **CE loss**: 确保预测正确
- **KL divergence**: 确保模型在没有答案时也能产生合理轨迹

## 为什么用摊销变分推断

- 直接最大化似然 intractable（需要边缘化所有轨迹）
- VI 提供了可微分的训练信号
- 后验网络在训练时提供"老师"信号，测试时只用先验

## 相关概念

- [[latent-variable-generative-model]]
- [[gram-generative-recursive-reasoning|GRAM]]