Differentiable Token Budgeting

可微分 Token 预算是 Token Economics 五大前沿方向之一（O1），主张将 Token 预算从一个外生参数转变为一个可学习的、可微分的参数，使 Agent 能通过梯度优化自动学习最优的 Token 分配策略。

动机

当前的 Token 预算管理是硬编码的：

这些硬约束忽略了任务间的异质性：简单任务被分配过多 token 造成浪费，复杂任务被截断导致失败。

Budget = f_θ(task_complexity, quality_target, cost_constraint)

使用可学习的函数 f_θ（参数为 θ），根据任务特征动态预测最优 Token 预算。通过将预算分配与最终任务质量建立可微连接，用梯度下降优化 θ。

挑战	描述
离散性	Token 预算是离散的——需要离散优化或连续松弛
因果链长度	预算 → 生成 → 质量之间的因果链太长，梯度信号稀疏
分配粒度	预算需要在 token 类型之间分配（推理/记忆/工具），而非单一数字
在线适应	预算预测需要适应执行过程中的新信息