Files
myWiki/concepts/agent-token-budget-optimization.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Agent Token Budget Optimization 2026-06-05 2026-06-05 concept
token-economics
budget
optimization
agent
chen-token-economics-llm-agents

Agent Token Budget Optimization

Agent Token 预算优化micro-level-token-economics 的核心方法论,研究在给定 Token 预算约束下如何最大化 Agent 输出质量。对应新古典企业理论中的要素替代优化问题。

核心公式

max Quality(A; T_input, T_reason, T_memory, T_tool)
s.t.  Σ(T_i × p_i) ≤ Budget

给定预算 B在推理、记忆、工具调用等 Token 类型之间进行最优分配。

五大优化策略

策略 描述 对应 Token 类型
KV-Cache 共享 多轮对话中共享注意力缓存 计算 Token
投机解码 草稿模型加速推理 计算 Token
上下文压缩 摘要/关键帧选择替代完整历史 记忆 Token
工具调用批量化 合并多次工具调用为一次 工具 Token
CoT 压缩 减少推理步骤的冗长度 推理 Token

两阶段优化模式

实际系统通常采用两阶段:

  1. Adaptive Budget Allocation:根据任务复杂度动态分配初始预算
  2. Online Budget Monitoring:执行过程中监控消耗,触发重分配或提前终止

预算感知 vs 预算不感知

模式 行为 风险
预算不感知 Agent 无限制生成,依赖外部截断 关键推理被截断、"Lost in the Middle"
预算感知 Agent 在已知预算内主动优化 策略性压缩、质量-效率权衡

与相关概念