SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.6 KiB

Raw Permalink Blame History

title, domain, tags, sources

title

domain

tags

sources

Token 效率 (Token Efficiency)

Multimodal AI / Efficiency

token-efficiency

visual-token

compression

thinking-with-visual-primitives

Token 效率 (Token Efficiency)

以更少的视觉 token 实现相当或更强的推理能力——「Thinking with Visual Primitives」的核心架构优势。

动机

前沿多模态模型普遍依赖大量视觉 token 来弥补视觉缺陷：

GPT-5.4: ~740 tokens/image
Claude-Sonnet-4.6: ~870 tokens/image
Gemini-3-Flash: ~1,100 tokens/image

高 token 预算意味着：

更长的推理延迟
更大的 KV cache 内存占用
更高的 API 成本

DeepSeek 的方案

756×756 图像
  → Patch Embedding (14×14): 2,916 tokens
    → 3×3 空间压缩: 324 visual tokens
      → CSA 压缩: 81 KV entries (~90 in KV cache)

总压缩比：7056×

性能对比

模型	KV Entries ≈	CountQA EM	SpatialMQA
Ours	~90	66.1	69.4
GPT-5.4	~740	48.3	61.9
Gemini-3-Flash	~1,100	34.8	58.2

以 1/8 到 1/12 的 token 预算，实现更优或相当的性能。

关键使能技术

compressed-sparse-attention — KV cache 层面的压缩
deepseek-vit — 3×3 空间 token 压缩
visual-primitives — 每个 token 信息密度更高

相关概念

compressed-sparse-attention — 核心压缩机制
deepseek-vit — 视觉编码器
visual-primitives — 信息密度提升