Files
myWiki/concepts/fine-grained-counting.md

1.5 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
细粒度计数 (Fine-grained Counting) Multimodal AI / Visual Reasoning
counting
visual-primitives
fine-grained
grounding
thinking-with-visual-primitives

细粒度计数 (Fine-grained Counting)

属性/空间约束下的目标计数——如「白色的狗有多少只」或「左边那只狗的旁边有多少个球」——需要结合视觉原语的顺序扫描和逐项验证。

与粗粒度计数的区别

| 维度 | coarse-grained-counting | 细粒度计数 | |------|---------------|-----------| | 查询类型 | 类别级 | 属性/空间约束 | | 锚定方式 | 批量锚定 | 顺序扫描 + 逐项验证 | | 认知负荷 | 较低 | 高(需要区分性判断) |

数据构造

由于公开数据集稀缺,采用专门的数据构建管道:

  1. 问题生成:使用 GQA 场景图 + MLLM 生成细粒度计数问题
  2. 思维内容合成:顺序扫描场景中每个候选对象,对照细粒度约束验证
  3. 负样本构造ground-truth 计数为 0 的样本(增强抗幻觉鲁棒性)

推理模式

1. 意图分析:识别目标类别 + 属性约束
2. 顺序扫描:
   <|box|>[[x1,y1,x2,y2]]<|/box|> → 符合约束?是/否
   <|box|>[[x3,y3,x4,y4]]<|/box|> → 符合约束?是/否
   ...
3. 统计汇总:总计数

相关概念