Files
myWiki/concepts/coarse-grained-counting.md

1.4 KiB
Raw Blame History

title, domain, tags, sources
title domain tags sources
粗粒度计数 (Coarse-grained Counting) Multimodal AI / Visual Reasoning
counting
visual-primitives
grounding
thinking-with-visual-primitives

粗粒度计数 (Coarse-grained Counting)

类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。

任务定义

对图像中特定类别的实例进行计数,不考虑细粒度属性区分。

三步推理协议

visual-primitives 框架下的标准思考流程:

  1. 意图分析 → 识别目标类别
  2. 批量锚定 → 使用 <|box|> 同时定位所有候选对象
  3. 统计汇总 → 基于视觉原语计数

批量 vs 顺序锚定

粗粒度计数采用批量锚定batch grounding而非逐个枚举原因

  • 利用模型固有的定位优势
  • 避免重复枚举的低效
  • 更接近人类的「扫一眼→分组→数数」策略

数据来源

  • 密集检测数据集Open Images, Objects365, CrowdHuman, NUCLS 等
  • 过滤标准:避免过度密集、确保框足够大、高召回率
  • 冷启动样本:约 10,000 个(粗+细粒度合计)

相关概念