--- title: "粗粒度计数 (Coarse-grained Counting)" domain: "Multimodal AI / Visual Reasoning" tags: [counting, visual-primitives, grounding] sources: [[thinking-with-visual-primitives]] --- # 粗粒度计数 (Coarse-grained Counting) > 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。 ## 任务定义 对图像中特定**类别**的实例进行计数,不考虑细粒度属性区分。 ## 三步推理协议 在 [[visual-primitives|视觉原语]] 框架下的标准思考流程: 1. **意图分析** → 识别目标类别 2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象 3. **统计汇总** → 基于视觉原语计数 ## 批量 vs 顺序锚定 粗粒度计数采用**批量锚定**(batch grounding)而非逐个枚举,原因: - 利用模型固有的定位优势 - 避免重复枚举的低效 - 更接近人类的「扫一眼→分组→数数」策略 ## 数据来源 - 密集检测数据集:Open Images, Objects365, CrowdHuman, NUCLS 等 - 过滤标准:避免过度密集、确保框足够大、高召回率 - 冷启动样本:约 **10,000** 个(粗+细粒度合计) ## 相关概念 - [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务 - [[visual-primitives|视觉原语]] — 使用的框原语 - [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数