---
title: "粗粒度计数 (Coarse-grained Counting)"
domain: "Multimodal AI / Visual Reasoning"
tags: [counting, visual-primitives, grounding]
sources: [[thinking-with-visual-primitives]]
---

# 粗粒度计数 (Coarse-grained Counting)

> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。

## 任务定义

对图像中特定**类别**的实例进行计数，不考虑细粒度属性区分。

## 三步推理协议

在 [[visual-primitives|视觉原语]] 框架下的标准思考流程：

1. **意图分析** → 识别目标类别
2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象
3. **统计汇总** → 基于视觉原语计数

## 批量 vs 顺序锚定

粗粒度计数采用**批量锚定**（batch grounding）而非逐个枚举，原因：
- 利用模型固有的定位优势
- 避免重复枚举的低效
- 更接近人类的「扫一眼→分组→数数」策略

## 数据来源

- 密集检测数据集：Open Images, Objects365, CrowdHuman, NUCLS 等
- 过滤标准：避免过度密集、确保框足够大、高召回率
- 冷启动样本：约 **10,000** 个（粗+细粒度合计）

## 相关概念

- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务
- [[visual-primitives|视觉原语]] — 使用的框原语
- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数