Files
myWiki/concepts/coarse-grained-counting.md

41 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "粗粒度计数 (Coarse-grained Counting)"
domain: "Multimodal AI / Visual Reasoning"
tags: [counting, visual-primitives, grounding]
sources: [[thinking-with-visual-primitives]]
---
# 粗粒度计数 (Coarse-grained Counting)
> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。
## 任务定义
对图像中特定**类别**的实例进行计数,不考虑细粒度属性区分。
## 三步推理协议
在 [[visual-primitives|视觉原语]] 框架下的标准思考流程:
1. **意图分析** → 识别目标类别
2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象
3. **统计汇总** → 基于视觉原语计数
## 批量 vs 顺序锚定
粗粒度计数采用**批量锚定**batch grounding而非逐个枚举原因
- 利用模型固有的定位优势
- 避免重复枚举的低效
- 更接近人类的「扫一眼→分组→数数」策略
## 数据来源
- 密集检测数据集Open Images, Objects365, CrowdHuman, NUCLS 等
- 过滤标准:避免过度密集、确保框足够大、高召回率
- 冷启动样本:约 **10,000** 个(粗+细粒度合计)
## 相关概念
- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务
- [[visual-primitives|视觉原语]] — 使用的框原语
- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数