41 lines
1.4 KiB
Markdown
41 lines
1.4 KiB
Markdown
---
|
||
title: "粗粒度计数 (Coarse-grained Counting)"
|
||
domain: "Multimodal AI / Visual Reasoning"
|
||
tags: [counting, visual-primitives, grounding]
|
||
sources: [[thinking-with-visual-primitives]]
|
||
---
|
||
|
||
# 粗粒度计数 (Coarse-grained Counting)
|
||
|
||
> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。
|
||
|
||
## 任务定义
|
||
|
||
对图像中特定**类别**的实例进行计数,不考虑细粒度属性区分。
|
||
|
||
## 三步推理协议
|
||
|
||
在 [[visual-primitives|视觉原语]] 框架下的标准思考流程:
|
||
|
||
1. **意图分析** → 识别目标类别
|
||
2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象
|
||
3. **统计汇总** → 基于视觉原语计数
|
||
|
||
## 批量 vs 顺序锚定
|
||
|
||
粗粒度计数采用**批量锚定**(batch grounding)而非逐个枚举,原因:
|
||
- 利用模型固有的定位优势
|
||
- 避免重复枚举的低效
|
||
- 更接近人类的「扫一眼→分组→数数」策略
|
||
|
||
## 数据来源
|
||
|
||
- 密集检测数据集:Open Images, Objects365, CrowdHuman, NUCLS 等
|
||
- 过滤标准:避免过度密集、确保框足够大、高召回率
|
||
- 冷启动样本:约 **10,000** 个(粗+细粒度合计)
|
||
|
||
## 相关概念
|
||
|
||
- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务
|
||
- [[visual-primitives|视觉原语]] — 使用的框原语
|
||
- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数 |