1.4 KiB
1.4 KiB
title, domain, tags, sources
| title | domain | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|
| 粗粒度计数 (Coarse-grained Counting) | Multimodal AI / Visual Reasoning |
|
|
粗粒度计数 (Coarse-grained Counting)
类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。
任务定义
对图像中特定类别的实例进行计数,不考虑细粒度属性区分。
三步推理协议
在 visual-primitives 框架下的标准思考流程:
- 意图分析 → 识别目标类别
- 批量锚定 → 使用
<|box|>同时定位所有候选对象 - 统计汇总 → 基于视觉原语计数
批量 vs 顺序锚定
粗粒度计数采用批量锚定(batch grounding)而非逐个枚举,原因:
- 利用模型固有的定位优势
- 避免重复枚举的低效
- 更接近人类的「扫一眼→分组→数数」策略
数据来源
- 密集检测数据集:Open Images, Objects365, CrowdHuman, NUCLS 等
- 过滤标准:避免过度密集、确保框足够大、高召回率
- 冷启动样本:约 10,000 个(粗+细粒度合计)
相关概念
- fine-grained-counting — 属性约束的互补任务
- visual-primitives — 使用的框原语
- exponential-decay-reward — RL 阶段的奖励函数