SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.4 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

粗粒度计数 (Coarse-grained Counting)

Multimodal AI / Visual Reasoning

counting

visual-primitives

grounding

thinking-with-visual-primitives

粗粒度计数 (Coarse-grained Counting)

类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。

任务定义

对图像中特定类别的实例进行计数，不考虑细粒度属性区分。

三步推理协议

在 visual-primitives 框架下的标准思考流程：

意图分析 → 识别目标类别
批量锚定 → 使用 <|box|> 同时定位所有候选对象
统计汇总 → 基于视觉原语计数

批量 vs 顺序锚定

粗粒度计数采用批量锚定（batch grounding）而非逐个枚举，原因：

利用模型固有的定位优势
避免重复枚举的低效
更接近人类的「扫一眼→分组→数数」策略

数据来源

密集检测数据集：Open Images, Objects365, CrowdHuman, NUCLS 等
过滤标准：避免过度密集、确保框足够大、高召回率
冷启动样本：约 10,000 个（粗+细粒度合计）

相关概念

fine-grained-counting — 属性约束的互补任务
visual-primitives — 使用的框原语
exponential-decay-reward — RL 阶段的奖励函数