20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,41 @@
---
title: "粗粒度计数 (Coarse-grained Counting)"
domain: "Multimodal AI / Visual Reasoning"
tags: [counting, visual-primitives, grounding]
sources: [[thinking-with-visual-primitives]]
---
# 粗粒度计数 (Coarse-grained Counting)
> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。
## 任务定义
对图像中特定**类别**的实例进行计数,不考虑细粒度属性区分。
## 三步推理协议
在 [[visual-primitives|视觉原语]] 框架下的标准思考流程:
1. **意图分析** → 识别目标类别
2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象
3. **统计汇总** → 基于视觉原语计数
## 批量 vs 顺序锚定
粗粒度计数采用**批量锚定**batch grounding而非逐个枚举原因
- 利用模型固有的定位优势
- 避免重复枚举的低效
- 更接近人类的「扫一眼→分组→数数」策略
## 数据来源
- 密集检测数据集Open Images, Objects365, CrowdHuman, NUCLS 等
- 过滤标准:避免过度密集、确保框足够大、高召回率
- 冷启动样本:约 **10,000** 个(粗+细粒度合计)
## 相关概念
- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务
- [[visual-primitives|视觉原语]] — 使用的框原语
- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数