20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/coarse-grained-counting.md
+++ b/concepts/coarse-grained-counting.md
@@ -0,0 +1,41 @@
+---
+title: "粗粒度计数 (Coarse-grained Counting)"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [counting, visual-primitives, grounding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 粗粒度计数 (Coarse-grained Counting)
+
+> 类别级目标计数——如「图中有多少只狗」——利用 bounding box 视觉原语进行批量锚定和统计。
+
+## 任务定义
+
+对图像中特定**类别**的实例进行计数，不考虑细粒度属性区分。
+
+## 三步推理协议
+
+在 [[visual-primitives|视觉原语]] 框架下的标准思考流程：
+
+1. **意图分析** → 识别目标类别
+2. **批量锚定** → 使用 `<|box|>` 同时定位所有候选对象
+3. **统计汇总** → 基于视觉原语计数
+
+## 批量 vs 顺序锚定
+
+粗粒度计数采用**批量锚定**（batch grounding）而非逐个枚举，原因：
+- 利用模型固有的定位优势
+- 避免重复枚举的低效
+- 更接近人类的「扫一眼→分组→数数」策略
+
+## 数据来源
+
+- 密集检测数据集：Open Images, Objects365, CrowdHuman, NUCLS 等
+- 过滤标准：避免过度密集、确保框足够大、高召回率
+- 冷启动样本：约 **10,000** 个（粗+细粒度合计）
+
+## 相关概念
+
+- [[fine-grained-counting|细粒度计数]] — 属性约束的互补任务
+- [[visual-primitives|视觉原语]] — 使用的框原语
+- [[exponential-decay-reward|指数衰减奖励]] — RL 阶段的奖励函数