20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/fine-grained-counting.md
+++ b/concepts/fine-grained-counting.md
@@ -0,0 +1,43 @@
+---
+title: "细粒度计数 (Fine-grained Counting)"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [counting, visual-primitives, fine-grained, grounding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 细粒度计数 (Fine-grained Counting)
+
+> 属性/空间约束下的目标计数——如「白色的狗有多少只」或「左边那只狗的旁边有多少个球」——需要结合视觉原语的顺序扫描和逐项验证。
+
+## 与粗粒度计数的区别
+
+| 维度 | [[coarse-grained-counting|粗粒度计数]] | 细粒度计数 |
+|------|---------------|-----------|
+| 查询类型 | 类别级 | 属性/空间约束 |
+| 锚定方式 | 批量锚定 | **顺序扫描 + 逐项验证** |
+| 认知负荷 | 较低 | 高（需要区分性判断） |
+
+## 数据构造
+
+由于公开数据集稀缺，采用专门的数据构建管道：
+
+1. **问题生成**：使用 GQA 场景图 + MLLM 生成细粒度计数问题
+2. **思维内容合成**：顺序扫描场景中每个候选对象，对照细粒度约束验证
+3. **负样本构造**：ground-truth 计数为 0 的样本（增强抗幻觉鲁棒性）
+
+## 推理模式
+
+```
+1. 意图分析：识别目标类别 + 属性约束
+2. 顺序扫描：
+   <|box|>[[x1,y1,x2,y2]]<|/box|> → 符合约束？是/否
+   <|box|>[[x3,y3,x4,y4]]<|/box|> → 符合约束？是/否
+   ...
+3. 统计汇总：总计数
+```
+
+## 相关概念
+
+- [[coarse-grained-counting|粗粒度计数]] — 互补任务
+- [[visual-primitives|视觉原语]] — 核心机制
+- [[perception-gap|感知鸿沟]] — 细粒度场景更容易触发