Files
myWiki/concepts/fine-grained-counting.md

43 lines
1.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "细粒度计数 (Fine-grained Counting)"
domain: "Multimodal AI / Visual Reasoning"
tags: [counting, visual-primitives, fine-grained, grounding]
sources: [[thinking-with-visual-primitives]]
---
# 细粒度计数 (Fine-grained Counting)
> 属性/空间约束下的目标计数——如「白色的狗有多少只」或「左边那只狗的旁边有多少个球」——需要结合视觉原语的顺序扫描和逐项验证。
## 与粗粒度计数的区别
| 维度 | [[coarse-grained-counting|粗粒度计数]] | 细粒度计数 |
|------|---------------|-----------|
| 查询类型 | 类别级 | 属性/空间约束 |
| 锚定方式 | 批量锚定 | **顺序扫描 + 逐项验证** |
| 认知负荷 | 较低 | 高(需要区分性判断) |
## 数据构造
由于公开数据集稀缺,采用专门的数据构建管道:
1. **问题生成**:使用 GQA 场景图 + MLLM 生成细粒度计数问题
2. **思维内容合成**:顺序扫描场景中每个候选对象,对照细粒度约束验证
3. **负样本构造**ground-truth 计数为 0 的样本(增强抗幻觉鲁棒性)
## 推理模式
```
1. 意图分析:识别目标类别 + 属性约束
2. 顺序扫描:
<|box|>[[x1,y1,x2,y2]]<|/box|> → 符合约束?是/否
<|box|>[[x3,y3,x4,y4]]<|/box|> → 符合约束?是/否
...
3. 统计汇总:总计数
```
## 相关概念
- [[coarse-grained-counting|粗粒度计数]] — 互补任务
- [[visual-primitives|视觉原语]] — 核心机制
- [[perception-gap|感知鸿沟]] — 细粒度场景更容易触发