20260514:增加新内容
This commit is contained in:
43
concepts/fine-grained-counting.md
Normal file
43
concepts/fine-grained-counting.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "细粒度计数 (Fine-grained Counting)"
|
||||
domain: "Multimodal AI / Visual Reasoning"
|
||||
tags: [counting, visual-primitives, fine-grained, grounding]
|
||||
sources: [[thinking-with-visual-primitives]]
|
||||
---
|
||||
|
||||
# 细粒度计数 (Fine-grained Counting)
|
||||
|
||||
> 属性/空间约束下的目标计数——如「白色的狗有多少只」或「左边那只狗的旁边有多少个球」——需要结合视觉原语的顺序扫描和逐项验证。
|
||||
|
||||
## 与粗粒度计数的区别
|
||||
|
||||
| 维度 | [[coarse-grained-counting|粗粒度计数]] | 细粒度计数 |
|
||||
|------|---------------|-----------|
|
||||
| 查询类型 | 类别级 | 属性/空间约束 |
|
||||
| 锚定方式 | 批量锚定 | **顺序扫描 + 逐项验证** |
|
||||
| 认知负荷 | 较低 | 高(需要区分性判断) |
|
||||
|
||||
## 数据构造
|
||||
|
||||
由于公开数据集稀缺,采用专门的数据构建管道:
|
||||
|
||||
1. **问题生成**:使用 GQA 场景图 + MLLM 生成细粒度计数问题
|
||||
2. **思维内容合成**:顺序扫描场景中每个候选对象,对照细粒度约束验证
|
||||
3. **负样本构造**:ground-truth 计数为 0 的样本(增强抗幻觉鲁棒性)
|
||||
|
||||
## 推理模式
|
||||
|
||||
```
|
||||
1. 意图分析:识别目标类别 + 属性约束
|
||||
2. 顺序扫描:
|
||||
<|box|>[[x1,y1,x2,y2]]<|/box|> → 符合约束?是/否
|
||||
<|box|>[[x3,y3,x4,y4]]<|/box|> → 符合约束?是/否
|
||||
...
|
||||
3. 统计汇总:总计数
|
||||
```
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[coarse-grained-counting|粗粒度计数]] — 互补任务
|
||||
- [[visual-primitives|视觉原语]] — 核心机制
|
||||
- [[perception-gap|感知鸿沟]] — 细粒度场景更容易触发
|
||||
Reference in New Issue
Block a user