Files
myWiki/concepts/kore-augmentation.md
2026-06-01 10:46:01 +08:00

47 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "KORE-AUGMENTATION知识导向增强"
created: 2026-05-21
type: concept
tags: ["knowledge-injection", "data-augmentation", "multimodal"]
sources: ["[[kore-knowledge-injection]]"]
---
# KORE-AUGMENTATION知识导向增强
## 定义
KORE-AUGMENTATION 是一种**结构化知识增强**方法,将单个知识项自动转化为多层次的[[knowledge-tree|知识树]],实现从"数据记忆"到"知识内化"的跨越。
## 知识树结构
### 主干Trunk多轮对话数据
- **启发式 Q&A**:手工模板随机构建
- **对话 Q&A**GPT-4o 根据原始文本知识生成最多 10 轮对话
- 产出75,710 条对话数据
### 分支Branches指令任务数据
- **视觉识别**CLIP 检索相似图像 → 回答 "Yes/No"
- **图像描述**GPT-4o 基于知识摘要生成答案
- **VQA**GPT-4o 生成 (Q, A, Subject, Hypernym) 四元组 → Google 搜索图像
- 产出46,468 条 VQA 样本
## 与一般增强的区别
| 维度 | 一般增强 | KORE-AUGMENTATION |
|------|---------|-------------------|
| 文本增强 | 同义词替换/改写(离散变体) | 结构化多轮对话 |
| 图像增强 | 旋转/裁剪(表面变换) | CLIP 检索 + 视觉识别/描述/VQA |
| 知识结构 | 孤立数据点,无连接 | 连贯的知识树 |
| 目标 | 扩大数据暴露面 | 知识理解和内化 |
## 本质
一般增强停留在"数据记忆"层面——模型仅能拟合训练数据。KORE-AUGMENTATION 上升到"**知识内化**"——模型能理解知识的内在逻辑和关联,灵活提取和操控学到的知识。
## 参见
- [[knowledge-tree|知识树]]
- [[kore-constraint|KORE-CONSTRAINT]]
- [[knowledge-aware-augmentation|知识感知增强]]
- [[knowledge-agnostic-augmentation|知识无关增强]]