Files
myWiki/concepts/gravitino-unified-metadata.md
2026-04-20 11:42:41 +08:00

36 lines
1.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Gravitino 统一元数据管理"
created: 2026-04-19
updated: 2026-04-19
type: concept
tags: [system-design, tooling]
sources: [raw/articles/oppo-multimodal-data-lake-2026.md]
---
# Gravitino 统一元数据管理
**应用案例:** OPPO 多模态数据湖 (2026)
## 背景
在构建多模态数据湖初期OPPO 面临算法数据散落在数百 PB 的 PB 级脚本中,缺乏归属人、使用情况和依赖关系的管理,导致严重的元数据混乱和数据滥用问题。
## 核心能力
1. **统一 Catalog**:支持多引擎友好,实现 Hive 表与 Lance 表在同一套目录下的统一管理
2. **多云分布支持**:适配混合云模式(自建机房 + 阿里云),数据分布对业务无感,简化表与数据迁移
3. **数据资产全局可感知**:实现目录归属人、每日账单、上下游依赖关系的精准归因,数据治理清晰可控
## 落地策略
- **收口机制**:强制所有新增目录必须通过 Gravitino 访问,否则拒绝
- **存量转换**:通过控制增量、逐步转换存量的方式,最终将所有元数据收归统一平台
## 收益
- 用户侧:一次查询、少搬数据、权限统一
- 架构侧:元数据集中、易扩展、易治理
- 支持联邦查询:单条 SQL 跨 Hive/Lance 表 JOIN
## 相关概念
- [[oppo-multimodal-data-lake]] — OPPO 数据湖实践
- [[curvine-distributed-cache]] — 配套加速层 Curvine