36 lines
1.4 KiB
Markdown
36 lines
1.4 KiB
Markdown
---
|
||
title: "Gravitino 统一元数据管理"
|
||
created: 2026-04-19
|
||
updated: 2026-04-19
|
||
type: concept
|
||
tags: [system-design, tooling]
|
||
sources: [raw/articles/oppo-multimodal-data-lake-2026.md]
|
||
---
|
||
|
||
# Gravitino 统一元数据管理
|
||
|
||
**应用案例:** OPPO 多模态数据湖 (2026)
|
||
|
||
## 背景
|
||
在构建多模态数据湖初期,OPPO 面临算法数据散落在数百 PB 的 PB 级脚本中,缺乏归属人、使用情况和依赖关系的管理,导致严重的元数据混乱和数据滥用问题。
|
||
|
||
## 核心能力
|
||
|
||
1. **统一 Catalog**:支持多引擎友好,实现 Hive 表与 Lance 表在同一套目录下的统一管理
|
||
2. **多云分布支持**:适配混合云模式(自建机房 + 阿里云),数据分布对业务无感,简化表与数据迁移
|
||
3. **数据资产全局可感知**:实现目录归属人、每日账单、上下游依赖关系的精准归因,数据治理清晰可控
|
||
|
||
## 落地策略
|
||
- **收口机制**:强制所有新增目录必须通过 Gravitino 访问,否则拒绝
|
||
- **存量转换**:通过控制增量、逐步转换存量的方式,最终将所有元数据收归统一平台
|
||
|
||
## 收益
|
||
- 用户侧:一次查询、少搬数据、权限统一
|
||
- 架构侧:元数据集中、易扩展、易治理
|
||
- 支持联邦查询:单条 SQL 跨 Hive/Lance 表 JOIN
|
||
|
||
## 相关概念
|
||
|
||
- [[oppo-multimodal-data-lake]] — OPPO 数据湖实践
|
||
- [[curvine-distributed-cache]] — 配套加速层 Curvine
|