20260420:first commit

This commit is contained in:
2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions

View File

@@ -0,0 +1,35 @@
---
title: "Gravitino 统一元数据管理"
created: 2026-04-19
updated: 2026-04-19
type: concept
tags: [system-design, tooling]
sources: [raw/articles/oppo-multimodal-data-lake-2026.md]
---
# Gravitino 统一元数据管理
**应用案例:** OPPO 多模态数据湖 (2026)
## 背景
在构建多模态数据湖初期OPPO 面临算法数据散落在数百 PB 的 PB 级脚本中,缺乏归属人、使用情况和依赖关系的管理,导致严重的元数据混乱和数据滥用问题。
## 核心能力
1. **统一 Catalog**:支持多引擎友好,实现 Hive 表与 Lance 表在同一套目录下的统一管理
2. **多云分布支持**:适配混合云模式(自建机房 + 阿里云),数据分布对业务无感,简化表与数据迁移
3. **数据资产全局可感知**:实现目录归属人、每日账单、上下游依赖关系的精准归因,数据治理清晰可控
## 落地策略
- **收口机制**:强制所有新增目录必须通过 Gravitino 访问,否则拒绝
- **存量转换**:通过控制增量、逐步转换存量的方式,最终将所有元数据收归统一平台
## 收益
- 用户侧:一次查询、少搬数据、权限统一
- 架构侧:元数据集中、易扩展、易治理
- 支持联邦查询:单条 SQL 跨 Hive/Lance 表 JOIN
## 相关概念
- [[oppo-multimodal-data-lake]] — OPPO 数据湖实践
- [[curvine-distributed-cache]] — 配套加速层 Curvine