1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||
|---|---|---|---|---|---|---|---|---|
| Gravitino 统一元数据管理 | 2026-04-19 | 2026-04-19 | concept |
|
|
Gravitino 统一元数据管理
应用案例: OPPO 多模态数据湖 (2026)
背景
在构建多模态数据湖初期,OPPO 面临算法数据散落在数百 PB 的 PB 级脚本中,缺乏归属人、使用情况和依赖关系的管理,导致严重的元数据混乱和数据滥用问题。
核心能力
- 统一 Catalog:支持多引擎友好,实现 Hive 表与 Lance 表在同一套目录下的统一管理
- 多云分布支持:适配混合云模式(自建机房 + 阿里云),数据分布对业务无感,简化表与数据迁移
- 数据资产全局可感知:实现目录归属人、每日账单、上下游依赖关系的精准归因,数据治理清晰可控
落地策略
- 收口机制:强制所有新增目录必须通过 Gravitino 访问,否则拒绝
- 存量转换:通过控制增量、逐步转换存量的方式,最终将所有元数据收归统一平台
收益
- 用户侧:一次查询、少搬数据、权限统一
- 架构侧:元数据集中、易扩展、易治理
- 支持联邦查询:单条 SQL 跨 Hive/Lance 表 JOIN
相关概念
- oppo-multimodal-data-lake — OPPO 数据湖实践
- curvine-distributed-cache — 配套加速层 Curvine