--- title: "Gravitino 统一元数据管理" created: 2026-04-19 updated: 2026-04-19 type: concept tags: [system-design, tooling] sources: [raw/articles/oppo-multimodal-data-lake-2026.md] --- # Gravitino 统一元数据管理 **应用案例:** OPPO 多模态数据湖 (2026) ## 背景 在构建多模态数据湖初期,OPPO 面临算法数据散落在数百 PB 的 PB 级脚本中,缺乏归属人、使用情况和依赖关系的管理,导致严重的元数据混乱和数据滥用问题。 ## 核心能力 1. **统一 Catalog**:支持多引擎友好,实现 Hive 表与 Lance 表在同一套目录下的统一管理 2. **多云分布支持**:适配混合云模式(自建机房 + 阿里云),数据分布对业务无感,简化表与数据迁移 3. **数据资产全局可感知**:实现目录归属人、每日账单、上下游依赖关系的精准归因,数据治理清晰可控 ## 落地策略 - **收口机制**:强制所有新增目录必须通过 Gravitino 访问,否则拒绝 - **存量转换**:通过控制增量、逐步转换存量的方式,最终将所有元数据收归统一平台 ## 收益 - 用户侧:一次查询、少搬数据、权限统一 - 架构侧:元数据集中、易扩展、易治理 - 支持联邦查询:单条 SQL 跨 Hive/Lance 表 JOIN ## 相关概念 - [[oppo-multimodal-data-lake]] — OPPO 数据湖实践 - [[curvine-distributed-cache]] — 配套加速层 Curvine