Files
myWiki/concepts/gravitino-unified-metadata.md
2026-04-20 11:42:41 +08:00

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Gravitino 统一元数据管理 2026-04-19 2026-04-19 concept
system-design
tooling
raw/articles/oppo-multimodal-data-lake-2026.md

Gravitino 统一元数据管理

应用案例: OPPO 多模态数据湖 (2026)

背景

在构建多模态数据湖初期OPPO 面临算法数据散落在数百 PB 的 PB 级脚本中,缺乏归属人、使用情况和依赖关系的管理,导致严重的元数据混乱和数据滥用问题。

核心能力

  1. 统一 Catalog:支持多引擎友好,实现 Hive 表与 Lance 表在同一套目录下的统一管理
  2. 多云分布支持:适配混合云模式(自建机房 + 阿里云),数据分布对业务无感,简化表与数据迁移
  3. 数据资产全局可感知:实现目录归属人、每日账单、上下游依赖关系的精准归因,数据治理清晰可控

落地策略

  • 收口机制:强制所有新增目录必须通过 Gravitino 访问,否则拒绝
  • 存量转换:通过控制增量、逐步转换存量的方式,最终将所有元数据收归统一平台

收益

  • 用户侧:一次查询、少搬数据、权限统一
  • 架构侧:元数据集中、易扩展、易治理
  • 支持联邦查询:单条 SQL 跨 Hive/Lance 表 JOIN

相关概念