--- title: "OPPO 多模态数据湖架构实践" created: 2026-04-19 updated: 2026-04-19 type: summary tags: [llm, system-design, deep-learning, research] sources: [raw/articles/oppo-multimodal-data-lake-2026.md] --- # OPPO 多模态数据湖架构实践 **来源:** Data for AI Meetup · 2026 **分享人:** David (OPPO 大数据架构负责人) **链接:** https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w ## 核心背景 OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段,主要服务于三大场景:手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。 ## 架构设计 (四层模型) | 层级 | 技术选型 | 作用 | |------|----------|------| | **计算引擎** | Spark + 二开 Lance | 统一全模态数据查询,基于 Lance 8K 开源项目二次开发 | | **元数据管理** | [[gravitino-unified-metadata]] | 统一 Catalog,支持 Hive 与 Lance 表同目录管理,多云分布,资产全局可感知 | | **加速层** | [[curvine-distributed-cache]] | 自研云原生分布式缓存,解决 OSS 带宽配额、专线压力及计算节点磁盘闲置问题 | | **平台产品层** | 数据地图/权限/治理 | 复用现有能力,实现多模态数据资产统一管理 | ## 关键成果 1. **统一元数据**:一套目录同时管理 Hive 和 Lance 表,支持单条 SQL 跨表 JOIN 查询 2. **控制增量转换存量**:强制所有新增目录通过 Gravitino 访问,逐步收归 PB 级散落算法数据 3. **Curvine 加速验证**:社区版 LanceDB + Curvine 的向量查询性能达到商业版水平 4. **多云无感迁移**:混合云架构(自建+阿里云)下,数据分布对业务透明 ## 相关概念 - [[gravitino-unified-metadata]] — Gravitino 统一元数据方案 - [[curvine-distributed-cache]] — Curvine 分布式缓存系统