OPPO 多模态数据湖架构实践

来源: Data for AI Meetup · 2026 分享人: David (OPPO 大数据架构负责人) 链接: https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w

核心背景

OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段，主要服务于三大场景：手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。

层级	技术选型	作用
计算引擎	Spark + 二开 Lance	统一全模态数据查询，基于 Lance 8K 开源项目二次开发
元数据管理	gravitino-unified-metadata	统一 Catalog，支持 Hive 与 Lance 表同目录管理，多云分布，资产全局可感知
加速层	curvine-distributed-cache	自研云原生分布式缓存，解决 OSS 带宽配额、专线压力及计算节点磁盘闲置问题
平台产品层	数据地图/权限/治理	复用现有能力，实现多模态数据资产统一管理