title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| OPPO 多模态数据湖架构实践 |
2026-04-19 |
2026-04-19 |
summary |
| llm |
| system-design |
| deep-learning |
| research |
|
| raw/articles/oppo-multimodal-data-lake-2026.md |
|
OPPO 多模态数据湖架构实践
来源: Data for AI Meetup · 2026
分享人: David (OPPO 大数据架构负责人)
链接: https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w
核心背景
OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段,主要服务于三大场景:手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。
架构设计 (四层模型)
关键成果
- 统一元数据:一套目录同时管理 Hive 和 Lance 表,支持单条 SQL 跨表 JOIN 查询
- 控制增量转换存量:强制所有新增目录通过 Gravitino 访问,逐步收归 PB 级散落算法数据
- Curvine 加速验证:社区版 LanceDB + Curvine 的向量查询性能达到商业版水平
- 多云无感迁移:混合云架构(自建+阿里云)下,数据分布对业务透明
相关概念