Files
myWiki/articles/oppo-multimodal-data-lake.md
2026-04-20 11:42:41 +08:00

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
OPPO 多模态数据湖架构实践 2026-04-19 2026-04-19 summary
llm
system-design
deep-learning
research
raw/articles/oppo-multimodal-data-lake-2026.md

OPPO 多模态数据湖架构实践

来源: Data for AI Meetup · 2026 分享人: David (OPPO 大数据架构负责人) 链接: https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w

核心背景

OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段,主要服务于三大场景:手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。

架构设计 (四层模型)

层级 技术选型 作用
计算引擎 Spark + 二开 Lance 统一全模态数据查询,基于 Lance 8K 开源项目二次开发
元数据管理 gravitino-unified-metadata 统一 Catalog支持 Hive 与 Lance 表同目录管理,多云分布,资产全局可感知
加速层 curvine-distributed-cache 自研云原生分布式缓存,解决 OSS 带宽配额、专线压力及计算节点磁盘闲置问题
平台产品层 数据地图/权限/治理 复用现有能力,实现多模态数据资产统一管理

关键成果

  1. 统一元数据:一套目录同时管理 Hive 和 Lance 表,支持单条 SQL 跨表 JOIN 查询
  2. 控制增量转换存量:强制所有新增目录通过 Gravitino 访问,逐步收归 PB 级散落算法数据
  3. Curvine 加速验证:社区版 LanceDB + Curvine 的向量查询性能达到商业版水平
  4. 多云无感迁移:混合云架构(自建+阿里云)下,数据分布对业务透明

相关概念