Files
myWiki/articles/oppo-multimodal-data-lake.md
2026-04-20 11:42:41 +08:00

39 lines
1.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "OPPO 多模态数据湖架构实践"
created: 2026-04-19
updated: 2026-04-19
type: summary
tags: [llm, system-design, deep-learning, research]
sources: [raw/articles/oppo-multimodal-data-lake-2026.md]
---
# OPPO 多模态数据湖架构实践
**来源:** Data for AI Meetup · 2026
**分享人:** David (OPPO 大数据架构负责人)
**链接:** https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w
## 核心背景
OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段,主要服务于三大场景:手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。
## 架构设计 (四层模型)
| 层级 | 技术选型 | 作用 |
|------|----------|------|
| **计算引擎** | Spark + 二开 Lance | 统一全模态数据查询,基于 Lance 8K 开源项目二次开发 |
| **元数据管理** | [[gravitino-unified-metadata]] | 统一 Catalog支持 Hive 与 Lance 表同目录管理,多云分布,资产全局可感知 |
| **加速层** | [[curvine-distributed-cache]] | 自研云原生分布式缓存,解决 OSS 带宽配额、专线压力及计算节点磁盘闲置问题 |
| **平台产品层** | 数据地图/权限/治理 | 复用现有能力,实现多模态数据资产统一管理 |
## 关键成果
1. **统一元数据**:一套目录同时管理 Hive 和 Lance 表,支持单条 SQL 跨表 JOIN 查询
2. **控制增量转换存量**:强制所有新增目录通过 Gravitino 访问,逐步收归 PB 级散落算法数据
3. **Curvine 加速验证**:社区版 LanceDB + Curvine 的向量查询性能达到商业版水平
4. **多云无感迁移**:混合云架构(自建+阿里云)下,数据分布对业务透明
## 相关概念
- [[gravitino-unified-metadata]] — Gravitino 统一元数据方案
- [[curvine-distributed-cache]] — Curvine 分布式缓存系统