20260420:first commit
This commit is contained in:
38
articles/oppo-multimodal-data-lake.md
Normal file
38
articles/oppo-multimodal-data-lake.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "OPPO 多模态数据湖架构实践"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: summary
|
||||
tags: [llm, system-design, deep-learning, research]
|
||||
sources: [raw/articles/oppo-multimodal-data-lake-2026.md]
|
||||
---
|
||||
|
||||
# OPPO 多模态数据湖架构实践
|
||||
|
||||
**来源:** Data for AI Meetup · 2026
|
||||
**分享人:** David (OPPO 大数据架构负责人)
|
||||
**链接:** https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w
|
||||
|
||||
## 核心背景
|
||||
OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段,主要服务于三大场景:手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。
|
||||
|
||||
## 架构设计 (四层模型)
|
||||
|
||||
| 层级 | 技术选型 | 作用 |
|
||||
|------|----------|------|
|
||||
| **计算引擎** | Spark + 二开 Lance | 统一全模态数据查询,基于 Lance 8K 开源项目二次开发 |
|
||||
| **元数据管理** | [[gravitino-unified-metadata]] | 统一 Catalog,支持 Hive 与 Lance 表同目录管理,多云分布,资产全局可感知 |
|
||||
| **加速层** | [[curvine-distributed-cache]] | 自研云原生分布式缓存,解决 OSS 带宽配额、专线压力及计算节点磁盘闲置问题 |
|
||||
| **平台产品层** | 数据地图/权限/治理 | 复用现有能力,实现多模态数据资产统一管理 |
|
||||
|
||||
## 关键成果
|
||||
|
||||
1. **统一元数据**:一套目录同时管理 Hive 和 Lance 表,支持单条 SQL 跨表 JOIN 查询
|
||||
2. **控制增量转换存量**:强制所有新增目录通过 Gravitino 访问,逐步收归 PB 级散落算法数据
|
||||
3. **Curvine 加速验证**:社区版 LanceDB + Curvine 的向量查询性能达到商业版水平
|
||||
4. **多云无感迁移**:混合云架构(自建+阿里云)下,数据分布对业务透明
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[gravitino-unified-metadata]] — Gravitino 统一元数据方案
|
||||
- [[curvine-distributed-cache]] — Curvine 分布式缓存系统
|
||||
Reference in New Issue
Block a user