20260420:first commit

This commit is contained in:
2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions

View File

@@ -0,0 +1,38 @@
---
title: "OPPO 多模态数据湖架构实践"
created: 2026-04-19
updated: 2026-04-19
type: summary
tags: [llm, system-design, deep-learning, research]
sources: [raw/articles/oppo-multimodal-data-lake-2026.md]
---
# OPPO 多模态数据湖架构实践
**来源:** Data for AI Meetup · 2026
**分享人:** David (OPPO 大数据架构负责人)
**链接:** https://mp.weixin.qq.com/s/cBaYa04qAIGsxG1hD7ll3w
## 核心背景
OPPO 的大数据基础设施从离线 Hive/Spark 演进至全模态数据湖阶段,主要服务于三大场景:手机影像算法迭代、多模态推荐搜索、多模态端侧 Agent。数据爆发式增长带来了数据孤岛、元数据混乱和云上 IO 瓶颈等挑战。
## 架构设计 (四层模型)
| 层级 | 技术选型 | 作用 |
|------|----------|------|
| **计算引擎** | Spark + 二开 Lance | 统一全模态数据查询,基于 Lance 8K 开源项目二次开发 |
| **元数据管理** | [[gravitino-unified-metadata]] | 统一 Catalog支持 Hive 与 Lance 表同目录管理,多云分布,资产全局可感知 |
| **加速层** | [[curvine-distributed-cache]] | 自研云原生分布式缓存,解决 OSS 带宽配额、专线压力及计算节点磁盘闲置问题 |
| **平台产品层** | 数据地图/权限/治理 | 复用现有能力,实现多模态数据资产统一管理 |
## 关键成果
1. **统一元数据**:一套目录同时管理 Hive 和 Lance 表,支持单条 SQL 跨表 JOIN 查询
2. **控制增量转换存量**:强制所有新增目录通过 Gravitino 访问,逐步收归 PB 级散落算法数据
3. **Curvine 加速验证**:社区版 LanceDB + Curvine 的向量查询性能达到商业版水平
4. **多云无感迁移**:混合云架构(自建+阿里云)下,数据分布对业务透明
## 相关概念
- [[gravitino-unified-metadata]] — Gravitino 统一元数据方案
- [[curvine-distributed-cache]] — Curvine 分布式缓存系统