4.0 KiB
4.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| NeurIDA: Dynamic Modeling for Effective In-Database Analytics | 2026-05-15 | 2026-05-15 | paper |
|
|
NeurIDA: Dynamic Modeling for Effective In-Database Analytics
Lingze Zeng, Naili Xing, Shaofeng Cai, Peng Lu, Gang Chen, Jian Pei, Beng Chin Ooi — NUS, Zhejiang University, Duke University
arXiv: 2512.08483v3 | cs.DB | 2025-12-15
核心问题
RDBMS 的核心设计是动态性(支持多样且演化的分析查询),而传统 ML 模型是静态的(为单一任务训练、部署后固定)。当一个新分析任务到来时,现有模型往往无法直接适应,必须从头构建数据到模型的 pipeline,开发成本高、无法规模化。
根本矛盾:ML 模型的「刚性」vs RDBMS 环境的「动态性」。
方法论贡献
NeurIDA 是一个自主端到端系统,通过 动态库内建模(Dynamic In-Database Modeling) 范式解决上述矛盾:
NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer → 报告
四大组件
- query-intent-analyzer — LLM 驱动的自然语言查询解析,从 NLQ 提取结构化任务画像和数据画像
- conditional-model-dispatcher — 用 zero-cost-proxies + 历史 EMA 选择最优基础模型,按需触发模型增强
- dime-dynamic-in-database-modeling-engine — 核心引擎,动态从 composable-base-model-architecture 中装配定制模型
- analytical-report-synthesizer — LLM 将预测结果转化为可解释分析报告
DIME 的四阶段建模
| 阶段 | 作用 | 共享组件 |
|---|---|---|
| [[base-table-embedding | Base Table Embedding]] | 捕获表内语义,双路径编码(基础模型 + 统一元组编码器) |
| [[dynamic-relation-modeling | Dynamic Relation Modeling]] | 通过 FK-PK 图上消息传递,融入跨表关系结构 |
| [[dynamic-model-fusion | Dynamic Model Fusion]] | 上下文感知融合,将关联表信息注入目标表元组 |
| Task-Aware Prediction | 基于融合嵌入的最终预测 | 任务特定预测头 |
关键设计
- composable-base-model-architecture:异构基础模型池 + 共享模型组件 → 查询时动态装配
- data-slice:任务特定的数据库子集,通过 SQL 自动生成
- relational-graph:以 FK-PK 为边的元组图,是 DIME 的数据结构基础
实验结果
- 5 个真实数据集、10 个分析任务
- 分类:AUC-ROC 提升最高 12%
- 回归:MAE 相对降低 10%–25%
- 消融实验证实 Dynamic Relation Modeling 和 Dynamic Model Fusion 的独立贡献
- 延迟开销仅 1.1×–2.1×,参数量增加 1.2×–2.5×
关键洞察
- 从"为每个任务训一个模型"转向"从共享组件装配模型" — 这是 ML-RDBMS 集成的范式转变
- 关系结构是预测信号:当目标表特征稀疏时,关联表的关系建模带来最大增益
- LLM 作为统一界面:NLQ 输入 → 结构化画像 → 执行 → 自然语言报告,降低使用门槛
相关概念
- in-database-analytics 是更广泛的领域背景
- 基础模型池涵盖 tabular-foundation-models(TabPFN, TabICL)、TRM(FT-Transformer, ARM-Net, TabM)、LTM(TP-BERTa)等
- zero-cost-proxies 源自 Neural Architecture Search
相关论文
- xing-trails-2024: Database Native Model Selection (VLDB 2024)
- zeng-dynamic-model-slicing-2024: Powering In-Database Dynamic Model Slicing (VLDB 2024)
- zhao-neurdb-2025: NeurDB — AI-powered Autonomous Database (CIDR 2025)