NeurIDA: Dynamic Modeling for Effective In-Database Analytics

Lingze Zeng, Naili Xing, Shaofeng Cai, Peng Lu, Gang Chen, Jian Pei, Beng Chin Ooi — NUS, Zhejiang University, Duke University
arXiv: 2512.08483v3 | cs.DB | 2025-12-15

核心问题

RDBMS 的核心设计是动态性（支持多样且演化的分析查询），而传统 ML 模型是静态的（为单一任务训练、部署后固定）。当一个新分析任务到来时，现有模型往往无法直接适应，必须从头构建数据到模型的 pipeline，开发成本高、无法规模化。

根本矛盾：ML 模型的「刚性」vs RDBMS 环境的「动态性」。

方法论贡献

NeurIDA 是一个自主端到端系统，通过 动态库内建模（Dynamic In-Database Modeling） 范式解决上述矛盾：

NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer → 报告

四大组件

query-intent-analyzer — LLM 驱动的自然语言查询解析，从 NLQ 提取结构化任务画像和数据画像
conditional-model-dispatcher — 用 zero-cost-proxies + 历史 EMA 选择最优基础模型，按需触发模型增强
dime-dynamic-in-database-modeling-engine — 核心引擎，动态从 composable-base-model-architecture 中装配定制模型
analytical-report-synthesizer — LLM 将预测结果转化为可解释分析报告

DIME 的四阶段建模

阶段	作用	共享组件
[[base-table-embedding	Base Table Embedding]]	捕获表内语义，双路径编码（基础模型 + 统一元组编码器）
[[dynamic-relation-modeling	Dynamic Relation Modeling]]	通过 FK-PK 图上消息传递，融入跨表关系结构
[[dynamic-model-fusion	Dynamic Model Fusion]]	上下文感知融合，将关联表信息注入目标表元组
Task-Aware Prediction	基于融合嵌入的最终预测	任务特定预测头

关键设计

composable-base-model-architecture：异构基础模型池 + 共享模型组件 → 查询时动态装配
data-slice：任务特定的数据库子集，通过 SQL 自动生成
relational-graph：以 FK-PK 为边的元组图，是 DIME 的数据结构基础

实验结果

5 个真实数据集、10 个分析任务
分类：AUC-ROC 提升最高 12%
回归：MAE 相对降低 10%–25%
消融实验证实 Dynamic Relation Modeling 和 Dynamic Model Fusion 的独立贡献
延迟开销仅 1.1×–2.1×，参数量增加 1.2×–2.5×

关键洞察

从"为每个任务训一个模型"转向"从共享组件装配模型" — 这是 ML-RDBMS 集成的范式转变
关系结构是预测信号：当目标表特征稀疏时，关联表的关系建模带来最大增益
LLM 作为统一界面：NLQ 输入 → 结构化画像 → 执行 → 自然语言报告，降低使用门槛

4.0 KiB

Raw Permalink Blame History

NeurIDA: Dynamic Modeling for Effective In-Database Analytics

核心问题

方法论贡献

四大组件

DIME 的四阶段建模

关键设计

实验结果

关键洞察

相关概念

相关论文

4.0 KiB Raw Permalink Blame History Unescape Escape

NeurIDA: Dynamic Modeling for Effective In-Database Analytics

核心问题

方法论贡献

四大组件

DIME 的四阶段建模

关键设计

实验结果

关键洞察

相关概念

相关论文

4.0 KiB

Raw Permalink Blame History