Files
myWiki/papers/zeng-neurida-2025.md

4.0 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
NeurIDA: Dynamic Modeling for Effective In-Database Analytics 2026-05-15 2026-05-15 paper
database
machine-learning
tabular-data
autonomous-system
in-database-analytics
raw/papers/zeng-neurida-2025.md

NeurIDA: Dynamic Modeling for Effective In-Database Analytics

Lingze Zeng, Naili Xing, Shaofeng Cai, Peng Lu, Gang Chen, Jian Pei, Beng Chin Ooi — NUS, Zhejiang University, Duke University
arXiv: 2512.08483v3 | cs.DB | 2025-12-15

核心问题

RDBMS 的核心设计是动态性(支持多样且演化的分析查询),而传统 ML 模型是静态的(为单一任务训练、部署后固定)。当一个新分析任务到来时,现有模型往往无法直接适应,必须从头构建数据到模型的 pipeline开发成本高、无法规模化。

根本矛盾ML 模型的「刚性」vs RDBMS 环境的「动态性」。

方法论贡献

NeurIDA 是一个自主端到端系统,通过 动态库内建模Dynamic In-Database Modeling 范式解决上述矛盾:

NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer → 报告

四大组件

  1. query-intent-analyzer — LLM 驱动的自然语言查询解析,从 NLQ 提取结构化任务画像和数据画像
  2. conditional-model-dispatcher — 用 zero-cost-proxies + 历史 EMA 选择最优基础模型,按需触发模型增强
  3. dime-dynamic-in-database-modeling-engine — 核心引擎,动态从 composable-base-model-architecture 中装配定制模型
  4. analytical-report-synthesizer — LLM 将预测结果转化为可解释分析报告

DIME 的四阶段建模

阶段 作用 共享组件
[[base-table-embedding Base Table Embedding]] 捕获表内语义,双路径编码(基础模型 + 统一元组编码器)
[[dynamic-relation-modeling Dynamic Relation Modeling]] 通过 FK-PK 图上消息传递,融入跨表关系结构
[[dynamic-model-fusion Dynamic Model Fusion]] 上下文感知融合,将关联表信息注入目标表元组
Task-Aware Prediction 基于融合嵌入的最终预测 任务特定预测头

关键设计

实验结果

  • 5 个真实数据集、10 个分析任务
  • 分类AUC-ROC 提升最高 12%
  • 回归MAE 相对降低 10%25%
  • 消融实验证实 Dynamic Relation Modeling 和 Dynamic Model Fusion 的独立贡献
  • 延迟开销仅 1.1×2.1×,参数量增加 1.2×2.5×

关键洞察

  1. 从"为每个任务训一个模型"转向"从共享组件装配模型" — 这是 ML-RDBMS 集成的范式转变
  2. 关系结构是预测信号:当目标表特征稀疏时,关联表的关系建模带来最大增益
  3. LLM 作为统一界面NLQ 输入 → 结构化画像 → 执行 → 自然语言报告,降低使用门槛

相关概念

相关论文