myWiki/papers/zeng-neurida-2025.md

---
title: "NeurIDA: Dynamic Modeling for Effective In-Database Analytics"
created: 2026-05-15
updated: 2026-05-15
type: paper
tags: [database, machine-learning, tabular-data, autonomous-system, in-database-analytics]
sources: [raw/papers/zeng-neurida-2025.md]
---

# NeurIDA: Dynamic Modeling for Effective In-Database Analytics

**Lingze Zeng, Naili Xing, Shaofeng Cai, Peng Lu, Gang Chen, Jian Pei, Beng Chin Ooi** — NUS, Zhejiang University, Duke University
**arXiv:** [2512.08483v3](https://arxiv.org/abs/2512.08483v3) | cs.DB | 2025-12-15

## 核心问题

RDBMS 的核心设计是**动态性**（支持多样且演化的分析查询），而传统 ML 模型是**静态的**（为单一任务训练、部署后固定）。当一个新分析任务到来时，现有模型往往无法直接适应，必须从头构建数据到模型的 pipeline，开发成本高、无法规模化。

**根本矛盾**：ML 模型的「刚性」vs RDBMS 环境的「动态性」。

## 方法论贡献

NeurIDA 是一个**自主端到端系统**，通过 **动态库内建模（Dynamic In-Database Modeling）** 范式解决上述矛盾：

```
NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer → 报告
```

### 四大组件

1. **[[query-intent-analyzer|Query Intent Analyzer]]** — LLM 驱动的自然语言查询解析，从 NLQ 提取结构化任务画像和数据画像
2. **[[conditional-model-dispatcher|Conditional Model Dispatcher]]** — 用 [[zero-cost-proxies|ZCP]] + 历史 EMA 选择最优基础模型，按需触发模型增强
3. **[[dime-dynamic-in-database-modeling-engine|DIME]]** — 核心引擎，动态从 [[composable-base-model-architecture|可组合基础模型架构]] 中装配定制模型
4. **[[analytical-report-synthesizer|Analytical Report Synthesizer]]** — LLM 将预测结果转化为可解释分析报告

### DIME 的四阶段建模

| 阶段 | 作用 | 共享组件 |
|------|------|----------|
| [[base-table-embedding|Base Table Embedding]] | 捕获表内语义，双路径编码（基础模型 + 统一元组编码器） | 统一元组编码器 |
| [[dynamic-relation-modeling|Dynamic Relation Modeling]] | 通过 FK-PK 图上消息传递，融入跨表关系结构 | 关系感知消息传递模块 |
| [[dynamic-model-fusion|Dynamic Model Fusion]] | 上下文感知融合，将关联表信息注入目标表元组 | 上下文感知融合模块 |
| Task-Aware Prediction | 基于融合嵌入的最终预测 | 任务特定预测头 |

### 关键设计

- **[[composable-base-model-architecture|可组合基础模型架构]]**：异构基础模型池 + 共享模型组件 → 查询时动态装配
- **[[data-slice|Data Slice]]**：任务特定的数据库子集，通过 SQL 自动生成
- **[[relational-graph|Relational Graph]]**：以 FK-PK 为边的元组图，是 DIME 的数据结构基础

## 实验结果

- 5 个真实数据集、10 个分析任务
- **分类**：AUC-ROC 提升最高 12%
- **回归**：MAE 相对降低 10%–25%
- 消融实验证实 Dynamic Relation Modeling 和 Dynamic Model Fusion 的独立贡献
- 延迟开销仅 1.1×–2.1×，参数量增加 1.2×–2.5×

## 关键洞察

1. **从"为每个任务训一个模型"转向"从共享组件装配模型"** — 这是 ML-RDBMS 集成的范式转变
2. **关系结构是预测信号**：当目标表特征稀疏时，关联表的关系建模带来最大增益
3. **LLM 作为统一界面**：NLQ 输入 → 结构化画像 → 执行 → 自然语言报告，降低使用门槛

## 相关概念

- [[in-database-analytics|In-Database Analytics]] 是更广泛的领域背景
- 基础模型池涵盖 [[tabular-foundation-models|Tabular Foundation Models]]（TabPFN, TabICL）、TRM（FT-Transformer, ARM-Net, TabM）、LTM（TP-BERTa）等
- [[zero-cost-proxies|Zero-Cost Proxies]] 源自 Neural Architecture Search

## 相关论文

- [[xing-trails-2024]]: Database Native Model Selection (VLDB 2024)
- [[zeng-dynamic-model-slicing-2024]]: Powering In-Database Dynamic Model Slicing (VLDB 2024)
- [[zhao-neurdb-2025]]: NeurDB — AI-powered Autonomous Database (CIDR 2025)