Files
myWiki/papers/zeng-neurida-2025.md

76 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "NeurIDA: Dynamic Modeling for Effective In-Database Analytics"
created: 2026-05-15
updated: 2026-05-15
type: paper
tags: [database, machine-learning, tabular-data, autonomous-system, in-database-analytics]
sources: [raw/papers/zeng-neurida-2025.md]
---
# NeurIDA: Dynamic Modeling for Effective In-Database Analytics
**Lingze Zeng, Naili Xing, Shaofeng Cai, Peng Lu, Gang Chen, Jian Pei, Beng Chin Ooi** — NUS, Zhejiang University, Duke University
**arXiv:** [2512.08483v3](https://arxiv.org/abs/2512.08483v3) | cs.DB | 2025-12-15
## 核心问题
RDBMS 的核心设计是**动态性**(支持多样且演化的分析查询),而传统 ML 模型是**静态的**(为单一任务训练、部署后固定)。当一个新分析任务到来时,现有模型往往无法直接适应,必须从头构建数据到模型的 pipeline开发成本高、无法规模化。
**根本矛盾**ML 模型的「刚性」vs RDBMS 环境的「动态性」。
## 方法论贡献
NeurIDA 是一个**自主端到端系统**,通过 **动态库内建模Dynamic In-Database Modeling** 范式解决上述矛盾:
```
NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer → 报告
```
### 四大组件
1. **[[query-intent-analyzer|Query Intent Analyzer]]** — LLM 驱动的自然语言查询解析,从 NLQ 提取结构化任务画像和数据画像
2. **[[conditional-model-dispatcher|Conditional Model Dispatcher]]** — 用 [[zero-cost-proxies|ZCP]] + 历史 EMA 选择最优基础模型,按需触发模型增强
3. **[[dime-dynamic-in-database-modeling-engine|DIME]]** — 核心引擎,动态从 [[composable-base-model-architecture|可组合基础模型架构]] 中装配定制模型
4. **[[analytical-report-synthesizer|Analytical Report Synthesizer]]** — LLM 将预测结果转化为可解释分析报告
### DIME 的四阶段建模
| 阶段 | 作用 | 共享组件 |
|------|------|----------|
| [[base-table-embedding|Base Table Embedding]] | 捕获表内语义,双路径编码(基础模型 + 统一元组编码器) | 统一元组编码器 |
| [[dynamic-relation-modeling|Dynamic Relation Modeling]] | 通过 FK-PK 图上消息传递,融入跨表关系结构 | 关系感知消息传递模块 |
| [[dynamic-model-fusion|Dynamic Model Fusion]] | 上下文感知融合,将关联表信息注入目标表元组 | 上下文感知融合模块 |
| Task-Aware Prediction | 基于融合嵌入的最终预测 | 任务特定预测头 |
### 关键设计
- **[[composable-base-model-architecture|可组合基础模型架构]]**:异构基础模型池 + 共享模型组件 → 查询时动态装配
- **[[data-slice|Data Slice]]**:任务特定的数据库子集,通过 SQL 自动生成
- **[[relational-graph|Relational Graph]]**:以 FK-PK 为边的元组图,是 DIME 的数据结构基础
## 实验结果
- 5 个真实数据集、10 个分析任务
- **分类**AUC-ROC 提升最高 12%
- **回归**MAE 相对降低 10%25%
- 消融实验证实 Dynamic Relation Modeling 和 Dynamic Model Fusion 的独立贡献
- 延迟开销仅 1.1×2.1×,参数量增加 1.2×2.5×
## 关键洞察
1. **从"为每个任务训一个模型"转向"从共享组件装配模型"** — 这是 ML-RDBMS 集成的范式转变
2. **关系结构是预测信号**:当目标表特征稀疏时,关联表的关系建模带来最大增益
3. **LLM 作为统一界面**NLQ 输入 → 结构化画像 → 执行 → 自然语言报告,降低使用门槛
## 相关概念
- [[in-database-analytics|In-Database Analytics]] 是更广泛的领域背景
- 基础模型池涵盖 [[tabular-foundation-models|Tabular Foundation Models]]TabPFN, TabICL、TRMFT-Transformer, ARM-Net, TabM、LTMTP-BERTa
- [[zero-cost-proxies|Zero-Cost Proxies]] 源自 Neural Architecture Search
## 相关论文
- [[xing-trails-2024]]: Database Native Model Selection (VLDB 2024)
- [[zeng-dynamic-model-slicing-2024]]: Powering In-Database Dynamic Model Slicing (VLDB 2024)
- [[zhao-neurdb-2025]]: NeurDB — AI-powered Autonomous Database (CIDR 2025)