Files
myWiki/concepts/base-table-embedding.md

33 lines
1.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Base Table Embedding"
created: 2026-05-15
updated: 2026-05-15
type: concept
tags: [machine-learning, embedding, tabular-data]
sources: [raw/papers/zeng-neurida-2025.md]
---
# Base Table Embedding
**Base Table Embedding** 是 DIME 管线的第一阶段,为 [[data-slice|Data Slice]] 中所有元组生成初始向量表示,捕获表内语义。
## 双路径编码策略
### 路径 1基础模型编码
使用 [[conditional-model-dispatcher|Dispatcher]] 选出的基础模型 m* 对其原生特征进行编码,保留该模型的归纳偏置和建模能力。
### 路径 2统一元组编码器
使用共享的 Unified Tuple Encoder 将异构 schema 的元组映射到统一的 d 维表示空间:
- 按数据类型编码每个属性值(数值型、类别型、文本型、时间戳型)
- 通过 Feature Tokenizer + Transformer Layer 捕获特征交互
- 产生兼容的统一表示,便于后续跨表建模
## 设计考量
- **兼容性**:统一编码器产生的表示与后续 [[dynamic-relation-modeling|关系建模]] 和 [[dynamic-model-fusion|融合]] 兼容
- **保真性**:基础模型路径保留其原生能力,双路径输出共同构成元组嵌入
## 来源
- [[zeng-neurida-2025|NeurIDA 论文]]