1.2 KiB
1.2 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Base Table Embedding | 2026-05-15 | 2026-05-15 | concept |
|
|
Base Table Embedding
Base Table Embedding 是 DIME 管线的第一阶段,为 data-slice 中所有元组生成初始向量表示,捕获表内语义。
双路径编码策略
路径 1:基础模型编码
使用 conditional-model-dispatcher 选出的基础模型 m* 对其原生特征进行编码,保留该模型的归纳偏置和建模能力。
路径 2:统一元组编码器
使用共享的 Unified Tuple Encoder 将异构 schema 的元组映射到统一的 d 维表示空间:
- 按数据类型编码每个属性值(数值型、类别型、文本型、时间戳型)
- 通过 Feature Tokenizer + Transformer Layer 捕获特征交互
- 产生兼容的统一表示,便于后续跨表建模
设计考量
- 兼容性:统一编码器产生的表示与后续 dynamic-relation-modeling 和 dynamic-model-fusion 兼容
- 保真性:基础模型路径保留其原生能力,双路径输出共同构成元组嵌入