Files
myWiki/concepts/base-table-embedding.md

1.2 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Base Table Embedding 2026-05-15 2026-05-15 concept
machine-learning
embedding
tabular-data
raw/papers/zeng-neurida-2025.md

Base Table Embedding

Base Table Embedding 是 DIME 管线的第一阶段,为 data-slice 中所有元组生成初始向量表示,捕获表内语义。

双路径编码策略

路径 1基础模型编码

使用 conditional-model-dispatcher 选出的基础模型 m* 对其原生特征进行编码,保留该模型的归纳偏置和建模能力。

路径 2统一元组编码器

使用共享的 Unified Tuple Encoder 将异构 schema 的元组映射到统一的 d 维表示空间:

  • 按数据类型编码每个属性值(数值型、类别型、文本型、时间戳型)
  • 通过 Feature Tokenizer + Transformer Layer 捕获特征交互
  • 产生兼容的统一表示,便于后续跨表建模

设计考量

来源