20260518-morning:新增内容
This commit is contained in:
32
concepts/base-table-embedding.md
Normal file
32
concepts/base-table-embedding.md
Normal file
@@ -0,0 +1,32 @@
|
||||
---
|
||||
title: "Base Table Embedding"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, embedding, tabular-data]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Base Table Embedding
|
||||
|
||||
**Base Table Embedding** 是 DIME 管线的第一阶段,为 [[data-slice|Data Slice]] 中所有元组生成初始向量表示,捕获表内语义。
|
||||
|
||||
## 双路径编码策略
|
||||
|
||||
### 路径 1:基础模型编码
|
||||
使用 [[conditional-model-dispatcher|Dispatcher]] 选出的基础模型 m* 对其原生特征进行编码,保留该模型的归纳偏置和建模能力。
|
||||
|
||||
### 路径 2:统一元组编码器
|
||||
使用共享的 Unified Tuple Encoder 将异构 schema 的元组映射到统一的 d 维表示空间:
|
||||
- 按数据类型编码每个属性值(数值型、类别型、文本型、时间戳型)
|
||||
- 通过 Feature Tokenizer + Transformer Layer 捕获特征交互
|
||||
- 产生兼容的统一表示,便于后续跨表建模
|
||||
|
||||
## 设计考量
|
||||
|
||||
- **兼容性**:统一编码器产生的表示与后续 [[dynamic-relation-modeling|关系建模]] 和 [[dynamic-model-fusion|融合]] 兼容
|
||||
- **保真性**:基础模型路径保留其原生能力,双路径输出共同构成元组嵌入
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
Reference in New Issue
Block a user