20260518-morning:新增内容
This commit is contained in:
46
concepts/adaptive-computation-time.md
Normal file
46
concepts/adaptive-computation-time.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Adaptive Computation Time (ACT)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, efficiency, computation]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Adaptive Computation Time (ACT)
|
||||
|
||||
**Adaptive Computation Time** 是一类技术,允许神经网络根据输入难度动态调整计算量。
|
||||
|
||||
## 经典方案
|
||||
|
||||
### ACT (Graves, 2016)
|
||||
- 引入可学习的 halting 单元
|
||||
- 在每个循环步骤输出 halting 概率
|
||||
- 当累积 halting 概率超过 1−ε 时停止
|
||||
- 需要 "ponder cost" 正则化项鼓励效率
|
||||
|
||||
### PonderNet (Banino et al., 2021)
|
||||
- 将 halting 概率建模为几何分布
|
||||
- 训练时从分布采样步数
|
||||
- 推理时使用期望步数
|
||||
|
||||
### 其他变体
|
||||
- **Early-Exit Networks**:中间层添加分类器,满足条件则提前退出
|
||||
- **AdaTape**:动态扩展输入序列
|
||||
- **Sparse Universal Transformer**:循环权重共享 + 动态 halting + MoE
|
||||
|
||||
## CTM 的原生 ACT
|
||||
|
||||
CTM 通过 [[certainty-based-loss|Certainty-Based Loss]] 自然实现 ACT,无需显式 halting 模块:
|
||||
- 确定性可以作为停止条件
|
||||
- 简单样本在早期 tick 即达到高确定性
|
||||
- ImageNet 实验中,大多数样本在 <10 ticks 即可停止(总共 50 ticks)
|
||||
|
||||
## 关键区别
|
||||
|
||||
CTM 的 ACT 是**涌现属性**而非显式设计——没有 halting 模块、没有 ponder cost、没有步数采样。这是其架构哲学的核心体现:通过设计损失函数和表示,让"智能"行为自然涌现。
|
||||
|
||||
## 来源
|
||||
|
||||
- Graves, "Adaptive Computation Time for Recurrent Neural Networks", 2016
|
||||
- [[darlow-ctm-2025|CTM 论文]] (NeurIPS 2025)
|
||||
31
concepts/analytical-report-synthesizer.md
Normal file
31
concepts/analytical-report-synthesizer.md
Normal file
@@ -0,0 +1,31 @@
|
||||
---
|
||||
title: "Analytical Report Synthesizer"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [nlp, llm, report-generation, interface]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Analytical Report Synthesizer
|
||||
|
||||
**Analytical Report Synthesizer** 是 NeurIDA 的输出组件,将预测结果转化为可解释的分析报告。
|
||||
|
||||
## 功能
|
||||
|
||||
- **输入**:预测结果 + 任务画像 + [[data-slice|Data Slice]]
|
||||
- **方法**:LLM 驱动的专用分析代理,具备强推理能力和领域知识
|
||||
- **输出**:结构化分析报告,包含上下文解读和分析摘要
|
||||
|
||||
## 设计价值
|
||||
|
||||
传统数据分析工作流中,预测结果(如 "8 名患者被标记为高风险")需要领域专家进一步解读才能转化为可操作决策。Synthesizer 自动化了这一解释过程,使 NeurIDA 从"输出数字"升级为"输出洞察"。
|
||||
|
||||
## 示例
|
||||
|
||||
输入:患者 ICU 入院预测结果 + 患者特征
|
||||
输出:包含高风险患者数量、常见驱动因素、建议关注维度的结构化报告
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
32
concepts/base-table-embedding.md
Normal file
32
concepts/base-table-embedding.md
Normal file
@@ -0,0 +1,32 @@
|
||||
---
|
||||
title: "Base Table Embedding"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, embedding, tabular-data]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Base Table Embedding
|
||||
|
||||
**Base Table Embedding** 是 DIME 管线的第一阶段,为 [[data-slice|Data Slice]] 中所有元组生成初始向量表示,捕获表内语义。
|
||||
|
||||
## 双路径编码策略
|
||||
|
||||
### 路径 1:基础模型编码
|
||||
使用 [[conditional-model-dispatcher|Dispatcher]] 选出的基础模型 m* 对其原生特征进行编码,保留该模型的归纳偏置和建模能力。
|
||||
|
||||
### 路径 2:统一元组编码器
|
||||
使用共享的 Unified Tuple Encoder 将异构 schema 的元组映射到统一的 d 维表示空间:
|
||||
- 按数据类型编码每个属性值(数值型、类别型、文本型、时间戳型)
|
||||
- 通过 Feature Tokenizer + Transformer Layer 捕获特征交互
|
||||
- 产生兼容的统一表示,便于后续跨表建模
|
||||
|
||||
## 设计考量
|
||||
|
||||
- **兼容性**:统一编码器产生的表示与后续 [[dynamic-relation-modeling|关系建模]] 和 [[dynamic-model-fusion|融合]] 兼容
|
||||
- **保真性**:基础模型路径保留其原生能力,双路径输出共同构成元组嵌入
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
50
concepts/certainty-based-loss.md
Normal file
50
concepts/certainty-based-loss.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Certainty-Based Loss"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [loss-function, adaptive-computation, training]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Certainty-Based Loss
|
||||
|
||||
**Certainty-Based Loss** 是 CTM 的训练损失函数,通过对多个内部 tick 的**动态选择**实现原生自适应计算。
|
||||
|
||||
## 定义
|
||||
|
||||
CTM 在每个 [[internal-ticks|internal tick]] t 产生输出 y_t(如分类概率)。对每个前向传播,选择两个 tick:
|
||||
|
||||
1. **t₁ = argmin_t(L_t)** — 损失最小的 tick("最佳"预测)
|
||||
2. **t₂ = argmax_t(C_t)** — 确定性最高的 tick
|
||||
|
||||
其中 C_t = 1 − normalized_entropy(y_t),衡量预测置信度。
|
||||
|
||||
最终损失:
|
||||
```
|
||||
L = (L_t₁ + L_t₂) / 2
|
||||
```
|
||||
|
||||
## 为什么这个设计关键?
|
||||
|
||||
### 原生自适应计算
|
||||
- 不要求模型在固定 tick 停止——损失函数不指定"正确"的 tick
|
||||
- 模型可以自然地学习在达到足够确定性时停止
|
||||
- 简单样本在早期 tick 达到高确定性 → 实际推理时可早停
|
||||
|
||||
### 校准对齐
|
||||
- 同时优化损失最小化和确定性最大化
|
||||
- 促使模型的置信度与准确性对齐(校准)
|
||||
- ImageNet 实验显示 CTM 具有天然优秀的校准性能
|
||||
|
||||
## 与 ACT 的对比
|
||||
|
||||
| 维度 | ACT (Graves 2016) | CTM Certainty-Based Loss |
|
||||
|------|-------------------|-------------------------|
|
||||
| Halting 机制 | 显式 halting 模块 + 额外损失项 | 损失函数设计自然实现 |
|
||||
| 计算惩罚 | 需要 ponder cost 正则化 | 不需要 |
|
||||
| 何时停止 | 学习 halting 概率 | 确定性阈值 |
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
41
concepts/composable-base-model-architecture.md
Normal file
41
concepts/composable-base-model-architecture.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "Composable Base Model Architecture"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, architecture, modular-design]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Composable Base Model Architecture
|
||||
|
||||
**可组合基础模型架构**是 NeurIDA 实现 [[dynamic-in-database-modeling|动态建模]] 的架构基础。
|
||||
|
||||
## 构成
|
||||
|
||||
```
|
||||
基础模型池 M = {m₁, m₂, ..., mₖ}
|
||||
+
|
||||
共享模型组件
|
||||
├── 统一元组编码器(Unified Tuple Encoder)
|
||||
├── 关系感知消息传递模块(Relation-Aware Message Passing)
|
||||
└── 上下文感知融合模块(Context-Aware Fusion)
|
||||
```
|
||||
|
||||
## 基础模型池
|
||||
|
||||
涵盖四类异构模型:
|
||||
- **Traditional ML**:RF, CatBoost, LightGBM, Logistic Regression
|
||||
- **Tuple Representation Models (TRM)**:FT-Transformer, ARM-Net, TabM, ResNet, DNN, DeepFM
|
||||
- **Tabular Foundation Models**:TabPFN, TabICL
|
||||
- **Large Tabular Models (LTM)**:TP-BERTa, Nomic, BGE
|
||||
|
||||
## 设计原则
|
||||
|
||||
1. **异构性**:不同架构的模型互补,适应不同数据分布
|
||||
2. **可组合性**:共享组件的接口统一,可任意与基础模型组合
|
||||
3. **查询条件化**:[[conditional-model-dispatcher|Dispatcher]] 根据任务选择合适的 m*,DIME 按需装配
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
36
concepts/conditional-model-dispatcher.md
Normal file
36
concepts/conditional-model-dispatcher.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "Conditional Model Dispatcher"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, model-selection, efficiency]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Conditional Model Dispatcher
|
||||
|
||||
**Conditional Model Dispatcher** 是 NeurIDA 的轻量级调度组件,解决两个关键决策:
|
||||
|
||||
1. **基础模型选择**:从 [[composable-base-model-architecture|模型池]] 中为当前任务选择最优基础模型
|
||||
2. **条件增强**:判断是否需要调用 DIME 进行结构增强,还是直接部署基础模型
|
||||
|
||||
## 决策机制
|
||||
|
||||
### 模型选择
|
||||
- 维护 metadata dictionary,记录每个基础模型的历史 EMA 性能 μᵢ
|
||||
- 使用 [[zero-cost-proxies|Zero-Cost Proxies (ZCP)]] 对候选模型快速评分,得到代理分数 sᵢ
|
||||
- 选择 s* 最高的模型 m*
|
||||
|
||||
### 增强决策
|
||||
- 计算动态阈值:τ = (1 − ε) · μₘ*
|
||||
- 若 s* ≥ τ:直接部署 m*(高效)
|
||||
- 若 s* < τ:调用 [[dime-dynamic-in-database-modeling-engine|DIME]] 进行结构增强
|
||||
|
||||
## 设计考量
|
||||
|
||||
- **轻量级**:ZCP 评分无需完整训练,基于小批量标注数据即可完成
|
||||
- **自适应**:阈值基于历史 EMA 动态调整,避免浪费计算资源
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
38
concepts/continuous-thought-machine.md
Normal file
38
concepts/continuous-thought-machine.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "Continuous Thought Machine (CTM)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, temporal-dynamics, biological-plausibility, sakana-ai]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Continuous Thought Machine (CTM)
|
||||
|
||||
**Continuous Thought Machine (CTM)** 是 Sakana AI 提出的新型神经网络架构,将神经时序动力学作为核心计算原理。
|
||||
|
||||
## 核心设计原则
|
||||
|
||||
与大多数将神经元简化为静态激活函数(ReLU/GELU/SiLU)的现代 NN 不同,CTM 有两个根本性创新:
|
||||
|
||||
1. **[[neuron-level-models|Neuron-Level Models]]**:每个神经元拥有私有参数,从激活历史中产生复杂时序动态
|
||||
2. **[[neural-synchronization|Neural Synchronization]]**:将神经元群体活动的时序相关性直接用作潜在表示
|
||||
|
||||
## 与现有架构的差异
|
||||
|
||||
| 维度 | 标准 Transformer/CNN | RNN/LSTM | CTM |
|
||||
|------|---------------------|----------|-----|
|
||||
| 神经元模型 | 统一激活函数 | 统一激活函数 | 私有 NLMs |
|
||||
| 时序处理 | 位置编码 | 隐藏状态 | 内部 ticks + 同步 |
|
||||
| 表示来源 | 单步激活快照 | 最终隐藏状态 | 激活历史的时序相关性 |
|
||||
| 自适应计算 | 需显式模块 | 需显式模块 | 原生涌现 |
|
||||
|
||||
## 关键属性
|
||||
|
||||
- **原生自适应计算**:通过 [[certainty-based-loss|Certainty-Based Loss]] 自然实现
|
||||
- **可解释性**:同步表示和注意力轨迹提供自然的可解释途径
|
||||
- **涌现行为**:环顾四周、行波、内部世界模型构建
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文 (NeurIPS 2025)]]
|
||||
38
concepts/data-slice.md
Normal file
38
concepts/data-slice.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "Data Slice"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [database, sql, data-management]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Data Slice
|
||||
|
||||
**Data Slice**(数据切片)是任务特定的关系数据库子集,是 NeurIDA 分析管线的核心数据对象。
|
||||
|
||||
## 形式定义
|
||||
|
||||
给定分析查询 q,Data Slice Dq 是从数据库 D 中派生的自包含数据库子集:
|
||||
|
||||
```
|
||||
Dq = {Tₖ,₍q₎ | Tₖ ∈ D, k ∈ Kq ⊆ {1, ..., K}}
|
||||
```
|
||||
|
||||
其中每个 Table Slice Tₖ,₍q₎ 通过关系代数的选择和投影操作得到:
|
||||
```
|
||||
Tₖ,₍q₎ = π_Jₖ,₍q₎(σ_Iₖ,₍q₎(Tₖ))
|
||||
```
|
||||
|
||||
- σ:行选择(由查询的 WHERE/JOIN 条件决定)
|
||||
- π:列投影(由 [[query-intent-analyzer|Data Profiler]] 过滤不相关列决定)
|
||||
|
||||
## 在 NeurIDA 中的作用
|
||||
|
||||
- Data Slice 由 [[query-intent-analyzer|Query Intent Analyzer]] 自动生成
|
||||
- 被转换为 [[relational-graph|关系图]](FK-PK 边),作为 DIME 建模的数据结构基础
|
||||
- 所有后续建模仅在 Data Slice 上进行,无需访问整个数据库
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
38
concepts/dime-dynamic-in-database-modeling-engine.md
Normal file
38
concepts/dime-dynamic-in-database-modeling-engine.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "DIME (Dynamic In-Database Modeling Engine)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [database, machine-learning, engine, in-database-analytics]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# DIME: Dynamic In-Database Modeling Engine
|
||||
|
||||
**DIME** 是 NeurIDA 的核心执行引擎,负责在接收分析任务后动态构造定制模型并进行预测。
|
||||
|
||||
## 四阶段管线
|
||||
|
||||
### 1. [[base-table-embedding|Base Table Embedding]]
|
||||
将 [[data-slice|Data Slice]] 中的所有元组转换为向量表示。采用**双路径编码**:
|
||||
- **基础模型路径**:使用 Dispatcher 选出的基础模型生成原生表示,保留其归纳偏置
|
||||
- **统一编码器路径**:共享的统一元组编码器将异构 schema 的元组映射到统一表示空间
|
||||
|
||||
### 2. [[dynamic-relation-modeling|Dynamic Relation Modeling]]
|
||||
在 [[relational-graph|关系图]](FK-PK 边)上执行关系感知消息传递,将跨表结构信息注入元组嵌入,产生关系嵌入。
|
||||
|
||||
### 3. [[dynamic-model-fusion|Dynamic Model Fusion]]
|
||||
使用上下文感知融合模块,计算关联表中各上下文信号的**重标定重要性分数**,自适应地将最相关的关联上下文融合到目标表元组表示中。
|
||||
|
||||
### 4. Task-Aware Prediction
|
||||
基于融合嵌入,使用任务特定的预测头(分类/回归)生成最终预测。
|
||||
|
||||
## 关键特性
|
||||
|
||||
- **查询条件化**:整个管线由任务画像和数据画像驱动
|
||||
- **关系感知**:显式建模 FK-PK 结构,不像传统方法将元组视为独立样本
|
||||
- **可解释性**:融合模块的重要性分数提供预测归因
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
29
concepts/dynamic-in-database-modeling.md
Normal file
29
concepts/dynamic-in-database-modeling.md
Normal file
@@ -0,0 +1,29 @@
|
||||
---
|
||||
title: "Dynamic In-Database Modeling"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [database, machine-learning, paradigm, in-database-analytics]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Dynamic In-Database Modeling
|
||||
|
||||
**动态库内建模**是 NeurIDA 提出的新范式,核心思想是**从「为每个任务训练固定模型」转向「在查询时从共享组件装配定制模型」**。
|
||||
|
||||
## 范式对比
|
||||
|
||||
| 维度 | 静态建模(传统) | 动态建模(NeurIDA) |
|
||||
|------|----------------|-------------------|
|
||||
| 模型生命周期 | 训练→部署→固定 | 查询时按需装配 |
|
||||
| 任务覆盖 | 一对一(每个任务一个模型) | 一对多(共享架构覆盖所有任务) |
|
||||
| 数据操作 | 需提取、预处理、外移 | 数据库内直接操作 |
|
||||
| 适应性 | 新任务需从头构建 pipeline | 即时适配新任务 |
|
||||
|
||||
## 实现机制
|
||||
|
||||
依托 [[composable-base-model-architecture|可组合基础模型架构]]:预训练一组异构基础模型 + 共享模型组件(统一元组编码器、关系消息传递模块、上下文融合模块)。查询时 [[dime-dynamic-in-database-modeling-engine|DIME]] 根据任务画像从池中动态选取和配置组件。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
36
concepts/dynamic-model-fusion.md
Normal file
36
concepts/dynamic-model-fusion.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "Dynamic Model Fusion"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, attention, interpretability, relational-data]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Dynamic Model Fusion
|
||||
|
||||
**Dynamic Model Fusion** 是 DIME 管线的第三阶段,负责将有选择地将关联表的上下文信息融合到目标表元组表示中。
|
||||
|
||||
## 核心机制
|
||||
|
||||
使用**上下文感知融合模块(Context-Aware Fusion Module)**:
|
||||
|
||||
1. 计算关联表中每个上下文信号的**重标定重要性分数**
|
||||
2. 基于任务画像自适应加权:与任务最相关的关联表获得更高权重
|
||||
3. 将加权后的关系上下文注入目标表元组的 [[dynamic-relation-modeling|关系嵌入]]
|
||||
4. 输出:**融合嵌入(Fused Embedding)**,直接送入预测头
|
||||
|
||||
## 可解释性
|
||||
|
||||
融合模块产生的重要性分数天然支持**预测归因**:
|
||||
- 例如,在用户流失预测中,UserInfo 表获得最高重要性(用户画像最具预测力)
|
||||
- 在广告点击预测中,Search 行为信号权重最大
|
||||
- 这些分数与领域知识高度一致,无需额外的可解释性组件
|
||||
|
||||
## 消融实验
|
||||
|
||||
移除 Dynamic Model Fusion 后,性能下降幅度超过移除 Dynamic Relation Modeling,说明**选择性融合**(而不是简单拼接所有关系信息)是关键设计。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
35
concepts/dynamic-relation-modeling.md
Normal file
35
concepts/dynamic-relation-modeling.md
Normal file
@@ -0,0 +1,35 @@
|
||||
---
|
||||
title: "Dynamic Relation Modeling"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, graph-neural-networks, relational-data]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Dynamic Relation Modeling
|
||||
|
||||
**Dynamic Relation Modeling** 是 DIME 管线的第二阶段,负责将跨表关系结构融入元组表示。
|
||||
|
||||
## 机制
|
||||
|
||||
在 [[relational-graph|关系图]](以 FK-PK 为边的元组图)上执行**关系感知消息传递**:
|
||||
|
||||
1. 每个元组节点以其 [[base-table-embedding|Base Table Embedding]] 初始化
|
||||
2. 消息沿 FK-PK 边传递,聚合邻接表元组的信息
|
||||
3. 通过多轮消息传递,元组嵌入吸收关联表的语义信息
|
||||
4. 输出:**关系嵌入(Relational Embedding)**,融合了表内语义和跨表结构
|
||||
|
||||
## 可配置维度
|
||||
|
||||
- 聚合器类型:min / max / mean / sum
|
||||
- 消息传递层数 ℓ
|
||||
- 编码器层数和注意力头数
|
||||
|
||||
## 消融实验
|
||||
|
||||
移除 Dynamic Relation Modeling 后,性能显著下降——证实跨表结构信息对预测至关重要,尤其在目标表特征稀疏的场景下。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
36
concepts/in-database-analytics.md
Normal file
36
concepts/in-database-analytics.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "In-Database Analytics"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [database, machine-learning, analytics]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# In-Database Analytics
|
||||
|
||||
**In-Database Analytics** 指在数据库管理系统内部直接执行 ML/分析任务,无需将数据导出到外部计算环境。
|
||||
|
||||
## 核心价值
|
||||
|
||||
1. **零数据移动**:消除 ETL/数据导出开销,保持数据本地性
|
||||
2. **实时性**:分析紧耦合于数据,响应延迟最低
|
||||
3. **一致性**:分析所用的数据与事务数据一致
|
||||
4. **治理**:数据库的访问控制、审计等安全机制自然覆盖分析任务
|
||||
|
||||
## 代表性系统
|
||||
|
||||
- **NeurIDA** — 端到端自主系统,动态建模 + 自然语言接口
|
||||
- **NeurDB** — AI 驱动的自主数据库(CIDR 2025)
|
||||
- **PostgresML** / **MindsDB** — SQL 内嵌 ML 推理
|
||||
- **Cerebro** — 数据库内的 DL 模型选择
|
||||
|
||||
## 关键挑战
|
||||
|
||||
- **范式鸿沟**:传统 ML 的静态模型 vs 数据库的动态环境
|
||||
- **schema 异构**:关系数据的多表结构需要特殊建模
|
||||
- **查询多样性**:需支持分类、回归等多种预测类型
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
40
concepts/internal-ticks.md
Normal file
40
concepts/internal-ticks.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "Internal Ticks"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, recurrence, temporal-processing]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Internal Ticks
|
||||
|
||||
**Internal Ticks** 是 CTM 中的内部时序维度 t ∈ {1, 2, ..., T},与数据维度(序列长度、图像尺寸等)完全解耦。
|
||||
|
||||
## 核心思想
|
||||
|
||||
传统循环模型沿**数据固有的序列维度**展开(如文本的 token 位置),而 CTM 沿**自生成的"思考步骤"** 展开——即使是静态输入(单张图像)也有内部时序。
|
||||
|
||||
## 在 CTM 中的作用
|
||||
|
||||
每个 internal tick 中:
|
||||
1. [[synapse-model|Synapse Model]] 产生前激活 a_t
|
||||
2. [[neuron-level-models|NLMs]] 产生后激活 z_{t+1}
|
||||
3. [[neural-synchronization|同步矩阵]] S^t 被计算
|
||||
4. 输出 y_t 和注意力查询 q_t 被生成
|
||||
5. 注意力输出 o_t 与 z_{t+1} 拼接进入下一 tick
|
||||
|
||||
## 与 Adaptive Computation 的关系
|
||||
|
||||
CTM 不要求使用固定的 tick 数——[[certainty-based-loss|损失函数]] 在每个样本上动态选择最佳 tick。这意味着:
|
||||
- 简单样本可提前终止(如 <10 ticks for ImageNet)
|
||||
- 困难样本可使用更多 ticks
|
||||
|
||||
## 相关概念
|
||||
|
||||
- 类似 Perceiver 的 iterative attention 和 PonderNet 的 halting 机制
|
||||
- 但 CTM 的 ticks 是 **neural dynamics 的展开**,而非单纯的迭代精炼
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
45
concepts/internal-world-model.md
Normal file
45
concepts/internal-world-model.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "Internal World Model"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [cognitive-science, planning, representation, world-models]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Internal World Model
|
||||
|
||||
**内部世界模型** 是 agent 在内部构建的环境表征,用于预测、规划和推理而不直接与环境交互。
|
||||
|
||||
## 经典定义 (Ha & Schmidhuber, 2018)
|
||||
|
||||
世界模型由三个组件构成:
|
||||
1. **Vision (V)**:将观察压缩为潜在编码
|
||||
2. **Memory (M)**:预测未来的潜在编码
|
||||
3. **Controller (C)**:基于潜在编码选择动作
|
||||
|
||||
## CTM 中的涌现世界模型
|
||||
|
||||
在 2D 迷宫任务中,CTM **没有位置编码**,但必须输出从起点到终点的动作序列。这意味着:
|
||||
|
||||
- CTM 必须在内部构建空间表征("地图")
|
||||
- 表征通过 [[neural-synchronization|神经同步]] 自然形成
|
||||
- 无需显式设计——从架构中涌现
|
||||
|
||||
### 证据
|
||||
- CTM 训练于 39×39 迷宫,可泛化到 99×99(通过重复应用学到的策略)
|
||||
- 模型可以在训练步数之外"继续探索"
|
||||
- 注意力可视化显示模型有序追踪路径
|
||||
|
||||
## 与显式世界模型的对比
|
||||
|
||||
| 维度 | 显式世界模型 (Dreamer 等) | CTM 涌现世界模型 |
|
||||
|------|-------------------------|-----------------|
|
||||
| 设计方式 | 明确分离 V/M/C 模块 | 同一架构中的涌现属性 |
|
||||
| 表示形式 | 潜在向量快照 | 神经同步矩阵(时序) |
|
||||
| 空间编码 | 通常使用位置编码 | 无位置编码,完全自建 |
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
- Ha & Schmidhuber, "World Models", 2018
|
||||
46
concepts/neural-synchronization.md
Normal file
46
concepts/neural-synchronization.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Neural Synchronization as Representation"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [representation-learning, temporal-dynamics, synchronization, biological-plausibility]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Neural Synchronization as Representation
|
||||
|
||||
**神经同步作为表示**是 CTM 的第二个核心创新:将神经元群体活动历史的时序相关性直接用作潜在表示,而非使用单一时间点的激活快照。
|
||||
|
||||
## 数学定义
|
||||
|
||||
给定所有神经元在 tick 1 到 t 的后激活历史 Z^t ∈ R^{D×t},同步矩阵定义为:
|
||||
|
||||
```
|
||||
S^t = Z^t · (Z^t)^⊺ ∈ R^{D×D}
|
||||
```
|
||||
|
||||
即任意两个神经元 d_i 和 d_j 在整个激活历史上的**内积**,衡量它们的时间相关程度。
|
||||
|
||||
## 为什么是同步而非快照?
|
||||
|
||||
作者发现将 z_t 直接投影到下游任务会过度约束神经元——每个神经元的激活被强制编码任务相关信息,限制了其可能产生的动态类型。同步表示**解耦了神经元动态与任务需求**:神经元可以自由产生丰富的时序模式,只需它们的相关性(而非具体值)编码任务信息。
|
||||
|
||||
## 子采样:Neuron Pairing
|
||||
|
||||
完整 S^t 的 O(D²) 规模过大。CTM 在训练开始时随机选择:
|
||||
- D_out 对神经元 → 输出同步表示 S^t_out
|
||||
- D_action 对神经元 → 动作同步表示 S^t_action(用于注意力查询)
|
||||
|
||||
这些对的选择在整个训练过程中固定。
|
||||
|
||||
## 时间尺度调制
|
||||
|
||||
每对神经元 (i,j) 有可学习的指数衰减参数 r_ij:
|
||||
- r_ij = 0:所有历史 tick 等权重
|
||||
- r_ij 大:偏向近期 tick
|
||||
|
||||
这使 CTM 能学习在多个时间尺度上同步。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
33
concepts/neurida.md
Normal file
33
concepts/neurida.md
Normal file
@@ -0,0 +1,33 @@
|
||||
---
|
||||
title: "NeurIDA"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [database, machine-learning, autonomous-system, in-database-analytics]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# NeurIDA
|
||||
|
||||
**NeurIDA**(Neural In-Database Analytics)是一个自主端到端系统,实现了关系数据库内的 ML 分析。其核心创新在于**动态库内建模(Dynamic In-Database Modeling)**——在查询时从可组合的共享组件中装配定制模型,而非为每个任务从头构建 pipeline。
|
||||
|
||||
## 架构
|
||||
|
||||
```
|
||||
NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer
|
||||
```
|
||||
|
||||
- **输入**:自然语言查询
|
||||
- **输出**:可解释的分析报告
|
||||
- **运行环境**:直接操作 RDBMS,无需数据迁移
|
||||
|
||||
## 核心能力
|
||||
|
||||
1. **任务无关性**:同一系统可处理分类、回归等多种预测任务
|
||||
2. **动态适配**:根据查询语义和数据画像即时调整模型结构
|
||||
3. **零数据移动**:所有建模直接在数据库内完成
|
||||
4. **自然语言界面**:NLQ 输入 + LLM 解析 + 报告生成
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
41
concepts/neuron-level-models.md
Normal file
41
concepts/neuron-level-models.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "Neuron-Level Models (NLMs)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, biological-plausibility, temporal-processing]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Neuron-Level Models (NLMs)
|
||||
|
||||
**Neuron-Level Models (NLMs)** 是 CTM 的第一个核心创新:每个神经元拥有**私有参数**的模型,而非所有神经元共享同一激活函数。
|
||||
|
||||
## 机制
|
||||
|
||||
对于第 d 个神经元:
|
||||
```
|
||||
z_{t+1}^d = g_{θ_d}(A_t^d)
|
||||
```
|
||||
|
||||
其中:
|
||||
- A_t^d ∈ R^M 是该神经元最近 M 步的**前激活历史**(pre-activation history)
|
||||
- g_{θ_d} 是一个深度为 1 的 MLP(宽度 d_hidden),每个神经元有独立权重
|
||||
- z 是**后激活**(post-activation),即该神经元的放电状态
|
||||
|
||||
## 与传统激活函数的对比
|
||||
|
||||
| 维度 | 传统(ReLU/GELU) | NLMs |
|
||||
|------|-------------------|------|
|
||||
| 参数共享 | 全共享 | 每个神经元私有 |
|
||||
| 时序依赖 | 无(仅当前输入) | M 步历史 |
|
||||
| 表达能力 | 低(单一点态非线性) | 高(时态模式检测) |
|
||||
| 生物学类比 | 无 | 类似真实神经元的脉冲时序依赖 |
|
||||
|
||||
## 含义
|
||||
|
||||
NLMs 是「神经元即小型时序处理器」的思想实验——将 D 维潜在空间中的每个维度视为一个具有独立时序动力学的"微型大脑"。这显著增加了参数量(× d_hidden × M),但也开辟了新的能力维度。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
43
concepts/neuron-pairing.md
Normal file
43
concepts/neuron-pairing.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "Neuron Pairing"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [efficiency, synchronization, subsampling]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Neuron Pairing
|
||||
|
||||
**Neuron Pairing** 是 CTM 中用于降低 [[neural-synchronization|同步矩阵]] 计算开销的子采样策略。
|
||||
|
||||
## 动机
|
||||
|
||||
同步矩阵 S^t = Z^t·(Z^t)^⊺ ∈ R^{D×D} 的规模是 O(D²),对于典型的 D(数百到数千)规模过大,无法直接用于下游。
|
||||
|
||||
## 策略
|
||||
|
||||
在训练开始时,随机选择两组神经元对并固定:
|
||||
- **D_out 对** → 输出同步表示 S^t_out → 投影到 y_t(预测)
|
||||
- **D_action 对** → 动作同步表示 S^t_action → 投影到 q_t(注意力查询)
|
||||
|
||||
此外还保留:
|
||||
- **D_self 对** → 对角线元素 (i,i),捕获单个神经元的自同步(即能量)
|
||||
|
||||
## 设计考量
|
||||
|
||||
- **固定对**:在整个训练中保持不变,使投影矩阵 W_out、W_in 可学习
|
||||
- **随机选择**:避免偏差,确保多样的神经元交互被采样
|
||||
- **恢复快照依赖**:对角线对 (i,i) 保留了类似"快照"的表示能力
|
||||
|
||||
## 效率 vs 表达力权衡
|
||||
|
||||
| 维度 | 完整 S^t | Neuron Pairing |
|
||||
|------|---------|----------------|
|
||||
| 参数量 | O(D²) | O(D × (D_out + D_action)) |
|
||||
| 信息量 | 所有对的相关性 | 子采样对的相关性 |
|
||||
| 训练稳定性 | 投影矩阵过大 | 可控维度 |
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
42
concepts/pre-activation-history.md
Normal file
42
concepts/pre-activation-history.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "Pre-Activation History"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, temporal-processing, memory]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Pre-Activation History
|
||||
|
||||
**前激活历史** 是 CTM 中每个神经元维护的滚动缓冲区,存储最近 M 步的前激活值,供 [[neuron-level-models|NLM]] 处理。
|
||||
|
||||
## 定义
|
||||
|
||||
```
|
||||
A_t = [a_{t-M+1}, a_{t-M+2}, ..., a_t] ∈ R^{D×M}
|
||||
```
|
||||
|
||||
其中 a_t 是 [[synapse-model|Synapse Model]] 的输出(前激活)。A_t 以 FIFO 方式滚动更新。
|
||||
|
||||
对于第 d 个神经元:
|
||||
```
|
||||
A_t^d ∈ R^M → NLM g_{θ_d} → z_{t+1}^d
|
||||
```
|
||||
|
||||
## 为什么重要?
|
||||
|
||||
前激活历史是 NLMs 能够产生**复杂时序动态**的基础:
|
||||
- 没有历史 → NLM 退化为普通逐元素变换
|
||||
- M 较大 → 每个神经元可以检测 M 步的模式
|
||||
- 这类似于卷积的感受野,但在时间维度上且每个神经元独立
|
||||
|
||||
## 超参数 M
|
||||
|
||||
作者发现 M ≈ 10-100 在初始探索中有效:
|
||||
- 太小:缺乏足够的时序上下文
|
||||
- 太大:训练开销增加,可能稀释近期信号
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
36
concepts/query-intent-analyzer.md
Normal file
36
concepts/query-intent-analyzer.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "Query Intent Analyzer"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [nlp, llm, interface, database]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Query Intent Analyzer
|
||||
|
||||
**Query Intent Analyzer** 是 NeurIDA 的入口组件,将自然语言查询转化为结构化的任务画像(Task Profile)和数据画像(Data Profile)。
|
||||
|
||||
## 两步流程
|
||||
|
||||
### 1. Task Parser
|
||||
- **输入**:NLQ + DB Catalog(schema 级元数据)
|
||||
- **方法**:LLM 驱动的分析代理,通过精心设计的 prompt(含示例)指导输出
|
||||
- **输出**:JSON 格式任务画像(目标表、任务类型、时间窗口等)
|
||||
- **验证**:JSON Parser + Rule Checker 确保语法和 schema 对齐
|
||||
|
||||
### 2. Data Profiler
|
||||
- **输入**:任务画像 + DB Catalog
|
||||
- **方法**:LLM 代理采用 Chain-of-Thought 多轮交互策略
|
||||
- 第一轮:识别目标表和相关表
|
||||
- 第二轮:过滤不相关/冗余列
|
||||
- **输出**:SQL 片段形式的数据画像,定义 [[data-slice|Data Slice]]
|
||||
|
||||
## 设计要点
|
||||
|
||||
- **零人工特征工程**:完全自动化从 NLQ 到结构化画像的转换
|
||||
- **DB schema 感知**:grounded 在真实 schema 上,避免幻觉
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
35
concepts/relational-graph.md
Normal file
35
concepts/relational-graph.md
Normal file
@@ -0,0 +1,35 @@
|
||||
---
|
||||
title: "Relational Graph"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [database, graph, relational-data]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Relational Graph
|
||||
|
||||
**关系图**是将关系数据库中的元组表示为图的数据结构,是 DIME 中 [[dynamic-relation-modeling|动态关系建模]] 的基础。
|
||||
|
||||
## 构造方式
|
||||
|
||||
在 NeurIDA 中,关系图基于 [[data-slice|Data Slice]] 构建:
|
||||
|
||||
- **节点**:每个元组为一个节点,按源表标注节点类型
|
||||
- **边**:通过主键-外键(PK-FK)约束形成连接
|
||||
|
||||
## 与通用图神经网络的差异
|
||||
|
||||
- 关系图是**异构图**(多种节点类型,对应不同表)
|
||||
- 边有明确的**关系语义**(由 schema 定义,不是学习得到的)
|
||||
- 无需图构建的启发式方法(如 kNN),关系由数据库 schema 直接提供
|
||||
|
||||
## 在 DIME 中的作用
|
||||
|
||||
1. 定义消息传递的邻域结构
|
||||
2. 为元组嵌入编码跨表依赖关系
|
||||
3. 使模型能利用数据库中已编码的结构化知识
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
22
concepts/spiking-neural-networks.md
Normal file
22
concepts/spiking-neural-networks.md
Normal file
@@ -0,0 +1,22 @@
|
||||
---
|
||||
title: "Spiking Neural Networks (SNN)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, biological-plausibility, event-driven]
|
||||
confidence: medium
|
||||
---
|
||||
|
||||
# Spiking Neural Networks (SNN)
|
||||
|
||||
**脉冲神经网络** 是一类使用离散脉冲(spike)而非连续值进行通信的神经网络,在时间编码和事件驱动计算方面更接近生物神经元。
|
||||
|
||||
## 与 CTM 的关系
|
||||
|
||||
CTM 和 SNN 共享**生物学灵感**但路径不同:
|
||||
- **SNN**:离散脉冲 + 事件驱动 + 脉冲时序依赖可塑性(STDP)
|
||||
- **CTM**:连续值 NLM + 梯度优化 + 同步作为表示
|
||||
|
||||
两者都认为**时间是神经计算的核心**,但 CTM 选择了更适合现代深度学习的抽象层次。
|
||||
|
||||
> 📝 占位页面 — 待完整 ingest 后更新
|
||||
44
concepts/synapse-model.md
Normal file
44
concepts/synapse-model.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "Synapse Model"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [neural-architecture, recurrence, connectivity]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Synapse Model
|
||||
|
||||
**Synapse Model** 是 CTM 中的循环互连结构,负责在神经元之间共享信息。
|
||||
|
||||
## 定义
|
||||
|
||||
```
|
||||
a_t = f_θ_syn(concat(z_t, o_t)) ∈ R^D
|
||||
```
|
||||
|
||||
其中:
|
||||
- z_t 是当前神经元后激活状态
|
||||
- o_t 是上一 tick 的注意力输出(与外部数据的交互结果)
|
||||
- f_θ_syn 是 U-Net 风格的 MLP(深度为 k,k 为偶数)
|
||||
|
||||
## 为什么是 U-Net 风格?
|
||||
|
||||
作者发现 U-Net 风格(带跳跃连接的编码器-解码器 MLP)表现最佳,暗示**更深、更灵活的突触计算**有益于信息整合。这与生物突触的复杂性(多种受体类型、短期可塑性、神经递质动力学)形成类比。
|
||||
|
||||
## 在 CTM 流程中的位置
|
||||
|
||||
```
|
||||
z_t ─┐
|
||||
├→ Synapse → a_t → NLMs → z_{t+1}
|
||||
o_t ─┘ ↓
|
||||
Sync → q_t, y_t → Attention → o_{t+1}
|
||||
↓
|
||||
concat(z_{t+1}, o_{t+1}) → next tick
|
||||
```
|
||||
|
||||
Synapse 是**神经动力学的引擎**——它将外部信息(通过注意力)和内部状态融合,为每个神经元的 NLM 提供前激活输入。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
33
concepts/tabular-foundation-models.md
Normal file
33
concepts/tabular-foundation-models.md
Normal file
@@ -0,0 +1,33 @@
|
||||
---
|
||||
title: "Tabular Foundation Models"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, foundation-models, tabular-data]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Tabular Foundation Models
|
||||
|
||||
**表格基础模型**是在大规模表格数据上预训练、能通过上下文学习适应新任务的模型。
|
||||
|
||||
## 代表模型
|
||||
|
||||
- **TabPFN** (Hollmann et al., ICLR 2023):基于 Transformer 的表格分类模型,一次前向传播即可完成预测
|
||||
- **TabICL** (Qu et al., ICML 2025):支持大规模数据的上下文学习表格基础模型
|
||||
- **TP-BERTa** (Yan et al., ICLR 2024):将预训练语言模型适配到表格预测
|
||||
|
||||
## 在 NeurIDA 中的表现
|
||||
|
||||
作为 [[composable-base-model-architecture|基础模型池]] 的一部分:
|
||||
- TabPFN/TabICL 在小数据集上表现最佳(利用预训练先验 + 上下文适应)
|
||||
- TP-BERTa 等 LTM 在关系数据库中表现较差——因为表格属性缺乏自然语言语义(如 UserAgentID、UserDeviceID)
|
||||
|
||||
## 核心优势
|
||||
|
||||
- **免训练推理**:预训练后无需针对新任务微调
|
||||
- **强泛化**:预训练先验覆盖广泛的表格分布
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
46
concepts/temporal-decay-neural.md
Normal file
46
concepts/temporal-decay-neural.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Temporal Decay (Neural)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [temporal-processing, synchronization, learnable-parameters]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Temporal Decay (Neural)
|
||||
|
||||
**时态衰减** 是 CTM 中每对神经元 (i,j) 的可学习参数 r_ij ≥ 0,用于调制 [[neural-synchronization|同步]] 计算中的时间尺度。
|
||||
|
||||
## 定义
|
||||
|
||||
对于神经元对 (i,j),衰减向量定义为:
|
||||
```
|
||||
R^t_ij = [exp(-r_ij(t-1)), exp(-r_ij(t-2)), ..., exp(0)]^⊺ ∈ R^t
|
||||
```
|
||||
|
||||
同步计算被重新缩放:
|
||||
```
|
||||
S^t_ij = (Z^t_i)^⊺ · diag(R^t_ij) · Z^t_j / √(Σ_τ R^t_ij[τ])
|
||||
```
|
||||
|
||||
## 行为
|
||||
|
||||
- **r_ij = 0**:所有历史 tick 等权重 → 长时程整合
|
||||
- **r_ij 大**:偏向近期 tick → 短时程响应
|
||||
- **r_ij 可学习**:CTM 根据任务需求自动调整每对神经元的时间尺度
|
||||
|
||||
## 实验发现
|
||||
|
||||
作者观察到 CTM 对 r_ij 的使用具有**任务依赖性**:
|
||||
- **迷宫任务**:模型积极利用多时间尺度
|
||||
- **ImageNet**:衰减的使用较少
|
||||
|
||||
这暗示不同任务需要不同的时态整合模式。
|
||||
|
||||
## 生物学类比
|
||||
|
||||
类似生物突触的**短期可塑性**(short-term plasticity)——某些突触对近期活动敏感(促进/抑制),而其他突触保持长时程稳定。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[darlow-ctm-2025|CTM 论文]]
|
||||
29
concepts/zero-cost-proxies.md
Normal file
29
concepts/zero-cost-proxies.md
Normal file
@@ -0,0 +1,29 @@
|
||||
---
|
||||
title: "Zero-Cost Proxies (ZCP)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: concept
|
||||
tags: [machine-learning, neural-architecture-search, efficiency]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# Zero-Cost Proxies (ZCP)
|
||||
|
||||
**Zero-Cost Proxies** 是源自 Neural Architecture Search (NAS) 的技术,在**不进行完整训练的情况下**估计模型在给定任务上的性能。
|
||||
|
||||
## 核心思想
|
||||
|
||||
在模型初始化阶段通过某些可计算的代用指标(如梯度范数、激活模式、雅可比矩阵特征等)来预测模型的最终性能,成本接近零(无需梯度下降迭代)。
|
||||
|
||||
## 在 NeurIDA 中的应用
|
||||
|
||||
[[conditional-model-dispatcher|Conditional Model Dispatcher]] 使用 ZCP 对 [[composable-base-model-architecture|基础模型池]] 中每个候选模型进行快速评分,实现轻量级的模型选择。ZCP 评分的低成本意味着 Dispatcher 可以在几乎不增加延迟的情况下完成模型选择决策。
|
||||
|
||||
## 关键参考文献
|
||||
|
||||
- Abdelfattah et al., "Zero-Cost Proxies for Lightweight NAS", ICLR 2021
|
||||
- Shu et al., "NASI: Label- and Data-agnostic Neural Architecture Search at Initialization", ICLR 2022
|
||||
|
||||
## 来源
|
||||
|
||||
- [[zeng-neurida-2025|NeurIDA 论文]]
|
||||
Reference in New Issue
Block a user