20260518-morning:新增内容
This commit is contained in:
88
papers/darlow-ctm-2025.md
Normal file
88
papers/darlow-ctm-2025.md
Normal file
@@ -0,0 +1,88 @@
|
||||
---
|
||||
title: "Continuous Thought Machines (CTM)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: paper
|
||||
tags: [neural-architecture, temporal-dynamics, biological-plausibility, synchronization, recurrence]
|
||||
sources: [raw/papers/darlow-ctm-2025.md]
|
||||
---
|
||||
|
||||
# Continuous Thought Machines (CTM)
|
||||
|
||||
**Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones** — Sakana AI, University of Tsukuba, IT University of Copenhagen
|
||||
**arXiv:** [2505.05522v4](https://arxiv.org/abs/2505.05522) | cs.LG | **NeurIPS 2025**
|
||||
|
||||
> Llion Jones 是 "Attention Is All You Need" 的合著者之一。
|
||||
|
||||
## 核心问题
|
||||
|
||||
**生物大脑**依赖复杂的时态神经动力学处理信息,而**人工神经网络**有意抽象掉了单个神经元的时序复杂性以简化大规模训练。这种抽象虽然有效,但导致了灵活人类认知与当前 AI 能力之间的鸿沟。
|
||||
|
||||
CTM 的核心赌注:**将时间重新引入神经计算是推进 AI 的关键**。
|
||||
|
||||
## 两大创新
|
||||
|
||||
### 1. [[neuron-level-models|Neuron-Level Models (NLMs)]]
|
||||
每个神经元拥有**私有的权重参数**(深度为 1 的 MLP),处理其 M 步 [[pre-activation-history|前激活历史]] 以产生复杂的时态动力学。与传统激活函数(ReLU/GELU 对所有神经元统一)形成鲜明对比。
|
||||
|
||||
### 2. [[neural-synchronization|Neural Synchronization as Representation]]
|
||||
直接将神经元群体活动的时序相关性(激活历史的**内积**)作为潜在表示,用于注意力查询(qt)和输出预测(yt)。这与传统网络在单个时间点的"快照"表示根本不同。
|
||||
|
||||
## 架构
|
||||
|
||||
```
|
||||
Input → FeatureExtractor → Cross-Attention ← qt (from sync)
|
||||
↓ ot
|
||||
Synapse Model → at (pre-activations) → NLMs → zt+1 (post-activations)
|
||||
↑ ↓
|
||||
└────────── concat(zt, ot) ←────────────────────┘
|
||||
→ Sync Matrix St
|
||||
```
|
||||
|
||||
### 关键组件
|
||||
|
||||
| 组件 | 作用 |
|
||||
|------|------|
|
||||
| [[internal-ticks|Internal Ticks]] | 与数据维度解耦的内部时序 t∈{1,...,T},实现迭代精炼 |
|
||||
| [[synapse-model|Synapse Model]] | U-Net 风格 MLP,神经元间信息共享的循环结构 |
|
||||
| [[neuron-level-models|NLMs]] | 每个神经元的私有 MLP,处理前激活历史 |
|
||||
| [[neural-synchronization|Sync Matrix]] | 激活历史内积 S^t = Z^t·(Z^t)⊺ |
|
||||
| [[neuron-pairing|Neuron Pairing]] | 对 O(D²) 同步矩阵的子采样策略,选出 Dout/Daction 对 |
|
||||
| [[temporal-decay-neural|Temporal Decay r_ij]] | 每对神经元可学习的指数衰减,控制时间尺度 |
|
||||
|
||||
### [[certainty-based-loss|Certainty-Based Loss]]
|
||||
|
||||
不固定使用某个内部 tick 的输出,而是动态选择:
|
||||
- **t₁ = argmin(L)** — 损失最小的 tick
|
||||
- **t₂ = argmax(C)** — 确定性最高的 tick
|
||||
|
||||
L = (L_t₁ + L_t₂) / 2,实现**原生自适应计算**(无需单独 halting 模块)。
|
||||
|
||||
## 实验亮点
|
||||
|
||||
### 🧩 2D Mazes(39×39 → 99×99)
|
||||
- **无位置编码**,需构建 [[internal-world-model|内部世界模型]]
|
||||
- 显著优于 LSTM/FF 基线
|
||||
- **涌现泛化**:训练于 100 步路径,可泛化到更远路径和更大的 99×99 迷宫
|
||||
|
||||
### 🖼️ ImageNet-1K 分类
|
||||
- 原生 [[adaptive-computation-time|自适应计算]]:简单样本可在 <10 ticks 停止
|
||||
- **自然校准**(calibration):无需专门技术即达到优秀校准
|
||||
- 涌现"环顾四周"(look around) 行为:模型在没有训练信号的情况下学习顺序扫描图像
|
||||
|
||||
### 🧮 Parity 计算
|
||||
- 学习**可解释的算法策略**(如周期性重置、前瞻性预测)
|
||||
- CTM 在 64 位序列上显著优于 LSTM
|
||||
|
||||
## 关键洞察
|
||||
|
||||
1. **从"统一激活函数"到"私有神经元模型"**:这不仅是架构创新,更是对神经元抽象层次的重新思考
|
||||
2. **同步作为表示**:将时序相关性直接用作表示,开辟了高基数表示空间,天然适合捕获"思考"的时序特征
|
||||
3. **不要位置编码**:CTM 完全通过内部动态建立空间理解,暗示时间可能是比空间更基础的表示维度
|
||||
4. **涌现属性丰富**:适应性计算、校准、环顾四周、行波——均无专门设计,从同一核心架构自然涌现
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[adaptive-computation-time|Adaptive Computation Time (ACT)]] 的传统方案需要显式 halting 模块,CTM 通过 loss 设计自然实现
|
||||
- [[internal-world-model|Internal World Models]]:Ha & Schmidhuber (2018) 的经典概念
|
||||
- 与 [[spiking-neural-networks|SNN]] 的关系:共享生物学灵感但路径不同——CTM 使用连续值 + 梯度优化,SNN 使用离散脉冲 + 事件驱动
|
||||
20
papers/xing-trails-2024.md
Normal file
20
papers/xing-trails-2024.md
Normal file
@@ -0,0 +1,20 @@
|
||||
---
|
||||
title: "Trails: Database Native Model Selection (VLDB 2024)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: paper
|
||||
tags: [database, machine-learning, model-selection]
|
||||
confidence: medium
|
||||
---
|
||||
|
||||
# Trails: Database Native Model Selection
|
||||
|
||||
**Naili Xing, Shaofeng Cai, Gang Chen, Zhaojing Luo, Beng Chin Ooi, Jian Pei** — VLDB 2024
|
||||
|
||||
数据库原生的深度神经网络模型选择系统,是 NeurIDA 的前置工作之一。探索了在数据库系统中自动化选择最优深度神经网络模型的方法。
|
||||
|
||||
## 与 NeurIDA 的关系
|
||||
|
||||
Trails 关注的是**模型选择**(从候选池中选最优),而 [[zeng-neurida-2025|NeurIDA]] 更进一步实现了**动态模型构造**(从共享组件装配定制模型)。
|
||||
|
||||
> 📝 占位页面 — 待完整 ingest 后更新
|
||||
20
papers/zeng-dynamic-model-slicing-2024.md
Normal file
20
papers/zeng-dynamic-model-slicing-2024.md
Normal file
@@ -0,0 +1,20 @@
|
||||
---
|
||||
title: "Powering In-Database Dynamic Model Slicing for Structured Data Analytics (VLDB 2024)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: paper
|
||||
tags: [database, machine-learning, dynamic-modeling]
|
||||
confidence: medium
|
||||
---
|
||||
|
||||
# Powering In-Database Dynamic Model Slicing
|
||||
|
||||
**Lingze Zeng, Naili Xing, Shaofeng Cai, Gang Chen, Beng Chin Ooi, Jian Pei, Yuncheng Wu** — VLDB 2024
|
||||
|
||||
NeurIDA 的前置工作,提出了数据库内的动态模型切片(Dynamic Model Slicing)技术,为结构化数据分析提供动力。
|
||||
|
||||
## 与 NeurIDA 的关系
|
||||
|
||||
该工作是 [[zeng-neurida-2025|NeurIDA]] 系统中 [[dynamic-in-database-modeling|动态库内建模]] 范式的早期探索和基础。
|
||||
|
||||
> 📝 占位页面 — 待完整 ingest 后更新
|
||||
75
papers/zeng-neurida-2025.md
Normal file
75
papers/zeng-neurida-2025.md
Normal file
@@ -0,0 +1,75 @@
|
||||
---
|
||||
title: "NeurIDA: Dynamic Modeling for Effective In-Database Analytics"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: paper
|
||||
tags: [database, machine-learning, tabular-data, autonomous-system, in-database-analytics]
|
||||
sources: [raw/papers/zeng-neurida-2025.md]
|
||||
---
|
||||
|
||||
# NeurIDA: Dynamic Modeling for Effective In-Database Analytics
|
||||
|
||||
**Lingze Zeng, Naili Xing, Shaofeng Cai, Peng Lu, Gang Chen, Jian Pei, Beng Chin Ooi** — NUS, Zhejiang University, Duke University
|
||||
**arXiv:** [2512.08483v3](https://arxiv.org/abs/2512.08483v3) | cs.DB | 2025-12-15
|
||||
|
||||
## 核心问题
|
||||
|
||||
RDBMS 的核心设计是**动态性**(支持多样且演化的分析查询),而传统 ML 模型是**静态的**(为单一任务训练、部署后固定)。当一个新分析任务到来时,现有模型往往无法直接适应,必须从头构建数据到模型的 pipeline,开发成本高、无法规模化。
|
||||
|
||||
**根本矛盾**:ML 模型的「刚性」vs RDBMS 环境的「动态性」。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
NeurIDA 是一个**自主端到端系统**,通过 **动态库内建模(Dynamic In-Database Modeling)** 范式解决上述矛盾:
|
||||
|
||||
```
|
||||
NLQ → Query Intent Analyzer → Conditional Model Dispatcher → DIME → Analytical Report Synthesizer → 报告
|
||||
```
|
||||
|
||||
### 四大组件
|
||||
|
||||
1. **[[query-intent-analyzer|Query Intent Analyzer]]** — LLM 驱动的自然语言查询解析,从 NLQ 提取结构化任务画像和数据画像
|
||||
2. **[[conditional-model-dispatcher|Conditional Model Dispatcher]]** — 用 [[zero-cost-proxies|ZCP]] + 历史 EMA 选择最优基础模型,按需触发模型增强
|
||||
3. **[[dime-dynamic-in-database-modeling-engine|DIME]]** — 核心引擎,动态从 [[composable-base-model-architecture|可组合基础模型架构]] 中装配定制模型
|
||||
4. **[[analytical-report-synthesizer|Analytical Report Synthesizer]]** — LLM 将预测结果转化为可解释分析报告
|
||||
|
||||
### DIME 的四阶段建模
|
||||
|
||||
| 阶段 | 作用 | 共享组件 |
|
||||
|------|------|----------|
|
||||
| [[base-table-embedding|Base Table Embedding]] | 捕获表内语义,双路径编码(基础模型 + 统一元组编码器) | 统一元组编码器 |
|
||||
| [[dynamic-relation-modeling|Dynamic Relation Modeling]] | 通过 FK-PK 图上消息传递,融入跨表关系结构 | 关系感知消息传递模块 |
|
||||
| [[dynamic-model-fusion|Dynamic Model Fusion]] | 上下文感知融合,将关联表信息注入目标表元组 | 上下文感知融合模块 |
|
||||
| Task-Aware Prediction | 基于融合嵌入的最终预测 | 任务特定预测头 |
|
||||
|
||||
### 关键设计
|
||||
|
||||
- **[[composable-base-model-architecture|可组合基础模型架构]]**:异构基础模型池 + 共享模型组件 → 查询时动态装配
|
||||
- **[[data-slice|Data Slice]]**:任务特定的数据库子集,通过 SQL 自动生成
|
||||
- **[[relational-graph|Relational Graph]]**:以 FK-PK 为边的元组图,是 DIME 的数据结构基础
|
||||
|
||||
## 实验结果
|
||||
|
||||
- 5 个真实数据集、10 个分析任务
|
||||
- **分类**:AUC-ROC 提升最高 12%
|
||||
- **回归**:MAE 相对降低 10%–25%
|
||||
- 消融实验证实 Dynamic Relation Modeling 和 Dynamic Model Fusion 的独立贡献
|
||||
- 延迟开销仅 1.1×–2.1×,参数量增加 1.2×–2.5×
|
||||
|
||||
## 关键洞察
|
||||
|
||||
1. **从"为每个任务训一个模型"转向"从共享组件装配模型"** — 这是 ML-RDBMS 集成的范式转变
|
||||
2. **关系结构是预测信号**:当目标表特征稀疏时,关联表的关系建模带来最大增益
|
||||
3. **LLM 作为统一界面**:NLQ 输入 → 结构化画像 → 执行 → 自然语言报告,降低使用门槛
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[in-database-analytics|In-Database Analytics]] 是更广泛的领域背景
|
||||
- 基础模型池涵盖 [[tabular-foundation-models|Tabular Foundation Models]](TabPFN, TabICL)、TRM(FT-Transformer, ARM-Net, TabM)、LTM(TP-BERTa)等
|
||||
- [[zero-cost-proxies|Zero-Cost Proxies]] 源自 Neural Architecture Search
|
||||
|
||||
## 相关论文
|
||||
|
||||
- [[xing-trails-2024]]: Database Native Model Selection (VLDB 2024)
|
||||
- [[zeng-dynamic-model-slicing-2024]]: Powering In-Database Dynamic Model Slicing (VLDB 2024)
|
||||
- [[zhao-neurdb-2025]]: NeurDB — AI-powered Autonomous Database (CIDR 2025)
|
||||
20
papers/zhao-neurdb-2025.md
Normal file
20
papers/zhao-neurdb-2025.md
Normal file
@@ -0,0 +1,20 @@
|
||||
---
|
||||
title: "NeurDB: On the Design and Implementation of an AI-powered Autonomous Database (CIDR 2025)"
|
||||
created: 2026-05-15
|
||||
updated: 2026-05-15
|
||||
type: paper
|
||||
tags: [database, ai, autonomous-system]
|
||||
confidence: medium
|
||||
---
|
||||
|
||||
# NeurDB: AI-powered Autonomous Database
|
||||
|
||||
**Zhanhao Zhao, Shaofeng Cai, Haotian Gao, Hexiang Pan, Siqi Xiang, Naili Xing, Gang Chen, Beng Chin Ooi, Yanyan Shen, Yuncheng Wu, Meihui Zhang** — CIDR 2025
|
||||
|
||||
AI 驱动的自主数据库设计与实现,是 [[in-database-analytics|库内分析]] 方向的重要系统工作之一。
|
||||
|
||||
## 与 NeurIDA 的关系
|
||||
|
||||
NeurDB 和 [[zeng-neurida-2025|NeurIDA]] 来自同一研究组(NUS/ZJU),共同推进 AI 与数据库深度融合的愿景。
|
||||
|
||||
> 📝 占位页面 — 待完整 ingest 后更新
|
||||
Reference in New Issue
Block a user