20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/tapestry-federated.md
+++ b/concepts/tapestry-federated.md
@@ -0,0 +1,52 @@
+---
+title: "Tapestry 联邦训练"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [federated-learning, open-source, AI-governance, LeCun, data-sovereignty]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://thealliance.ai/projects/tapestry]
+---
+
+# Tapestry 联邦训练
+
+LeCun 对[[sovereign-ai|主权AI]]问题的工程回应——一种允许全球贡献者共同训练模型、同时**不共享原始数据**的联邦学习架构。
+
+## 核心理念
+
+> "贡献者共享的是参数向量，而不是数据本身。"
+
+各参与方的数据中心从全局共识模型获取参数向量，在本地数据上训练后更新参数，通过中央服务器交换参数向量。每次更新时，本地模型既要拟合本地数据，也要保持与全局共识向量的接近，最终收敛到一个"**好像在世界所有数据上训练出来**"的共识模型。
+
+## 与传统联邦学习的区别
+
+| 维度 | 传统联邦学习 (Google 2016) | Tapestry |
+|------|--------------------------|----------|
+| 层级 | 边缘设备（手机） | 国家/机构层级 |
+| 保护对象 | 个人隐私 | **数据主权** |
+| 数据流 | 数据不出设备 | 数据不出机构/国家 |
+| 目标 | 隐私保护 | 文化/语言多样性保护 |
+
+## 数据瓶颈背景下的战略价值
+
+公开文本数据已近枯竭。Tapestry 将**目前未被纳入任何模型的私域数据**纳入训练：
+- 印度地方语言文本
+- 日本学术文献
+- 欧洲政务文档
+- 东南亚文化内容
+
+这些数据在集中式训练范式下不可用（数据持有方不愿交出），但 Tapestry 让它们参与训练而不离开本地。**开源社区能访问的数据池，是闭源方用钱买不到的那部分。**
+
+## 生态意义
+
+LeCun 用 **Sun Microsystems 类比**：1990年代 Solaris/HP-UX 占统治地位，最终被 Linux 全部淘汰。今天 OpenAI/Anthropic 就是当年的 Sun/HP——当基础模型成为基础设施层时，可定制性、可审计性和低成本扩散能力让开源有结构性优势。
+
+Tapestry 解决了开源生态的关键缺失：**数据接入机制**。这决定了开源能否在数据规模和质量上反超闭源。
+
+## 当前状态
+
+概念验证阶段。通信效率、激励机制和跨机构协同成本仍有待验证。
+
+## 来源
+
+- [[lecun-llm-boundary-future|原始文章]]
+- [[sovereign-ai|主权AI]]