Files
myWiki/concepts/tapestry-federated.md

53 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Tapestry 联邦训练"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [federated-learning, open-source, AI-governance, LeCun, data-sovereignty]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://thealliance.ai/projects/tapestry]
---
# Tapestry 联邦训练
LeCun 对[[sovereign-ai|主权AI]]问题的工程回应——一种允许全球贡献者共同训练模型、同时**不共享原始数据**的联邦学习架构。
## 核心理念
> "贡献者共享的是参数向量,而不是数据本身。"
各参与方的数据中心从全局共识模型获取参数向量,在本地数据上训练后更新参数,通过中央服务器交换参数向量。每次更新时,本地模型既要拟合本地数据,也要保持与全局共识向量的接近,最终收敛到一个"**好像在世界所有数据上训练出来**"的共识模型。
## 与传统联邦学习的区别
| 维度 | 传统联邦学习 (Google 2016) | Tapestry |
|------|--------------------------|----------|
| 层级 | 边缘设备(手机) | 国家/机构层级 |
| 保护对象 | 个人隐私 | **数据主权** |
| 数据流 | 数据不出设备 | 数据不出机构/国家 |
| 目标 | 隐私保护 | 文化/语言多样性保护 |
## 数据瓶颈背景下的战略价值
公开文本数据已近枯竭。Tapestry 将**目前未被纳入任何模型的私域数据**纳入训练:
- 印度地方语言文本
- 日本学术文献
- 欧洲政务文档
- 东南亚文化内容
这些数据在集中式训练范式下不可用(数据持有方不愿交出),但 Tapestry 让它们参与训练而不离开本地。**开源社区能访问的数据池,是闭源方用钱买不到的那部分。**
## 生态意义
LeCun 用 **Sun Microsystems 类比**1990年代 Solaris/HP-UX 占统治地位,最终被 Linux 全部淘汰。今天 OpenAI/Anthropic 就是当年的 Sun/HP——当基础模型成为基础设施层时可定制性、可审计性和低成本扩散能力让开源有结构性优势。
Tapestry 解决了开源生态的关键缺失:**数据接入机制**。这决定了开源能否在数据规模和质量上反超闭源。
## 当前状态
概念验证阶段。通信效率、激励机制和跨机构协同成本仍有待验证。
## 来源
- [[lecun-llm-boundary-future|原始文章]]
- [[sovereign-ai|主权AI]]