Files
myWiki/concepts/tapestry-federated.md

2.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Tapestry 联邦训练 2026-06-08 2026-06-08 concept
federated-learning
open-source
AI-governance
LeCun
data-sovereignty
raw/articles/lecun-llm-boundary-future-2026.md
https://thealliance.ai/projects/tapestry

Tapestry 联邦训练

LeCun 对sovereign-ai问题的工程回应——一种允许全球贡献者共同训练模型、同时不共享原始数据的联邦学习架构。

核心理念

"贡献者共享的是参数向量,而不是数据本身。"

各参与方的数据中心从全局共识模型获取参数向量,在本地数据上训练后更新参数,通过中央服务器交换参数向量。每次更新时,本地模型既要拟合本地数据,也要保持与全局共识向量的接近,最终收敛到一个"好像在世界所有数据上训练出来"的共识模型。

与传统联邦学习的区别

维度 传统联邦学习 (Google 2016) Tapestry
层级 边缘设备(手机) 国家/机构层级
保护对象 个人隐私 数据主权
数据流 数据不出设备 数据不出机构/国家
目标 隐私保护 文化/语言多样性保护

数据瓶颈背景下的战略价值

公开文本数据已近枯竭。Tapestry 将目前未被纳入任何模型的私域数据纳入训练:

  • 印度地方语言文本
  • 日本学术文献
  • 欧洲政务文档
  • 东南亚文化内容

这些数据在集中式训练范式下不可用(数据持有方不愿交出),但 Tapestry 让它们参与训练而不离开本地。开源社区能访问的数据池,是闭源方用钱买不到的那部分。

生态意义

LeCun 用 Sun Microsystems 类比1990年代 Solaris/HP-UX 占统治地位,最终被 Linux 全部淘汰。今天 OpenAI/Anthropic 就是当年的 Sun/HP——当基础模型成为基础设施层时可定制性、可审计性和低成本扩散能力让开源有结构性优势。

Tapestry 解决了开源生态的关键缺失:数据接入机制。这决定了开源能否在数据规模和质量上反超闭源。

当前状态

概念验证阶段。通信效率、激励机制和跨机构协同成本仍有待验证。

来源