1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 数据墙 (Data Wall) | 2026-06-08 | 2026-06-08 | concept |
|
|
数据墙 (Data Wall)
LLM 规模化扩展面临的高质量训练数据即将耗尽的瓶颈。LeCun 将此视为 LLM 架构局限的外部约束之一。
量化估算
根据 Epoch AI 的估算:
- 可用于训练的高质量公开人类文本数据:约 300 万亿 Token(95% CI: 100万亿-1000万亿)
- Llama 3-70B 训练数据:约 7000 亿 Token(仅 ~1/429)
- 在较高过训练倍率下,数据瓶颈可能出现在 2025-2030
应对策略
- 版权数据/私有数据授权:需要高额费用,中小开源项目难以负担
- 合成数据:在数学/代码/推理任务中有效,但可能引发model-collapse-step——偏差在多轮训练中累积
- 多模态训练信号:从代码、视频、机器人交互获取
对开源/闭源的差异化冲击
| 闭源 | 开源 |
|---|---|
| 转向版权授权(有钱) | 版权费用难以负担 |
| 合成数据(有隐患) | 合成数据同样受限 |
| 无法接入私域数据 | [[tapestry-federated |
Tapestry 将大量未被纳入模型训练的私域数据通过联邦机制纳入——这些数据闭源方用钱也买不到。