SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

数据墙 (Data Wall)

2026-06-08

2026-06-08

concept

LLM

scaling-law

training-data

data-bottleneck

raw/articles/lecun-llm-boundary-future-2026.md

https://epoch.ai/publications/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

数据墙 (Data Wall)

LLM 规模化扩展面临的高质量训练数据即将耗尽的瓶颈。LeCun 将此视为 LLM 架构局限的外部约束之一。

量化估算

根据 Epoch AI 的估算：

可用于训练的高质量公开人类文本数据：约 300 万亿 Token（95% CI: 100万亿-1000万亿）
Llama 3-70B 训练数据：约 7000 亿 Token（仅 ~1/429）
在较高过训练倍率下，数据瓶颈可能出现在 2025-2030

应对策略

版权数据/私有数据授权：需要高额费用，中小开源项目难以负担
合成数据：在数学/代码/推理任务中有效，但可能引发model-collapse-step——偏差在多轮训练中累积
多模态训练信号：从代码、视频、机器人交互获取

对开源/闭源的差异化冲击

闭源	开源
转向版权授权（有钱）	版权费用难以负担
合成数据（有隐患）	合成数据同样受限
无法接入私域数据	[[tapestry-federated

Tapestry 将大量未被纳入模型训练的私域数据通过联邦机制纳入——这些数据闭源方用钱也买不到。

来源