Files
myWiki/concepts/data-wall.md

42 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "数据墙 (Data Wall)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [LLM, scaling-law, training-data, data-bottleneck]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://epoch.ai/publications/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data]
---
# 数据墙 (Data Wall)
LLM 规模化扩展面临的高质量训练数据即将耗尽的瓶颈。LeCun 将此视为 LLM 架构局限的外部约束之一。
## 量化估算
根据 Epoch AI 的估算:
- 可用于训练的高质量公开人类文本数据:约 **300 万亿 Token**95% CI: 100万亿-1000万亿
- Llama 3-70B 训练数据:约 7000 亿 Token仅 ~1/429
- 在较高过训练倍率下,数据瓶颈可能出现在 **2025-2030**
## 应对策略
1. **版权数据/私有数据授权**:需要高额费用,中小开源项目难以负担
2. **合成数据**:在数学/代码/推理任务中有效,但可能引发[[model-collapse-step|模型崩塌]]——偏差在多轮训练中累积
3. **多模态训练信号**:从代码、视频、机器人交互获取
## 对开源/闭源的差异化冲击
| 闭源 | 开源 |
|------|------|
| 转向版权授权(有钱) | 版权费用难以负担 |
| 合成数据(有隐患) | 合成数据同样受限 |
| 无法接入私域数据 | [[tapestry-federated|Tapestry]] 可接入私域数据而不共享 |
Tapestry 将大量未被纳入模型训练的私域数据通过联邦机制纳入——这些数据闭源方**用钱也买不到**。
## 来源
- [[lecun-llm-boundary-future|原始文章]]
- [[model-collapse-step|模型崩塌]]
- [[tapestry-federated|Tapestry]]