20260617:目前有914 页
This commit is contained in:
41
concepts/data-wall.md
Normal file
41
concepts/data-wall.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "数据墙 (Data Wall)"
|
||||
created: 2026-06-08
|
||||
updated: 2026-06-08
|
||||
type: concept
|
||||
tags: [LLM, scaling-law, training-data, data-bottleneck]
|
||||
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://epoch.ai/publications/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data]
|
||||
---
|
||||
|
||||
# 数据墙 (Data Wall)
|
||||
|
||||
LLM 规模化扩展面临的高质量训练数据即将耗尽的瓶颈。LeCun 将此视为 LLM 架构局限的外部约束之一。
|
||||
|
||||
## 量化估算
|
||||
|
||||
根据 Epoch AI 的估算:
|
||||
- 可用于训练的高质量公开人类文本数据:约 **300 万亿 Token**(95% CI: 100万亿-1000万亿)
|
||||
- Llama 3-70B 训练数据:约 7000 亿 Token(仅 ~1/429)
|
||||
- 在较高过训练倍率下,数据瓶颈可能出现在 **2025-2030**
|
||||
|
||||
## 应对策略
|
||||
|
||||
1. **版权数据/私有数据授权**:需要高额费用,中小开源项目难以负担
|
||||
2. **合成数据**:在数学/代码/推理任务中有效,但可能引发[[model-collapse-step|模型崩塌]]——偏差在多轮训练中累积
|
||||
3. **多模态训练信号**:从代码、视频、机器人交互获取
|
||||
|
||||
## 对开源/闭源的差异化冲击
|
||||
|
||||
| 闭源 | 开源 |
|
||||
|------|------|
|
||||
| 转向版权授权(有钱) | 版权费用难以负担 |
|
||||
| 合成数据(有隐患) | 合成数据同样受限 |
|
||||
| 无法接入私域数据 | [[tapestry-federated|Tapestry]] 可接入私域数据而不共享 |
|
||||
|
||||
Tapestry 将大量未被纳入模型训练的私域数据通过联邦机制纳入——这些数据闭源方**用钱也买不到**。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[lecun-llm-boundary-future|原始文章]]
|
||||
- [[model-collapse-step|模型崩塌]]
|
||||
- [[tapestry-federated|Tapestry]]
|
||||
Reference in New Issue
Block a user