Files
myWiki/concepts/jagged-frontier.md

40 lines
1.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Jagged Frontier / 锯齿前沿"
created: 2026-05-14
type: concept
tags: ["model-capability", "domain-asymmetry", "capability-boundary", "ai-safety"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# Jagged Frontier
锯齿前沿Jagged Frontier是 Dell'Acqua et al. (2023) 提出的概念,指 AI 模型能力在不同任务/领域中呈现**不均衡、不可预测**的分布。某些任务表现惊人地好,某些任务惊人地差——两者可以相邻共存。
## 在 [[delegate-52]] 中的体现
[[delegate-52]] 中的 52 个领域清楚展现了锯齿前沿:
- **Python**17/19 模型达到 "ready" (RS@20 ≥ 98%)
- **DBSchema, Graphviz**:表现良好
- **Earnings Statements, Music Notation, Textile**:极度糟糕
同一个模型可以在一个领域近乎完美,在另一个领域灾难性失败——而且这两个领域可能对用户来说看起来"差不多难"。
## 对用户的警示
论文明确警告:**不要将模型在一个领域中的能力推广到其他领域**。在 Python 中可靠的模型在 Genealogy 或 Weaving 中可能静默地破坏你的文档。
## 与 [[delegated-work|委托工作]] 的关系
锯齿前沿使得委托决策极其困难:用户无法凭直觉判断"这个任务模型能做好吗"——需要领域特定的基准测试。
## 趋势
GPT 系列 16 个月的进展GPT 4o → GPT 5.4)将分数从 14.7% 提升到 71.5%,表明快速进步——但即使前沿模型仍有大量领域未准备好。
## 相关概念
- [[delegate-52]] — 量化锯齿前沿的基准
- [[delegated-work]] — 锯齿前沿使委托决策复杂化
- [[document-degradation]] — 锯齿前沿中的"差"领域的表现