20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/empirical-discovery-simulation.md
+++ b/concepts/empirical-discovery-simulation.md
@@ -0,0 +1,49 @@
+---
+title: 经验发现与模拟 (Empirical Discovery & Simulation)
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [benchmark, llm]
+sources: [papers/dou-cl-bench.md]
+---
+
+# 经验发现与模拟 (Empirical Discovery & Simulation)
+
+> CL-bench 第四类上下文——**最难类别**（最佳仅 18.1%）。与前三个类别的根本区别在于需要**归纳推理**：从数据中发现模式，而非从给定规则推导。
+
+## 三个子类
+
+| 子类 | 核心操作 |
+|------|---------|
+| Experimental Data | 从实验数据中发现物理规律 |
+| Observational Data | 从观测记录中提取模式 |
+| Simulation Environment | 在虚拟沙盒环境中推理分析 |
+
+## 为什么最难？
+
+### 演绎 vs 归纳
+- 前三个类别：给定规则 → 应用规则（**演绎**）
+- 经验发现：给定数据 → 发现规则 → 应用规则（**归纳 + 演绎**）
+
+归纳是人类智能的核心优势之一，也是当前 LLM 的最薄弱环节。
+
+### 信息密度低
+- 规则系统应用中信息是显式的、符号化的
+- 经验数据中模式是**隐式的**、需要从噪声中分离
+
+### 需要科学思维
+- 假设形成 → 数据验证 → 规律抽象
+- 这是完整的科学发现循环，远超出简单的信息检索
+
+## 成绩数据
+
+- 十模型平均：~11%
+- GPT-5.1：18.1%（最佳）
+- GPT-5.2：22.6%（在该类别上领先）
+- DeepSeek V3.2：8.0%（最低）
+
+## 相关概念
+- [[context-learning]] — 上下文学习
+- [[dou-cl-bench]] — CL-bench 论文
+- [[domain-knowledge-reasoning]] — 领域知识（演绎式）
+- [[spurious-predictability]] — 数据中的虚假模式（金融 ML）