20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,49 @@
---
title: 经验发现与模拟 (Empirical Discovery & Simulation)
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm]
sources: [papers/dou-cl-bench.md]
---
# 经验发现与模拟 (Empirical Discovery & Simulation)
> CL-bench 第四类上下文——**最难类别**(最佳仅 18.1%)。与前三个类别的根本区别在于需要**归纳推理**:从数据中发现模式,而非从给定规则推导。
## 三个子类
| 子类 | 核心操作 |
|------|---------|
| Experimental Data | 从实验数据中发现物理规律 |
| Observational Data | 从观测记录中提取模式 |
| Simulation Environment | 在虚拟沙盒环境中推理分析 |
## 为什么最难?
### 演绎 vs 归纳
- 前三个类别:给定规则 → 应用规则(**演绎**
- 经验发现:给定数据 → 发现规则 → 应用规则(**归纳 + 演绎**
归纳是人类智能的核心优势之一,也是当前 LLM 的最薄弱环节。
### 信息密度低
- 规则系统应用中信息是显式的、符号化的
- 经验数据中模式是**隐式的**、需要从噪声中分离
### 需要科学思维
- 假设形成 → 数据验证 → 规律抽象
- 这是完整的科学发现循环,远超出简单的信息检索
## 成绩数据
- 十模型平均:~11%
- GPT-5.118.1%(最佳)
- GPT-5.222.6%(在该类别上领先)
- DeepSeek V3.28.0%(最低)
## 相关概念
- [[context-learning]] — 上下文学习
- [[dou-cl-bench]] — CL-bench 论文
- [[domain-knowledge-reasoning]] — 领域知识(演绎式)
- [[spurious-predictability]] — 数据中的虚假模式(金融 ML