Files
myWiki/concepts/empirical-discovery-simulation.md

50 lines
1.6 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: 经验发现与模拟 (Empirical Discovery & Simulation)
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm]
sources: [papers/dou-cl-bench.md]
---
# 经验发现与模拟 (Empirical Discovery & Simulation)
> CL-bench 第四类上下文——**最难类别**(最佳仅 18.1%)。与前三个类别的根本区别在于需要**归纳推理**:从数据中发现模式,而非从给定规则推导。
## 三个子类
| 子类 | 核心操作 |
|------|---------|
| Experimental Data | 从实验数据中发现物理规律 |
| Observational Data | 从观测记录中提取模式 |
| Simulation Environment | 在虚拟沙盒环境中推理分析 |
## 为什么最难?
### 演绎 vs 归纳
- 前三个类别:给定规则 → 应用规则(**演绎**
- 经验发现:给定数据 → 发现规则 → 应用规则(**归纳 + 演绎**
归纳是人类智能的核心优势之一,也是当前 LLM 的最薄弱环节。
### 信息密度低
- 规则系统应用中信息是显式的、符号化的
- 经验数据中模式是**隐式的**、需要从噪声中分离
### 需要科学思维
- 假设形成 → 数据验证 → 规律抽象
- 这是完整的科学发现循环,远超出简单的信息检索
## 成绩数据
- 十模型平均:~11%
- GPT-5.118.1%(最佳)
- GPT-5.222.6%(在该类别上领先)
- DeepSeek V3.28.0%(最低)
## 相关概念
- [[context-learning]] — 上下文学习
- [[dou-cl-bench]] — CL-bench 论文
- [[domain-knowledge-reasoning]] — 领域知识(演绎式)
- [[spurious-predictability]] — 数据中的虚假模式(金融 ML