title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| 经验发现与模拟 (Empirical Discovery & Simulation) |
2026-05-01 |
2026-05-01 |
concept |
|
|
经验发现与模拟 (Empirical Discovery & Simulation)
CL-bench 第四类上下文——最难类别(最佳仅 18.1%)。与前三个类别的根本区别在于需要归纳推理:从数据中发现模式,而非从给定规则推导。
三个子类
| 子类 |
核心操作 |
| Experimental Data |
从实验数据中发现物理规律 |
| Observational Data |
从观测记录中提取模式 |
| Simulation Environment |
在虚拟沙盒环境中推理分析 |
为什么最难?
演绎 vs 归纳
- 前三个类别:给定规则 → 应用规则(演绎)
- 经验发现:给定数据 → 发现规则 → 应用规则(归纳 + 演绎)
归纳是人类智能的核心优势之一,也是当前 LLM 的最薄弱环节。
信息密度低
- 规则系统应用中信息是显式的、符号化的
- 经验数据中模式是隐式的、需要从噪声中分离
需要科学思维
- 假设形成 → 数据验证 → 规律抽象
- 这是完整的科学发现循环,远超出简单的信息检索
成绩数据
- 十模型平均:~11%
- GPT-5.1:18.1%(最佳)
- GPT-5.2:22.6%(在该类别上领先)
- DeepSeek V3.2:8.0%(最低)
相关概念