--- title: 经验发现与模拟 (Empirical Discovery & Simulation) created: 2026-05-01 updated: 2026-05-01 type: concept tags: [benchmark, llm] sources: [papers/dou-cl-bench.md] --- # 经验发现与模拟 (Empirical Discovery & Simulation) > CL-bench 第四类上下文——**最难类别**(最佳仅 18.1%)。与前三个类别的根本区别在于需要**归纳推理**:从数据中发现模式,而非从给定规则推导。 ## 三个子类 | 子类 | 核心操作 | |------|---------| | Experimental Data | 从实验数据中发现物理规律 | | Observational Data | 从观测记录中提取模式 | | Simulation Environment | 在虚拟沙盒环境中推理分析 | ## 为什么最难? ### 演绎 vs 归纳 - 前三个类别:给定规则 → 应用规则(**演绎**) - 经验发现:给定数据 → 发现规则 → 应用规则(**归纳 + 演绎**) 归纳是人类智能的核心优势之一,也是当前 LLM 的最薄弱环节。 ### 信息密度低 - 规则系统应用中信息是显式的、符号化的 - 经验数据中模式是**隐式的**、需要从噪声中分离 ### 需要科学思维 - 假设形成 → 数据验证 → 规律抽象 - 这是完整的科学发现循环,远超出简单的信息检索 ## 成绩数据 - 十模型平均:~11% - GPT-5.1:18.1%(最佳) - GPT-5.2:22.6%(在该类别上领先) - DeepSeek V3.2:8.0%(最低) ## 相关概念 - [[context-learning]] — 上下文学习 - [[dou-cl-bench]] — CL-bench 论文 - [[domain-knowledge-reasoning]] — 领域知识(演绎式) - [[spurious-predictability]] — 数据中的虚假模式(金融 ML)