Files
myWiki/concepts/empirical-discovery-simulation.md

1.6 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
经验发现与模拟 (Empirical Discovery & Simulation) 2026-05-01 2026-05-01 concept
benchmark
llm
papers/dou-cl-bench.md

经验发现与模拟 (Empirical Discovery & Simulation)

CL-bench 第四类上下文——最难类别(最佳仅 18.1%)。与前三个类别的根本区别在于需要归纳推理:从数据中发现模式,而非从给定规则推导。

三个子类

子类 核心操作
Experimental Data 从实验数据中发现物理规律
Observational Data 从观测记录中提取模式
Simulation Environment 在虚拟沙盒环境中推理分析

为什么最难?

演绎 vs 归纳

  • 前三个类别:给定规则 → 应用规则(演绎
  • 经验发现:给定数据 → 发现规则 → 应用规则(归纳 + 演绎

归纳是人类智能的核心优势之一,也是当前 LLM 的最薄弱环节。

信息密度低

  • 规则系统应用中信息是显式的、符号化的
  • 经验数据中模式是隐式的、需要从噪声中分离

需要科学思维

  • 假设形成 → 数据验证 → 规律抽象
  • 这是完整的科学发现循环,远超出简单的信息检索

成绩数据

  • 十模型平均:~11%
  • GPT-5.118.1%(最佳)
  • GPT-5.222.6%(在该类别上领先)
  • DeepSeek V3.28.0%(最低)

相关概念