SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.6 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

经验发现与模拟 (Empirical Discovery & Simulation)

2026-05-01

2026-05-01

concept

benchmark

llm

papers/dou-cl-bench.md

经验发现与模拟 (Empirical Discovery & Simulation)

CL-bench 第四类上下文——最难类别（最佳仅 18.1%）。与前三个类别的根本区别在于需要归纳推理：从数据中发现模式，而非从给定规则推导。

三个子类

子类	核心操作
Experimental Data	从实验数据中发现物理规律
Observational Data	从观测记录中提取模式
Simulation Environment	在虚拟沙盒环境中推理分析

为什么最难？

演绎 vs 归纳

前三个类别：给定规则 → 应用规则（演绎）
经验发现：给定数据 → 发现规则 → 应用规则（归纳 + 演绎）

归纳是人类智能的核心优势之一，也是当前 LLM 的最薄弱环节。

信息密度低

规则系统应用中信息是显式的、符号化的
经验数据中模式是隐式的、需要从噪声中分离

需要科学思维

假设形成 → 数据验证 → 规律抽象
这是完整的科学发现循环，远超出简单的信息检索

成绩数据

十模型平均：~11%
GPT-5.1：18.1%（最佳）
GPT-5.2：22.6%（在该类别上领先）
DeepSeek V3.2：8.0%（最低）

相关概念

context-learning — 上下文学习
dou-cl-bench — CL-bench 论文
domain-knowledge-reasoning — 领域知识（演绎式）
spurious-predictability — 数据中的虚假模式（金融 ML）