SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.2 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

规则系统应用 (Rule System Application)

2026-05-01

2026-05-01

concept

benchmark

llm

papers/dou-cl-bench.md

规则系统应用 (Rule System Application)

CL-bench 的第二类上下文：模型需理解新规则系统并正确执行。子类间性能差异最悬殊（法律 >40%，数学 <15%）。

五个子类

子类	典型场景	难度
Game Mechanics	学习新游戏规则并分析局面	中
Mathematical Formalism	在虚构数学公理中构造证明	极难
Programming Syntax	用新编程语言写代码	中
Legal & Regulatory	按虚构法规解释条文	最易（>40% GPT-5.1）
Technical Standards	解读技术标准	中

关键发现

法律 vs 数学的巨大鸿沟

法律/监管子类：GPT-5.1 解决率 >40%——模型似乎擅长文本化规则推理
数学形式主义子类：大多数模型 <15%——形式化符号推理仍然是模型弱点

相关概念

context-learning — 上下文学习
dou-cl-bench — CL-bench 论文
domain-knowledge-reasoning — 领域知识推理