title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| 规则系统应用 (Rule System Application) |
2026-05-01 |
2026-05-01 |
concept |
|
|
规则系统应用 (Rule System Application)
CL-bench 的第二类上下文:模型需理解新规则系统并正确执行。子类间性能差异最悬殊(法律 >40%,数学 <15%)。
五个子类
| 子类 |
典型场景 |
难度 |
| Game Mechanics |
学习新游戏规则并分析局面 |
中 |
| Mathematical Formalism |
在虚构数学公理中构造证明 |
极难 |
| Programming Syntax |
用新编程语言写代码 |
中 |
| Legal & Regulatory |
按虚构法规解释条文 |
最易(>40% GPT-5.1) |
| Technical Standards |
解读技术标准 |
中 |
关键发现
法律 vs 数学的巨大鸿沟
- 法律/监管子类:GPT-5.1 解决率 >40%——模型似乎擅长文本化规则推理
- 数学形式主义子类:大多数模型 <15%——形式化符号推理仍然是模型弱点
相关概念