Files
myWiki/concepts/rule-system-application.md

1.2 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
规则系统应用 (Rule System Application) 2026-05-01 2026-05-01 concept
benchmark
llm
papers/dou-cl-bench.md

规则系统应用 (Rule System Application)

CL-bench 的第二类上下文:模型需理解新规则系统并正确执行。子类间性能差异最悬殊(法律 >40%,数学 <15%)。

五个子类

子类 典型场景 难度
Game Mechanics 学习新游戏规则并分析局面
Mathematical Formalism 在虚构数学公理中构造证明 极难
Programming Syntax 用新编程语言写代码
Legal & Regulatory 按虚构法规解释条文 最易(>40% GPT-5.1
Technical Standards 解读技术标准

关键发现

法律 vs 数学的巨大鸿沟

  • 法律/监管子类GPT-5.1 解决率 >40%——模型似乎擅长文本化规则推理
  • 数学形式主义子类:大多数模型 <15%——形式化符号推理仍然是模型弱点

相关概念