Files
myWiki/concepts/rule-system-application.md

34 lines
1.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: 规则系统应用 (Rule System Application)
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm]
sources: [papers/dou-cl-bench.md]
---
# 规则系统应用 (Rule System Application)
> CL-bench 的第二类上下文:模型需**理解新规则系统并正确执行**。子类间性能差异最悬殊(法律 >40%,数学 <15%)。
## 五个子类
| 子类 | 典型场景 | 难度 |
|------|---------|------|
| Game Mechanics | 学习新游戏规则并分析局面 | 中 |
| Mathematical Formalism | 在虚构数学公理中构造证明 | **极难** |
| Programming Syntax | 用新编程语言写代码 | 中 |
| Legal & Regulatory | 按虚构法规解释条文 | **最易(>40% GPT-5.1** |
| Technical Standards | 解读技术标准 | 中 |
## 关键发现
### 法律 vs 数学的巨大鸿沟
- 法律/监管子类GPT-5.1 解决率 **>40%**——模型似乎擅长文本化规则推理
- 数学形式主义子类:大多数模型 **<15%**——形式化符号推理仍然是模型弱点
## 相关概念
- [[context-learning]] 上下文学习
- [[dou-cl-bench]] CL-bench 论文
- [[domain-knowledge-reasoning]] 领域知识推理