20260514:增加新内容
This commit is contained in:
33
concepts/rule-system-application.md
Normal file
33
concepts/rule-system-application.md
Normal file
@@ -0,0 +1,33 @@
|
||||
---
|
||||
title: 规则系统应用 (Rule System Application)
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: concept
|
||||
tags: [benchmark, llm]
|
||||
sources: [papers/dou-cl-bench.md]
|
||||
---
|
||||
|
||||
# 规则系统应用 (Rule System Application)
|
||||
|
||||
> CL-bench 的第二类上下文:模型需**理解新规则系统并正确执行**。子类间性能差异最悬殊(法律 >40%,数学 <15%)。
|
||||
|
||||
## 五个子类
|
||||
|
||||
| 子类 | 典型场景 | 难度 |
|
||||
|------|---------|------|
|
||||
| Game Mechanics | 学习新游戏规则并分析局面 | 中 |
|
||||
| Mathematical Formalism | 在虚构数学公理中构造证明 | **极难** |
|
||||
| Programming Syntax | 用新编程语言写代码 | 中 |
|
||||
| Legal & Regulatory | 按虚构法规解释条文 | **最易(>40% GPT-5.1)** |
|
||||
| Technical Standards | 解读技术标准 | 中 |
|
||||
|
||||
## 关键发现
|
||||
|
||||
### 法律 vs 数学的巨大鸿沟
|
||||
- 法律/监管子类:GPT-5.1 解决率 **>40%**——模型似乎擅长文本化规则推理
|
||||
- 数学形式主义子类:大多数模型 **<15%**——形式化符号推理仍然是模型弱点
|
||||
|
||||
## 相关概念
|
||||
- [[context-learning]] — 上下文学习
|
||||
- [[dou-cl-bench]] — CL-bench 论文
|
||||
- [[domain-knowledge-reasoning]] — 领域知识推理
|
||||
Reference in New Issue
Block a user