myWiki/concepts/computerized-adaptive-testing.md

---
title: Computerized Adaptive Testing (CAT)
created: 2026-04-17
updated: 2026-04-17
type: concept
tags: [machine-learning, benchmark]
sources: [raw/papers/zhuang-catsurvey-ml-2024.md]
---

# Computerized Adaptive Testing (CAT)

## Definition
Computerized Adaptive Testing (CAT) 是一种动态测评范式：系统根据考生实时表现，自适应地调整后续题目难度，以最少的题量实现对个体能力的高精度评估。相比传统固定试卷测试，CAT 题量更少、测量精度更高。

## 核心组件

CAT 系统由四个关键模块组成：

### 1. Measurement Models (测量模型)
- **传统方法：** Item Response Theory (IRT) — 基于项目反应理论的概率模型，假设题目难度与考生能力之间存在 S 型响应曲线
- **ML 方法：** 神经网络、深度知识追踪 (Deep Knowledge Tracing)、基于表示学习的测量模型 — 能够捕捉更复杂的题目-能力交互模式

### 2. Question Selection Algorithms (选题策略)
- **经典策略：** Maximum Fisher Information (MFI)、Maximum Posterior Weighted Information (MPWI)
- **ML 策略：** 基于强化学习的选题、多臂老虎机 (Multi-armed Bandit)、深度 Q-Network — 在信息增益、暴露率控制、内容平衡之间做多目标优化

### 3. Question Bank Construction (题库构建)
- 题目标定 (calibration)、参数估计、题目质量监控
- ML 方法可用于自动题目生成、难度预测、题目相似度聚类

### 4. Test Control (测试控制)
- 终止规则 (stopping criteria)：固定长度 vs 精度阈值
- 内容平衡约束、题目曝光率控制、公平性约束
- ML 方法：学习型终止规则、约束满足优化

## 应用领域
- **教育测评：** K-12 标准化考试、语言能力测试 (GRE, GMAT)
- **医疗评估：** 症状筛查量表、心理健康测评
- **体育科学：** 运动员能力分级
- **社会学研究：** 态度与价值观量表
- **AI 模型评估：** 自适应 benchmarking，根据模型表现动态调整测试难度（与 [[symbolic-regression]] 等评估场景相关）

## ML 视角的范式转变

传统 CAT 依赖心理测量学和统计学假设（如 IRT 的局部独立性、单维性假设）。随着大规模测试场景复杂度上升，机器学习提供了新的可能性：

| 维度 | 传统心理测量学 | 机器学习方法 |
|------|--------------|-------------|
| 建模假设 | 强假设（单维性、局部独立） | 弱假设、数据驱动 |
| 可扩展性 | 适合中小规模题库 | 天然支持大规模 |
| 表达能力 | 线性/对数几率 | 非线性、高维交互 |
| 可解释性 | 高（参数有明确意义） | 较低（黑盒风险） |
| 公平性 | 已有成熟 DIF 检测 | 正在发展中 |

## IRT 数学形式

Item Response Theory 是传统 CAT 的核心数学引擎。

### 核心符号
- 考生能力: $\theta \in \mathbb{R}$
- 题目 $i$ 参数: $\psi_i = (a_i, b_i, c_i)$
- 作答: $u_i \in \{0, 1\}$
- ICC (Item Characteristic Curve): $P_i(\theta) = P(u_i = 1 \mid \theta, \psi_i)$

### 模型层级

**1PL (Rasch Model):**
$$P_i(\theta) = \frac{1}{1 + e^{-(\theta - b_i)}}$$
仅含难度参数 $b_i$。当 $\theta = b_i$ 时 $P_i = 0.5$。

**2PL (CAT 最常用):**
$$P_i(\theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
区分度 $a_i > 0$ 控制曲线斜率。导数: $\frac{dP_i}{d\theta} = a_i P_i(1 - P_i)$，在 $\theta = b_i$ 处达最大值 $a_i / 4$。

**3PL (含猜测):**
$$P_i(\theta) = c_i + (1 - c_i) \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
猜测概率 $c_i \in [0,1]$。$\theta \to -\infty$ 时 $P_i \to c_i$。

### Fisher 信息量与选题

题目 $i$ 的 Fisher 信息:
$$I_i(\theta) = \frac{[\partial P_i / \partial \theta]^2}{P_i(1 - P_i)} = a_i^2 P_i(\theta)(1 - P_i(\theta)) \quad (\text{2PL})$$

- $\theta = b_i$ 时信息量最大: $I_i = a_i^2 / 4$
- $\theta \gg b_i$ 或 $\theta \ll b_i$ 时 $I_i \to 0$

**CAT 选题:** $i^* = \arg\max_{i} I_i(\hat{\theta}_{\text{当前}})$

### 能力估计

**对数似然:**
$$\ell(\theta) = \sum_{j=1}^{t} \left[ u_j \ln P_j(\theta) + (1 - u_j) \ln(1 - P_j(\theta)) \right]$$

**Newton-Raphson 迭代:**
$$\theta^{(k+1)} = \theta^{(k)} + \frac{\ell'(\theta^{(k)})}{I(\theta^{(k)})}, \quad I(\theta) = \sum_{j=1}^t I_j(\theta)$$

**标准误:** $SE(\hat{\theta}) = 1 / \sqrt{I(\hat{\theta})}$

### 多维 IRT (MIRT)

$$P_i(\boldsymbol{\theta}) = \frac{1}{1 + e^{-(\mathbf{a}_i^\top \boldsymbol{\theta} - d_i)}}, \quad \boldsymbol{\theta} \in \mathbb{R}^D$$

对应多维自适应测试 (MAT)，选题需最大化多维信息矩阵的标量函数（行列式或迹）。

## 开放问题与挑战
1. **公平性与偏差：** 自适应算法可能放大历史数据中的群体偏差
2. **可解释性：** 深度学习模型的可解释性 vs 心理测量学的透明度
3. **冷启动问题：** 新题目/新考生的初始参数估计
4. **安全性：** 题库泄露风险、对抗性攻击
5. **跨模态测评：** 如何整合文本、图像、交互等多模态数据
6. **LLM 测评：** 如何用 CAT 范式评估大语言模型能力（自适应 benchmarking）

## 相关概念

- [[cramer-rao-lower-bound]] — CRLB 设定了 CAT 能力估计方差的理论下界，CAT 选题策略本质上是在最大化 Fisher 信息以快速逼近该下界
- [[symbolic-regression]] — 符号回归中的自适应搜索策略与 CAT 选题策略在"动态探索-利用权衡"上有结构相似性
- [[knowledge-bank]] — 自适应测评系统需要结构化知识/题库管理，与知识管理系统的设计思想相通

## 关键文献
- Zhuang et al. (2024/2026). *Survey of Computerized Adaptive Testing: A Machine Learning Perspective*. arXiv:2404.00712v4. Accepted by IEEE TPAMI 2026.