5.6 KiB
5.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||
|---|---|---|---|---|---|---|---|---|
| Computerized Adaptive Testing (CAT) | 2026-04-17 | 2026-04-17 | concept |
|
|
Computerized Adaptive Testing (CAT)
Definition
Computerized Adaptive Testing (CAT) 是一种动态测评范式:系统根据考生实时表现,自适应地调整后续题目难度,以最少的题量实现对个体能力的高精度评估。相比传统固定试卷测试,CAT 题量更少、测量精度更高。
核心组件
CAT 系统由四个关键模块组成:
1. Measurement Models (测量模型)
- 传统方法: Item Response Theory (IRT) — 基于项目反应理论的概率模型,假设题目难度与考生能力之间存在 S 型响应曲线
- ML 方法: 神经网络、深度知识追踪 (Deep Knowledge Tracing)、基于表示学习的测量模型 — 能够捕捉更复杂的题目-能力交互模式
2. Question Selection Algorithms (选题策略)
- 经典策略: Maximum Fisher Information (MFI)、Maximum Posterior Weighted Information (MPWI)
- ML 策略: 基于强化学习的选题、多臂老虎机 (Multi-armed Bandit)、深度 Q-Network — 在信息增益、暴露率控制、内容平衡之间做多目标优化
3. Question Bank Construction (题库构建)
- 题目标定 (calibration)、参数估计、题目质量监控
- ML 方法可用于自动题目生成、难度预测、题目相似度聚类
4. Test Control (测试控制)
- 终止规则 (stopping criteria):固定长度 vs 精度阈值
- 内容平衡约束、题目曝光率控制、公平性约束
- ML 方法:学习型终止规则、约束满足优化
应用领域
- 教育测评: K-12 标准化考试、语言能力测试 (GRE, GMAT)
- 医疗评估: 症状筛查量表、心理健康测评
- 体育科学: 运动员能力分级
- 社会学研究: 态度与价值观量表
- AI 模型评估: 自适应 benchmarking,根据模型表现动态调整测试难度(与 symbolic-regression 等评估场景相关)
ML 视角的范式转变
传统 CAT 依赖心理测量学和统计学假设(如 IRT 的局部独立性、单维性假设)。随着大规模测试场景复杂度上升,机器学习提供了新的可能性:
| 维度 | 传统心理测量学 | 机器学习方法 |
|---|---|---|
| 建模假设 | 强假设(单维性、局部独立) | 弱假设、数据驱动 |
| 可扩展性 | 适合中小规模题库 | 天然支持大规模 |
| 表达能力 | 线性/对数几率 | 非线性、高维交互 |
| 可解释性 | 高(参数有明确意义) | 较低(黑盒风险) |
| 公平性 | 已有成熟 DIF 检测 | 正在发展中 |
IRT 数学形式
Item Response Theory 是传统 CAT 的核心数学引擎。
核心符号
- 考生能力:
\theta \in \mathbb{R} - 题目
i参数:\psi_i = (a_i, b_i, c_i) - 作答:
u_i \in \{0, 1\} - ICC (Item Characteristic Curve):
P_i(\theta) = P(u_i = 1 \mid \theta, \psi_i)
模型层级
1PL (Rasch Model):
P_i(\theta) = \frac{1}{1 + e^{-(\theta - b_i)}}
仅含难度参数 $b_i$。当 \theta = b_i 时 $P_i = 0.5$。
2PL (CAT 最常用):
P_i(\theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}
区分度 a_i > 0 控制曲线斜率。导数: $\frac{dP_i}{d\theta} = a_i P_i(1 - P_i)$,在 \theta = b_i 处达最大值 $a_i / 4$。
3PL (含猜测):
P_i(\theta) = c_i + (1 - c_i) \frac{1}{1 + e^{-a_i(\theta - b_i)}}
猜测概率 $c_i \in [0,1]$。\theta \to -\infty 时 $P_i \to c_i$。
Fisher 信息量与选题
题目 i 的 Fisher 信息:
I_i(\theta) = \frac{[\partial P_i / \partial \theta]^2}{P_i(1 - P_i)} = a_i^2 P_i(\theta)(1 - P_i(\theta)) \quad (\text{2PL})
\theta = b_i时信息量最大:I_i = a_i^2 / 4\theta \gg b_i或\theta \ll b_i时I_i \to 0
CAT 选题: i^* = \arg\max_{i} I_i(\hat{\theta}_{\text{当前}})
能力估计
对数似然:
\ell(\theta) = \sum_{j=1}^{t} \left[ u_j \ln P_j(\theta) + (1 - u_j) \ln(1 - P_j(\theta)) \right]
Newton-Raphson 迭代:
\theta^{(k+1)} = \theta^{(k)} + \frac{\ell'(\theta^{(k)})}{I(\theta^{(k)})}, \quad I(\theta) = \sum_{j=1}^t I_j(\theta)
标准误: SE(\hat{\theta}) = 1 / \sqrt{I(\hat{\theta})}
多维 IRT (MIRT)
P_i(\boldsymbol{\theta}) = \frac{1}{1 + e^{-(\mathbf{a}_i^\top \boldsymbol{\theta} - d_i)}}, \quad \boldsymbol{\theta} \in \mathbb{R}^D
对应多维自适应测试 (MAT),选题需最大化多维信息矩阵的标量函数(行列式或迹)。
开放问题与挑战
- 公平性与偏差: 自适应算法可能放大历史数据中的群体偏差
- 可解释性: 深度学习模型的可解释性 vs 心理测量学的透明度
- 冷启动问题: 新题目/新考生的初始参数估计
- 安全性: 题库泄露风险、对抗性攻击
- 跨模态测评: 如何整合文本、图像、交互等多模态数据
- LLM 测评: 如何用 CAT 范式评估大语言模型能力(自适应 benchmarking)
相关概念
- cramer-rao-lower-bound — CRLB 设定了 CAT 能力估计方差的理论下界,CAT 选题策略本质上是在最大化 Fisher 信息以快速逼近该下界
- symbolic-regression — 符号回归中的自适应搜索策略与 CAT 选题策略在"动态探索-利用权衡"上有结构相似性
- knowledge-bank — 自适应测评系统需要结构化知识/题库管理,与知识管理系统的设计思想相通
关键文献
- Zhuang et al. (2024/2026). Survey of Computerized Adaptive Testing: A Machine Learning Perspective. arXiv:2404.00712v4. Accepted by IEEE TPAMI 2026.