SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang dd8345a6ea

20260420:first commit

2026-04-20 11:42:41 +08:00

5.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

Computerized Adaptive Testing (CAT)

Definition

Computerized Adaptive Testing (CAT) 是一种动态测评范式：系统根据考生实时表现，自适应地调整后续题目难度，以最少的题量实现对个体能力的高精度评估。相比传统固定试卷测试，CAT 题量更少、测量精度更高。

核心组件

CAT 系统由四个关键模块组成：

1. Measurement Models (测量模型)

传统方法： Item Response Theory (IRT) — 基于项目反应理论的概率模型，假设题目难度与考生能力之间存在 S 型响应曲线
ML 方法： 神经网络、深度知识追踪 (Deep Knowledge Tracing)、基于表示学习的测量模型 — 能够捕捉更复杂的题目-能力交互模式

2. Question Selection Algorithms (选题策略)

经典策略： Maximum Fisher Information (MFI)、Maximum Posterior Weighted Information (MPWI)
ML 策略： 基于强化学习的选题、多臂老虎机 (Multi-armed Bandit)、深度 Q-Network — 在信息增益、暴露率控制、内容平衡之间做多目标优化

3. Question Bank Construction (题库构建)

题目标定 (calibration)、参数估计、题目质量监控
ML 方法可用于自动题目生成、难度预测、题目相似度聚类

4. Test Control (测试控制)

终止规则 (stopping criteria)：固定长度 vs 精度阈值
内容平衡约束、题目曝光率控制、公平性约束
ML 方法：学习型终止规则、约束满足优化

应用领域

教育测评： K-12 标准化考试、语言能力测试 (GRE, GMAT)
医疗评估： 症状筛查量表、心理健康测评
体育科学： 运动员能力分级
社会学研究： 态度与价值观量表
AI 模型评估： 自适应 benchmarking，根据模型表现动态调整测试难度（与 symbolic-regression 等评估场景相关）

ML 视角的范式转变

传统 CAT 依赖心理测量学和统计学假设（如 IRT 的局部独立性、单维性假设）。随着大规模测试场景复杂度上升，机器学习提供了新的可能性：

维度	传统心理测量学	机器学习方法
建模假设	强假设（单维性、局部独立）	弱假设、数据驱动
可扩展性	适合中小规模题库	天然支持大规模
表达能力	线性/对数几率	非线性、高维交互
可解释性	高（参数有明确意义）	较低（黑盒风险）
公平性	已有成熟 DIF 检测	正在发展中

IRT 数学形式

Item Response Theory 是传统 CAT 的核心数学引擎。

核心符号

考生能力: \theta \in \mathbb{R}
题目 i 参数: \psi_i = (a_i, b_i, c_i)
作答: u_i \in \{0, 1\}
ICC (Item Characteristic Curve): P_i(\theta) = P(u_i = 1 \mid \theta, \psi_i)

模型层级

1PL (Rasch Model):

P_i(\theta) = \frac{1}{1 + e^{-(\theta - b_i)}}

仅含难度参数 $b_i$。当 \theta = b_i 时 $P_i = 0.5$。

2PL (CAT 最常用):

P_i(\theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}

区分度 a_i > 0 控制曲线斜率。导数: $\frac{dP_i}{d\theta} = a_i P_i(1 - P_i)$，在 \theta = b_i 处达最大值 $a_i / 4$。

3PL (含猜测):

P_i(\theta) = c_i + (1 - c_i) \frac{1}{1 + e^{-a_i(\theta - b_i)}}

猜测概率 $c_i \in [0,1]$。\theta \to -\infty 时 $P_i \to c_i$。

Fisher 信息量与选题

题目 i 的 Fisher 信息:

I_i(\theta) = \frac{[\partial P_i / \partial \theta]^2}{P_i(1 - P_i)} = a_i^2 P_i(\theta)(1 - P_i(\theta)) \quad (\text{2PL})

\theta = b_i 时信息量最大: I_i = a_i^2 / 4
\theta \gg b_i 或 \theta \ll b_i 时 I_i \to 0

CAT 选题: i^* = \arg\max_{i} I_i(\hat{\theta}_{\text{当前}})

能力估计

对数似然:

\ell(\theta) = \sum_{j=1}^{t} \left[ u_j \ln P_j(\theta) + (1 - u_j) \ln(1 - P_j(\theta)) \right]

Newton-Raphson 迭代:

\theta^{(k+1)} = \theta^{(k)} + \frac{\ell'(\theta^{(k)})}{I(\theta^{(k)})}, \quad I(\theta) = \sum_{j=1}^t I_j(\theta)

标准误: SE(\hat{\theta}) = 1 / \sqrt{I(\hat{\theta})}

多维 IRT (MIRT)

P_i(\boldsymbol{\theta}) = \frac{1}{1 + e^{-(\mathbf{a}_i^\top \boldsymbol{\theta} - d_i)}}, \quad \boldsymbol{\theta} \in \mathbb{R}^D

对应多维自适应测试 (MAT)，选题需最大化多维信息矩阵的标量函数（行列式或迹）。

开放问题与挑战

公平性与偏差： 自适应算法可能放大历史数据中的群体偏差
可解释性： 深度学习模型的可解释性 vs 心理测量学的透明度
冷启动问题： 新题目/新考生的初始参数估计
安全性： 题库泄露风险、对抗性攻击
跨模态测评： 如何整合文本、图像、交互等多模态数据
LLM 测评： 如何用 CAT 范式评估大语言模型能力（自适应 benchmarking）

关键文献

Zhuang et al. (2024/2026). Survey of Computerized Adaptive Testing: A Machine Learning Perspective. arXiv:2404.00712v4. Accepted by IEEE TPAMI 2026.

5.6 KiB Raw Blame History Unescape Escape