2.6 KiB
2.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Spurious Predictability | 2026-04-20 | 2026-04-20 | concept |
|
|
Spurious Predictability
虚假可预测性是指在金融机器学习中,通过自适应规范搜索(数据挖掘、模型选择、超参数调优)产生的统计显著的预测结果,即使底层数据生成过程没有真正的预测结构。
核心机制
1. 自适应规范搜索 (Adaptive Specification Search)
- 数据挖掘:在大量潜在预测因子中搜索
- 模型选择:从多个候选模型中选择最佳模型
- 超参数调优:优化模型参数以获得最佳性能
2. 多重比较问题 (Multiple Comparisons Problem)
- 未调整的显著性检验:忽略多次测试的统计问题
- 有效多重性:考虑相关搜索路径的调整
3. 过拟合 (Overfitting)
- 样本内优化:在训练数据上表现良好
- 样本外退化:在未见数据上表现下降
- 性能差距:样本内与样本外表现的差异
检测方法
证伪审计 (Falsification Audit)
- 零可预测性环境:模拟没有真正预测结构的数据
- 微观结构安慰剂:包含真实但非预测性的市场特征
- 工作流测试:应用完整预测流程到参考类
- 证伪标准:拒绝在零可预测性环境中显示显著预测能力的工作流
性能膨胀量化
对于通过证伪测试的工作流:
- 样本内性能:优化后的训练数据表现
- 样本外性能:Walk-forward 验证表现
- 性能差距:调整有效多重性后的绝对差异
实践影响
1. 方法论挑战
- 虚假发现率:许多表面发现是方法论伪影
- 可重复性危机:类似其他经验科学的挑战
- 发表偏倚:倾向于发表正面结果
2. 解决方案
- 稳健验证框架:如证伪审计
- 多重比较调整:考虑有效多重性
- 透明报告:完整披露搜索过程
相关概念
- nikolopoulos-spurious-predictability - 原始论文
- cramer-rao-lower-bound - 参数估计的理论下界
- computerized-adaptive-testing - 自适应测试方法论
- formal-verification - 验证的形式化方法
延伸阅读
- Nikolopoulos (2026) - Spurious Predictability in Financial Machine Learning
- 金融机器学习方法论 - 关于过拟合和虚假发现的文献
- 多重比较调整 - 统计学中的校正方法
- 可重复性研究 - 经验科学的可重复性挑战