Files
myWiki/concepts/spurious-predictability.md
2026-04-22 16:56:53 +08:00

68 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Spurious Predictability"
created: 2026-04-20
updated: 2026-04-20
type: concept
tags: [statistics, machine-learning, finance, methodology, econometrics]
sources: [raw/papers/nikolopoulos-spurious-predictability-2026.md]
---
# Spurious Predictability
**虚假可预测性**是指在金融机器学习中,通过自适应规范搜索(数据挖掘、模型选择、超参数调优)产生的统计显著的预测结果,即使底层数据生成过程没有真正的预测结构。
## 核心机制
### 1. 自适应规范搜索 (Adaptive Specification Search)
- **数据挖掘**:在大量潜在预测因子中搜索
- **模型选择**:从多个候选模型中选择最佳模型
- **超参数调优**:优化模型参数以获得最佳性能
### 2. 多重比较问题 (Multiple Comparisons Problem)
- **未调整的显著性检验**:忽略多次测试的统计问题
- **有效多重性**:考虑相关搜索路径的调整
### 3. 过拟合 (Overfitting)
- **样本内优化**:在训练数据上表现良好
- **样本外退化**:在未见数据上表现下降
- **性能差距**:样本内与样本外表现的差异
## 检测方法
### 证伪审计 (Falsification Audit)
1. **零可预测性环境**:模拟没有真正预测结构的数据
2. **微观结构安慰剂**:包含真实但非预测性的市场特征
3. **工作流测试**:应用完整预测流程到参考类
4. **证伪标准**:拒绝在零可预测性环境中显示显著预测能力的工作流
### 性能膨胀量化
对于通过证伪测试的工作流:
1. **样本内性能**:优化后的训练数据表现
2. **样本外性能**Walk-forward 验证表现
3. **性能差距**:调整有效多重性后的绝对差异
## 实践影响
### 1. 方法论挑战
- **虚假发现率**:许多表面发现是方法论伪影
- **可重复性危机**:类似其他经验科学的挑战
- **发表偏倚**:倾向于发表正面结果
### 2. 解决方案
- **稳健验证框架**:如证伪审计
- **多重比较调整**:考虑有效多重性
- **透明报告**:完整披露搜索过程
## 相关概念
- [[nikolopoulos-spurious-predictability]] - 原始论文
- [[cramer-rao-lower-bound]] - 参数估计的理论下界
- [[computerized-adaptive-testing]] - 自适应测试方法论
- [[formal-verification]] - 验证的形式化方法
## 延伸阅读
1. **Nikolopoulos (2026)** - *Spurious Predictability in Financial Machine Learning*
2. **金融机器学习方法论** - 关于过拟合和虚假发现的文献
3. **多重比较调整** - 统计学中的校正方法
4. **可重复性研究** - 经验科学的可重复性挑战